CN112768070A

CN112768070A - 一种基于对话交流的精神健康评测方法和系统

Info

Publication number: CN112768070A
Application number: CN202110021003.3A
Authority: CN
Inventors: 许明; 胡鹏伟; 罗辛
Original assignee: Vanguard Smart Life Technology Shenzhen Co ltd
Current assignee: Vanguard Smart Life Technology Shenzhen Co ltd
Priority date: 2021-01-06
Filing date: 2021-01-06
Publication date: 2021-05-07

Abstract

本发明公开一种基于对话交流的精神健康评测方法和系统。本发明采用一种机器学习方法，训练收集到的目标人和他人的日常对话视频，评测目标人的精神健康水平。本发明由以下四部分组成：数据收集模块、特征转化模块、评测分类模块以及评测模块。基于对话交流的精神健康评测方法，包括步骤一，通过影音终端获取目标人日常对话数据；步骤二，基于语音转文本技术获得对话本文，并对说话人的文本、音频和视频图像进行时间对齐和特征处理；步骤三，根据采集的对话数据训练多示例预测模型，计算每个示例包的精神健康状态标签，然后使用全局最大池层将多示例输出映射到目标人的标签；步骤四，基于对目标人的焦虑和抑郁等症状强度预测。

Description

一种基于对话交流的精神健康评测方法和系统

技术领域

本发明涉及计算机数据处理技术领域，具体涉及一种基于对话交流的精神健康评测方法和系统。

背景技术

患有精神类疾病的人数呈大幅上升趋势，狂躁症、焦虑症和抑郁症等给人们的工作、社交生活和生命带来严重损害，在最糟糕的情况下，精神类疾病会导致自杀。然而，精神类疾病的没有一个准确有效的诊断方法。一方面精神疾病因人而异，症状起伏不定难以制定诊断标准，另一方面由于社会耻辱和治疗成本的问题诊断行动难以开展。此外，世界范围内都存在着精神科临床医生短缺的情况。因此，精神类疾病的自动检测对于疾病的早期诊断具有重要意义。人们迫切需要一种既方便低廉又能在自然放松状态下被检测的方法。

在已有的解决方案中，许多研究论文研究抑郁症自动检测问题。它们可分为两类:单模态方法和多模态方法。单模态方法仅使用文本、音频、视频或图像中的一种模态数据作为模型输入进行自动抑郁检测，而多模态方法则结合了至少两种模态。对于单模态方法，首先要从原始数据中提取特征，然后根据不同的机器学习算法进行匹配。例如，当前普片认为与音频和文本信息相比，面部特征在解决精神状态检测上更有说服力。在现实中，抑郁症患者可能会说不同的语言，拥有非常不同的声音模式。然而，人们使用相似的面部表情来表达情感，这使得在不同人群中进行归纳更容易。已经有许多工作以视觉线索为重点尝试进行抑郁预测。此外，面部表情还被用于其他疾病的自动检测，如脑卒中。而多模态方法要从多个数据源头提前特征，然后将几种不同模态的数据通过各种方式融合在一起，然后再进行下一步计算。这些方法都采用对原始数据标注抑郁症标签，然后使用特征提取方法处理带有不同标签的原始数据，最后使用机器学习分类器进行预测。例如，使用高斯阶梯模型通过语音、面部和语义信息来检测抑郁是已有的一种判读抑郁症检测方法。这种方法的缺点是在帧级预测时没有考虑帧之间的长期相关性。使用音频和文本数据，还可以利用长短时记忆(LSTM)这一类方法建立帧间长期相关性模型的方法。此外，多模态方法还可以结合音频，视频和文本使用因果卷积网络(C-CNN)的时间序列作为输入。

发明内容

本发明针对上述现有技术存在的缺陷，提供了一种基于对话交流的精神健康评测方法和系统。

本发明是通过以下技术方案来实现的：

本发明公开了一种基于基于对话交流的精神健康评测方法和系统，包括以下步骤：

步骤一，从数据库中获取用户的音视频数据，对用户数据进行精神健康状况标注；

步骤二，将用户数据分离为音频、视频和文本三种信号源，根据以帧为单位的最小周期重新匹配三种信号源，以三种信号为一组，按照时间序列分段保存用户数据；

步骤三，为了更好的捕捉到包含抑郁症状态的实例，使用滑动和切片来生成具有较长时间周期的实例。在整个长时间的对话中，我们滑动固定大小的重叠窗口，取窗口内的信号组合为切片以形成实例；

步骤四，应用基于采样切片的长短时记忆法(LSTM)得到LSTM的递归隐状态。连接两个密集的层来将LSTM隐藏状态映射到单个实例输出；

步骤五，基于实例输出，使用全局最大池层将实例输出映射到袋标签，以获得最终预测结果，进行精神健康状况预测，展示对用户各项精神状况指标的判断结果。

步骤一所述从数据库中获取用户的音视频数据，对用户数据进行精神健康状况标注,具体操作为：

1)收集患者与提问者之间的访谈数据存储与数据库中；

2)通过专家判断对各个患者的精神健康状况进行标注获，假设我们标记了N个样本对的训练集D＝{(S₁,y₁),…,(S_N,y_N)}，其中S_i(i从1到N)是整个视频会话，y_i是会话对应的抑郁标签；

步骤二对用户数据进行分离，分离后得到音频、视频和文本三种信号。根据以帧为单位的最小周期重新匹配三种信号源，以三种信号为一组，按照时间序列分段保存用户数据，具体操作如下：

1)基于收集到的访谈视频记录，首先我们截取患者说话部分的视频；

2)将视频中的音频数据通过工具提取出作为音频信号，通过语音转文本技术将音频信号转换为文本记录，再通过图像采集技术将视频中的人脸表情提出来作为视觉信号；

3)我们使用关键帧来表示一个时间段内的帧。我们在同一个周期中将三种信号源为一个组合抽取出来，我们将这种以一个周期为单位的三种信号组和视为新的特征；

步骤三使用了滑动和切片操作，为了更好的捕捉到包含抑郁症状态的实例，用以步骤四和步骤五的模型训练。具体操作如下：

1)在整个长时间的采访中，我们滑动固定大小的重叠窗口。窗口内的框架被切片以形成实例，最终生成具有较长时间周期的实例，进一步来说，每一段对话在这里被看成是一个包含M个实例的包S_i＝{x_i,1,…,x_i,M}，x_i,m表示第i个样本的第M个实例。如果S_i种存在任何正的实例，则为一个正的包，记为y_i＝+1否则S_i记为一个负包，记为y_i＝-1；

步骤四所述的利用基于采样切片的长短时记忆法(LSTM)得到LSTM的递归隐状态，然后连接两个密集的层来将LSTM隐藏状态映射到单个实例输出，具体操作如下：

1)将步骤三中捕捉到的实例作为输入送入LSTM，经过LSTM后我们得到递归隐状态；

2)连接两个密集的层来将LSTM隐藏状态映射到单个实例输出；

步骤五基于步骤四的实例输出，使用全局最大池层将实例输出映射到袋标签，以获得最终预测结果，进行精神健康状况预测，展示对用户各项精神状况指标的判断结果。具体操作如下：假设我们有实例输出{O_i,1,…,O_i,M}，对于第i个样本，训练阶段的损失函数为:

其中o_ij表示第i个样本的第j个实例的输出。对于预测

第i个样本的最终预测标号可以计算为:

本发明还公开了一种基于多模态患者对话的抑郁症监测系统，该系统包括：

视频数据获取模块，记录患者的问答过程，并存储在文件管理系统中用以训练模型，查阅记录；

数据处理模块，对前一个模块中得到的内容进行解码处理，并通过视频处理方法将数据分为视频、音频、文字存储在文件管理系统，该模块包含语音转文本子模块；

患者特征实例构建模块，根据前一模块得到的三种模态数据，采样后得到每个周期的关键帧。我们使用滑动和切片来生成具有较长时间周期的实例，这些实例可能显示出抑郁症状。在整个长时间的采访中，我们滑动固定大小的重叠窗口。窗口内的框架被切片以形成实例。接着用基于采样切片的长短时记忆法(LSTM)得到LSTM的递归隐状态，连接两个密集的层来将LSTM隐藏状态映射到单个实例输出；

精神状态预测模块，根据前一模块输出的实例，通过为多个实例池层使用全局最大池识别表明抑郁症状的实例。从而预测被试患者的精神状态；

结果展示模块，根据预测结果，结合不同的时间切割和数据组合，展示与患者精神状态相关的各项指标以及判断患者的关键记录点。

本发明公开的一种基于对话交流的精神健康评测方法和系统，可以使用多模态信号自动检测患者精神状态。我们将从给定视频会话的帧中提取的视频、音频、和文本特征以及抑郁症的最终标签作为训练数据，预测其他给定视频会话的抑郁症标签。采用特征采样和滑动窗口以及多实例学习的方法来处理长时间的步骤和稀缺的标签。通过提出的方法，我们不仅可以减轻稀缺标签的影响，还可以识别出某些模态下能提示抑郁症状的信号片段。

本发明具有以下有益的技术效果：提出了一种多实例学习方法，可以有效地使用视频片段中的面部表情、音频、文本来预测患者精神健康状态，这些结果可以用来预测抑郁症状。在数据处理过程中，利用采样、滑动和切片技术将患者访谈视频中的可用数据分割成多个模态且多周期组合的形式；在算法实现过程中，采用主流的LSTM算法输出单个实例，并使用全局最大池层将实例输出映射到包标签以完成预测任务。

本发明还公开了能够实现上述精神健康评测的系统，系统功能主要由以下五部分组成：视频数据获取模块、数据处理模块、患者特征实例构建模块、精神状态预测模块以及结果展示模块。首先，记录患者的问答过程并存储视频文件在文件管理系统中。然后对视频进行解码处理，并通过视频处理方法将数据分为视频、音频、文字存储在文件管理系统。接着，对三种模态数据采样后得到每个周期的关键帧。使用滑动和切片来生成具有较长时间周期的实例，并使用固定大小的窗口在时间轴上滑动，将窗口内的框架切片以形成实例。接着用基于采样切片的长短时记忆法(LSTM)得到LSTM的递归隐状态对用户进行特征向量的构建，通过连接两个密集的层来将LSTM隐藏状态映射到单个实例输出。最后根据输出的实例，通过为多个实例池层使用全局最大池识别表明抑郁症状的实例。从而预测被试患者的精神状态。此外，结合不同的时间切割和数据组合，展示与患者精神状态相关的各项指标以及判断患者的关键记录点。

附图说明

图1为本发明基于对话交流的精神健康评测方法和系统逻辑结构图；

图2为本发明所涉及的数据处理说明图。

具体实施方式

为使本发明的目的、技术方案及优点更加清晰明白，以下参照附图并举实施例，对本发明作进一步详细说明。

本发明公开的一种基于对话交流的精神健康评测系统，其功能结构如图1所示，系统功能主要由以下五个部分组成：视频数据获取模块、数据处理模块、患者特征实例构建模块、精神状态预测模块以及结果展示模块。

适用于大规模社交网络的交友推荐方法，包括以下步骤：

步骤一，从数据库中获取用户的音视频数据，对用户数据进行精神健康状况标注，并存储在文件系统中；

步骤二，将用户数据分离为音频、视频和文本三种信号源，根据以帧为单位的最小周期重新匹配三种信号源，以三种信号为一组，按照时间序列分段保存用户数据，存储在文件系统中；

步骤三，为了更好的捕捉到包含抑郁症状态的实例，使用滑动和切片来生成具有较长时间周期的实例。我们滑动固定大小的重叠窗口并取窗内的信号组合为切片以形成实例；

步骤五，基于实例输出，使用全局最大池层将实例输出映射到袋标签，以获得最终预测结果，进行精神健康状况预测，展示对患者各项精神状况指标的判断结果。

下面对各模块工作进行具体举例说明：

1、视频数据获取模块

第一步，收集患者与提问者之间的访谈数据存储于数据库和文件系统中。

第二步，通过专家判断对各个患者的精神健康状况进行标注获，假设我们标记了N个样本对的训练集D＝{(S₁,y₁),…,(S_N,y_N)}，其中S_i(i从1到N)是整个视频会话，y_i是会话对应的抑郁标签；

2、数据处理模块

数据处理模块基于收集到的访谈视频记录，首先我们截取患者说话部分的视频，然后对用户数据进行分离，分离后得到音频、视频和文本三种信号。根据以帧为单位的最小周期重新匹配三种信号源，以三种信号为一组，按照时间序列分段保存用户数据。接着将视频中的音频数据通过工具提取出作为音频信号，通过语音转文本技术将音频信号转换为文本记录，再通过图像采集技术将视频中的人脸表情提出来作为视觉信号。本模块使用关键帧来表示一个时间段内的帧，在同一个周期中将三种信号源为一个组合抽取出来，最后将这种以一个周期为单位的三种信号组和视为新的特征。

3、患者特征实例构建模块

此模块主要使用滑动和切片操作，捕捉包含抑郁症状态的实例。在整个长时间的采访中，我们滑动固定大小的重叠窗口。窗口内的框架被切片以形成实例，最终生成具有较长时间周期的实例。对每一段对话，此模块在这里将其看成是一个包含M个实例的包S_i＝{x_i,1,…,x_i,M}，x_i,m表示第i个样本的第M个实例。如果S_i种存在任何正的实例，则为一个正的包，记为y_i＝+1否则S_i记为一个负包，记为y_i＝-1。

4、精神状态预测模块

精神状态预测模块首先利用基于采样切片的LSTM得到递归隐状态，然后连接两个密集的层来将LSTM隐藏状态映射到单个实例输出。然后使用全局最大池层将实例输出映射到袋标签，以获得最终预测结果。此模块假设有实例输出{O_i,1,…,O_i,M}，对于第i个样本，训练阶段的损失函数为:

其中o_ij表示第i个样本的第j个实例的输出。对于预测

第i个样本的最终预测标号可以计算为:

5、结果展示模块

展示模块展示出对患者精神状态的评测结果，包括抑郁症的判断和展示对患者各项精神状况指标的判断结果以及判断患者的关键记录点。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于对话交流的精神健康评测方法和系统，其包括以下步骤：

S1.服务器对精神健康评测装置发出基于对话交流的精神健康评测的指令；

S2.精神健康评测装置通过多个传感器接收用户的音视频数据，并存储在文件系统中；

S3.精神健康评测装置对接收到的多模态数据进行预处理，将受测者数据分离为音频、视频和文本三种信号源。其中文本信号源通过语音识别技术从音频信号源转换得到。根据以帧为单位的最小周期重新匹配三种信号源，以三种信号为一组，按照时间序列分段保存数据，存储在文件系统中；

S4.精神健康评测装置使用滑动和切片来生成具有较长时间周期的实例。装置通过滑动固定大小的重叠窗口，并取窗内的信号组合为切片以形成实例，最后捕捉到包含抑郁症状态的实例；

S5.针对S4中得到的实例，精神健康评测装置应用基于采样切片的长短时记忆法(LSTM)得到LSTM的递归隐状态。连接两个密集的层来将LSTM隐藏状态映射到单个实例输出；

S6.社团发现装置根据S5所得的实例输出，使用全局最大池层将实例输出映射到袋标签，以获得最终预测结果，进行精神健康状况预测，展示对患者各项精神状况指标的判断结果。

2.根据权利要求1所述的一种基于对话交流的精神健康评测方法和系统，其特征在于，步骤S3中的信号是基于多个模态信号源的，而非基于单一类型的信号源。步骤S4中。捕捉患者交流信息实例时考虑了将多个信号源的信号按周期合并。

3.一种根据权利要求1-2任意一项所述的基于多模态信号和多实例学习方法的精神健康评测装置，其特征在于，包括视频数据获取模块、数据处理模块、患者特征实例构建模块、精神状态预测模块以及结果展示模块。其中：

所述视频数据获取模块和数据处理模块相连接。视频数据获取模块，记录患者的问答过程，存储在文件管理系统中用以训练模型，查阅记录。并将其中所存储的数据传送给数据处理模块。

所述数据处理模块和患者特征实例构建模块相连接。数据处理模块对前一个模块中得到的内容进行解码处理，并通过视频处理方法将数据分为视频、音频、文字存储在文件管理系统，该模块还包含语音转文本子模块。由该模块处理后的三种模态信号将传递给患者特征实例构建模块。

所述患者特征实例构建模块和精神状态预测模块相连接，根据前一模块得到的三种模态数据，采样后得到每个周期的关键帧。该模块使用滑动和切片来生成具有较长时间周期的实例，这些实例可能显示出抑郁症状。在整个长时间的采访中，该模块滑动固定大小的重叠窗口。窗口内的框架被切片以形成实例。接着用基于采样切片的长短时记忆法(LSTM)得到LSTM的递归隐状态，连接两个密集的层来将LSTM隐藏状态映射到单个实例输出，最后将实例传送给精神状态预测模块。

所述精神状态预测模块与结果展示模块相连，根据前一模块输出的实例，通过为多个实例池层使用全局最大池识别表明抑郁症状的实例。从而预测被试患者的精神状态，将预测结果传递给结果展示模块。

所述结果展示模块，根据预测结果，结合不同的时间切割和数据组合，展示与患者精神状态相关的各项指标以及判断患者的关键记录点。

4.根据权利要求3所述的一种基于对话交流的精神健康评测方法和系统，其特征在于，可以使用多模态信号自动检测患者精神状态。我们将从给定视频会话的帧中提取的视频、音频、和文本特征以及抑郁症的最终标签作为训练数据，预测其他给定视频会话的抑郁症标签。采用特征采样和滑动窗口以及多实例学习的方法来处理长时间的步骤和稀缺的标签。

5.根据权利要求3所述的一种基于对话交流的精神健康评测方法和系统，其特征在于，提出了一种多实例学习方法，可以有效地使用视频片段中的面部表情、音频、文本来预测患者精神健康状态，这些结果可以用来预测抑郁症状。通过提出的方法，我们不仅可以减轻稀缺标签的影响，还可以识别出某些模态下能提示抑郁症状的信号片段。