CN112768070A - 一种基于对话交流的精神健康评测方法和系统 - Google Patents
一种基于对话交流的精神健康评测方法和系统 Download PDFInfo
- Publication number
- CN112768070A CN112768070A CN202110021003.3A CN202110021003A CN112768070A CN 112768070 A CN112768070 A CN 112768070A CN 202110021003 A CN202110021003 A CN 202110021003A CN 112768070 A CN112768070 A CN 112768070A
- Authority
- CN
- China
- Prior art keywords
- module
- mental health
- data
- video
- patient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004630 mental health Effects 0.000 title claims abstract description 36
- 238000004891 communication Methods 0.000 title claims abstract description 15
- 238000011156 evaluation Methods 0.000 title claims abstract description 8
- 238000000034 method Methods 0.000 claims abstract description 43
- 238000012545 processing Methods 0.000 claims abstract description 15
- 238000012549 training Methods 0.000 claims abstract description 9
- 208000024891 symptom Diseases 0.000 claims abstract description 3
- 230000006996 mental state Effects 0.000 claims description 19
- 238000005070 sampling Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 9
- 206010054089 Depressive symptom Diseases 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 7
- 230000015654 memory Effects 0.000 claims description 7
- 230000008921 facial expression Effects 0.000 claims description 6
- 230000003340 mental effect Effects 0.000 claims description 5
- 230000005236 sound signal Effects 0.000 claims description 5
- 208000020401 Depressive disease Diseases 0.000 claims description 4
- 230000000694 effects Effects 0.000 claims description 3
- 238000003672 processing method Methods 0.000 claims description 3
- 230000000737 periodic effect Effects 0.000 claims 1
- 238000007781 pre-processing Methods 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 6
- 238000013507 mapping Methods 0.000 abstract description 5
- 238000010801 machine learning Methods 0.000 abstract description 3
- 208000019901 Anxiety disease Diseases 0.000 abstract description 2
- 230000036506 anxiety Effects 0.000 abstract description 2
- 238000006243 chemical reaction Methods 0.000 abstract 1
- 238000013480 data collection Methods 0.000 abstract 1
- 238000001514 detection method Methods 0.000 description 7
- 208000020016 psychiatric disease Diseases 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 206010010144 Completed suicide Diseases 0.000 description 1
- 206010026749 Mania Diseases 0.000 description 1
- 235000006085 Vigna mungo var mungo Nutrition 0.000 description 1
- 240000005616 Vigna mungo var. mungo Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000002405 diagnostic procedure Methods 0.000 description 1
- 238000013399 early diagnosis Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H80/00—ICT specially adapted for facilitating communication between medical practitioners or patients, e.g. for collaborative diagnosis, therapy or health monitoring
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Human Computer Interaction (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开一种基于对话交流的精神健康评测方法和系统。本发明采用一种机器学习方法,训练收集到的目标人和他人的日常对话视频,评测目标人的精神健康水平。本发明由以下四部分组成:数据收集模块、特征转化模块、评测分类模块以及评测模块。基于对话交流的精神健康评测方法,包括步骤一,通过影音终端获取目标人日常对话数据;步骤二,基于语音转文本技术获得对话本文,并对说话人的文本、音频和视频图像进行时间对齐和特征处理;步骤三,根据采集的对话数据训练多示例预测模型,计算每个示例包的精神健康状态标签,然后使用全局最大池层将多示例输出映射到目标人的标签;步骤四,基于对目标人的焦虑和抑郁等症状强度预测。
Description
技术领域
本发明涉及计算机数据处理技术领域,具体涉及一种基于对话交流的精神健康评测方法和系统。
背景技术
患有精神类疾病的人数呈大幅上升趋势,狂躁症、焦虑症和抑郁症等给人们的工作、社交生活和生命带来严重损害,在最糟糕的情况下,精神类疾病会导致自杀。然而,精神类疾病的没有一个准确有效的诊断方法。一方面精神疾病因人而异,症状起伏不定难以制定诊断标准,另一方面由于社会耻辱和治疗成本的问题诊断行动难以开展。此外,世界范围内都存在着精神科临床医生短缺的情况。因此,精神类疾病的自动检测对于疾病的早期诊断具有重要意义。人们迫切需要一种既方便低廉又能在自然放松状态下被检测的方法。
在已有的解决方案中,许多研究论文研究抑郁症自动检测问题。它们可分为两类:单模态方法和多模态方法。单模态方法仅使用文本、音频、视频或图像中的一种模态数据作为模型输入进行自动抑郁检测,而多模态方法则结合了至少两种模态。对于单模态方法,首先要从原始数据中提取特征,然后根据不同的机器学习算法进行匹配。例如,当前普片认为与音频和文本信息相比,面部特征在解决精神状态检测上更有说服力。在现实中,抑郁症患者可能会说不同的语言,拥有非常不同的声音模式。然而,人们使用相似的面部表情来表达情感,这使得在不同人群中进行归纳更容易。已经有许多工作以视觉线索为重点尝试进行抑郁预测。此外,面部表情还被用于其他疾病的自动检测,如脑卒中。而多模态方法要从多个数据源头提前特征,然后将几种不同模态的数据通过各种方式融合在一起,然后再进行下一步计算。这些方法都采用对原始数据标注抑郁症标签,然后使用特征提取方法处理带有不同标签的原始数据,最后使用机器学习分类器进行预测。例如,使用高斯阶梯模型通过语音、面部和语义信息来检测抑郁是已有的一种判读抑郁症检测方法。这种方法的缺点是在帧级预测时没有考虑帧之间的长期相关性。使用音频和文本数据,还可以利用长短时记忆(LSTM)这一类方法建立帧间长期相关性模型的方法。此外,多模态方法还可以结合音频,视频和文本使用因果卷积网络(C-CNN)的时间序列作为输入。
发明内容
本发明针对上述现有技术存在的缺陷,提供了一种基于对话交流的精神健康评测方法和系统。
本发明是通过以下技术方案来实现的:
本发明公开了一种基于基于对话交流的精神健康评测方法和系统,包括以下步骤:
步骤一,从数据库中获取用户的音视频数据,对用户数据进行精神健康状况标注;
步骤二,将用户数据分离为音频、视频和文本三种信号源,根据以帧为单位的最小周期重新匹配三种信号源,以三种信号为一组,按照时间序列分段保存用户数据;
步骤三,为了更好的捕捉到包含抑郁症状态的实例,使用滑动和切片来生成具有较长时间周期的实例。在整个长时间的对话中,我们滑动固定大小的重叠窗口,取窗口内的信号组合为切片以形成实例;
步骤四,应用基于采样切片的长短时记忆法(LSTM)得到LSTM的递归隐状态。连接两个密集的层来将LSTM隐藏状态映射到单个实例输出;
步骤五,基于实例输出,使用全局最大池层将实例输出映射到袋标签,以获得最终预测结果,进行精神健康状况预测,展示对用户各项精神状况指标的判断结果。
步骤一所述从数据库中获取用户的音视频数据,对用户数据进行精神健康状况标注,具体操作为:
1)收集患者与提问者之间的访谈数据存储与数据库中;
2)通过专家判断对各个患者的精神健康状况进行标注获,假设我们标记了N个样本对的训练集D={(S1,y1),…,(SN,yN)},其中Si(i从1到N)是整个视频会话,yi是会话对应的抑郁标签;
步骤二对用户数据进行分离,分离后得到音频、视频和文本三种信号。根据以帧为单位的最小周期重新匹配三种信号源,以三种信号为一组,按照时间序列分段保存用户数据,具体操作如下:
1)基于收集到的访谈视频记录,首先我们截取患者说话部分的视频;
2)将视频中的音频数据通过工具提取出作为音频信号,通过语音转文本技术将音频信号转换为文本记录,再通过图像采集技术将视频中的人脸表情提出来作为视觉信号;
3)我们使用关键帧来表示一个时间段内的帧。我们在同一个周期中将三种信号源为一个组合抽取出来,我们将这种以一个周期为单位的三种信号组和视为新的特征;
步骤三使用了滑动和切片操作,为了更好的捕捉到包含抑郁症状态的实例,用以步骤四和步骤五的模型训练。具体操作如下:
1)在整个长时间的采访中,我们滑动固定大小的重叠窗口。窗口内的框架被切片以形成实例,最终生成具有较长时间周期的实例,进一步来说,每一段对话在这里被看成是一个包含M个实例的包Si={xi,1,…,xi,M},xi,m表示第i个样本的第M个实例。如果Si种存在任何正的实例,则为一个正的包,记为yi=+1否则Si记为一个负包,记为yi=-1;
步骤四所述的利用基于采样切片的长短时记忆法(LSTM)得到LSTM的递归隐状态,然后连接两个密集的层来将LSTM隐藏状态映射到单个实例输出,具体操作如下:
1)将步骤三中捕捉到的实例作为输入送入LSTM,经过LSTM后我们得到递归隐状态;
2)连接两个密集的层来将LSTM隐藏状态映射到单个实例输出;
步骤五基于步骤四的实例输出,使用全局最大池层将实例输出映射到袋标签,以获得最终预测结果,进行精神健康状况预测,展示对用户各项精神状况指标的判断结果。具体操作如下:假设我们有实例输出{Oi,1,…,Oi,M},对于第i个样本,训练阶段的损失函数为:其中oij表示第i个样本的第j个实例的输出。对于预测第i个样本的最终预测标号可以计算为:
本发明还公开了一种基于多模态患者对话的抑郁症监测系统,该系统包括:
视频数据获取模块,记录患者的问答过程,并存储在文件管理系统中用以训练模型,查阅记录;
数据处理模块,对前一个模块中得到的内容进行解码处理,并通过视频处理方法将数据分为视频、音频、文字存储在文件管理系统,该模块包含语音转文本子模块;
患者特征实例构建模块,根据前一模块得到的三种模态数据,采样后得到每个周期的关键帧。我们使用滑动和切片来生成具有较长时间周期的实例,这些实例可能显示出抑郁症状。在整个长时间的采访中,我们滑动固定大小的重叠窗口。窗口内的框架被切片以形成实例。接着用基于采样切片的长短时记忆法(LSTM)得到LSTM的递归隐状态,连接两个密集的层来将LSTM隐藏状态映射到单个实例输出;
精神状态预测模块,根据前一模块输出的实例,通过为多个实例池层使用全局最大池识别表明抑郁症状的实例。从而预测被试患者的精神状态;
结果展示模块,根据预测结果,结合不同的时间切割和数据组合,展示与患者精神状态相关的各项指标以及判断患者的关键记录点。
本发明公开的一种基于对话交流的精神健康评测方法和系统,可以使用多模态信号自动检测患者精神状态。我们将从给定视频会话的帧中提取的视频、音频、和文本特征以及抑郁症的最终标签作为训练数据,预测其他给定视频会话的抑郁症标签。采用特征采样和滑动窗口以及多实例学习的方法来处理长时间的步骤和稀缺的标签。通过提出的方法,我们不仅可以减轻稀缺标签的影响,还可以识别出某些模态下能提示抑郁症状的信号片段。
本发明具有以下有益的技术效果:提出了一种多实例学习方法,可以有效地使用视频片段中的面部表情、音频、文本来预测患者精神健康状态,这些结果可以用来预测抑郁症状。在数据处理过程中,利用采样、滑动和切片技术将患者访谈视频中的可用数据分割成多个模态且多周期组合的形式;在算法实现过程中,采用主流的LSTM算法输出单个实例,并使用全局最大池层将实例输出映射到包标签以完成预测任务。
本发明还公开了能够实现上述精神健康评测的系统,系统功能主要由以下五部分组成:视频数据获取模块、数据处理模块、患者特征实例构建模块、精神状态预测模块以及结果展示模块。首先,记录患者的问答过程并存储视频文件在文件管理系统中。然后对视频进行解码处理,并通过视频处理方法将数据分为视频、音频、文字存储在文件管理系统。接着,对三种模态数据采样后得到每个周期的关键帧。使用滑动和切片来生成具有较长时间周期的实例,并使用固定大小的窗口在时间轴上滑动,将窗口内的框架切片以形成实例。接着用基于采样切片的长短时记忆法(LSTM)得到LSTM的递归隐状态对用户进行特征向量的构建,通过连接两个密集的层来将LSTM隐藏状态映射到单个实例输出。最后根据输出的实例,通过为多个实例池层使用全局最大池识别表明抑郁症状的实例。从而预测被试患者的精神状态。此外,结合不同的时间切割和数据组合,展示与患者精神状态相关的各项指标以及判断患者的关键记录点。
附图说明
图1为本发明基于对话交流的精神健康评测方法和系统逻辑结构图;
图2为本发明所涉及的数据处理说明图。
具体实施方式
为使本发明的目的、技术方案及优点更加清晰明白,以下参照附图并举实施例,对本发明作进一步详细说明。
本发明公开的一种基于对话交流的精神健康评测系统,其功能结构如图1所示,系统功能主要由以下五个部分组成:视频数据获取模块、数据处理模块、患者特征实例构建模块、精神状态预测模块以及结果展示模块。
适用于大规模社交网络的交友推荐方法,包括以下步骤:
步骤一,从数据库中获取用户的音视频数据,对用户数据进行精神健康状况标注,并存储在文件系统中;
步骤二,将用户数据分离为音频、视频和文本三种信号源,根据以帧为单位的最小周期重新匹配三种信号源,以三种信号为一组,按照时间序列分段保存用户数据,存储在文件系统中;
步骤三,为了更好的捕捉到包含抑郁症状态的实例,使用滑动和切片来生成具有较长时间周期的实例。我们滑动固定大小的重叠窗口并取窗内的信号组合为切片以形成实例;
步骤四,应用基于采样切片的长短时记忆法(LSTM)得到LSTM的递归隐状态。连接两个密集的层来将LSTM隐藏状态映射到单个实例输出;
步骤五,基于实例输出,使用全局最大池层将实例输出映射到袋标签,以获得最终预测结果,进行精神健康状况预测,展示对患者各项精神状况指标的判断结果。
下面对各模块工作进行具体举例说明:
1、视频数据获取模块
第一步,收集患者与提问者之间的访谈数据存储于数据库和文件系统中。
第二步,通过专家判断对各个患者的精神健康状况进行标注获,假设我们标记了N个样本对的训练集D={(S1,y1),…,(SN,yN)},其中Si(i从1到N)是整个视频会话,yi是会话对应的抑郁标签;
2、数据处理模块
数据处理模块基于收集到的访谈视频记录,首先我们截取患者说话部分的视频,然后对用户数据进行分离,分离后得到音频、视频和文本三种信号。根据以帧为单位的最小周期重新匹配三种信号源,以三种信号为一组,按照时间序列分段保存用户数据。接着将视频中的音频数据通过工具提取出作为音频信号,通过语音转文本技术将音频信号转换为文本记录,再通过图像采集技术将视频中的人脸表情提出来作为视觉信号。本模块使用关键帧来表示一个时间段内的帧,在同一个周期中将三种信号源为一个组合抽取出来,最后将这种以一个周期为单位的三种信号组和视为新的特征。
3、患者特征实例构建模块
此模块主要使用滑动和切片操作,捕捉包含抑郁症状态的实例。在整个长时间的采访中,我们滑动固定大小的重叠窗口。窗口内的框架被切片以形成实例,最终生成具有较长时间周期的实例。对每一段对话,此模块在这里将其看成是一个包含M个实例的包Si={xi,1,…,xi,M},xi,m表示第i个样本的第M个实例。如果Si种存在任何正的实例,则为一个正的包,记为yi=+1否则Si记为一个负包,记为yi=-1。
4、精神状态预测模块
精神状态预测模块首先利用基于采样切片的LSTM得到递归隐状态,然后连接两个密集的层来将LSTM隐藏状态映射到单个实例输出。然后使用全局最大池层将实例输出映射到袋标签,以获得最终预测结果。此模块假设有实例输出{Oi,1,…,Oi,M},对于第i个样本,训练阶段的损失函数为: 其中oij表示第i个样本的第j个实例的输出。对于预测第i个样本的最终预测标号可以计算为:
5、结果展示模块
展示模块展示出对患者精神状态的评测结果,包括抑郁症的判断和展示对患者各项精神状况指标的判断结果以及判断患者的关键记录点。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于对话交流的精神健康评测方法和系统,其包括以下步骤:
S1.服务器对精神健康评测装置发出基于对话交流的精神健康评测的指令;
S2.精神健康评测装置通过多个传感器接收用户的音视频数据,并存储在文件系统中;
S3.精神健康评测装置对接收到的多模态数据进行预处理,将受测者数据分离为音频、视频和文本三种信号源。其中文本信号源通过语音识别技术从音频信号源转换得到。根据以帧为单位的最小周期重新匹配三种信号源,以三种信号为一组,按照时间序列分段保存数据,存储在文件系统中;
S4.精神健康评测装置使用滑动和切片来生成具有较长时间周期的实例。装置通过滑动固定大小的重叠窗口,并取窗内的信号组合为切片以形成实例,最后捕捉到包含抑郁症状态的实例;
S5.针对S4中得到的实例,精神健康评测装置应用基于采样切片的长短时记忆法(LSTM)得到LSTM的递归隐状态。连接两个密集的层来将LSTM隐藏状态映射到单个实例输出;
S6.社团发现装置根据S5所得的实例输出,使用全局最大池层将实例输出映射到袋标签,以获得最终预测结果,进行精神健康状况预测,展示对患者各项精神状况指标的判断结果。
2.根据权利要求1所述的一种基于对话交流的精神健康评测方法和系统,其特征在于,步骤S3中的信号是基于多个模态信号源的,而非基于单一类型的信号源。步骤S4中。捕捉患者交流信息实例时考虑了将多个信号源的信号按周期合并。
3.一种根据权利要求1-2任意一项所述的基于多模态信号和多实例学习方法的精神健康评测装置,其特征在于,包括视频数据获取模块、数据处理模块、患者特征实例构建模块、精神状态预测模块以及结果展示模块。其中:
所述视频数据获取模块和数据处理模块相连接。视频数据获取模块,记录患者的问答过程,存储在文件管理系统中用以训练模型,查阅记录。并将其中所存储的数据传送给数据处理模块。
所述数据处理模块和患者特征实例构建模块相连接。数据处理模块对前一个模块中得到的内容进行解码处理,并通过视频处理方法将数据分为视频、音频、文字存储在文件管理系统,该模块还包含语音转文本子模块。由该模块处理后的三种模态信号将传递给患者特征实例构建模块。
所述患者特征实例构建模块和精神状态预测模块相连接,根据前一模块得到的三种模态数据,采样后得到每个周期的关键帧。该模块使用滑动和切片来生成具有较长时间周期的实例,这些实例可能显示出抑郁症状。在整个长时间的采访中,该模块滑动固定大小的重叠窗口。窗口内的框架被切片以形成实例。接着用基于采样切片的长短时记忆法(LSTM)得到LSTM的递归隐状态,连接两个密集的层来将LSTM隐藏状态映射到单个实例输出,最后将实例传送给精神状态预测模块。
所述精神状态预测模块与结果展示模块相连,根据前一模块输出的实例,通过为多个实例池层使用全局最大池识别表明抑郁症状的实例。从而预测被试患者的精神状态,将预测结果传递给结果展示模块。
所述结果展示模块,根据预测结果,结合不同的时间切割和数据组合,展示与患者精神状态相关的各项指标以及判断患者的关键记录点。
4.根据权利要求3所述的一种基于对话交流的精神健康评测方法和系统,其特征在于,可以使用多模态信号自动检测患者精神状态。我们将从给定视频会话的帧中提取的视频、音频、和文本特征以及抑郁症的最终标签作为训练数据,预测其他给定视频会话的抑郁症标签。采用特征采样和滑动窗口以及多实例学习的方法来处理长时间的步骤和稀缺的标签。
5.根据权利要求3所述的一种基于对话交流的精神健康评测方法和系统,其特征在于,提出了一种多实例学习方法,可以有效地使用视频片段中的面部表情、音频、文本来预测患者精神健康状态,这些结果可以用来预测抑郁症状。通过提出的方法,我们不仅可以减轻稀缺标签的影响,还可以识别出某些模态下能提示抑郁症状的信号片段。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110021003.3A CN112768070A (zh) | 2021-01-06 | 2021-01-06 | 一种基于对话交流的精神健康评测方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110021003.3A CN112768070A (zh) | 2021-01-06 | 2021-01-06 | 一种基于对话交流的精神健康评测方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112768070A true CN112768070A (zh) | 2021-05-07 |
Family
ID=75700869
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110021003.3A Pending CN112768070A (zh) | 2021-01-06 | 2021-01-06 | 一种基于对话交流的精神健康评测方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112768070A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113392918A (zh) * | 2021-06-24 | 2021-09-14 | 哈尔滨理工大学 | 一种基于多源信息融合的抑郁障碍相关因素识别方法 |
CN113571184A (zh) * | 2021-07-20 | 2021-10-29 | 武汉情智感知科技有限公司 | 一种用于精神健康测评的对话交互设计方法及系统 |
CN115545960A (zh) * | 2022-12-01 | 2022-12-30 | 江苏联弘信科技发展有限公司 | 一种电子信息数据交互系统及方法 |
CN115831352A (zh) * | 2022-12-05 | 2023-03-21 | 湖南工商大学 | 一种基于动态纹理特征和时间分片权重网络的检测方法 |
CN118262927A (zh) * | 2024-04-17 | 2024-06-28 | 北京健康有益科技有限公司 | 一种应用于精神疾病预测的多维数据筛选方法和系统 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105279380A (zh) * | 2015-11-05 | 2016-01-27 | 东南大学 | 一种基于表情分析的抑郁程度自动评估系统 |
CN107133481A (zh) * | 2017-05-22 | 2017-09-05 | 西北工业大学 | 基于dcnn‑dnn和pv‑svm的多模态抑郁症估计和分类方法 |
CN107657964A (zh) * | 2017-08-15 | 2018-02-02 | 西北大学 | 基于声学特征和稀疏数学的抑郁症辅助检测方法及分类器 |
CN108888281A (zh) * | 2018-08-16 | 2018-11-27 | 华南理工大学 | 精神状态评估方法、设备及系统 |
CN109171769A (zh) * | 2018-07-12 | 2019-01-11 | 西北师范大学 | 一种应用于抑郁症检测的语音、面部特征提取方法及系统 |
CN109431521A (zh) * | 2018-10-12 | 2019-03-08 | 西北工业大学 | 一种基于音视频信息的多模态双相抑郁障碍自动检测方法 |
CN110046537A (zh) * | 2017-12-08 | 2019-07-23 | 辉达公司 | 使用递归神经网络进行动态面部分析的系统和方法 |
CN110222827A (zh) * | 2019-06-11 | 2019-09-10 | 苏州思必驰信息科技有限公司 | 基于文本的抑郁判定网络模型的训练方法 |
CN110472564A (zh) * | 2019-08-14 | 2019-11-19 | 成都中科云集信息技术有限公司 | 一种基于特征金字塔网络的双向lstm微表情识别抑郁症方法 |
CN110532387A (zh) * | 2019-08-14 | 2019-12-03 | 成都中科云集信息技术有限公司 | 一种基于开放性问答文本的抑郁症辅助检测方法 |
CN110728997A (zh) * | 2019-11-29 | 2020-01-24 | 中国科学院深圳先进技术研究院 | 一种基于情景感知的多模态抑郁症检测方法和系统 |
US20200121236A1 (en) * | 2018-10-23 | 2020-04-23 | Blackthorn Therapeutics, Inc. | Systems and methods for screening, diagnosing, and stratifying patients |
CN111241817A (zh) * | 2020-01-20 | 2020-06-05 | 首都医科大学 | 一种基于文本的抑郁症识别方法 |
CN112101097A (zh) * | 2020-08-02 | 2020-12-18 | 华南理工大学 | 融合肢体语言、微表情和语言的抑郁和自杀倾向识别方法 |
CN112164459A (zh) * | 2020-09-16 | 2021-01-01 | 同济大学 | 一种抑郁症状的信息评估方法 |
-
2021
- 2021-01-06 CN CN202110021003.3A patent/CN112768070A/zh active Pending
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105279380A (zh) * | 2015-11-05 | 2016-01-27 | 东南大学 | 一种基于表情分析的抑郁程度自动评估系统 |
CN107133481A (zh) * | 2017-05-22 | 2017-09-05 | 西北工业大学 | 基于dcnn‑dnn和pv‑svm的多模态抑郁症估计和分类方法 |
CN107657964A (zh) * | 2017-08-15 | 2018-02-02 | 西北大学 | 基于声学特征和稀疏数学的抑郁症辅助检测方法及分类器 |
CN110046537A (zh) * | 2017-12-08 | 2019-07-23 | 辉达公司 | 使用递归神经网络进行动态面部分析的系统和方法 |
CN109171769A (zh) * | 2018-07-12 | 2019-01-11 | 西北师范大学 | 一种应用于抑郁症检测的语音、面部特征提取方法及系统 |
CN108888281A (zh) * | 2018-08-16 | 2018-11-27 | 华南理工大学 | 精神状态评估方法、设备及系统 |
CN109431521A (zh) * | 2018-10-12 | 2019-03-08 | 西北工业大学 | 一种基于音视频信息的多模态双相抑郁障碍自动检测方法 |
US20200121236A1 (en) * | 2018-10-23 | 2020-04-23 | Blackthorn Therapeutics, Inc. | Systems and methods for screening, diagnosing, and stratifying patients |
CN110222827A (zh) * | 2019-06-11 | 2019-09-10 | 苏州思必驰信息科技有限公司 | 基于文本的抑郁判定网络模型的训练方法 |
CN110472564A (zh) * | 2019-08-14 | 2019-11-19 | 成都中科云集信息技术有限公司 | 一种基于特征金字塔网络的双向lstm微表情识别抑郁症方法 |
CN110532387A (zh) * | 2019-08-14 | 2019-12-03 | 成都中科云集信息技术有限公司 | 一种基于开放性问答文本的抑郁症辅助检测方法 |
CN110728997A (zh) * | 2019-11-29 | 2020-01-24 | 中国科学院深圳先进技术研究院 | 一种基于情景感知的多模态抑郁症检测方法和系统 |
CN111241817A (zh) * | 2020-01-20 | 2020-06-05 | 首都医科大学 | 一种基于文本的抑郁症识别方法 |
CN112101097A (zh) * | 2020-08-02 | 2020-12-18 | 华南理工大学 | 融合肢体语言、微表情和语言的抑郁和自杀倾向识别方法 |
CN112164459A (zh) * | 2020-09-16 | 2021-01-01 | 同济大学 | 一种抑郁症状的信息评估方法 |
Non-Patent Citations (1)
Title |
---|
LINLIN CHAO等: "Multi Task Sequence Learning for Depression Scale Prediction from Video", 《INTERNATIONAL CONFERENCE ON AFFECTIVE COMPUTING AND INTELLIGENT INTERACTION》, pages 527 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113392918A (zh) * | 2021-06-24 | 2021-09-14 | 哈尔滨理工大学 | 一种基于多源信息融合的抑郁障碍相关因素识别方法 |
CN113571184A (zh) * | 2021-07-20 | 2021-10-29 | 武汉情智感知科技有限公司 | 一种用于精神健康测评的对话交互设计方法及系统 |
CN113571184B (zh) * | 2021-07-20 | 2023-10-31 | 武汉情智感知科技有限公司 | 一种用于精神健康测评的对话交互设计方法及系统 |
CN115545960A (zh) * | 2022-12-01 | 2022-12-30 | 江苏联弘信科技发展有限公司 | 一种电子信息数据交互系统及方法 |
CN115831352A (zh) * | 2022-12-05 | 2023-03-21 | 湖南工商大学 | 一种基于动态纹理特征和时间分片权重网络的检测方法 |
CN115831352B (zh) * | 2022-12-05 | 2023-08-08 | 湖南工商大学 | 一种基于动态纹理特征和时间分片权重网络的检测方法 |
CN118262927A (zh) * | 2024-04-17 | 2024-06-28 | 北京健康有益科技有限公司 | 一种应用于精神疾病预测的多维数据筛选方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112768070A (zh) | 一种基于对话交流的精神健康评测方法和系统 | |
US11950020B2 (en) | Methods and apparatus for displaying, compressing and/or indexing information relating to a meeting | |
CN111145903B (zh) | 获取眩晕症问诊文本的方法、装置、电子设备及问诊系统 | |
CN107680019A (zh) | 一种考试方案的实现方法、装置、设备及存储介质 | |
CN111329494B (zh) | 抑郁症参考数据的获取方法及装置 | |
CN114898861A (zh) | 基于全注意力机制的多模态抑郁症检测方法和系统 | |
CN112016367A (zh) | 一种情绪识别系统、方法及电子设备 | |
CN111180025B (zh) | 表示病历文本向量的方法、装置及问诊系统 | |
CN110909131A (zh) | 模型的生成方法、情绪识别方法、系统、设备和存储介质 | |
CN112101096A (zh) | 一种基于语音和微表情的多模态融合的自杀情绪感知方法 | |
CN114724224A (zh) | 一种用于医疗护理机器人的多模态情感识别方法 | |
CN115237255B (zh) | 一种基于眼动和语音的自然图像共指目标定位系统及方法 | |
CN116110565A (zh) | 一种基于多模态深度神经网络对人群抑郁状态辅助检测的方法 | |
CN114582355B (zh) | 基于音视频融合的婴儿哭泣检测方法及装置 | |
Dissanayake et al. | Utalk: Sri Lankan sign language converter mobile app using image processing and machine learning | |
CN112380924A (zh) | 一种基于面部微表情动态识别的抑郁倾向检测方法 | |
CN115035438A (zh) | 情绪分析方法、装置及电子设备 | |
CN116844080B (zh) | 疲劳程度多模态融合检测方法、电子设备及存储介质 | |
CN113658690A (zh) | 一种智能导医方法、装置、存储介质以及电子设备 | |
CN210516214U (zh) | 一种基于视频及语音交互服务设备 | |
CN115831352B (zh) | 一种基于动态纹理特征和时间分片权重网络的检测方法 | |
Gupta et al. | REDE-Detecting human emotions using CNN and RASA | |
CN118507036A (zh) | 一种情感语义多模态抑郁倾向识别系统 | |
Himasree et al. | Video-based Hand Gesture Recognition using Random Forest for Sign Language Interpretation | |
CN115758114A (zh) | 基于多模态特征自适应的抑郁定量方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210507 |