CN113241178B - 一种确定被测者的抑郁症严重程度的装置 - Google Patents

一种确定被测者的抑郁症严重程度的装置 Download PDF

Info

Publication number
CN113241178B
CN113241178B CN202110592589.9A CN202110592589A CN113241178B CN 113241178 B CN113241178 B CN 113241178B CN 202110592589 A CN202110592589 A CN 202110592589A CN 113241178 B CN113241178 B CN 113241178B
Authority
CN
China
Prior art keywords
matrix
text
depression
word
term memory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110592589.9A
Other languages
English (en)
Other versions
CN113241178A (zh
Inventor
毛凯宁
陈颉
王保凤
叶敏捷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Yelimi Information Technology Co ltd
Wenzhou Kangning Hospital Co ltd
Original Assignee
Hangzhou Yelimi Information Technology Co ltd
Wenzhou Kangning Hospital Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Yelimi Information Technology Co ltd, Wenzhou Kangning Hospital Co ltd filed Critical Hangzhou Yelimi Information Technology Co ltd
Priority to CN202110592589.9A priority Critical patent/CN113241178B/zh
Publication of CN113241178A publication Critical patent/CN113241178A/zh
Application granted granted Critical
Publication of CN113241178B publication Critical patent/CN113241178B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Public Health (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及计算机技术领域,公开了一种确定被测者的抑郁症严重程度的方法、装置、设备及介质。本申请的确定被测者的抑郁症严重程度的方法包括:接收与被测者关联的用于确定抑郁症的文本;对提取自文本的第一矩阵,使用至少一个双向长短期记忆模型分别基于正向长短期记忆模型和反向长短期记忆模型做并行处理,得到第二矩阵;将第二矩阵处理成向量,并根据向量确定被测者的抑郁症严重程度。本申请从输入到最后形成检测结果,期间无需人工干预,实现对被测者的抑郁严重程度进行直接确定,而不受限医生主观判断的影响,同时在精神压力访谈语料库(Distress Analysis Interview Corpus,DAIC‑WOZ数据集上实现了0.9677的F1得分,判断结果有显著改进,且具有较强的抗噪能力。

Description

一种确定被测者的抑郁症严重程度的装置
技术领域
本申请涉及计算机技术领域,特别涉及一种确定被测者的抑郁症严重程度的方法、装置、设备及介质。
背景技术
精神健康障碍,如抑郁症,正成为我国社会的主要挑战之一。在新型冠状病毒肺炎大流行病期间,抑郁症变得愈加严重。到2030年,抑郁症将成为世界范围内残疾的主要原因之一。目前临床上对抑郁症的筛查、诊断,以及治疗效果的评价,一般采用被测者健康问卷抑郁量表(PHQ)、蒙哥马利和阿斯伯格抑郁症等级量表(MADRS)以及自报告问卷(如白氏抑郁症量表BDI),判断的准确度一方面依赖于病人是否诚实回答了相关问题,另一方面严重依赖于医生的经验和主观判断。在当前抑郁症门诊量激增的情况下,医生问诊时间短,压力大,误诊率高。
目前,人工智能领域已经借助机器学习方法,从文本、音频、视频出发建立了多种多样的抑郁症检测系统,来帮助心理学家和医护人员进行临床抑郁症的检测预防和治疗。在过去的几年中,通过文本和音视频信息来进行抑郁症的检测已经取得了许多重要的成果,然而由于抑郁症的复杂性以及个体的差异性,抑郁症的研究仍然面临着严峻的挑战。因此,提供一种具有客观评判依据,不易受医生主观经验影响的可确定被测者的抑郁症严重程度的方法,显得尤为迫切。
发明内容
本申请实施例提供了一种确定被测者的抑郁症严重程度的方法、装置、设备及介质。
第一方面,本申请实施例提供了一种确定被测者的抑郁症严重程度的方法,所述方法包括:
接收与所述被测者关联的用于确定抑郁症的文本;
对提取自所述文本的第一矩阵,使用至少一个双向长短期记忆模型分别基于正向长短期记忆模型和反向长短期记忆模型做并行处理,得到第二矩阵,其中,所述第二矩阵包括所述文本数据的特征数据;
将所述第二矩阵处理成向量,并根据所述向量确定所述被测者的抑郁症严重程度。
在上述第一方面的一种可能的实现中,使用至少一个所述双向长短期记忆模型对所述第一矩阵分别基于所述正向长短期记忆模型和所述反向长短期记忆模型做并行处理,得到第二矩阵,进一步包括:将所述第一矩阵输入至少一个所述正向长短期记忆模型,得到所述正向隐含状态序列[h0,h1,h2,……,hn];将所述第一矩阵上下翻转得到翻转矩阵;将所述翻转矩阵输入至少一个所述反向长短期记忆模型,得到所述反向隐含状态序列[h’n,h’n-1,h’n-2,……,h’0];其中,所述第二矩阵为所述反向隐含状态序列的最后一个隐含状态序列h’0
在上述第一方面的一种可能的实现中,所述第一矩阵是对所述文本进行预处理得到的矩阵。
在上述第一方面的一种可能的实现中,对所述文本进行预处理,包括:从所述文本中获取第三矩阵Ai∈AM×T,所述第三矩阵表示所述文本中的句子的嵌入,其中A表示所述第三矩阵,Ai表示所述第三矩阵中的特征,M表示所述句子中的所述单词个数,T表示所述句子中每个单词的长度;使用滑动窗口每次对所述第四矩阵滑动预设长度L,得到第一矩阵Bi∈BN×T,所述第一矩阵为相同长度的句子序列,其中B表示所述第一矩阵,Bi表示所述第一矩阵中的特征,N表示所述滑动窗口的长度。
在上述第一方面的一种可能的实现中,所述预设长度L小于所述滑动窗口的长度N,使得所述滑动窗口之间存在重叠。
在上述第一方面的一种可能的实现中,当所述滑动窗口的长度N大于所述句子的长度M时,将空缺的长度M-N部分用零进行填充。
在上述第一方面的一种可能的实现中,从所述文本中获取第三矩阵,包括:
建立词汇表,并将所述文本中的句子拆成单词列表,其中所述每个单词用长度为所述T的向量Z表示;对单词列表中的所述每个单词进行编码,得到所述第三矩阵。
在上述第一方面的一种可能的实现中,还包括:删除所述文本中的停用词。
在上述第一方面的一种可能的实现中,还包括:还原所述文本中单词的基本形式。
在上述第一方面的一种可能的实现中,所述停用词是利用自然语言工具包NLTK中的停用词列表从所述被测者的所述文本中获取的词。
在上述第一方面的一种可能的实现中,还原所述文本中单词的基本形式,包括以下的一个或多个:将所述单词的缩写、变化的词尾等不同的表达方式,还原所述单词的基本形式。
在上述第一方面的一种可能的实现中,还原所述文本中单词的基本形式,具体为:采用WordNet引文器对所述单词进行引文,所述WordNet引文器删除变化的词尾,并返回所述单词的基本形式。
在上述第一方面的一种可能的实现中,对单词列表中的所述每个单词进行编码,包括:使用GloVe单词嵌入向量对所述单词列表中的所述每个单词进行编码,其中,所述GloVe单词嵌入向量使用100D预训练。
在上述第一方面的一种可能的实现中,所述文本包括以下的一个或多个:所述被测者朗读特定文本发出的声音转录成的文本,所述被测者基于特定问题的口头回答发出的声音转录成的文本,所述被测者基于特定问题的文字回答。
在上述第一方面的一种可能的实现中,将所述第二矩阵处理成向量,包括:使用全连接网络对所述第二矩阵进行线性处理,以获得向量。
在上述第一方面的一种可能的实现中,根据所述向量确定所述被测者的抑郁症严重程度,包括:根据所述向量的元素的值来确定抑郁症的严重程度。
在上述第一方面的一种可能的实现中,根据所述向量确定所述被测者的抑郁症严重程度,包括:根据所述向量包含的元素中的最大值来确定抑郁症的严重程度。
第二方面,本申请实施例提供了一种确定被测者的抑郁症严重程度的装置,所述确定被测者的抑郁症严重程度的设备包括:
接收模块,接收与所述被测者关联的用于确定抑郁症的文本;
处理模块,对提取自所述文本的第一矩阵,使用至少一个双向长短期记忆模型分别基于正向长短期记忆模型和反向长短期记忆模型做并行处理,得到第二矩阵,其中,所述第二矩阵包括所述文本数据的特征数据;
输出模块,将所述第二矩阵处理成向量,并根据所述向量确定所述被测者的抑郁症严重程度。
在上述第二方面的一种可能的实现中,使用至少一个所述双向长短期记忆模型对所述第一矩阵分别基于所述正向长短期记忆模型和所述反向长短期记忆模型做并行处理,得到第二矩阵,进一步包括:将所述第一矩阵输入至少一个所述正向长短期记忆模型,得到所述正向隐含状态序列[h0,h1,h2,……,hn];将所述第一矩阵上下翻转得到翻转矩阵;将所述翻转矩阵输入至少一个所述反向长短期记忆模型,得到所述反向隐含状态序列[h’n,h’n-1,h’n-2,……,h’0];其中,所述第二矩阵为所述反向隐含状态序列的最后一个隐含状态序列h’0
在上述第二方面的一种可能的实现中,所述第一矩阵是对所述文本进行预处理得到的矩阵。
在上述第二方面的一种可能的实现中,对所述文本进行预处理,包括:从所述文本中获取第三矩阵Ai∈AM×T,所述第三矩阵表示所述文本中的句子的嵌入,其中A表示所述第三矩阵,Ai表示所述第三矩阵中的特征,M表示所述句子中的所述单词个数,T表示所述句子中每个单词的长度;使用滑动窗口每次对所述第四矩阵滑动预设长度L,得到第一矩阵Bi∈BN×T,所述第一矩阵为相同长度的句子序列,其中B表示所述第一矩阵,Bi表示所述第一矩阵中的特征,N表示所述滑动窗口的长度。
在上述第二方面的一种可能的实现中,所述预设长度L小于所述滑动窗口的长度N,使得所述滑动窗口之间存在重叠。
在上述第二方面的一种可能的实现中,当所述滑动窗口的长度N大于所述句子的长度M时,将空缺的长度M-N部分用零进行填充。
在上述第二方面的一种可能的实现中,从所述文本中获取第三矩阵,包括:
建立词汇表,并将所述文本中的句子拆成单词列表,其中所述每个单词用长度为所述T的向量Z表示;对单词列表中的所述每个单词进行编码,得到所述第三矩阵。
在上述第二方面的一种可能的实现中,还包括:删除所述文本中的停用词。
在上述第二方面的一种可能的实现中,还包括:还原所述文本中单词的基本形式。
在上述第二方面的一种可能的实现中,所述停用词是利用自然语言工具包NLTK中的停用词列表从所述被测者的所述文本中获取的词。
在上述第二方面的一种可能的实现中,还原所述文本中单词的基本形式,包括以下的一个或多个:将所述单词的缩写、变化的词尾等不同的表达方式,还原所述单词的基本形式。
在上述第二方面的一种可能的实现中,还原所述文本中单词的基本形式,具体为:采用WordNet引文器对所述单词进行引文,所述WordNet引文器删除变化的词尾,并返回所述单词的基本形式。
在上述第二方面的一种可能的实现中,对单词列表中的所述每个单词进行编码,包括:使用GloVe单词嵌入向量对所述单词列表中的所述每个单词进行编码,其中,所述GloVe单词嵌入向量使用100D预训练。
在上述第二方面的一种可能的实现中,所述文本包括以下的一个或多个:所述被测者朗读特定文本发出的声音转录成的文本,所述被测者基于特定问题的口头回答发出的声音转录成的文本,所述被测者基于特定问题的文字回答。
在上述第二方面的一种可能的实现中,将所述第二矩阵处理成向量,包括:使用全连接网络对所述第二矩阵进行线性处理,以获得向量。
在上述第二方面的一种可能的实现中,根据所述向量确定所述被测者的抑郁症严重程度,包括:根据所述向量的元素的值来确定抑郁症的严重程度。
在上述第二方面的一种可能的实现中,根据所述向量确定所述被测者的抑郁症严重程度,包括:根据所述向量包含的元素中的最大值来确定抑郁症的严重程度。
第三方面,本申请实施例提供了一种确定被测者的抑郁症严重程度的设备,所述确定被测者的抑郁症严重程度的设备包括:
存储器,用于存储由系统的一个或多个处理器执行的指令,以及
处理器,是系统的处理器之一,用于执行所述指令以实施上述第一方面的任意一种可能的方法。
第四方面,本申请实施例提供了一种计算机可读介质,计算机可读介质上存储有指令,该指令在计算机上执行时可以使计算机执行上述第一方面的任意一种可能的方法。
本申请与现有技术相比,其效果在于:
过往的研究工作往往采用单向的LSTM最后一个时刻的隐含状态作为输入序列的抽象表述,这种方式忽略了不同时刻的序列之间的相关性,而本申请中的技术方案,使用单词表示的全局向量来执行单词嵌入,提出滑动窗口以及应用于文本的Bi-LSTM的模型,使得不同长度的句子均可处理成特定长度的序列输入到神经网络中进行处理,且利用正向和反向的双向LSTM的组合来学习文本分类中的更多上下文信息,通过对被测者声音及输入文本的处理,采用端到端的训练方式,即从输入到最后形成检测结果,期间无需人工干预,实现对被测者的抑郁严重程度进行直接确定,而不受限医生主观判断的影响,同时在精神压力访谈语料库(Distress Analysis Interview Corpus,DAIC-WOZ数据集上实现了0.9677的F1得分,判断结果有显著改进,且具有较强的抗噪能力。
附图说明
图1根据本申请的一些实施例,示出了一种确定被测者的抑郁症严重程度的方法的第一场景图;
图2根据本申请的一些实施例,示出了一种确定被测者的抑郁症严重程度的方法的第二场景图;
图3根据本申请的一些实施例,示出了一种确定被测者的抑郁症严重程度的方法的硬件结构框图;
图4根据本申请的一些实施例,示出了一种确定被测者的抑郁症严重程度的方法的网络结构图;
图5根据本申请的一些实施例,示出了一种确定被测者的抑郁症严重程度的方法的流程图;
图6根据本申请的一些实施例,示出了一种Bi-LSTM的处理过程示意图;
图7根据本申请的一些实施例,示出了一种全连接网络线性处理过程的示意图;
图8根据本申请的一些实施例,示出了四种不同模型配置的ROC曲线示意图;
图9根据本申请的一些实施例,示出了对照组和实验组的音频持续时间和句长的直方图;
图10根据本申请的一些实施例,示出了一种确定被测者的抑郁症严重程度的装置的结构示意图。
具体实施方式
本申请的说明性实施例包括但不限于一种确定被测者的抑郁症严重程度的方法、装置、设备以及介质。
可以理解,本申请提供的确定被测者的抑郁症严重程度的方法可以在各种电子设备上实施,包括但不限于,服务器、多个服务器组成的分布式服务器集群、手机、平板电脑、膝上型计算机、台式计算机、可穿戴设备、头戴式显示器、移动电子邮件设备、便携式游戏机、便携式音乐播放器、阅读器设备、个人数字助理、虚拟现实或者增强现实设备、其中嵌入或耦接有一个或多个处理器的电视机等电子设备等。
可以理解,在本申请各实施例中,处理器可以是微处理器、数字信号处理器、微控制器等,和/或其任何组合。根据另一个方面,所述处理器可以是单核处理器,多核处理器等,和/或其任何组合。
下面将结合附图对本申请的实施例作进一步地详细描述。
图1根据本申请的一些实施例,示出了一种基于被测者的音频确定抑郁症严重程度的的场景图。具体的,如图1所示,该确定被测者的抑郁症严重程度的方法应用于确定被测者的抑郁症严重程度的系统。该确定被测者的抑郁症严重程度的系统包括终端110、服务器120、声音采集装置130和被测者140。终端110、服务器120和声音采集装置130之间通过网络连接,网络连接可以包括各种连接类型,例如有线、无线通信链路、云或者光纤电缆等等,上述的网络具体实例可包括终端110的通信供应商提供的互联网。终端110和声音采集装置130之间也可采用其他方式连接,比如通过数据线连接,以使接收的音频可以传输到终端110上。
终端110可以是安装有端到端的确定被测者的抑郁症严重程度的软件的设备,具体可以是台式终端或移动终端,移动终端具体是可以手机、平板电脑、笔记本电脑等中的至少一种。
服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
声音采集装置130接收由被测者140通过朗读特定文本或回答的特定的问题所发出的声音,形成音频文件。这里的声音采集装置130包括但不限于话筒、声音收集器等。
通过采集被测者140的声音,传送到声音采集装置130,声音采集装置130将采集到的声音形成音频文件,并将音频文件传输到服务器120和终端110,终端110将该音频转录为文本,并通过本申请的确定被测者的抑郁症严重程度的方法进行处理,最终输出确定的抑郁症严重程度的结果。
图2根据本申请的一些实施例,示出了一种确定被测者的抑郁症严重程度的方法的第二场景图。其中与第一场景图中相同的部分不再赘述,仅就不同的部分进行阐述,具体的,在第二场景中,使用终端130替代声音采集装置130,其中,终端130接收由被测者140通过回答特定的问题所输入的文本,形成文本信息。这里的终端130可以是安装有端到端的确定被测者的抑郁症严重程度的文本输入的设备,具体可以是台式终端或移动终端,移动终端具体是可以手机、平板电脑、笔记本电脑等中的至少一种。
通过采集被测者140输入的文本信息,传送到终端130,终端130将采集到的文本形成文本信息,并将文本信息传输到服务器120和终端110,终端110针对该文本通过本申请的确定被测者的抑郁症严重程度的方法进行处理,最终输出确定的抑郁症严重程度的结果。
下面根据本申请的一些实施例,详细说明应用于图1和图2所示的场景的确定被测者的抑郁症严重程度的技术方案。通过如图1中的声音采集装置130获取被测者的声音并进行转录处理得到文本信息,或者通过如图2中的终端130获取与被测者关联的用于确定抑郁症的文本信息。然后对提取自该文本的包含文本特征的矩阵,使用至少一个双向长短期记忆模型(Bidirectional Long-Short Term Memory,以下简称Bi-LSTM)分别基于正向长短期记忆模型(以下简称正向LSTM)和反向长短期记忆模型(以下简称正向LSTM)的并行处理,得到包括文本数据的特征数据的矩阵。之后,使用全连接网络对前述处理输出的矩阵进行线性处理,以将该矩阵处理成向量,并根据向量,最终确定被测者的抑郁症严重程度。
本申请方式所提供的方法实施方式可以在终端110中执行,图3根据本申请的一些实施例,示出了一种确定被测者的抑郁症严重程度的方法的硬件结构框图。如图3所示,终端110可以包括一个或多个(图中仅示出一个)处理器111(处理器111可以包括但不限于中央处理器CPU、图像处理器GPU、数字信号处理器DSP、微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于与用户交互的输入输出接口112、用于存储数据的存储器113、以及用于通信功能的传输装置114。本领域技术人员可以理解,图3所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,终端110还可包括比图3中所示更多或者更少的组件,或者具有与图3所示不同的配置。
输入输出接口112可以连接一个或多个显示器、触控屏等,用于显示从终端110传送的数据,还可以连接键盘、触控笔、触控板和/或鼠标等,用于输入诸如,选择、创建、编辑等的用户指令。
存储器113可用于存储数据库、队列、应用软件的软件程序以及模块,如本申请的一些实施例中的确定被测者的抑郁症严重程度的方法对应的程序指令/模块,处理器111通过运行存储在存储器113内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的确定被测者的抑郁症严重程度的方法。存储器113可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器113可进一步包括相对于处理器111远程设置的存储器,这些远程存储器可以通过网络连接至终端110。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置114用于经由网络接收由服务器120传输的经由第一场景中的声音采集装置130上传的音频文件或第二场景中的终端130上传的文本信息或者发送处理后的数据到服务器120,网络可以包括各种连接类型,例如有线、无线通信链路、云或者光纤电缆等等。上述的网络具体实例可包括终端110的通信供应商提供的互联网。
图4示出了一种确定被测者的抑郁症严重程度的方法的网络结构图,如图4所示,该网络结构主要包括四个模块,首先是文本提取模块1111,通过场景一中的声音采集装置130获取被测者的声音并进行转录处理得到文本信息,或者通过场景二中的终端130得到的文本信息,本申请中的文本信息是由被测者朗读特定文本发出的声音转录成的文本、由被测者回答特定的口头回答发出的声音转录成的文本、由被测者回答特定的文字回答中一的一个或多个获得,假设获得的文本信息提供了关于参与者心理状况的深层信息。这种假设是基于文本释放被测者的许多个人信息的语义成分,如他们的习惯、情绪状态和最近的个人关系状态。这种信息在抑郁症诊断中是非常必要的,因为心理学家也通过在访谈期间由被测者产生的文本来确定抑郁症的严重性;文本分组模块1112,使用对文本信息进行嵌入处理(Embedding),将文本进行分组得到第一矩阵后输出至下一模块。Bi-LSTM模块1113,基于至少一个的Bi-LSTM,依次对第一矩阵进行处理,得到第二矩阵,其中第二矩阵包括文本信息的特征数据;全连接处理模块1114,基于全连接网络对第二矩阵进行线性处理,得到表征抑郁症严重程度的向量,并基于该向量,确定抑郁症严重程度的结果并输出。
图5根据本申请的一些实施例,示出了一种确定被测者的抑郁症严重程度的方法的流程图。如图5所示,在某些实施例中,该方法可以包括:
步骤501:接收与被测者关联的用于确定抑郁症的文本。
具体的,在步骤501中,在文本提取模块1111中,通过场景一中的声音采集装置130获取被测者的声音并进行转录处理得到文本信息,或者通过场景二中的终端130得到的文本信息。在一些实施例中,文本由被测者朗读特定文本发出的声音,或基于特定问题的口头回答发出的声音转录而成。具体的,本申请中采用精神压力访谈语料库(DistressAnalysis Interview Corpus,DAIC-WOZ)数据集进行训练和测试。语料库中的文本来自被测者和访问者之间的访谈,访问者可以是真实的人类,也可以是由人类访问者控制的虚拟动画角色。因为被测者此时的访谈是口语的,所以首先需要将这些口语表达返回到原来形式,而没有返回到原来形式的短语会成为词汇表外的单词,并且由标记[UNK]表示,[UNK]本身不会损害预测能力,如果不把词表外的词汇标记为[UNK],则会损害预测能力。在一些实施例中,文本由被测者基于特定问题的文本回答构成。当文本是由被测者通过终端自行输入的文本构成上,可直接针对该文本进行分析,而无需进行预处理。
步骤502:由文本分组模块1112提取文本的文本特征得到句子嵌入矩阵(该句子嵌入矩阵为第三矩阵的一个实例),对句子嵌入矩阵进行滑动窗口处理得到句子序列矩阵(该句子序列矩阵为第一矩阵的一个实例)。
具体的,在步骤502中,在一些实施例中,首先利用自然语言工具包NLTK(NaturalLanguage Toolkit)中的停用词列表获取被测者的原始回答中的停用词。停用词被非常频繁地使用,但是可以在不改变句子的含义的情况下被忽略。停用词(stop words)是指电脑检索中的虚字、非检索用字,包括使用十分广泛,甚至是过于频繁的一些词。比如英文的“i”、“is”、“a”、“the”,中文的“我”、“的”之类的词;还包括文本中出现频率很高,但实际意义又不大的词。比如语气助词、副词、介词、连词等,通常自身并无明确意义,只有将其放入一个完整的句子中才有一定作用的词语。例如常见的“的”、“在”、“和”、“接着”之类,比如“本申请讲解的是个关于抑郁症严重程度的技术方案”这句话中的“是”、“的”就是两个停用词。
在删除停用词之后,我们替换一些词和短语,例如用"what is"和"email"替换"what’s","e-mail",消除了相同词的不同表达。然后,采用WordNet引文器对句子中的单词进行引文,WordNet引文器删除变化词尾,并返回单词的基本形式。例如,当被测者的回答是“He hates communicating with people.”,其中的“hates”属于变化的词尾,本申请的技术方案,将其还原为单词的基本形式“hate”之后返回。单词词形还原后,使用分词器将原始句子拆分成单词列表并建立一个词汇表,词汇表的大小为7373。词汇表中的每个单词都有一个索引,或者单词列表可以由这些索引组成。在获得单词列表之后,用100D预训练的GloVe单词嵌入向量对单词列表中的每一个单词进行编码,得到每个单词为一个长度是100的向量Z表示,即向量Z==[n1,n2,n3,…,n100]。句子由单词组成,因而由单词向量的堆叠成为一句话,得到第三矩阵Ai∈AM×T,其中A表示所述第三矩阵,Ai表示所述第三矩阵中的特征,M表示所述句子中的所述单词个数,T表示所述句子中每个单词的长度,此时T=100。
接下来,面临的主要问题是:由于被测者在每个时间的回答不同,导致每个单词列表的长度不同。比如被测者在每次回答问题的时候,想多说点可能50个词,少说点可能10个词,其回答的句子长度不一致,但是对于一个神经网络来说,其结构是指定好的,每次有多少词作为输入须提前确定,即神经网络只能针对固定长度的输入进行处理,如果这些数据的长度不同,则不能批量处理这些数据。为了解决这个问题,本申请提出将滑动窗口应用到句子嵌入中,使得生成的序列具有相同的长度,即滑动窗口的长度M。且相邻的滑动窗口之间存在重叠,这为窗口边缘处的单词赋予了更大的权重,使得窗口边缘处的信息不被丢弃。滑动窗口不仅生成相同长度的序列,而且作为数据的扩充,可使模型集中于句子的特定部分。对于一些短句,滑动窗口的长度M大于句子的长度N,这导致生成的序列比窗口短。为了确保恒定的输入,将空缺的长度M-N部分用零进行填充。例如,假设滑动窗口的长度M=5,被测者说出“whats the weather today?”,该句子长度N=4,其中每个词对应一个1*100的向量。当句子的长度N(此实例中N=4)小于滑动窗口的长度M(此实例中M=4)时,需要在M-N的句子长度补上0的情况下,用(M-N)*100个(此实例中M-N=1,即1*100个)0组成的向量放在句子的最后,使得句子可以填充整个滑动窗口的大小。又例如,假设滑动窗口的长度M=5,被测者说出“The weather today is as bad as my mood.”,该句子长度N=9,其中每个词对应一个1*100的向量。当句子的长度N(此实例中N=9)大于滑动窗口的长度M(此实例中M=5)时,滑动窗口对该句子滑动预设长度L,假设L=3,即每隔三个词滑动一次窗口,依次得到如下句子“The weather today is as”、“is as bad as my”、“as my mood”所对应的向量,最后一个句子长度不足滑动窗口的长度,需在最后补2*100个0组成的向量。因此,得到第一矩阵Bi∈BN×T,所述第一矩阵为相同长度的句子序列,其中B表示所述第一矩阵,Bi表示所述第一矩阵中的特征,N表示所述滑动窗口的长度。此时B5×100
步骤503:对句子序列矩阵,使用至少一个Bi-LSTM分别基于正向LSTM和反向LSTM做并行处理,得到最终矩阵(该最终矩阵为第二矩阵的一个实例)。
具体的,在步骤503中,由Bi-LSTM模块1113对于提取自文本的标准矩阵,并行的使用至少一个由正向LSTM和反向LSTM组成的Bi-LSTM做处理,得到中间矩阵,中间矩阵由反向隐含状态序列的最后一个隐含状态序列h’0组成。Bi-LSTM的具体实施过程将在下文中做进一步的阐述。
步骤504:由全连接处理模块1114使用全连接网络对最终矩阵进行线性处理,以获得向量,根据向量确定抑郁症的严重程度。
具体的,在步骤504中,使用全连接网络对最终矩阵进行线性处理,得到由若干个元素组成的向量,其中向量中的每个元素表示被测者属于该种严重程度的概率,且向量中所有元素之和为1。例如,得到向量Y=[0.15,0.05,0.45,0.3,0.05],分别对应于抑郁症的严重程度为健康,轻度,中度,高度,重度。则取向量中元素的最大值作为确定该被测者抑郁症严重程度的结果输出,即输出被测者抑郁症严重程度概率最高的选项作为结果,在该例子中,则输出最大值0.45对应的“中度”作为检测该被测者抑郁症严重程度的结果。全连接网络的具体实施过程将在下文中做进一步的阐述。
以下,结合图6和图7对上述步骤503中实施的生成最终矩阵的具体过程和步骤504中实施的全连接层对最终矩阵进行线性处理的的具体过程做进一步的解释。
图6根据本申请的一些实施例,示出了一种如上所述的步骤503中Bi-LSTM的处理过程示意图,如图6所示,双向LSTM是由两个单独的LSTM模型组成的LSTM的变体。一个是正向LSTM,基于原始输入序列来训练,另一个是反向LSTM,在反向序列上训练。
具体的,如图6所示,使用不可训练的嵌入层通过指定由预训练的GloVe100D单词嵌入给出的嵌入的权重来将每个单词的索引序列映射到句子嵌入矩阵中,并且嵌入层的形状是(词汇表大小+1,100)。将嵌入层的输出馈送到归一化层中。然后,将归一化的结果馈送到Bi-LSTM中。Bi-LSTM的时间步长等于嵌入的维度。为了避免过拟合,丢失概率(dropoutprobability)是0.2。Bi-LSTM的输出的形状在每个时间步长是(批量大小,200)。假设在双向LSTM模型的正向和反向分别具有五个神经元(UNIT)神经元一、神经元二、神经元三、神经元四、神经元五。
在正向LSTM中,输入标准矩阵Bi∈BT×N的第一行即第一个单词“whats”x=(1,100)到神经元一,得到隐含状态1:h0=σ(wx+b),w为初始权重,可以为0或者一系列符合高斯分布的随机数,b为偏置项,设置初始值,训练时参数会自动更新。输入第一矩阵Bi∈BT×N的第二行即第二个单词“the”x=(2,100)到神经元二,得到隐含状态2:h1=σ(wix+whh0);wi为输入向量的权重,wh为隐含状态权重,可对以上两个参数进行预先设定。训练时会根据神经网络模型的训练方法比如反向传播算法去手动更新这个值,得到w’,这是在综合考虑了当前网络的输出和标签的差距之后,通过求导法则算出需要更新的网络模型的参数的量是多少,然后对模型进行手动更新,即w-特定的量=w’,新的参数将在下一次训练的过程中取代w和b,完成参数的迭代更新。输入第一矩阵Bi∈BT×N的第三行即第三个单词“weather”x=(3,100)到神经元三,同理得到隐含状态3:h2=σ(wix+whh1)。输入第一矩阵Bi∈BT×N的第四行即第四个单词“today”x=(4,100)到神经元四,同理得到隐含状态4:h3=σ(wix+whh2)。输入第一矩阵Bi∈BT×N的第四行即第五个单词空白x=(5,100)到神经元四,同理得到隐含状态5:h4=σ(wix+whh3)。其中,对于神经元一,用第一个单词作为输入,对于神经元二,用第二个单词作为输入,同时要第一个神经元输出的隐含状态作为输入,对于神经元三,用第三个单词作为输入,同时要第二个神经元输出的隐含状态作为输入,对于神经元四,用第四个单词作为输入,同时要第三个神经元输出的隐含状态作为输入,对于神经元五,用第五个单词作为输入,同时要第四个神经元输出的隐含状态作为输入。
在反向LSTM中,将标准矩阵进行上下翻转,得到翻转矩阵Ci∈CT×N,输入翻转矩阵Ci∈CT×N的第一行即第五个单词空白x=(5,100)到神经元一,得到隐含状态1:h0’=σ(wx+b),w为初始权重,可以为0或者一系列符合高斯分布的随机数,b为偏置项,设置初始值,训练时会手动更新。输入翻转矩阵Ci∈CT×N的第二行即第四个单词“today”x=(4,100)到神经元二,得到隐含状态2:h1’=σ(wix+whh0’)。输入翻转矩阵Ci∈CT×N的第三行即第三个单词“weather”x=(3,100)到神经元三,同理得到隐含状态3:h2’=σ(wix+whh1’)。输入翻转矩阵Ci∈CT×N的第四行即第二个单词“the”x=(2,100)到神经元四,同理得到隐含状态4:h3’=σ(wix+whh2’)。输入翻转矩阵Ci∈CT×N的第五行即第一个单词“whats”x=(1,100)到神经元五,同理得到隐含状态5:h4’=σ(wix+whh3’)。其中,对于神经元一,用第五个单词作为输入,对于神经元二,用第四个单词作为输入,同时要第一个神经元输出的隐含状态作为输入,对于神经元三,用第三个单词作为输入,同时要第二个神经元输出的隐含状态作为输入,对于神经元四,用第二个单词作为输入,同时要第三个神经元输出的隐含状态作为输入,对于神经元五,用第一个单词作为输入,同时要第四个神经元输出的隐含状态作为输入。
本申请中的技术方案,采用了Bi-LSTM的最后一个隐藏状态来表示整个序列的方法,简化了用于抑郁症网络模型的方法,降低了抑郁症严重程度确定的成本,且提高了确定的准确度,极大地降低了在抑郁症检测领域推广计算机辅助医疗技术的成本与难度。将LSTM的最后隐藏状态馈送到平坦化层中,使得我们减小时间轴并可以用以下线性层来处理序列。平坦层的输出被馈送到分别具有256和128个隐藏单元的两个线性层中。最后,具有五个隐藏单元的最后一个线性层和Softmax激活函数确定输入落入五个严重程度的概率。整个技术方案采用Adam优化器进行训练,初始学习率为0.001,β1=0.9,β2=0.999,ε=10-7。回调函数监测验证损失。如果验证损失在5个时期内没有显著变化,则回调函数停止训练过程。交叉熵损失测量输出和真实标记之间的距离。
图7根据本申请的一些实施例,示出了一种如上所述的步骤410中全连接网络线性处理过程的示意图。如图7所示,在得到最终矩阵之后,需要对通过全局平均池层对其进行下采样。具体的,沿着最终矩阵中特征映射的时间维度滑动,即沿着最终矩阵的列,步长T的方向计算每个矩阵元素的平均值,这确保了本申请中提出的模型在时间维度上进行展开,考虑了每个时步之间的关系。然后将全局平均池化层的输出馈送到具有128和64个隐藏单元的以下两个线性层中。最后,线性层的输出成为具有5个隐藏单元的另一线性层的输入。Softmax函数用作最后的线性层中的非线性激活。可选的,Softmax函数的输出是由落入五个等级的概率组成的向量Z=(z1,z2,z3,z4,z5),可选择向量中的元素的最大值来确定抑郁症的严重程度。
上述实施例中,通过使用单词表示的全局向量来执行单词嵌入,提出滑动窗口以及应用于文本的Bi-LSTM的模型,使得不同长度的句子均可处理成特定长度的序列输入到神经网络中进行处理,且利用正向和反向的双向LSTM的组合来学习文本分类中的更多上下文信息,通过对被测者声音及输入文本的处理,采用端到端的训练方式,即从输入到最后形成检测结果,期间无需人工干预,实现对被测者的抑郁严重程度进行直接确定,而不受限医生主观判断的影响,同时在精神压力访谈语料库(Distress Analysis Interview Corpus,DAIC-WOZ数据集上实现了0.9677的F1得分,判断结果有显著改进,且具有较强的抗噪能力。
为了验证以上技术效果,我们也进行了大量的实验验证,首先,在测试阶段,基于自我报告问卷,将被测者分为抑郁、创伤后应激障碍(PTSD)和焦虑三个类别。访谈持续5-20分钟,可以分成三个阶段。以中立问题开始,目的是在被测者和访问者之间建立信任,也使被测者感觉放松。随后是目标阶段,并且访问者所提问的问题与抑郁和PTSD的症状更加相关。最后,访谈终止于“退火”阶段,这有助于被测者摆脱困扰的状态。以从0至24的范围,PHQ-8决定了精神障碍的严重程度。被测者分为五个类别,并且五个类别(健康、轻度、中度、高度和重度)的临界值分别为0、5、10、15、20。其中,在精神压力访谈语料库(DistressAnalysis Interview Corpus,DAIC-WOZ数据集的测试分区上的准确度、精密度、召回和F1得分的量度示于表1-本申请提出的文本模型的结果中。
表1
Figure GDA0004201166240000161
在实验中,使用了NLTK以去除音频转录本中的停用词。除了停用词之外,另一个因素是LSTM和Bi-LSTM模型之间的选择。与单向LSTM模型相比,双向LSTM模型收敛速度更快,验证准确度更高。下面的实验证明了Bi-LSTM模型相对于传统LSTM模型在抑郁症等级分类任务上的几个优点。用表1中所示的不同配置训练四个模型。
从表示准确度、精密度、召回和F1得分的表1中可以得出结论,即,如果LSTM的方向数目是固定的(例如,两个模型都是LSTM模型和Bi-LSTM模型),则没有停用词的模型的性能更好。如果保留停用词,则Bi-LSTM模型仍然优于传统模型。这一结果与我们的预期相符,即Bi-LSTM在文本分类方面更好,因为它利用正向和反向网络的组合来学习更多的上下文信息。
对于本申请中提出的模型,性能因不同的配置而不同。我们研究了四种不同模型配置的接受者操作特征(ROC)曲线。图8a示出了当使用单向LSTM模型且无停用词是的ROC;此时,微观平均AUC为0.9897。图8b示出了当使用单向LSTM模型且有停用词是的ROC;此时,微观平均AUC为0.9738。图8c示出了当使用本申请提出的双向LSTM模型且无停用词是的ROC;此时,微观平均AUC为0.9925。图8d示出了当使用本申请提出的双向LSTM模型且有停用词是的ROC;此时,微观平均AUC为0.9908。图中显示了每一类别的AUC,"严重"的AUC小于任何其它抑郁症水平,这表明模型正确区分严重抑郁症于其它抑郁症水平更具挑战性。这可能归因于当被测者遭受的痛苦越严重时,变得越向内,这意味着在访谈期间被测者和临床医生之间的互动越少。另外,在抑郁人群中回答之间的停顿时间也比通常长。严重程度抑郁症被测者正在一段时间内的文本特征少于那些患有轻微症状的被测者。为了验证我们的假设,我们统计了原始访谈记录和转录文本。将原始音频和转录得到的文本按其PHQ-8分为两组,对照组和实验组的分数界限为9。如果参与者的PHQ8小于或等于9,则认为他们是正常的或轻度的(对照组)。否则,它们被认为是中度或重度的(实验组)。
表2中列出了两个组的统计信息。对照和实验组的音频持续时间和句子长度的直方图在图9中示出。
表2
Figure GDA0004201166240000171
如表3和图9所示,对照组和实验组的回答持续时间分别为1003.8350±305.9030秒和936.3534±249.8590秒。两侧T测试被应用于测试在对照组和实验组中的音频持续时间是否存在显著差异。两尾p值为0.1163。对照组和实验组的句长分别为8.3226±8.4243和8.7410±8.9237。两侧T测试被应用于测试在对照组和实验组中的音频持续时间是否存在显著差异。双尾p值为4.5705×10-5。上述结果表明,对照组和实验组的音频持续时间没有显著差异。然而,对照组和实验组的句长显著不同。在实验组中存在更多由少于5个单词组成的更短的回答。由于对照组和实验组之间的音频持续时间具有相同的平均值,我们可以得出结论:实验组的会话中有更多的停顿。
滑动窗口的大小是影响模型性能的另一个因素。直观地说,滑动窗口越长,其包含的关于参与者的状态的信息越多,这意味着我们的模型可以更准确地评估他们的情绪。然而,如果滑动窗口太长,在进行推断的同时,不能被忽略噪声的影响,这导致分类器性能的显著降低。为了演示性能与滑动窗口大小之间的关系,我们通过改变滑动窗口大小进行了实验。表3示出了具有不同的滑动窗口大小的文本模型的结果。表3表明,随着窗口大小的增加,准确度、精密度、召回和F1分数首先增加,但是在窗口大小大于64之后开始减小。这与我们的预期一致:分类器由于较大的滑动窗口而获得大量信息,但是由于大滑动窗口中的噪声而开始降级。在实验中,最佳滑动窗口大小为64。
表3
Figure GDA0004201166240000181
对于文本模态,由Bi-LSTM和三个完全连接层组成的模型在测试集上实现了最佳结果:F1得分=0.9677。此外,我们还进行了实验来研究文本模型超参数(如窗口大小和停用词的去除)的影响。我们发现最佳滑动窗口大小是64。在实验中,我们研究了停用词的效果,结果表明,如果预先删除停用词,则文本模型表现更好。
根据本申请的一些实施例,提供了一种确定被测者的抑郁症严重程度的装置600,图10根据本申请的一些实施例,示出了一种确定被测者的抑郁症严重程度的装置的结构示意图。如图10所示,确定被测者的抑郁症严重程度的装置600如下:
接收模块601,接收与被测者关联的用于确定抑郁症的文本;
处理模块602,对提取自文本的第一矩阵,使用至少一个双向长短期记忆模型分别基于正向长短期记忆模型和反向长短期记忆模型做并行处理,得到第二矩阵,其中,第二矩阵包括文本数据的特征数据;
输出模块603,将第二矩阵处理成向量,并根据向量确定被测者的抑郁症严重程度。
第一实施方式是与本实施方式相对应的方法实施方式,本实施方式可与第一实施方式互相配合实施。第一实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在第一实施方式中。
本申请的第三实施方式涉及一种确定被测者的抑郁症严重程度的设备,包括:
存储器,用于存储由系统的一个或多个处理器执行的指令,以及
处理器,是系统的处理器之一,用于执行所述指令以实施上述第一方面的任意一种可能的方法。
第一实施方式是与本实施方式相对应的方法实施方式,本实施方式可与第一实施方式互相配合实施。第一实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在第一实施方式中。
本申请的第四实施方式涉及一种使用计算机程序编码的计算机存储介质,计算机可读介质上存储有指令,该指令在计算机上执行时可以使计算机执行上述第一方面的任意一种可能的方法。
第一实施方式是与本实施方式相对应的方法实施方式,本实施方式可与第一实施方式互相配合实施。第一实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在第一实施方式中。
需要说明的是,本申请的各方法实施方式均可以以软件、硬件、固件等方式实现。不管本申请是以软件、硬件、还是固件方式实现,指令代码都可以存储在任何类型的计算机可访问的存储器中(例如永久的或者可修改的,易失性的或者非易失性的,固态的或者非固态的,固定的或者可更换的介质等等)。同样,存储器可以例如是可编程阵列逻辑(Programmable Array Logic,简称“PAL”)、随机存取存储器(Random Access Memory,简称“RAM”)、可编程只读存储器(Programmable Read Only Memory,简称“PROM”)、只读存储器(Read-Only Memory,简称“ROM”)、电可擦除可编程只读存储器(Electrically ErasableProgrammable ROM,简称“EEPROM”)、磁盘、光盘、数字通用光盘(Digital Versatile Disc,简称“DVD”)等等。
需要说明的是,本申请各设备实施方式中提到的各单元/模块都是逻辑单元/模块,在物理上,一个逻辑单元可以是一个物理单元,也可以是一个物理单元的一部位,还可以以多个物理单元的组合实现,这些逻辑单元本身的物理实现方式并不是最重要的,这些逻辑单元所实现的功能的组合才是解决本申请所提出的技术问题的关键。此外,为了突出本申请的创新部位,本申请上述各设备实施方式并没有将与解决本申请所提出的技术问题关系不太密切的单元引入,这并不表明上述设备实施方式并不存在其它的单元。
需要说明的是,在本专利的权利要求和说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
虽然通过参照本申请的某些优选实施方式,已经对本申请进行了图示和描述,但本领域的普通技术人员应该明白,可以在形式上和细节上对其作各种改变,而不偏离本申请的精神和范围。

Claims (18)

1.一种确定被测者的抑郁症严重程度的装置,其特征在于,包括:
接收模块,接收与所述被测者关联的用于确定抑郁症的文本,其中所述文本形成文本信息;
处理模块,对提取自所述文本的第一矩阵,使用至少一个双向长短期记忆模型分别基于正向长短期记忆模型和反向长短期记忆模型做并行处理,得到第二矩阵,其中,所述第二矩阵包括所述文本信息的特征数据;
输出模块,将所述第二矩阵处理成向量,并根据所述向量确定所述被测者的所述抑郁症严重程度;
其中,使用至少一个双向长短期记忆模型分别基于正向长短期记忆模型和反向长短期记忆模型做并行处理,得到第二矩阵,进一步包括:
将所述第一矩阵输入所述正向长短期记忆模型,得到正向隐含状态序列[h0,h1,h2,……,hn];
将所述第一矩阵上下翻转得到翻转矩阵;
将所述翻转矩阵输入所述反向长短期记忆模型,得到反向隐含状态序列[h’n,h’n-1,h’n-2,……,h’0];
其中,所述第二矩阵为所述反向隐含状态序列的最后一个隐含状态序列h’0
2.根据权利要求1所述的装置,其特征在于,所述第一矩阵是对所述文本进行预处理得到的矩阵。
3.根据权利要求2所述的装置,其特征在于,对所述文本进行预处理,包括:
从所述文本中获取第三矩阵Ai∈AM×T,所述第三矩阵表示所述文本中句子的嵌入,其中A表示所述第三矩阵,Ai表示所述第三矩阵中的特征,M表示所述句子中的单词个数,T表示所述句子中每个单词的长度;
使用滑动窗口每次对所述第三矩阵滑动预设长度L,得到所述第一矩阵Bi∈BN×T,所述第一矩阵为相同长度的句子序列,其中B表示所述第一矩阵,Bi表示所述第一矩阵中的特征,N表示所述滑动窗口的长度。
4.根据权利要求3所述的装置,其特征在于,所述预设长度L小于所述滑动窗口的长度N,使得所述滑动窗口之间存在重叠。
5.根据权利要求3所述的装置,其特征在于,当所述滑动窗口的长度N大于所述句子的长度M时,将空缺的长度M-N部分用零进行填充。
6.根据权利要求3所述的装置,其特征在于,从所述文本中获取第三矩阵,包括:
建立词汇表,并将所述文本中的句子拆成单词列表,其中所述每个单词用长度为T的向量Z表示;
对所述单词列表中的所述每个单词进行编码,得到所述第三矩阵。
7.根据权利要求6所述的装置,其特征在于,还包括:删除所述文本中的停用词。
8.根据权利要求6所述的装置,其特征在于,还包括:还原所述文本中单词的基本形式。
9.根据权利要求7所述的装置,其特征在于,所述停用词是利用自然语言工具包NLTK中的停用词列表从所述被测者的所述文本中获取的词。
10.根据权利要求8所述的装置,其特征在于,还原所述文本中单词的基本形式,包括以下的一个或多个:将所述单词的缩写、变化的词尾等不同的表达方式,还原所述单词的基本形式。
11.根据权利要求10所述的装置,其特征在于,还原所述文本中单词的基本形式,具体为:采用WordNet引文器对所述单词进行引文,所述WordNet引文器删除所述变化的词尾,并返回所述单词的基本形式。
12.根据权利要求6所述的装置,其特征在于,对所述单词列表中的所述每个单词进行编码,包括:使用GloVe单词嵌入向量对所述单词列表中的所述每个单词进行编码,其中,所述GloVe单词嵌入向量使用100D预训练。
13.根据权利要求1所述的装置,其特征在于,所述文本包括以下的一个或多个:
所述被测者朗读特定文本发出的声音转录成的文本,其中所述特定文本来源于精神压力语料库中的所述被测者和访问者之间的访谈,
所述被测者基于特定问题的口头回答发出的声音转录成的文本,其中所述特定问题来源于所述精神压力语料库中的所述访问者提问的问题,
所述被测者基于所述特定问题的文字回答。
14.根据权利要求1所述的装置,其特征在于,将所述第二矩阵处理成向量,包括:
使用全连接网络对所述第二矩阵进行线性处理,以获得所述向量。
15.根据权利要求1所述的装置,其特征在于,根据所述向量确定所述被测者的所述抑郁症严重程度,包括:
根据所述向量的元素的值来确定所述抑郁症严重程度。
16.根据权利要求1所述的装置,其特征在于,根据所述向量确定所述被测者的所述抑郁症严重程度,包括:
根据所述向量包含的元素中的最大值来确定所述抑郁症严重程度。
17.一种确定被测者的抑郁症严重程度的设备,其特征在于,包括:
存储器,用于存储由系统的一个或多个处理器执行的指令,以及
处理器,是系统的处理器之一,用于执行以下指令:
接收与所述被测者关联的用于确定抑郁症的文本,其中所述文本形成文本信息;
对提取自所述文本的第一矩阵,使用至少一个双向长短期记忆模型分别基于正向长短期记忆模型和反向长短期记忆模型做并行处理,得到第二矩阵,其中,所述第二矩阵包括所述文本信息的特征数据;
将所述第二矩阵处理成向量,并根据所述向量确定所述被测者的所述抑郁症严重程度;
其中,使用至少一个双向长短期记忆模型分别基于正向长短期记忆模型和反向长短期记忆模型做并行处理,得到第二矩阵,进一步包括:
将所述第一矩阵输入所述正向长短期记忆模型,得到正向隐含状态序列[h0,h1,h2,……,hn];
将所述第一矩阵上下翻转得到翻转矩阵;
将所述翻转矩阵输入所述反向长短期记忆模型,得到反向隐含状态序列[h’n,h’n-1,h’n-2,……,h’0];
其中,所述第二矩阵为所述反向隐含状态序列的最后一个隐含状态序列h’0
18.一种使用计算机程序编码的计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有指令,所述指令在计算机上执行时使所述计算机执行以下方法:
接收与被测者关联的用于确定抑郁症的文本,其中所述文本形成文本信息;
对提取自所述文本的第一矩阵,使用至少一个双向长短期记忆模型分别基于正向长短期记忆模型和反向长短期记忆模型做并行处理,得到第二矩阵,其中,所述第二矩阵包括所述文本信息的特征数据;
将所述第二矩阵处理成向量,并根据所述向量确定所述被测者的抑郁症严重程度;
其中,使用至少一个双向长短期记忆模型分别基于正向长短期记忆模型和反向长短期记忆模型做并行处理,得到第二矩阵,进一步包括:
将所述第一矩阵输入所述正向长短期记忆模型,得到正向隐含状态序列[h0,h1,h2,……,hn];
将所述第一矩阵上下翻转得到翻转矩阵;
将所述翻转矩阵输入所述反向长短期记忆模型,得到反向隐含状态序列[h’n,h’n-1,h’n-2,……,h’0];
其中,所述第二矩阵为所述反向隐含状态序列的最后一个隐含状态序列h’0
CN202110592589.9A 2021-05-28 2021-05-28 一种确定被测者的抑郁症严重程度的装置 Active CN113241178B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110592589.9A CN113241178B (zh) 2021-05-28 2021-05-28 一种确定被测者的抑郁症严重程度的装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110592589.9A CN113241178B (zh) 2021-05-28 2021-05-28 一种确定被测者的抑郁症严重程度的装置

Publications (2)

Publication Number Publication Date
CN113241178A CN113241178A (zh) 2021-08-10
CN113241178B true CN113241178B (zh) 2023-06-27

Family

ID=77135565

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110592589.9A Active CN113241178B (zh) 2021-05-28 2021-05-28 一种确定被测者的抑郁症严重程度的装置

Country Status (1)

Country Link
CN (1) CN113241178B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113641792B (zh) * 2021-08-13 2023-11-21 南开大学 基于并行化零冗余长短期记忆网络的文本处理方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109801706B (zh) * 2018-12-12 2020-11-10 清华大学 心理压力问题的感知方法及装置
CN110301920B (zh) * 2019-06-27 2020-06-02 清华大学 用于心理压力检测的多模态融合方法及装置
CN110459324B (zh) * 2019-06-27 2023-05-23 平安科技(深圳)有限公司 基于长短期记忆模型的疾病预测方法、装置和计算机设备
CN111513732A (zh) * 2020-04-29 2020-08-11 山东大学 面向疫病状况下多类人群的心理压力智能评估预警系统
CN112168188B (zh) * 2020-10-09 2023-07-25 北京中科心研科技有限公司 一种用于压力检测数据的处理方法和装置

Also Published As

Publication number Publication date
CN113241178A (zh) 2021-08-10

Similar Documents

Publication Publication Date Title
Ringeval et al. AVEC 2019 workshop and challenge: state-of-mind, detecting depression with AI, and cross-cultural affect recognition
Ringeval et al. AVEC 2018 workshop and challenge: Bipolar disorder and cross-cultural affect recognition
Schuller et al. Paralinguistics in speech and language—state-of-the-art and the challenge
Zhang et al. Multimodal deep learning framework for mental disorder recognition
JP2022553749A (ja) 速度ベースのスクリーニング及び挙動の健康状態の監視のための音響及び自然言語処理モデル
CN111415740A (zh) 问诊信息的处理方法、装置、存储介质及计算机设备
Sultana et al. SUST Bangla Emotional Speech Corpus (SUBESCO): An audio-only emotional speech corpus for Bangla
Wu et al. Automatic depression recognition by intelligent speech signal processing: A systematic survey
Mao et al. Prediction of depression severity based on the prosodic and semantic features with bidirectional LSTM and time distributed CNN
CN113380271B (zh) 情绪识别方法、系统、设备及介质
Qian et al. Computer audition for fighting the sars-cov-2 corona crisis—introducing the multitask speech corpus for covid-19
CN111192659A (zh) 用于抑郁检测的预训练方法和抑郁检测方法及装置
Tseng et al. Approaching Human Performance in Behavior Estimation in Couples Therapy Using Deep Sentence Embeddings.
CN113241178B (zh) 一种确定被测者的抑郁症严重程度的装置
Jaddoh et al. Interaction between people with dysarthria and speech recognition systems: A review
Flores et al. Transfer learning for depression screening from follow-up clinical interview questions
Yadav et al. Review of automated depression detection: Social posts, audio and video, open challenges and future direction
Meteyard et al. Lexico-semantics
Lu et al. Prediction of Depression Severity Based on Transformer Encoder and CNN Model
Danner et al. Advancing Mental Health Diagnostics: GPT-Based Method for Depression Detection
Jo et al. Diagnosis of depression based on four-stream model of bi-LSTM and CNN from audio and text information
McTear et al. Affective conversational interfaces
Zhou et al. Hierarchical Multifeature Fusion via Audio-Response-Level Modeling for Depression Detection
Paccotacya-Yanque et al. A speech corpus of Quechua Collao for automatic dimensional emotion recognition
Singh et al. Analyzing machine learning algorithms for speech impairment related issues

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant