CN116687410B - 一种慢性病患者的述情障碍评估方法和系统 - Google Patents
一种慢性病患者的述情障碍评估方法和系统 Download PDFInfo
- Publication number
- CN116687410B CN116687410B CN202310967558.6A CN202310967558A CN116687410B CN 116687410 B CN116687410 B CN 116687410B CN 202310967558 A CN202310967558 A CN 202310967558A CN 116687410 B CN116687410 B CN 116687410B
- Authority
- CN
- China
- Prior art keywords
- representing
- text
- data
- frequency
- affective disorder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000001684 chronic effect Effects 0.000 title claims abstract description 46
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000004064 dysfunction Effects 0.000 title claims description 11
- 208000019022 Mood disease Diseases 0.000 claims abstract description 61
- 208000017194 Affective disease Diseases 0.000 claims abstract description 59
- 230000007246 mechanism Effects 0.000 claims abstract description 19
- 238000013528 artificial neural network Methods 0.000 claims abstract description 18
- 230000015654 memory Effects 0.000 claims abstract description 16
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 9
- 238000007477 logistic regression Methods 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims abstract description 7
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 208000017667 Chronic Disease Diseases 0.000 claims description 27
- 239000011159 matrix material Substances 0.000 claims description 24
- 210000004027 cell Anatomy 0.000 claims description 19
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 13
- 208000035475 disorder Diseases 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 12
- 238000001228 spectrum Methods 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 11
- 210000002569 neuron Anatomy 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 7
- 230000006403 short-term memory Effects 0.000 claims description 6
- 230000003595 spectral effect Effects 0.000 claims description 6
- 230000002457 bidirectional effect Effects 0.000 claims description 5
- 230000014509 gene expression Effects 0.000 claims description 5
- 230000002441 reversible effect Effects 0.000 claims description 5
- 230000007787 long-term memory Effects 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims description 2
- 206010013886 Dysaesthesia Diseases 0.000 claims description 2
- 238000001914 filtration Methods 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 208000035824 paresthesia Diseases 0.000 claims description 2
- 230000004044 response Effects 0.000 claims description 2
- 238000011156 evaluation Methods 0.000 abstract description 9
- 230000008569 process Effects 0.000 abstract description 7
- 230000000694 effects Effects 0.000 description 8
- 230000008451 emotion Effects 0.000 description 7
- 230000008901 benefit Effects 0.000 description 4
- 231100000749 chronicity Toxicity 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 208000019901 Anxiety disease Diseases 0.000 description 3
- 230000036506 anxiety Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 239000003086 colorant Substances 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 201000008090 alexithymia Diseases 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 208000020016 psychiatric disease Diseases 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 208000006545 Chronic Obstructive Pulmonary Disease Diseases 0.000 description 1
- 208000030814 Eating disease Diseases 0.000 description 1
- 208000019454 Feeding and Eating disease Diseases 0.000 description 1
- 208000011688 Generalised anxiety disease Diseases 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 208000020832 chronic kidney disease Diseases 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 206010012601 diabetes mellitus Diseases 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 235000014632 disordered eating Nutrition 0.000 description 1
- 208000029364 generalized anxiety disease Diseases 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 208000019906 panic disease Diseases 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000000392 somatic effect Effects 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 230000002103 transcriptional effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/16—Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/16—Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
- A61B5/167—Personality evaluation
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/48—Other medical applications
- A61B5/4803—Speech analysis specially adapted for diagnostic purposes
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7235—Details of waveform analysis
- A61B5/7264—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Abstract
本发明公开了一种慢性病患者的述情障碍评估方法和系统,属于数据处理技术领域,方法包括:获取语音数据集;对语音数据进行预处理;提取预处理后的语音数据的声学特征;通过卷积神经网络,根据预处理后的声学特征,将语音数据转化为文本数据;提取文本数据中可用于评估述情障碍的文本特征,并将文本特征组成文本特征序列;通过基于注意力机制的双向长短时记忆神经网络,对文本特征序列进行加权求和,得到整体文本特征;通过逻辑回归算法,根据整体文本特征进行分类,评估慢性病患者是否存在述情障碍;获取待评估慢性病患者的语音数据;输出述情障碍评估结果。在此过程中,不会受到主观因素的影响,提升了述情障碍评估的一致性以及准确性。
Description
技术领域
本发明属于数据处理技术领域,具体涉及一种慢性病患者的述情障碍评估方法和系统。
背景技术
述情障碍(Alexithymia)是以当事人不能准确识别他人情绪,不能完整描述自我情绪和外向性思维,缺乏想象力、思维过于具体和僵化为其特征的一组临床症状,也是一种涉及情感——认知两方面的基础人格特质。目前述情障碍尚未收录在美国精神病学会第五版《精神疾病诊断与统计手册》(DSM-5)中,但诸多研究发现,述情障碍是心境障碍、惊恐障碍、进食障碍、广泛性焦虑障碍、 功能性躯体不适和心身疾病发生发展过程的重要危险因素。作为一种人格特质,述情障碍可能与慢性病的发生、发展有关。另一方面,述情障碍对慢性病的发展过程和患者心理状况存在潜在影响,可能降低临床治疗效果。
慢性阻塞性肺疾病、慢性肾脏病、糖尿病、肿瘤等慢性病患者由于长期病痛折磨以及疾病带来的经济、社会、家庭负担,在治疗过程中会逐渐形成焦虑、抑郁等负面情绪。由于“病耻感”以及较低的就医意识,早期发生焦虑和抑郁的慢性病患者往往存在述情障碍,抵触心理咨询,也不愿意向家属及医护人员求助,逐渐积累到重度焦虑和重度抑郁的程度,心理因素会严重干扰治疗效果,影响生存质量。
传统的心理评估方法主要采用心理学自陈量表,如多伦多述情障碍量表(TorontoAlexithymia Scale,TAS-20)、伯克利情绪表达量表(Berkeley ExpressivityQuestionnaire,BEQ)等,由患者自行回答问卷,之后依赖于医生、护士或心理咨询专业人员的根据自陈量表的主观判断来确定患者的心理状况以及是否具有述情障碍。一方面,患者在填写心理学自陈量表时容易隐瞒真实情况,另一方面,医生、护士或心理咨询专业人员在评估时会受到主观因素以及工作经验的影响,导致述情障碍评估一致性以及准确性差。
发明内容
为了解决现有技术中述情障碍评估一致性以及准确性差的技术问题,本发明提供一种慢性病患者的述情障碍评估方法和系统。
第一方面
本发明提供了一种慢性病患者的述情障碍评估方法,包括:
S101:获取语音数据集,所述语音数据集包括多个已被评估为述情障碍的慢性病患者的语音数据以及多个未被评估为述情障碍的慢性病患者的语音数据;
S102:对语音数据进行预处理;
S103:提取预处理后的语音数据的声学特征;
S104:通过卷积神经网络,根据预处理后的语音数据的声学特征,将语音数据转化为文本数据;
S105:提取文本数据中可用于评估述情障碍的文本特征,并将文本特征组成文本特征序列;
S106:通过基于注意力机制的双向长短时记忆神经网络,对文本特征序列进行加权求和,得到整体文本特征;
S107:通过逻辑回归算法,根据整体文本特征对文本数据进行分类,评估慢性病患者是否存在述情障碍,完成模型训练;
S108:获取待评估慢性病患者的语音数据;
S109:重复S102至S107,输出所述待评估慢性病患者的述情障碍评估结果。
第二方面
本发明提供了一种慢性病患者的述情障碍评估系统,用于执行第一方面中的慢性病患者的述情障碍评估方法。
与现有技术相比,本发明至少具有以下有益技术效果:
在本发明中,获取多个已被评估为述情障碍的慢性病患者的语音数据,将语音数据转化为文本数据,之后从文本数据中提取出可用于评估述情障碍的文本特征,通过基于注意力机制的双向长短时记忆神经网络以及逻辑回归算法,根据文本特征评估慢性病患者是否存在述情障碍,完成模型训练,之后获取待评估慢性病患者的语音数据,重复上述步骤输出待评估慢性病患者的述情障碍评估结果。在此过程中,不会受到主观因素的影响,提升了述情障碍评估的一致性以及准确性,便于早期发现、早期干预患者的述情障碍,改善患者的心理状态。
附图说明
下面将以明确易懂的方式,结合附图说明优选实施方式,对本发明的上述特性、技术特征、优点及其实现方式予以进一步说明。
图1是本发明提供的一种慢性病患者的述情障碍评估方法的流程示意图;
图2是本发明提供的一种慢性病患者的述情障碍评估方法的结构示意图。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
为使图面简洁,各图中只示意性地表示出了与发明相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
在本文中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接。可以是机械连接,也可以是电连接。可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
另外,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
实施例1
在一个实施例中,参考说明书附图1,示出了本发明提供的慢性病患者的述情障碍评估方法的流程示意图。参考说明书附图2,示出了本发明提供的一种慢性病患者的述情障碍评估方法的结构示意图。
本发明提供的一种慢性病患者的述情障碍评估方法,包括:
S101:获取语音数据集。
其中,语音数据集包括多个已被评估为述情障碍的慢性病患者的语音数据以及多个未被评估为述情障碍的慢性病患者的语音数据。
需要说明的是,语音数据集中的已被评估为述情障碍的慢性病患者主要是通过现有的心理学自陈量表,如多伦多述情障碍量表、伯克利情绪表达量表等进行评估。由患者自行回答问卷,之后依赖于医生、护士或心理咨询专业人员的根据自陈量表来评估患者是否具有述情障碍。可以理解的是,通过心理学自陈量表进行评估是当前现有技术中相对准确的述情障碍评估方式,用此方法对训练样本添加是否具有述情障碍的标签,可以提升后续的模型训练的准确性。
可选地,通过慢性病患者在应用程序中的语音咨询,以获取慢性病患者的语音数据。
可选地,通过在面对面谈话中对慢性病患者的话语进行录音,以获取慢性病患者的语音数据。
S102:对语音数据进行预处理。
具体而言,预处理包括:降噪、声音增益、音频预加重、语音端点检测和语音正则化等。
在本发明中,引入一种特别的预处理方式,以抑制由于不同慢性病患者的音色不同对于同一句话、同一个字词发音的影响。
在一种可能的实施方式中,S102具体包括子步骤S1021至S1024:
S1021:获取语音数据的原始频谱数据A(f, t)。
S1022:为原始频谱数据中的每对时间与频率组合生成一个范围在-1和1之间的随机数rand(f,t):
其中,f表示频率,t表示时间。
其中,生成范围在-1和1之间的随机数是为了在预处理过程中引入一定的随机性和变化性。这样做的目的是增加语音数据的多样性,以提高模型的泛化能力和对不同慢性病患者、不同音色的适应能力。
S1023:对预设时频区域范围内的随机数进行平均,计算得到扰动参数δ(f, t):
其中,λ表示扰动幅度参数,p表示频域范围参数,q表示时域范围参数。
进一步地,设置扰动幅度参数λ可以控制扰动的幅度,设置频域范围参数p和时域范围参数q可以平滑频率轴和时间轴的随机性。
S1024:根据扰动参数δ(f, t)对原始频谱数据A(f, t)进行预处理:
其中,表示预处理后的频谱数据。
需要说明的是,由于不同的慢性病患者、说话场景和语气情绪等因素,即使是同一句话、同一个慢性病患者,其说话的语速和咬字也往往是不完全一样的,在语音识别之前通过扰动参数对语音数据进行预处理,对每一句语音数据通过随机生成的扰动参数对频谱进行扭曲,可以抑制由于不同慢性病患者的音色不同对于同一句话、同一个字词发音的影响,提高对于不同音色的语句识别的鲁棒性,增强语音识别的准确性。
S103:提取预处理后的语音数据的声学特征。
其中,常见的特征包括梅尔频率倒谱系数(MFCC)、梅尔频谱包络(Melspectrogram)、线性预测编码(LPC)等。
在一种可能的实施方式中,S103具体包括子步骤S1031至S1034:
S1031:对语音数据的频谱数据进行快速傅里叶变换,得到功率谱数据。
其中,快速傅里叶变换(Fast Fourier Transform,FFT)是一种高效的计算离散傅里叶变换(Discrete Fourier Transform,DFT)的算法。傅里叶变换是一种信号处理技术,用于将时域信号转换为频域表示。它将一个连续或离散的时域信号分解成一组正弦和余弦函数(频域分量),表示每个频率成分在信号中的存在程度。
S1032:通过Mel滤波器对功率谱数据进行滤波,输出功率谱数据的对数能量Em:
其中,N表示总频率,X(k)表示频率为k时的输入信号值,Hm(k)表示滤波器的频率响应。
其中,Hm(k)的表示式为:
其中,k表示线性频率轴上的频率,m表示滤波器的索引值,表示第m个频带的频率。
需要说明的是,将功率谱数据转换为对数能量(log energy)可以提供一种更具有稳定性、与人耳感知更加一致以及更具鲁棒性的声学特征表示。
S1033:对对数能量Em进行离散余弦变换,得到MFCC系数:
其中,Cn表示第n个MFCC系数,m表示滤波器的索引值,M表示滤波器的数量,L为正整数。
S1034:对MFCC系数进行动态参数提取,得到声学特征向量D={dn}:
其中,dn表示第n个一阶差分,Q表示MFCC系数的阶数,T表示一阶导数的时间差,i表示一阶导数的时间差T的具体取值,i为1或2。
其中,通过计算一阶差分或更高阶差分,可以捕捉到特征在时间上的变化,提供了关于音素边界和语音运动的有用信息。
需要说明的是,通过对MFCC系数进行动态参数提取,可以获得更具有表达能力和鲁棒性的声学特征表示,提高语音识别和语音相关任务的性能。动态参数提取是语音信号处理中常用的技术,常用的方法包括一阶差分、二阶差分和加速度等。
S104:通过卷积神经网络,根据预处理后的语音数据的声学特征,将语音数据转化为文本数据。
具体而言,可以采用隐马尔可夫模型(Hidden Markov Model,HMM)、深度神经网络(Deep Neural Network,DNN)和转录注意力模型(Transducer Attention Model)等对语音咨询进行识别,将语音数据转化为文本数据。模型训练的目标是最大化语音特征与对应文本转录之间的匹配度,以使模型能够准确地预测语音的文本转录。
在一种可能的实施方式中,提供一种基于卷积神经网络的语音识别方法,并且在卷积神经网络引入软阈值抑制低幅度的噪声,保留高幅度的语音信号,S104具体包括子步骤S1041至S1046:
S1041:构建卷积神经网络。
其中,卷积神经网络主要包括卷积层、池化层、激活函数层、全连接层、Dropout层等。
S1042:将声学特征通过卷积层得到粗糙特征值。
其中,将声学特征作为输入,通过卷积层进行特征提取。卷积层使用一组可学习的滤波器(卷积核)对输入数据进行卷积操作,从而提取出粗糙的特征值。每个滤波器会检测输入数据中的不同局部特征,并生成相应的特征映射。
S1043:将粗糙特征值通过池化层进行池化处理。
其中,对经过卷积层得到的特征值进行池化操作。池化层的作用是减小特征映射的空间维度,保留主要的特征信息。常用的池化操作包括最大池化和平均池化。通过池化操作,可以降低数据的维度,减少参数数量,以及提取出更加鲁棒的特征。
S1044:重复S1042和S1043,得到精细特征值a。
其中,可以通过多次堆叠卷积层和池化层,进一步提取更加抽象和精细的特征。这种层层堆叠的方式有助于逐渐增加模型的精度,从而提取出更精细的语音特征。
S1045:对精细特征值a通过软阈值进行去噪,得到结果数据b:
。
其中,软阈值是一种非线性函数,可以抑制低幅度的噪声,保留高幅度的语音信号。通过应用软阈值函数,可以去除精细特征中的噪声成分,得到更加干净和准确的结果数据。
S1046:对结果数据b进行解码,输出语音识别结果。
具体而言,可以通过隐马尔可夫模型解码器、基于混合高斯模型的HMM解码器、基于深度神经网络的HMM解码器、端到端解码器和基于注意力机制的解码器等进行解码。
在一种可能的实施方式中,软阈值的确定方式为:
对各个神经元的精细特征值a进行归一化处理,得到归一化特征值ε:
其中,ai表示第i个神经元的精细特征值,εi表示第i个神经元的归一化特征值。
需要说明的是,归一化可以将特征值映射到一个相对一致的尺度上,消除特征值之间的绝对大小差异。这样做的好处是可以更好地控制软阈值的大小,使其在不同特征值范围下具有相似的影响力。
根据归一化特征值ε计算软阈值:
其中,表示第i个通道的软阈值,N表示神经元的个数,每个神经元对应一个通道。
本发明中,软阈值的具体大小可以根据数据特征值进行自适应地调整。每个通道都有自己的软阈值,而不是使用一个全局的阈值。自适应地软阈值可以更好地适应不同通道的特征分布,提高去噪的效果。
需要说明的是,通过确定软阈值,可以对精细特征值进行去噪处理,抑制低幅度的噪声,保留高幅度的语音信号。去噪后的结果数据b可以用于后续的语音识别任务,提高识别的准确性和鲁棒性。
S105:提取文本数据中可用于评估述情障碍的文本特征,并将文本特征组成文本特征序列。
其中,文本特征包括词袋模型特征、N-gram特征、词向量特征、TF-IDF特征等。
在一种可能的实施方式中,S105具体包括子步骤S1051至S1055:
S1051:提取文本数据中的各个关键词。
具体而言,从文本数据中识别和提取出与述情障碍相关的关键词。这些关键词可以是情绪、情感、心理状态等方面的词汇,与述情障碍有关的描述或表达方式。
S1052:计算各个关键词在各条数据中的词频:
其中,tfij表示在第j条数据中第i个关键词的词频,cij表示在第j条数据中第i个关键词出现的次数,n表示关键词的总数。
其中,词频可以表示某个关键词在数据中的重要程度或频繁程度。
S1053:计算各个关键词的逆向文件频率:
其中,idfi表示第i个关键词的逆向文件频率,D表示数据的总条数,Di表示含有第i个关键词的数据总条数。
其中,逆向文件频率可以衡量关键词的稀有程度或特殊性。
S1054:提取各个关键词的文本特征xi:
其中,xi表示第i个关键词的文本特征。
S1055:将各个关键词的文本特征组成文本特征序列。
需要说明的是,提取TF-IDF特征可以准确地反映文本中单词的重要性和稀有性,对于区分不同文本之间的特征具有较好的效果。
S106:通过基于注意力机制的双向长短时记忆神经网络,对文本特征序列进行加权求和,得到整体文本特征。
其中,基于注意力机制的双向长短时记忆神经网络是一种在序列数据处理中常用的深度学习模型。它结合了双向LSTM和注意力机制,能够有效地捕捉序列中的上下文信息和关键特征。
其中,注意力机制可以帮助网络在处理序列时集中关注最重要的部分。它通过对序列中不同位置的权重进行计算,将更多的注意力放在与当前任务相关的关键信息上。在基于注意力机制的双向长短时记忆神经网络中,注意力机制通常应用于每个时间步的隐藏状态上,以获得对应于输入序列的权重向量。
在一种可能的实施方式中,S106具体包括子步骤S1061至S1064:
S1061:向基于注意力机制的双向长短时记忆神经网络输入文本特征序列。
S1062:通过基于注意力机制的双向长短时记忆神经网络,得到文本特征序列X中各个文本特征xi对应的隐藏特征Hi:
其中,Ii、Ii-1表示输入门的激活输出向量,σ()表示Sigmoid激活函数,WXI表示文本特征序列和输入门之间的权重矩阵,WHI表示隐藏状态和输入门之间的权重矩阵,WCI表示细胞存储单元和输入门之间的权重矩阵,bI表示输入门的偏置项, Fi、Fi-1表示忘记门的激活输出向量,WXF表示文本特征序列和忘记门之间的权重矩阵,WHF表示隐藏状态和忘记门之间的权重矩阵,WCF表示细胞存储单元和忘记门之间的权重矩阵,bF表示忘记门的偏置项,Ci、Ci-1表示细胞存储单元的激活输出向量,tanh()表示tanh 激活函数,WXC表示文本特征序列和细胞存储单元之间的权重矩阵,WHC表示隐藏状态和细胞存储单元之间的权重矩阵,bC表示细胞存储单元的偏置项,Oi表示输出门的激活输出向量,WXO表示文本特征序列和输出门之间的权重矩阵,WHO表示隐藏状态和输出门之间的权重矩阵,WCO表示细胞存储单元和输出门之间的权重矩阵,Hi、Hi-1表示隐藏状态。
S1063:通过基于注意力机制的双向长短时记忆神经网络中的注意力层,计算文本特征序列X中各个文本特征xi对应的权重参数μi:
其中,exp()表示指数函数,W表示权重矩阵。
需要说明的是,通过计算权重参数,注意力机制可以确定在给定任务中哪些文本特征对于产生正确的预测或决策更为重要。这样,网络可以聚焦于具有较高权重的特征,忽略对任务贡献较小的特征。这种关注重要特征的能力有助于提高模型的表达能力和预测性能。注意力机制允许网络动态地调整关注的位置和权重,根据输入数据的不同部分对任务的贡献程度。这种灵活性使得模型能够根据不同输入实例的特点自适应地选择关注的文本特征,从而提高模型的鲁棒性和泛化能力。
S1064:对文本特征序列进行加权求和,得到整体文本特征:
其中,μ表示整体文本特征。
需要说明的是,通过对文本特征序列进行加权求和,得到整体文本特征可以提供一个更综合、更有代表性的特征表示。这有助于凸显重要特征、降低噪声和冗余特征的影响、提升模型性能,并减少特征的维度。这样的整体文本特征可以为后续的任务和模型提供更有用和有效的输入。
S107:通过逻辑回归算法,根据整体文本特征对文本数据进行分类,评估慢性病患者是否存在述情障碍,完成模型训练。
在一种可能的实施方式中,S107具体包括子步骤S1071和S1072:
S1071:σ()表示通过Sigmoid激活函数将整体文本特征μ映射至[0,1]的区间范围内:
S1072:使用阶跃函数g(z)将概率值转化为{0,1}的类别输出:
其中,表示预设概率值,1表示慢性病患者存在述情障碍,0表示慢性病患者不存在述情障碍。
其中,如果将整体文本特征μ映射至[0,1]的区间范围内的取值大于等于预设概率值/>,则输出1,表示慢性病患者存在述情障碍。反之,如果将整体文本特征μ映射至[0,1]的区间范围内的取值/>小于预设概率值/>,则输出0,表示慢性病患者不存在述情障碍。
本领域技术人员可以根据实际情况设置预设概率值的大小,本发明不做限定。
需要说明的是,通过逻辑回归算法基于整体文本特征对文本数据进行分类评估慢性病患者是否存在述情障碍,具有计算效率高、模型可解释性强、适应大规模数据等优点。这种方法可以为医疗专业人员提供一个快速、可靠和解释性强的工具,用于辅助慢性病患者的述情障碍评估和干预决策。
S108:获取待评估慢性病患者的语音数据。
可选地,通过待评估慢性病患者在应用程序中的语音咨询,以获取慢性病患者的语音数据。
可选地,通过在面对面谈话中对待评估慢性病患者的话语进行录音,以获取慢性病患者的语音数据。
S109:重复S102至S107,输出待评估慢性病患者的述情障碍评估结果。
在一种可能的实施方式中,S109具体为:在应用程序界面显示待评估慢性病患者的述情障碍评估结果。
需要说明的是,将述情障碍评估结果显示在应用程序界面上有助于实现即时反馈、可视化展示、跨平台共享、进展跟踪和教育意识等好处。这样做可以提供方便、可靠和易于理解的方式来呈现评估结果,促进医疗决策的准确性和及时性,同时提供相关人员的教育和意识。
与现有技术相比,本发明至少具有以下有益技术效果:
在本发明中,获取慢性病患者的语音数据,将语音数据转化为文本数据,之后从文本数据中提取出可用于评估述情障碍的文本特征,通过基于注意力机制的双向长短时记忆神经网络以及逻辑回归算法,根据文本特征评估慢性病患者是否存在述情障碍,并输出述情障碍评估结果。在此过程中,不会受到主观因素的影响,提升了述情障碍评估的一致性以及准确性,便于早期发现、早期干预患者的述情障碍,改善患者的心理状态。
实施例2
在一个实施例中,本发明提供的一种慢性病患者的述情障碍评估系统,用于执行实施例1中的慢性病患者的述情障碍评估方法。
本发明提供的一种慢性病患者的述情障碍评估系统可以实现上述实施例1中的慢性病患者的述情障碍评估方法的步骤和效果,为避免重复,本发明不再赘述。
与现有技术相比,本发明至少具有以下有益技术效果:
在本发明中,获取慢性病患者的语音数据,将语音数据转化为文本数据,之后从文本数据中提取出可用于评估述情障碍的文本特征,通过基于注意力机制的双向长短时记忆神经网络以及逻辑回归算法,根据文本特征评估慢性病患者是否存在述情障碍,并输出述情障碍评估结果。在此过程中,不会受到主观因素的影响,提升了述情障碍评估的一致性以及准确性,便于早期发现、早期干预患者的述情障碍,改善患者的心理状态。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (6)
1.一种慢性病患者的述情障碍评估方法,其特征在于,包括:
S101:获取语音数据集,所述语音数据集包括多个已被评估为述情障碍的慢性病患者的语音数据以及多个未被评估为述情障碍的慢性病患者的语音数据;
S102:对所述语音数据进行预处理;
S103:提取预处理后的语音数据的声学特征;
所述S103具体包括:
S1031:对所述语音数据的频谱数据进行快速傅里叶变换,得到功率谱数据;
S1032:通过Mel滤波器对所述功率谱数据进行滤波,输出所述功率谱数据的对数能量E m :
;
其中,N表示总频率,X(k)表示频率为k时的输入信号值,H m(k)表示滤波器的频率响应;
其中,H m(k)的表示式为:
;
其中,k表示线性频率轴上的频率,m表示滤波器的索引值,表示第m个频带的频率;
S1033:对所述对数能量E m 进行离散余弦变换,得到MFCC系数:
;
其中,C n 表示第n个MFCC系数,m表示滤波器的索引值,M表示滤波器的数量,L为正整数;
S1034:对所述MFCC系数进行动态参数提取,得到声学特征向量D={d n }:
;
其中,d n 表示第n个一阶差分,Q表示MFCC系数的阶数,T表示一阶导数的时间差,i表示一阶导数的时间差T的具体取值,i为1或2;
S104:通过卷积神经网络,根据预处理后的语音数据的声学特征,将所述语音数据转化为文本数据;
所述S104具体包括:
S1041:构建卷积神经网络;
S1042:将所述声学特征通过卷积层得到粗糙特征值;
S1043:将所述粗糙特征值通过池化层进行池化处理;
S1044:重复S1042和S1043,得到精细特征值a;
S1045:对所述精细特征值a通过软阈值进行去噪,得到结果数据b:
;
S1046:对所述结果数据b进行解码,输出语音识别结果;
S105:提取所述文本数据中可用于评估述情障碍的文本特征,并将所述文本特征组成文本特征序列;
S106:通过基于注意力机制的双向长短时记忆神经网络,对所述文本特征序列进行加权求和,得到整体文本特征;
所述S106具体包括:
S1061:向基于注意力机制的双向长短时记忆神经网络输入文本特征序列;
S1062:通过基于注意力机制的双向长短时记忆神经网络,得到所述文本特征序列X中各个文本特征x i 对应的隐藏特征H i :
;
其中,I i 、I i-1表示输入门的激活输出向量,σ()表示Sigmoid激活函数,W XI 表示文本特征序列和输入门之间的权重矩阵,W HI 表示隐藏状态和输入门之间的权重矩阵,W CI 表示细胞存储单元和输入门之间的权重矩阵,b I 表示输入门的偏置项, F i 、F i-1表示忘记门的激活输出向量,W XF 表示文本特征序列和忘记门之间的权重矩阵,W HF 表示隐藏状态和忘记门之间的权重矩阵,W CF 表示细胞存储单元和忘记门之间的权重矩阵,b F 表示忘记门的偏置项,C i 、C i-1表示细胞存储单元的激活输出向量,tanh()表示tanh激活函数,W XC 表示文本特征序列和细胞存储单元之间的权重矩阵,W HC 表示隐藏状态和细胞存储单元之间的权重矩阵,b C 表示细胞存储单元的偏置项,O i 表示输出门的激活输出向量,W XO 表示文本特征序列和输出门之间的权重矩阵,W HO 表示隐藏状态和输出门之间的权重矩阵,W CO 表示细胞存储单元和输出门之间的权重矩阵,H i 、H i-1表示隐藏状态;
S1063:通过基于注意力机制的双向长短时记忆神经网络中的注意力层,计算所述文本特征序列X中各个文本特征x i 对应的权重参数μ i :
;
其中,exp()表示指数函数,W表示权重矩阵;
S1064:对所述文本特征序列进行加权求和,得到整体文本特征:
;
其中,μ表示整体文本特征;
S107:通过逻辑回归算法,根据所述整体文本特征对所述文本数据进行分类,评估所述慢性病患者是否存在述情障碍,完成模型训练;
所述S107具体包括:
S1071:σ()表示通过Sigmoid激活函数将整体文本特征μ映射至[0,1]的区间范围内:
;
S1072:使用阶跃函数g(z)将概率值转化为{0,1}的类别输出:
;
其中,表示预设概率值,1表示所述慢性病患者存在述情障碍,0表示所述慢性病患者不存在述情障碍;
S108:获取待评估慢性病患者的语音数据;
S109:重复S102至S107,输出所述待评估慢性病患者的述情障碍评估结果。
2.根据权利要求1所述的慢性病患者的述情障碍评估方法,其特征在于,所述S102具体包括:
S1021:获取所述语音数据的原始频谱数据A(f, t);
S1022:为所述原始频谱数据中的每对时间与频率组合生成一个范围在-1和1之间的随机数rand(f,t):
;
其中,f表示频率,t表示时间;
S1023:对预设时频区域范围内的随机数进行平均,计算得到扰动参数δ(f, t):
;
其中,λ表示扰动幅度参数,p表示频域范围参数,q表示时域范围参数;
S1024:根据所述扰动参数δ(f, t)对所述原始频谱数据A(f, t)进行预处理:
;
其中,表示预处理后的频谱数据。
3.根据权利要求1所述的慢性病患者的述情障碍评估方法,其特征在于,所述软阈值的确定方式为:
对各个神经元的所述精细特征值a进行归一化处理,得到归一化特征值ε:
;
其中,a i 表示第i个神经元的精细特征值,ε i 表示第i个神经元的归一化特征值;
根据所述归一化特征值计算所述软阈值/>:
;
其中,表示第i个通道的软阈值,N表示神经元的个数,每个神经元对应一个通道。
4.根据权利要求1所述的慢性病患者的述情障碍评估方法,其特征在于,所述S105具体包括:
S1051:提取所述文本数据中的各个关键词;
S1052:计算各个关键词在各条数据中的词频:
;
其中,tf ij 表示在第j条数据中第i个关键词的词频,c ij 表示在第j条数据中第i个关键词出现的次数,n表示关键词的总数;
S1053:计算各个关键词的逆向文件频率:
;
其中,idf i 表示第i个关键词的逆向文件频率,D表示数据的总条数,D i 表示含有第i个关键词的数据总条数;
S1054:提取各个关键词的文本特征x i :
;
其中,x i 表示第i个关键词的文本特征;
S1055:将各个关键词的文本特征组成文本特征序列。
5.根据权利要求1所述的慢性病患者的述情障碍评估方法,其特征在于,所述S109具体为:
在应用程序界面显示所述待评估慢性病患者的述情障碍评估结果。
6.一种慢性病患者的述情障碍评估系统,其特征在于,用于执行权利要求1至5任一项所述的慢性病患者的述情障碍评估方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310967558.6A CN116687410B (zh) | 2023-08-03 | 2023-08-03 | 一种慢性病患者的述情障碍评估方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310967558.6A CN116687410B (zh) | 2023-08-03 | 2023-08-03 | 一种慢性病患者的述情障碍评估方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116687410A CN116687410A (zh) | 2023-09-05 |
CN116687410B true CN116687410B (zh) | 2023-11-14 |
Family
ID=87843577
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310967558.6A Active CN116687410B (zh) | 2023-08-03 | 2023-08-03 | 一种慢性病患者的述情障碍评估方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116687410B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116862530B (zh) * | 2023-06-25 | 2024-04-05 | 江苏华泽微福科技发展有限公司 | 一种智能售后服务方法和系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109243490A (zh) * | 2018-10-11 | 2019-01-18 | 平安科技(深圳)有限公司 | 司机情绪识别方法及终端设备 |
CN110491416A (zh) * | 2019-07-26 | 2019-11-22 | 广东工业大学 | 一种基于lstm和sae的电话语音情感分析与识别方法 |
CN112002348A (zh) * | 2020-09-07 | 2020-11-27 | 复旦大学 | 一种患者语音愤怒情绪识别方法和系统 |
CN112908317A (zh) * | 2019-12-04 | 2021-06-04 | 中国科学院深圳先进技术研究院 | 一种针对认知障碍的语音识别系统 |
CN113035232A (zh) * | 2021-03-23 | 2021-06-25 | 北京智能工场科技有限公司 | 一种基于语音识别的心理状态预测系统、方法及装置 |
WO2021139108A1 (zh) * | 2020-01-10 | 2021-07-15 | 平安科技(深圳)有限公司 | 情绪智能识别方法、装置、电子设备及存储介质 |
CN114783464A (zh) * | 2022-04-27 | 2022-07-22 | 科大讯飞股份有限公司 | 认知检测方法及相关装置、电子设备和存储介质 |
CN116130092A (zh) * | 2023-02-10 | 2023-05-16 | 平安科技(深圳)有限公司 | 多语言预测模型的训练及阿尔茨海默病预测的方法、装置 |
CN116486840A (zh) * | 2023-05-23 | 2023-07-25 | 浙大宁波理工学院 | 一种基于自然语音的抑郁症自动评估系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA3175428A1 (en) * | 2020-04-13 | 2021-10-21 | aiberry, Inc. | Multimodal analysis combining monitoring modalities to elicit cognitive states and perform screening for mental disorders |
CN116153298A (zh) * | 2022-12-01 | 2023-05-23 | 上海交通大学医学院附属瑞金医院 | 一种认知功能障碍筛查用的语音识别方法和装置 |
-
2023
- 2023-08-03 CN CN202310967558.6A patent/CN116687410B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109243490A (zh) * | 2018-10-11 | 2019-01-18 | 平安科技(深圳)有限公司 | 司机情绪识别方法及终端设备 |
CN110491416A (zh) * | 2019-07-26 | 2019-11-22 | 广东工业大学 | 一种基于lstm和sae的电话语音情感分析与识别方法 |
CN112908317A (zh) * | 2019-12-04 | 2021-06-04 | 中国科学院深圳先进技术研究院 | 一种针对认知障碍的语音识别系统 |
WO2021139108A1 (zh) * | 2020-01-10 | 2021-07-15 | 平安科技(深圳)有限公司 | 情绪智能识别方法、装置、电子设备及存储介质 |
CN112002348A (zh) * | 2020-09-07 | 2020-11-27 | 复旦大学 | 一种患者语音愤怒情绪识别方法和系统 |
CN113035232A (zh) * | 2021-03-23 | 2021-06-25 | 北京智能工场科技有限公司 | 一种基于语音识别的心理状态预测系统、方法及装置 |
CN114783464A (zh) * | 2022-04-27 | 2022-07-22 | 科大讯飞股份有限公司 | 认知检测方法及相关装置、电子设备和存储介质 |
CN116130092A (zh) * | 2023-02-10 | 2023-05-16 | 平安科技(深圳)有限公司 | 多语言预测模型的训练及阿尔茨海默病预测的方法、装置 |
CN116486840A (zh) * | 2023-05-23 | 2023-07-25 | 浙大宁波理工学院 | 一种基于自然语音的抑郁症自动评估系统 |
Non-Patent Citations (1)
Title |
---|
精神分裂症患者阴性症状与语音情绪识别、述情障碍的关系;罗红格等;中国心理卫生杂志;第36卷(第6期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116687410A (zh) | 2023-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111461176B (zh) | 基于归一化互信息的多模态融合方法、装置、介质及设备 | |
Saenz-Lechon et al. | Methodological issues in the development of automatic systems for voice pathology detection | |
CN107910020B (zh) | 鼾声检测方法、装置、设备及存储介质 | |
Wang et al. | Recognition of audio depression based on convolutional neural network and generative antagonism network model | |
Upadhya et al. | Thomson Multitaper MFCC and PLP voice features for early detection of Parkinson disease | |
Lim et al. | Classification of snoring sound based on a recurrent neural network | |
Wang et al. | Automatic assessment of pathological voice quality using multidimensional acoustic analysis based on the GRBAS scale | |
Benba et al. | Voice assessments for detecting patients with Parkinson’s diseases using PCA and NPCA | |
CN116687410B (zh) | 一种慢性病患者的述情障碍评估方法和系统 | |
Sefara | The effects of normalisation methods on speech emotion recognition | |
CN109285551A (zh) | 基于wmfcc和dnn的帕金森患者声纹识别方法 | |
Reddy et al. | The automatic detection of heart failure using speech signals | |
Hariharan et al. | A new feature constituting approach to detection of vocal fold pathology | |
Usman et al. | Heart rate detection and classification from speech spectral features using machine learning | |
CN115862684A (zh) | 一种基于音频的双模式融合型神经网络的抑郁状态辅助检测的方法 | |
Aversano et al. | A machine learning approach for early detection of parkinson’s disease using acoustic traces | |
Hariharan et al. | A hybrid expert system approach for telemonitoring of vocal fold pathology | |
Deb et al. | Classification of speech under stress using harmonic peak to energy ratio | |
Bayerl et al. | Detecting vocal fatigue with neural embeddings | |
Uddin et al. | Gender and region detection from human voice using the three-layer feature extraction method with 1D CNN | |
Azam et al. | Cardiac anomaly detection considering an additive noise and convolutional distortion model of heart sound recordings | |
Bakhshi et al. | Recognition of emotion from speech using evolutionary cepstral coefficients | |
Ankışhan | Classification of acoustic signals with new feature: Fibonacci space (FSp) | |
Natarajan et al. | Longitudinal investigation of work stressors using human voice features | |
Ankışhan | A new approach for detection of pathological voice disorders with reduced parameters |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |