CN114219005B - 一种基于高阶谱语音特征的抑郁症分类方法 - Google Patents

一种基于高阶谱语音特征的抑郁症分类方法 Download PDF

Info

Publication number
CN114219005B
CN114219005B CN202111362261.4A CN202111362261A CN114219005B CN 114219005 B CN114219005 B CN 114219005B CN 202111362261 A CN202111362261 A CN 202111362261A CN 114219005 B CN114219005 B CN 114219005B
Authority
CN
China
Prior art keywords
neural network
bicoherence
bispectrum
absolute
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111362261.4A
Other languages
English (en)
Other versions
CN114219005A (zh
Inventor
程忱
苗潇琳
李瑶
王春燕
黄晓妍
董昊
杜子尧
张屿佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taiyuan University of Technology
Original Assignee
Taiyuan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taiyuan University of Technology filed Critical Taiyuan University of Technology
Priority to CN202111362261.4A priority Critical patent/CN114219005B/zh
Publication of CN114219005A publication Critical patent/CN114219005A/zh
Application granted granted Critical
Publication of CN114219005B publication Critical patent/CN114219005B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Complex Calculations (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于高阶谱语音特征的抑郁症分类方法,包括以下步骤:步骤S1:语音数据文件预处理,并对预处理后的语音数据文件进行样本裁剪,得到语音样本文件;步骤S2:计算语音样本文件三阶积累函数的二级傅里叶变换,得到高阶谱语音特征的双谱;然后将双谱进行归一化计算,得到高阶谱语音特征的双相干;与传统语音特征对抑郁症的分类方法相比,本发明所述的基于高阶谱语音特征的抑郁症分类方法通过利用三维二分卷积神经网络分类模型,实现了抑郁症分类识别,由此大幅提高了分类准确率,从而使得应用价值更高。

Description

一种基于高阶谱语音特征的抑郁症分类方法
技术领域
本发明属于语音处理技术领域,尤其涉及一种基于高阶谱语音特征的抑郁症分类方法。
背景技术
作为高阶谱语音特征分析技术与抑郁症辅助诊断的结合,语音特征分类方法当前已经成为精神疾病诊断的热点之一。其广泛应用在各类研究中,特别是抑郁症的研究,并取得许多令人惊喜的成果。
抑郁症在科学上被称为重性抑郁障碍,是一种精神障碍,比身体疾病更难发现。在抑郁症的临床访谈中,临床医生已经开发出结构化的问卷,并结合结构化问卷和评估患者语言、非语言的指标进行抑郁症的诊断,其中非语言指标包括降低的发音速度、音调、较低的讲话量等语音特征。然而,在临床诊断过程中充满了一定程度的主观性,而且这需要精神病医生花费大量的时间来诊断疾病。
传统的语音特征主要包括韵律特征、频谱特征、声门特征、声源等。其中韵律特征如基频、停顿时间和反应延迟增加语音能量;频谱特征如共振峰、共振峰频率和梅尔倒谱系数;其他特征如语音质量特征中的抖动。然而,不同的人在不同的语音相关特征方面有独特的特点,找到并选取抑郁症患者与非抑郁症患者区别较大的语音特征进行实验,才能获得较高的识别率。总之,语音特征目前在抑郁症的识别领域应用十分广泛,但目前相关研究结果表明,尚未找到有效的语音特征用于抑郁症分类识别实验。
发明内容
本发明提供一种基于高阶谱语音特征的抑郁症分类方法,旨在解决传统语音特征在抑郁症分类方法存在的上述问题。
本发明是这样实现的,一种基于高阶谱语音特征的抑郁症分类方法,包括以下步骤:
步骤S1:语音数据文件预处理,并对预处理后的语音数据文件进行样本裁剪,得到语音样本文件;
步骤S2:计算语音样本文件三阶积累函数的二级傅里叶变换,得到高阶谱语音特征的双谱;然后将双谱进行归一化计算,得到高阶谱语音特征的双相干;
步骤S3:根据双谱,获取5个双谱特征,并得到每个双谱特征对应的对数谱图;
步骤S4:根据双相干,获取5个双相干特征,并得到每个双相干特征对应的对数谱图;
步骤S5:构建三维二分卷积神经网络,采用三维二分卷积神经网络算法,选择双谱特征的对数谱图、双相干特征的对数谱图作为分类特征,构建分类器,然后采用自适应优化方法对分类器进行检验,具体包括:
S51:将M*M维度的对数谱图输入到三维二分卷积神经网络中,其中M表示对数谱图的大小;
S52:三维二分卷积神经网络的第一层表示三维二分卷积神经网络的卷积层,其滤波器的大小为M0*M0*3,覆盖频率空间M0和3个卷积核,M0具体表示如下:
Figure GDA0004101541880000021
其中,M0表示M第一次二分法向上取整的值;
S53:三维二分卷积神经网络的第二层表示三维二分卷积神经网络的最大池化层,它沿着时间轴移动窗口内核,并保存最大值以表示整个窗口,从而减少其输入维度的数量;移动的步长为S=1,使用填充P=0来保持输入层的极端,输出矩阵的大小N1如下:
N1=(M-M0+2P)/S+1
S54:三维二分卷积神经网络的第三层表示三维二分卷积神经网络的二层卷积,将步骤S53输出的结果作为本步骤的输入,其滤波器的大小为M1*M1*3,M1公式具体表示如下:
Figure GDA0004101541880000031
其中,M1表示N1第一次二分法向上取整的值;
S55:三维二分卷积神经网络的第四层表示三维二分卷积神经网络的最大池化层,将N1作为输入进行最大池化层,输出结果矩阵,输出矩阵的大小N2
N2=(N1-M1+2P)/S+1
S56:三维二分卷积神经网络的第五层表示三维二分卷积神经网络的全连接层,最大池输出被平坦化,并用作两个输入层和一个输出层的全连接神经网络的输入。
进一步的,在步骤S1中,语音数据文件预处理,具体包括:移除语音数据文件中计算机生成的虚拟语音,以及移除语音数据文件中的静默部分。
进一步的,在步骤S2中,双谱的计算公式如下:
bis(f1,f2)=E[F(f1)F(f2)F*(f1+f2)]。
其中,f1和f2表示语音频率变量,(f1,f2)表示双频,bis(f1,f2)表示双频(f1,f2)的双谱,F(f)表示给定信号的傅里叶变换,F*表示复共轭,E[.]表示期望;由于信号中存在非线性,频率为f1+f2的相位全部或部分生成;
双相干的计算公式如下:
Figure GDA0004101541880000032
其中,|bis(f1,f2)|表示双谱bis(f1,f2)的绝对值,P(f1)和P(f2)表示语音频率变量f1和f2的功率谱,bic(f1,f2)表示双谱的双相干值;由于信号中存在非线性,频率为f1+f2的相位全部或部分生成。
进一步的,在步骤S3中,所述双谱特征包括:双谱绝对平均幅度mAv、双谱绝对对数幅度和L1、双谱对角元素绝对对数幅度和L2、双谱加权矩阵值wmi和双谱加权矩阵值wmj
进一步的,在步骤S3中:
双谱绝对平均幅度mAv的计算公式如下:
Figure GDA0004101541880000041
其中,Ω表示语音文件的非冗余区域,n表示区域内的点数;
双谱绝对对数幅度和L1的计算公式如下:
Figure GDA0004101541880000042
双谱对角元素绝对对数幅度和L2的计算公式如下:
Figure GDA0004101541880000043
其中,fd表示(f1,f2)的对角元素,|bis(fd,fd)|表示对角元素双谱的绝对值;
双谱加权矩阵值wmi和双谱加权矩阵值wmj的计算公式如下:
Figure GDA0004101541880000044
Figure GDA0004101541880000045
其中,i和j表示非冗余区域Ω中的索引。
进一步的,在步骤S4中,所述双相干特征包括:双相干绝对平均幅度mAvbic、双相干绝对对数幅度和Lbic1、双相干对角元素绝对对数幅度和Lbic2、双相干加权矩阵值wmbici和双相干加权矩阵值wmbicj
进一步的,在步骤S4中:
双相干绝对平均幅度mAvbic的计算公式如下:
Figure GDA0004101541880000046
其中,|bic(f1,f2)|表示双相干bic(f1,f2)的绝对值,Ω表示语音文件的非冗余区域,n表示区域内的点数;
双相干绝对对数幅度和Lbic1的计算公式如下:
Figure GDA0004101541880000051
双相干对角元素绝对对数幅度和Lbic2的计算公式如下:
Figure GDA0004101541880000052
其中,fd表示(f1,f2)的对角元素,|bic(fd,fd)|表示双相干bic(fd,fd)的绝对值;
双相干加权矩阵值wmbici和双相干加权矩阵值wmbicj的计算公式如下:
Figure GDA0004101541880000053
Figure GDA0004101541880000054
其中,i和j表示非冗余区域Ω中的索引。
与现有技术相比,本发明的有益效果是:与传统语音特征对抑郁症的分类方法相比,本发明所述的基于高阶谱语音特征的抑郁症分类方法通过利用三维二分卷积神经网络分类模型,实现了抑郁症分类识别,由此大幅提高了分类准确率,从而使得应用价值更高。本发明有效选取在抑郁症识别分类方法中分类效果较优语音特征的问题,适用于抑郁症的分类。
附图说明
图1为本发明语音特征分类准确率效果图;
图2为本发明非抑郁症患者的双谱图;
图3为本发明抑郁症患者的双谱图;
图4为本发明非抑郁症患者的双相干图;
图5为本发明抑郁症患者的双相干图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明的分类准确率明显高于传统语音特征分类方法的分类准确率。
本实施例以AVEC 2016和AVEC 2017采用苦恼分析访谈语料库-绿野仙踪(DAIC-WOZ)数据集中的数据为例进行说明,该数据集包含189个临床访谈片段,旨在支持抑郁症等疾病的诊断。记录的临床访谈分为训练集(107段)、验证集(35段)和测试集(47段)。
本发明所述的基于高阶谱语音特征的抑郁症分类方法通过利用三维二分卷积神经网络分类模型,实现了抑郁症分类识别,由此大幅提高了分类准确率。
步骤S1:对语音数据文件进行预处理,移除计算机及静默部分的语音;并对预处理后的语音文件进行样本裁剪;
步骤S2:计算语音样本文件的三阶积累函数的二级傅里叶变换,由此得到双谱;然后将双谱进行归一化计算,由此得到双相干;
步骤S3:计算高阶谱语音特征中双谱的局部属性;所述局部属性包括:双谱的绝对平均幅度、绝对对数幅度和、对角元素绝对对数幅度和、加权矩阵值,由此得到5个双谱特征,并得到对应双谱特征的对数谱图;
步骤S4:计算高阶谱语音特征中双相干的局部属性;所述局部属性包括:双相干的绝对平均幅度、绝对对数幅度和、对角元素绝对对数幅度和、加权矩阵值,由此得到5个双相干特征,并得到对应双相干特征的对数谱图;
步骤S5:采用三维二分卷积神经网络算法,选择语音文件高阶谱的局部属性双谱特征的对数谱图、双相干特征的对数谱图作为分类特征,由此进行分类器的构建,然后采用自适应优化方法对构建的分类器进行检验。
步骤S1中,对语音数据进行预处理,步骤具体包括:消除虚拟采访者Ellie的声音,因为它是计算机生成的,在所有的采访中都没有感情。并且长时间的静默部分也被移除了;样本裁剪一方面是为了分类算法的所有输入都具有相同的大小;另一方面生成了大量的样本来训练模型,本实验中选取S=0.3334s进行裁剪。
步骤S2中,双谱的计算公式如下:
bis(f1,f2)=E[F(f1)F(f2)F*(f1+f2)]。
其中,f1和f2表示语音频率变量,(f1,f2)表示双频,bis(f1,f2)表示双频(f1,f2)的双谱,F(f)表示给定信号的傅里叶变换,F*表示复共轭,E[.]表示期望;由于信号中存在非线性,频率为f1+f2的相位全部或部分生成;
双相干的计算公式如下:
Figure GDA0004101541880000071
其中,|bis(f1,f2)|表示双谱bis(f1,f2)的绝对值,P(f1)和P(f2)表示语音频率变量f1和f2的功率谱,bic(f1,f2)表示双谱的双相干值;由于信号中存在非线性,频率为f1+f2的相位全部或部分生成。
在步骤S3中,所述双谱特征包括:双谱绝对平均幅度mAv、双谱绝对对数幅度和L1、双谱对角元素绝对对数幅度和L2、双谱加权矩阵值wmi和双谱加权矩阵值wmj
双谱绝对平均幅度mAv的计算公式如下:
Figure GDA0004101541880000072
其中,Ω表示语音文件的非冗余区域,n表示区域内的点数;
双谱绝对对数幅度和L1的计算公式如下:
Figure GDA0004101541880000073
双谱对角元素绝对对数幅度和L2的计算公式如下:
Figure GDA0004101541880000074
其中,fd表示(f1,f2)的对角元素,|bis(fd,fd)|表示对角元素双谱的绝对值;
双谱加权矩阵值wmi和双谱加权矩阵值wmj的计算公式如下:
Figure GDA0004101541880000075
Figure GDA0004101541880000086
其中,i和j表示非冗余区域Ω中的索引。
使用DAIC-WOZ数据库获得一位非抑郁症患者的双谱图如图2所示,获得一位抑郁症患者的双谱图如图3所示。
在步骤S4中,所述双相干特征包括:双相干绝对平均幅度mAvbic、双相干绝对对数幅度和Lbic1、双相干对角元素绝对对数幅度和Lbic2、双相干加权矩阵值wmbici和双相干加权矩阵值wmbicj。
双相干绝对平均幅度mAvbic的计算公式如下:
Figure GDA0004101541880000081
其中,|bic(f1,f2)|表示双相干bic(f1,f2)的绝对值,Ω表示语音文件的非冗余区域,n表示区域内的点数;
双相干绝对对数幅度和Lbic1的计算公式如下:
Figure GDA0004101541880000082
双相干对角元素绝对对数幅度和Lbic2的计算公式如下:
Figure GDA0004101541880000083
其中,fd表示(f1,f2)的对角元素,|bic(fd,fd)|表示双相干bic(fd,fd)的绝对值;
双相干加权矩阵值wmbici和双相干加权矩阵值wmbicj的计算公式如下:
Figure GDA0004101541880000084
Figure GDA0004101541880000085
其中,i和j表示非冗余区域Ω中的索引。
使用DAIC-WOZ数据库获得一位非抑郁症患者的双相干图如图4所示,获得一位抑郁症患者的双相干图如图5所示。
在步骤S5中,构建三维二分卷积神经网络的步骤具体包括:
步骤S51:步骤S3中的图2、图3分别显示了非抑郁症患者和抑郁症患者的双谱对数谱图,步骤S4中的图4、图5分别显示了非抑郁症患者和抑郁症患者的双相干对数谱图,神经网络模型使用它作为输入。考虑到音频文件的采样频率是16千赫,每个裁剪的持续时间是S=4秒,每个对数频谱图被表示为维度F0×T0的矩阵,其中频率F0和时间T0维度分别是125和125。将其表示为M*M维度的矩阵输入到网络中,其中M=125;
S52:三维二分卷积神经网络的第一层表示三维二分卷积神经网络的卷积层,其滤波器的大小为M0*M0*3,覆盖频率空间M0和3个卷积核,M0具体表示如下:
Figure GDA0004101541880000091
其中,M0表示M第一次二分法向上取整的值;
S53:三维二分卷积神经网络的第二层表示三维二分卷积神经网络的最大池化层,它沿着时间轴移动窗口内核,并保存最大值以表示整个窗口,从而减少其输入维度的数量;移动的步长为S=1,使用填充P=0来保持输入层的极端,输出矩阵的大小N1如下:
N1=(M-M0+2P)/S+1
S54:三维二分卷积神经网络的第三层表示三维二分卷积神经网络的二层卷积,将步骤S53输出的结果作为本步骤的输入,其滤波器的大小为M1*M1*3,M1公式具体表示如下:
Figure GDA0004101541880000092
其中,M1表示N1第一次二分法向上取整的值;
S55:三维二分卷积神经网络的第四层表示三维二分卷积神经网络的最大池化层,将N1作为输入进行最大池化层,输出结果矩阵,输出矩阵的大小N2
N2=(N1-M1+2P)/S+1
本方法采用自适应优化方法计算滤波器的大小,重复卷积层和最大池化层的步骤,当输出大小小于5*5时,自适应优化方法结束。本实验进行五层卷积的最大池化层后,输出的大小为4*4小于5*5,不再进行卷积;
S56:三维二分卷积神经网络的第五层表示三维二分卷积神经网络的全连接层,最大池输出被平坦化,并用作两个输入层和一个输出层的全连接神经网络的输入。
检验步骤具体包括:从样本集中选择训练集(107段)作为训练样本,测试集(47段)的样本作为测试样本,由此进行分类测试并得到分类准确率;将重复进行100次分类测试后得到的分类准确率进行算术平均,然后将算术平均值作为分类器的分类准确率。
以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于高阶谱语音特征的抑郁症分类方法,其特征在于,包括以下步骤:
步骤S1:语音数据文件预处理,并对预处理后的语音数据文件进行样本裁剪,得到语音样本文件;
步骤S2:计算语音样本文件三阶积累函数的二级傅里叶变换,得到高阶谱语音特征的双谱;然后将双谱进行归一化计算,得到高阶谱语音特征的双相干;
步骤S3:根据双谱,获取5个双谱特征,并得到每个双谱特征对应的对数谱图;
步骤S4:根据双相干,获取5个双相干特征,并得到每个双相干特征对应的对数谱图;
步骤S5:构建三维二分卷积神经网络,采用三维二分卷积神经网络算法,选择双谱特征的对数谱图、双相干特征的对数谱图作为分类特征,构建分类器,然后采用自适应优化方法对分类器进行检验,具体包括:
S51:将M*M维度的对数谱图输入到三维二分卷积神经网络中,其中M表示对数谱图的大小;
S52:三维二分卷积神经网络的第一层表示三维二分卷积神经网络的卷积层,其滤波器的大小为M0*M0*3,覆盖频率空间M0和3个卷积核,M0具体表示如下:
Figure FDA0004101541870000011
其中,M0表示M第一次二分法向上取整的值;
S53:三维二分卷积神经网络的第二层表示三维二分卷积神经网络的最大池化层,它沿着时间轴移动窗口内核,并保存最大值以表示整个窗口,从而减少其输入维度的数量;移动的步长为S=1,使用填充P=0来保持输入层的极端,输出矩阵的大小N1如下:
N1=(M-M0+2P)/S+1
S54:三维二分卷积神经网络的第三层表示三维二分卷积神经网络的二层卷积,将步骤S53输出的结果作为本步骤的输入,其滤波器的大小为M1*M1*3,M1公式具体表示如下:
Figure FDA0004101541870000021
其中,M1表示N1第一次二分法向上取整的值;
S55:三维二分卷积神经网络的第四层表示三维二分卷积神经网络的最大池化层,将N1作为输入进行最大池化层,输出结果矩阵,输出矩阵的大小N2
N2=(N1-M1+2P)/S+1
S56:三维二分卷积神经网络的第五层表示三维二分卷积神经网络的全连接层,最大池输出被平坦化,并用作两个输入层和一个输出层的全连接神经网络的输入。
2.根据权利要求1所述的一种基于高阶谱语音特征的抑郁症分类方法,其特征在于,在步骤S1中,语音数据文件预处理,具体包括:移除语音数据文件中计算机生成的虚拟语音,以及移除语音数据文件中的静默部分。
3.根据权利要求1所述的一种基于高阶谱语音特征的抑郁症分类方法,其特征在于,在步骤S2中,双谱的计算公式如下:
bis(f1,f2)=E[F(f1)F(f2)F*(f1+f2)]
其中,f1和f2表示语音频率变量,(f1,f2)表示双频,bis(f1,f2)表示双频(f1,f2)的双谱,F(f)表示给定信号的傅里叶变换,F*表示复共轭,E[.]表示期望;由于信号中存在非线性,频率为f1+f2的相位全部或部分生成;
双相干的计算公式如下:
Figure FDA0004101541870000022
其中,|bis(f1,f2)|表示双谱bis(f1,f2)的绝对值,P(f1)和P(f2)表示语音频率变量f1和f2的功率谱,bic(f1,f2)表示双谱的双相干值;由于信号中存在非线性,频率为f1+f2的相位全部或部分生成。
4.根据权利要求3所述的一种基于高阶谱语音特征的抑郁症分类方法,其特征在于,在步骤S3中,所述双谱特征包括:双谱绝对平均幅度mAv、双谱绝对对数幅度和L1、双谱对角元素绝对对数幅度和L2、双谱加权矩阵值wmi和双谱加权矩阵值wmj
5.根据权利要求4所述的一种基于高阶谱语音特征的抑郁症分类方法,其特征在于,在步骤S3中:
双谱绝对平均幅度mAv的计算公式如下:
Figure FDA0004101541870000031
其中,Ω表示语音文件的非冗余区域,n表示区域内的点数;
双谱绝对对数幅度和L1的计算公式如下:
Figure FDA0004101541870000032
双谱对角元素绝对对数幅度和L2的计算公式如下:
Figure FDA0004101541870000033
其中,fd表示(f1,f2)的对角元素,|bis(fd,fd)|表示对角元素双谱的绝对值;
双谱加权矩阵值wmi和双谱加权矩阵值wmj的计算公式如下:
Figure FDA0004101541870000034
Figure FDA0004101541870000041
其中,i和j表示非冗余区域Ω中的索引。
6.根据权利要求3所述的一种基于高阶谱语音特征的抑郁症分类方法,其特征在于,在步骤S4中,所述双相干特征包括:双相干绝对平均幅度mAvbic、双相干绝对对数幅度和Lbic1、双相干对角元素绝对对数幅度和Lbic2、双相干加权矩阵值wmbici和双相干加权矩阵值wmbicj
7.根据权利要求6所述的一种基于高阶谱语音特征的抑郁症分类方法,其特征在于,在步骤S4中:
双相干绝对平均幅度mAvbic的计算公式如下:
Figure FDA0004101541870000042
其中,|bic(f1,f2)|表示双相干bic(f1,f2)的绝对值,Ω表示语音文件的非冗余区域,n表示区域内的点数;
双相干绝对对数幅度和Lbic1的计算公式如下:
Figure FDA0004101541870000043
双相干对角元素绝对对数幅度和Lbic2的计算公式如下:
Figure FDA0004101541870000044
其中,fd表示(f1,f2)的对角元素,|bic(fd,fd)|表示双相干bic(fd,fd)的绝对值;
双相干加权矩阵值wmbici和双相干加权矩阵值wmbicj的计算公式如下:
Figure FDA0004101541870000045
Figure FDA0004101541870000051
其中,i和j表示非冗余区域Ω中的索引。
CN202111362261.4A 2021-11-17 2021-11-17 一种基于高阶谱语音特征的抑郁症分类方法 Active CN114219005B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111362261.4A CN114219005B (zh) 2021-11-17 2021-11-17 一种基于高阶谱语音特征的抑郁症分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111362261.4A CN114219005B (zh) 2021-11-17 2021-11-17 一种基于高阶谱语音特征的抑郁症分类方法

Publications (2)

Publication Number Publication Date
CN114219005A CN114219005A (zh) 2022-03-22
CN114219005B true CN114219005B (zh) 2023-04-18

Family

ID=80697386

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111362261.4A Active CN114219005B (zh) 2021-11-17 2021-11-17 一种基于高阶谱语音特征的抑郁症分类方法

Country Status (1)

Country Link
CN (1) CN114219005B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113012720A (zh) * 2021-02-10 2021-06-22 杭州医典智能科技有限公司 谱减法降噪下多语音特征融合的抑郁症检测方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3066660A1 (en) * 2017-06-26 2019-01-03 The University Of British Columbia Electroencephalography device and device for monitoring a subject using near infrared spectroscopy
WO2019103484A1 (ko) * 2017-11-24 2019-05-31 주식회사 제네시스랩 인공지능을 이용한 멀티모달 감성인식 장치, 방법 및 저장매체
CN109599129B (zh) * 2018-11-13 2021-09-14 杭州电子科技大学 基于注意力机制和卷积神经网络的语音抑郁症识别系统
CN110853668B (zh) * 2019-09-06 2022-02-01 南京工程学院 基于多种特征融合的语音篡改检测方法
CN111785301B (zh) * 2020-06-28 2022-08-23 重庆邮电大学 一种基于残差网络的3dacrnn语音情感识别方法及存储介质
CN112349297B (zh) * 2020-11-10 2023-07-04 西安工程大学 一种基于麦克风阵列的抑郁症检测方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113012720A (zh) * 2021-02-10 2021-06-22 杭州医典智能科技有限公司 谱减法降噪下多语音特征融合的抑郁症检测方法

Also Published As

Publication number Publication date
CN114219005A (zh) 2022-03-22

Similar Documents

Publication Publication Date Title
He et al. Automated depression analysis using convolutional neural networks from speech
Özseven Investigation of the effect of spectrogram images and different texture analysis methods on speech emotion recognition
Islam et al. A study of using cough sounds and deep neural networks for the early detection of COVID-19
Tsanas et al. Objective automatic assessment of rehabilitative speech treatment in Parkinson's disease
Aydemir et al. Automated major depressive disorder detection using melamine pattern with EEG signals
Mei et al. Classification of heart sounds based on quality assessment and wavelet scattering transform
Khan et al. Automated classification of lung sound signals based on empirical mode decomposition
Salhi et al. Voice disorders identification using multilayer neural network
Narendra et al. Automatic assessment of intelligibility in speakers with dysarthria from coded telephone speech using glottal features
Tiwari et al. Phonocardiogram signal based multi-class cardiac diagnostic decision support system
Mondal et al. A novel feature extraction technique for pulmonary sound analysis based on EMD
Deperlioglu Heart sound classification with signal instant energy and stacked autoencoder network
Benba et al. Voice assessments for detecting patients with Parkinson’s diseases using PCA and NPCA
Reddy et al. The automatic detection of heart failure using speech signals
Jayalakshmy et al. GTCC-based BiLSTM deep-learning framework for respiratory sound classification using empirical mode decomposition
Omeroglu et al. Multi-modal voice pathology detection architecture based on deep and handcrafted feature fusion
Miao et al. Fusing features of speech for depression classification based on higher-order spectral analysis
Nishikawa et al. Machine learning model for discrimination of mild dementia patients using acoustic features
Salhi et al. Voice disorders identification using hybrid approach: Wavelet analysis and multilayer neural networks
Wang et al. A multi-channel UNet framework based on SNMF-DCNN for robust heart-lung-sound separation
Azam et al. Cardiac anomaly detection considering an additive noise and convolutional distortion model of heart sound recordings
Roy et al. RDLINet: A Novel Lightweight Inception Network for Respiratory Disease Classification Using Lung Sounds
Deb et al. Classification of speech under stress using harmonic peak to energy ratio
Xie et al. A voice disease detection method based on MFCCs and shallow CNN
CN116687410B (zh) 一种慢性病患者的述情障碍评估方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant