CN114219005A - 一种基于高阶谱语音特征的抑郁症分类方法 - Google Patents

一种基于高阶谱语音特征的抑郁症分类方法 Download PDF

Info

Publication number
CN114219005A
CN114219005A CN202111362261.4A CN202111362261A CN114219005A CN 114219005 A CN114219005 A CN 114219005A CN 202111362261 A CN202111362261 A CN 202111362261A CN 114219005 A CN114219005 A CN 114219005A
Authority
CN
China
Prior art keywords
bispectrum
neural network
bicoherence
absolute
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111362261.4A
Other languages
English (en)
Other versions
CN114219005B (zh
Inventor
程忱
苗潇琳
李瑶
王春燕
黄晓妍
董昊
杜子尧
张屿佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taiyuan University of Technology
Original Assignee
Taiyuan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taiyuan University of Technology filed Critical Taiyuan University of Technology
Priority to CN202111362261.4A priority Critical patent/CN114219005B/zh
Publication of CN114219005A publication Critical patent/CN114219005A/zh
Application granted granted Critical
Publication of CN114219005B publication Critical patent/CN114219005B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开一种基于高阶谱语音特征的抑郁症分类方法,包括以下步骤:步骤S1:语音数据文件预处理,并对预处理后的语音数据文件进行样本裁剪,得到语音样本文件;步骤S2:计算语音样本文件三阶积累函数的二级傅里叶变换,得到高阶谱语音特征的双谱;然后将双谱进行归一化计算,得到高阶谱语音特征的双相干;与传统语音特征对抑郁症的分类方法相比,本发明所述的基于高阶谱语音特征的抑郁症分类方法通过利用三维二分卷积神经网络分类模型,实现了抑郁症分类识别,由此大幅提高了分类准确率,从而使得应用价值更高。

Description

一种基于高阶谱语音特征的抑郁症分类方法
技术领域
本发明属于语音处理技术领域,尤其涉及一种基于高阶谱语音特征的抑郁症分类方法。
背景技术
作为高阶谱语音特征分析技术与抑郁症辅助诊断的结合,语音特征分类方法当前已经成为精神疾病诊断的热点之一。其广泛应用在各类研究中,特别是抑郁症的研究,并取得许多令人惊喜的成果。
抑郁症在科学上被称为重性抑郁障碍,是一种精神障碍,比身体疾病更难发现。在抑郁症的临床访谈中,临床医生已经开发出结构化的问卷,并结合结构化问卷和评估患者语言、非语言的指标进行抑郁症的诊断,其中非语言指标包括降低的发音速度、音调、较低的讲话量等语音特征。然而,在临床诊断过程中充满了一定程度的主观性,而且这需要精神病医生花费大量的时间来诊断疾病。
传统的语音特征主要包括韵律特征、频谱特征、声门特征、声源等。其中韵律特征如基频、停顿时间和反应延迟增加语音能量;频谱特征如共振峰、共振峰频率和梅尔倒谱系数;其他特征如语音质量特征中的抖动。然而,不同的人在不同的语音相关特征方面有独特的特点,找到并选取抑郁症患者与非抑郁症患者区别较大的语音特征进行实验,才能获得较高的识别率。总之,语音特征目前在抑郁症的识别领域应用十分广泛,但目前相关研究结果表明,尚未找到有效的语音特征用于抑郁症分类识别实验。
发明内容
本发明提供一种基于高阶谱语音特征的抑郁症分类方法,旨在解决传统语音特征在抑郁症分类方法存在的上述问题。
本发明是这样实现的,一种基于高阶谱语音特征的抑郁症分类方法,包括以下步骤:
步骤S1:语音数据文件预处理,并对预处理后的语音数据文件进行样本裁剪,得到语音样本文件;
步骤S2:计算语音样本文件三阶积累函数的二级傅里叶变换,得到高阶谱语音特征的双谱;然后将双谱进行归一化计算,得到高阶谱语音特征的双相干;
步骤S3:根据双谱,获取5个双谱特征,并得到每个双谱特征对应的对数谱图;
步骤S4:根据双相干,获取5个双相干特征,并得到每个双相干特征对应的对数谱图;
步骤S5:构建三维二分卷积神经网络,采用三维二分卷积神经网络算法,选择双谱特征的对数谱图、双相干特征的对数谱图作为分类特征,构建分类器,然后采用自适应优化方法对分类器进行检验,具体包括:
S51:将M*M维度的对数谱图输入到三维二分卷积神经网络中,其中M表示对数谱图的大小;
S52:三维二分卷积神经网络的第一层表示三维二分卷积神经网络的卷积层,其滤波器的大小为M0*M0*3,覆盖频率空间M0和3个卷积核,M0具体表示如下:
Figure BDA0003359731250000021
其中,M0表示M第一次二分法向上取整的值;
S53:三维二分卷积神经网络的第二层表示三维二分卷积神经网络的最大池化层,它沿着时间轴移动窗口内核,并保存最大值以表示整个窗口,从而减少其输入维度的数量;移动的步长为S=1,使用填充P=0来保持输入层的极端,输出矩阵的大小N1如下:
N1=(M-M0+2P)/S+1
S54:三维二分卷积神经网络的第三层表示三维二分卷积神经网络的二层卷积,将步骤S53输出的结果作为本步骤的输入,其滤波器的大小为M1*M1*3,M1公式具体表示如下:
Figure BDA0003359731250000031
其中,M1表示N1第一次二分法向上取整的值;
S55:三维二分卷积神经网络的第四层表示三维二分卷积神经网络的最大池化层,将N1作为输入进行最大池化层,输出结果矩阵,输出矩阵的大小N2
N2=(N1-M1+2P)/S+1
S56:三维二分卷积神经网络的第五层表示三维二分卷积神经网络的全连接层,最大池输出被平坦化,并用作两个输入层和一个输出层的全连接神经网络的输入。
进一步的,在步骤S1中,语音数据文件预处理,具体包括:移除语音数据文件中计算机生成的虚拟语音,以及移除语音数据文件中的静默部分。
进一步的,在步骤S2中,双谱的计算公式如下:
bis(f1,f2)=E[F(f1)F(f2)F*(f1+f2)]。
其中,f1和f2表示语音频率变量,(f1,f2)表示双频,bis(f1,f2)表示双频(f1,f2)的双谱,F(f)表示给定信号的傅里叶变换,F*表示复共轭,E[.]表示期望;由于信号中存在非线性,频率为f1+f2的相位全部或部分生成;
双相干的计算公式如下:
Figure BDA0003359731250000032
其中,|bis(f1,f2)|表示双谱bis(f1,f2)的绝对值,P(f1)和P(f2)表示语音频率变量f1和f2的功率谱,bic(f1f2)表示双谱的双相干值;由于信号中存在非线性,频率为f1+f2的相位全部或部分生成。
进一步的,在步骤S3中,所述双谱特征包括:双谱绝对平均幅度mAv、双谱绝对对数幅度和L1、双谱对角元素绝对对数幅度和L2、双谱加权矩阵值wmi和双谱加权矩阵值wmj
进一步的,在步骤S3中:
双谱绝对平均幅度mAv的计算公式如下:
Figure BDA0003359731250000041
其中,Ω表示语音文件的非冗余区域,n表示区域内的点数;
双谱绝对对数幅度和L1的计算公式如下:
Figure BDA0003359731250000042
双谱对角元素绝对对数幅度和L2的计算公式如下:
Figure BDA0003359731250000043
其中,fd表示(f1,f2)的对角元素,|bis(fd,fd)|表示对角元素双谱的绝对值;
双谱加权矩阵值wmi和双谱加权矩阵值wmj的计算公式如下:
Figure BDA0003359731250000044
Figure BDA0003359731250000045
其中,i和j表示非冗余区域Ω中的索引。
进一步的,在步骤S4中,所述双相干特征包括:双相干绝对平均幅度mAvbic、双相干绝对对数幅度和Lbic1、双相干对角元素绝对对数幅度和Lbic2、双相干加权矩阵值wmbici和双相干加权矩阵值wmbicj
进一步的,在步骤S4中:
双相干绝对平均幅度mAvbic的计算公式如下:
Figure BDA0003359731250000046
其中,|bic(f1,f2)|表示双相干bic(f1,f2)的绝对值,Ω表示语音文件的非冗余区域,n表示区域内的点数;
双相干绝对对数幅度和Lbic1的计算公式如下:
Figure BDA0003359731250000051
双相干对角元素绝对对数幅度和Lbic2的计算公式如下:
Figure BDA0003359731250000052
其中,fd表示(f1,f2)的对角元素,|bic(fd,fd)|表示双相干bic(fd,fd)的绝对值;
双相干加权矩阵值wmbici和双相干加权矩阵值wmbicj的计算公式如下:
Figure BDA0003359731250000053
Figure BDA0003359731250000054
其中,i和j表示非冗余区域Ω中的索引。
与现有技术相比,本发明的有益效果是:与传统语音特征对抑郁症的分类方法相比,本发明所述的基于高阶谱语音特征的抑郁症分类方法通过利用三维二分卷积神经网络分类模型,实现了抑郁症分类识别,由此大幅提高了分类准确率,从而使得应用价值更高。本发明有效选取在抑郁症识别分类方法中分类效果较优语音特征的问题,适用于抑郁症的分类。
附图说明
图1为本发明语音特征分类准确率效果图;
图2为本发明非抑郁症患者的双谱图;
图3为本发明抑郁症患者的双谱图;
图4为本发明非抑郁症患者的双相干图;
图5为本发明抑郁症患者的双相干图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明的分类准确率明显高于传统语音特征分类方法的分类准确率。
本实施例以AVEC 2016和AVEC 2017采用苦恼分析访谈语料库-绿野仙踪(DAIC-WOZ)数据集中的数据为例进行说明,该数据集包含189个临床访谈片段,旨在支持抑郁症等疾病的诊断。记录的临床访谈分为训练集(107段)、验证集(35段)和测试集(47段)。
本发明所述的基于高阶谱语音特征的抑郁症分类方法通过利用三维二分卷积神经网络分类模型,实现了抑郁症分类识别,由此大幅提高了分类准确率。
步骤S1:对语音数据文件进行预处理,移除计算机及静默部分的语音;并对预处理后的语音文件进行样本裁剪;
步骤S2:计算语音样本文件的三阶积累函数的二级傅里叶变换,由此得到双谱;然后将双谱进行归一化计算,由此得到双相干;
步骤S3:计算高阶谱语音特征中双谱的局部属性;所述局部属性包括:双谱的绝对平均幅度、绝对对数幅度和、对角元素绝对对数幅度和、加权矩阵值,由此得到5个双谱特征,并得到对应双谱特征的对数谱图;
步骤S4:计算高阶谱语音特征中双相干的局部属性;所述局部属性包括:双相干的绝对平均幅度、绝对对数幅度和、对角元素绝对对数幅度和、加权矩阵值,由此得到5个双相干特征,并得到对应双相干特征的对数谱图;
步骤S5:采用三维二分卷积神经网络算法,选择语音文件高阶谱的局部属性双谱特征的对数谱图、双相干特征的对数谱图作为分类特征,由此进行分类器的构建,然后采用自适应优化方法对构建的分类器进行检验。
步骤S1中,对语音数据进行预处理,步骤具体包括:消除虚拟采访者Ellie的声音,因为它是计算机生成的,在所有的采访中都没有感情。并且长时间的静默部分也被移除了;样本裁剪一方面是为了分类算法的所有输入都具有相同的大小;另一方面生成了大量的样本来训练模型,本实验中选取S=0.3334s进行裁剪。
步骤S2中,双谱的计算公式如下:
bis(f1,f2)=E[F(f1)F(f2)F*(f1+f2)]。
其中,f1和f2表示语音频率变量,(f1,f2)表示双频,bis(f1,f2)表示双频(f1,f2)的双谱,F(f)表示给定信号的傅里叶变换,F*表示复共轭,E[.]表示期望;由于信号中存在非线性,频率为f1+f2的相位全部或部分生成;
双相干的计算公式如下:
Figure BDA0003359731250000071
其中,|bis(f1,f2)|表示双谱bis(f1,f2)的绝对值,P(f1)和P(f2)表示语音频率变量f1和f2的功率谱,bic(f1f2)表示双谱的双相干值;由于信号中存在非线性,频率为f1+f2的相位全部或部分生成。
在步骤S3中,所述双谱特征包括:双谱绝对平均幅度mAv、双谱绝对对数幅度和L1、双谱对角元素绝对对数幅度和L2、双谱加权矩阵值wmi和双谱加权矩阵值wmj
双谱绝对平均幅度mAv的计算公式如下:
Figure BDA0003359731250000072
其中,Ω表示语音文件的非冗余区域,n表示区域内的点数;
双谱绝对对数幅度和L1的计算公式如下:
Figure BDA0003359731250000073
双谱对角元素绝对对数幅度和L2的计算公式如下:
Figure BDA0003359731250000074
其中,fd表示(f1,f2)的对角元素,|bis(fd,fd)|表示对角元素双谱的绝对值;
双谱加权矩阵值wmi和双谱加权矩阵值wmj的计算公式如下:
Figure BDA0003359731250000075
Figure BDA0003359731250000081
其中,i和j表示非冗余区域Ω中的索引。
使用DAIC-WOZ数据库获得一位非抑郁症患者的双谱图如图2所示,获得一位抑郁症患者的双谱图如图3所示。
在步骤S4中,所述双相干特征包括:双相干绝对平均幅度mAvbic、双相干绝对对数幅度和Lbic1、双相干对角元素绝对对数幅度和Lbic2、双相干加权矩阵值wmbici和双相干加权矩阵值wmbicj
双相干绝对平均幅度mAvbic的计算公式如下:
Figure BDA0003359731250000082
其中,|bic(f1,f2)|表示双相干bic(f1,f2)的绝对值,Ω表示语音文件的非冗余区域,n表示区域内的点数;
双相干绝对对数幅度和Lbic1的计算公式如下:
Figure BDA0003359731250000083
双相干对角元素绝对对数幅度和Lbic2的计算公式如下:
Figure BDA0003359731250000084
其中,fd表示(f1,f2)的对角元素,|bic(fd,fd)|表示双相干bic(fd,fd)的绝对值;
双相干加权矩阵值wmbici和双相干加权矩阵值wmbicj的计算公式如下:
Figure BDA0003359731250000085
Figure BDA0003359731250000086
其中,i和j表示非冗余区域Ω中的索引。
使用DAIC-WOZ数据库获得一位非抑郁症患者的双相干图如图4所示,获得一位抑郁症患者的双相干图如图5所示。
在步骤S5中,构建三维二分卷积神经网络的步骤具体包括:
步骤S51:步骤S3中的图2、图3分别显示了非抑郁症患者和抑郁症患者的双谱对数谱图,步骤S4中的图4、图5分别显示了非抑郁症患者和抑郁症患者的双相干对数谱图,神经网络模型使用它作为输入。考虑到音频文件的采样频率是16千赫,每个裁剪的持续时间是S=4秒,每个对数频谱图被表示为维度F0×T0的矩阵,其中频率F0和时间T0维度分别是125和125。将其表示为M*M维度的矩阵输入到网络中,其中M=125;
S52:三维二分卷积神经网络的第一层表示三维二分卷积神经网络的卷积层,其滤波器的大小为M0*M0*3,覆盖频率空间M0和3个卷积核,M0具体表示如下:
Figure BDA0003359731250000091
其中,M0表示M第一次二分法向上取整的值;
S53:三维二分卷积神经网络的第二层表示三维二分卷积神经网络的最大池化层,它沿着时间轴移动窗口内核,并保存最大值以表示整个窗口,从而减少其输入维度的数量;移动的步长为S=1,使用填充P=0来保持输入层的极端,输出矩阵的大小N1如下:
N1=(M-M0+2P)/S+1
S54:三维二分卷积神经网络的第三层表示三维二分卷积神经网络的二层卷积,将步骤S53输出的结果作为本步骤的输入,其滤波器的大小为M1*M1*3,M1公式具体表示如下:
Figure BDA0003359731250000092
其中,M1表示N1第一次二分法向上取整的值;
S55:三维二分卷积神经网络的第四层表示三维二分卷积神经网络的最大池化层,将N1作为输入进行最大池化层,输出结果矩阵,输出矩阵的大小N2
N2=(N1-M1+2P)/S+1
本方法采用自适应优化方法计算滤波器的大小,重复卷积层和最大池化层的步骤,当输出大小小于5*5时,自适应优化方法结束。本实验进行五层卷积的最大池化层后,输出的大小为4*4小于5*5,不再进行卷积;
S56:三维二分卷积神经网络的第五层表示三维二分卷积神经网络的全连接层,最大池输出被平坦化,并用作两个输入层和一个输出层的全连接神经网络的输入。
检验步骤具体包括:从样本集中选择训练集(107段)作为训练样本,测试集(47段)的样本作为测试样本,由此进行分类测试并得到分类准确率;将重复进行100次分类测试后得到的分类准确率进行算术平均,然后将算术平均值作为分类器的分类准确率。
以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于高阶谱语音特征的抑郁症分类方法,其特征在于,包括以下步骤:
步骤S1:语音数据文件预处理,并对预处理后的语音数据文件进行样本裁剪,得到语音样本文件;
步骤S2:计算语音样本文件三阶积累函数的二级傅里叶变换,得到高阶谱语音特征的双谱;然后将双谱进行归一化计算,得到高阶谱语音特征的双相干;
步骤S3:根据双谱,获取5个双谱特征,并得到每个双谱特征对应的对数谱图;
步骤S4:根据双相干,获取5个双相干特征,并得到每个双相干特征对应的对数谱图;
步骤S5:构建三维二分卷积神经网络,采用三维二分卷积神经网络算法,选择双谱特征的对数谱图、双相干特征的对数谱图作为分类特征,构建分类器,然后采用自适应优化方法对分类器进行检验,具体包括:
S51:将M*M维度的对数谱图输入到三维二分卷积神经网络中,其中M表示对数谱图的大小;
S52:三维二分卷积神经网络的第一层表示三维二分卷积神经网络的卷积层,其滤波器的大小为M0*M0*3,覆盖频率空间M0和3个卷积核,M0具体表示如下:
Figure FDA0003359731240000011
其中,M0表示M第一次二分法向上取整的值;
S53:三维二分卷积神经网络的第二层表示三维二分卷积神经网络的最大池化层,它沿着时间轴移动窗口内核,并保存最大值以表示整个窗口,从而减少其输入维度的数量;移动的步长为S=1,使用填充P=0来保持输入层的极端,输出矩阵的大小N1如下:
N1=(M-M0+2P)/S+1
S54:三维二分卷积神经网络的第三层表示三维二分卷积神经网络的二层卷积,将步骤S53输出的结果作为本步骤的输入,其滤波器的大小为M1*M1*3,M1公式具体表示如下:
Figure FDA0003359731240000021
其中,M1表示N1第一次二分法向上取整的值;
S55:三维二分卷积神经网络的第四层表示三维二分卷积神经网络的最大池化层,将N1作为输入进行最大池化层,输出结果矩阵,输出矩阵的大小N2
N2=(N1-M1+2P)/S+1
S56:三维二分卷积神经网络的第五层表示三维二分卷积神经网络的全连接层,最大池输出被平坦化,并用作两个输入层和一个输出层的全连接神经网络的输入。
2.根据权利要求1所述的一种基于高阶谱语音特征的抑郁症分类方法,其特征在于,在步骤S1中,语音数据文件预处理,具体包括:移除语音数据文件中计算机生成的虚拟语音,以及移除语音数据文件中的静默部分。
3.根据权利要求1所述的一种基于高阶谱语音特征的抑郁症分类方法,其特征在于,在步骤S2中,双谱的计算公式如下:
bis(f1,f2)=E[F(f1)F(f2)F*(f1+f2)]。
其中,f1和f2表示语音频率变量,(f1,f2)表示双频,bis(f1,f2)表示双频(f1,f2)的双谱,F(f)表示给定信号的傅里叶变换,F*表示复共轭,E[.]表示期望;由于信号中存在非线性,频率为f1+f2的相位全部或部分生成;
双相干的计算公式如下:
Figure FDA0003359731240000022
其中,|bis(f1,f2)|表示双谱bis(f1,f2)的绝对值,P(f1)和P(f2)表示语音频率变量f1和f2的功率谱,bic(f1f2)表示双谱的双相干值;由于信号中存在非线性,频率为f1+f2的相位全部或部分生成。
4.根据权利要求3所述的一种基于高阶谱语音特征的抑郁症分类方法,其特征在于,在步骤S3中,所述双谱特征包括:双谱绝对平均幅度mAv、双谱绝对对数幅度和L1、双谱对角元素绝对对数幅度和L2、双谱加权矩阵值wmi和双谱加权矩阵值wmj
5.根据权利要求4所述的一种基于高阶谱语音特征的抑郁症分类方法,其特征在于,在步骤S3中:
双谱绝对平均幅度mAv的计算公式如下:
Figure FDA0003359731240000031
其中,Ω表示语音文件的非冗余区域,n表示区域内的点数;
双谱绝对对数幅度和L1的计算公式如下:
Figure FDA0003359731240000032
双谱对角元素绝对对数幅度和L2的计算公式如下:
Figure FDA0003359731240000033
其中,fd表示(f1,f2)的对角元素,|bis(fd,fd)|表示对角元素双谱的绝对值;
双谱加权矩阵值wmi和双谱加权矩阵值wmj的计算公式如下:
Figure FDA0003359731240000034
Figure FDA0003359731240000041
其中,i和j表示非冗余区域Ω中的索引。
6.根据权利要求3所述的一种基于高阶谱语音特征的抑郁症分类方法,其特征在于,在步骤S4中,所述双相干特征包括:双相干绝对平均幅度mAvbic、双相干绝对对数幅度和Lbic1、双相干对角元素绝对对数幅度和Lbic2、双相干加权矩阵值wmbici和双相干加权矩阵值wmbicj
7.根据权利要求6所述的一种基于高阶谱语音特征的抑郁症分类方法,其特征在于,在步骤S4中:
双相干绝对平均幅度mAvbic的计算公式如下:
Figure FDA0003359731240000042
其中,|bic(f1,f2)|表示双相干bic(f1,f2)的绝对值,Ω表示语音文件的非冗余区域,n表示区域内的点数;
双相干绝对对数幅度和Lbic1的计算公式如下:
Figure FDA0003359731240000043
双相干对角元素绝对对数幅度和Lbic2的计算公式如下:
Figure FDA0003359731240000044
其中,fd表示(f1,f2)的对角元素,|bic(fd,fd)|表示双相干bic(fd,fd)的绝对值;
双相干加权矩阵值wmbici和双相干加权矩阵值wmbicj的计算公式如下:
Figure FDA0003359731240000045
Figure FDA0003359731240000051
其中,i和j表示非冗余区域Ω中的索引。
CN202111362261.4A 2021-11-17 2021-11-17 一种基于高阶谱语音特征的抑郁症分类方法 Active CN114219005B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111362261.4A CN114219005B (zh) 2021-11-17 2021-11-17 一种基于高阶谱语音特征的抑郁症分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111362261.4A CN114219005B (zh) 2021-11-17 2021-11-17 一种基于高阶谱语音特征的抑郁症分类方法

Publications (2)

Publication Number Publication Date
CN114219005A true CN114219005A (zh) 2022-03-22
CN114219005B CN114219005B (zh) 2023-04-18

Family

ID=80697386

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111362261.4A Active CN114219005B (zh) 2021-11-17 2021-11-17 一种基于高阶谱语音特征的抑郁症分类方法

Country Status (1)

Country Link
CN (1) CN114219005B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117894057A (zh) * 2024-03-11 2024-04-16 浙江大学滨江研究院 用于情感障碍辅助诊断的三维数字人脸处理方法与装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109599129A (zh) * 2018-11-13 2019-04-09 杭州电子科技大学 基于注意力机制和卷积神经网络的语音抑郁症识别方法
US20190163965A1 (en) * 2017-11-24 2019-05-30 Genesis Lab, Inc. Multi-modal emotion recognition device, method, and storage medium using artificial intelligence
CN110853668A (zh) * 2019-09-06 2020-02-28 南京工程学院 基于多种特征融合的语音篡改检测方法
US20200121206A1 (en) * 2017-06-26 2020-04-23 The University Of British Columbia Electroencephalography device and device for monitoring a subject using near infrared spectroscopy
CN111785301A (zh) * 2020-06-28 2020-10-16 重庆邮电大学 一种基于残差网络的3dacrnn语音情感识别方法及存储介质
CN112349297A (zh) * 2020-11-10 2021-02-09 西安工程大学 一种基于麦克风阵列的抑郁症检测方法
CN113012720A (zh) * 2021-02-10 2021-06-22 杭州医典智能科技有限公司 谱减法降噪下多语音特征融合的抑郁症检测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200121206A1 (en) * 2017-06-26 2020-04-23 The University Of British Columbia Electroencephalography device and device for monitoring a subject using near infrared spectroscopy
US20190163965A1 (en) * 2017-11-24 2019-05-30 Genesis Lab, Inc. Multi-modal emotion recognition device, method, and storage medium using artificial intelligence
CN109599129A (zh) * 2018-11-13 2019-04-09 杭州电子科技大学 基于注意力机制和卷积神经网络的语音抑郁症识别方法
CN110853668A (zh) * 2019-09-06 2020-02-28 南京工程学院 基于多种特征融合的语音篡改检测方法
CN111785301A (zh) * 2020-06-28 2020-10-16 重庆邮电大学 一种基于残差网络的3dacrnn语音情感识别方法及存储介质
CN112349297A (zh) * 2020-11-10 2021-02-09 西安工程大学 一种基于麦克风阵列的抑郁症检测方法
CN113012720A (zh) * 2021-02-10 2021-06-22 杭州医典智能科技有限公司 谱减法降噪下多语音特征融合的抑郁症检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
LANG HE等: "Automated depression analysis using convolutional neural networks from speech" *
NITIN KUMAR等: "Bispectral Analysis of EEG for Emotion Recognition" *
杨素素: "基于双谱运算在语音信号分析中的应用" *
潘玮等: "基于语音的抑郁症识别" *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117894057A (zh) * 2024-03-11 2024-04-16 浙江大学滨江研究院 用于情感障碍辅助诊断的三维数字人脸处理方法与装置

Also Published As

Publication number Publication date
CN114219005B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
He et al. Automated depression analysis using convolutional neural networks from speech
Sakar et al. A comparative analysis of speech signal processing algorithms for Parkinson’s disease classification and the use of the tunable Q-factor wavelet transform
Ancilin et al. Improved speech emotion recognition with Mel frequency magnitude coefficient
Özseven Investigation of the effect of spectrogram images and different texture analysis methods on speech emotion recognition
Ayvaz et al. Automatic Speaker Recognition Using Mel-Frequency Cepstral Coefficients Through Machine Learning.
Tsanas et al. Objective automatic assessment of rehabilitative speech treatment in Parkinson's disease
Pawar et al. Convolution neural network based automatic speech emotion recognition using Mel-frequency Cepstrum coefficients
Aydemir et al. Automated major depressive disorder detection using melamine pattern with EEG signals
Khan et al. Automated classification of lung sound signals based on empirical mode decomposition
Tiwari et al. Phonocardiogram signal based multi-class cardiac diagnostic decision support system
Tunc et al. Estimation of Parkinson’s disease severity using speech features and extreme gradient boosting
Deperlioglu Heart sound classification with signal instant energy and stacked autoencoder network
Abou-Abbas et al. Expiratory and inspiratory cries detection using different signals' decomposition techniques
Bandela et al. Unsupervised feature selection and NMF de-noising for robust Speech Emotion Recognition
Benba et al. Voice assessments for detecting patients with Parkinson’s diseases using PCA and NPCA
Reddy et al. The automatic detection of heart failure using speech signals
Omeroglu et al. Multi-modal voice pathology detection architecture based on deep and handcrafted feature fusion
CN114219005B (zh) 一种基于高阶谱语音特征的抑郁症分类方法
Nishikawa et al. Machine learning model for discrimination of mild dementia patients using acoustic features
Salhi et al. Voice disorders identification using hybrid approach: Wavelet analysis and multilayer neural networks
Azam et al. Cardiac anomaly detection considering an additive noise and convolutional distortion model of heart sound recordings
Wang et al. A multi-channel UNet framework based on SNMF-DCNN for robust heart-lung-sound separation
Roy et al. RDLINet: A Novel Lightweight Inception Network for Respiratory Disease Classification Using Lung Sounds
Deb et al. Classification of speech under stress using harmonic peak to energy ratio
Singh et al. Analysis of constant-Q filterbank based representations for speech emotion recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant