CN107657964A - 基于声学特征和稀疏数学的抑郁症辅助检测方法及分类器 - Google Patents

基于声学特征和稀疏数学的抑郁症辅助检测方法及分类器 Download PDF

Info

Publication number
CN107657964A
CN107657964A CN201710695633.2A CN201710695633A CN107657964A CN 107657964 A CN107657964 A CN 107657964A CN 201710695633 A CN201710695633 A CN 201710695633A CN 107657964 A CN107657964 A CN 107657964A
Authority
CN
China
Prior art keywords
voice
depression
sparse
signal
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710695633.2A
Other languages
English (en)
Other versions
CN107657964B (zh
Inventor
赵健
苏维文
姜博
刘敏
张超
路婷婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Institute of Technical Physics of CAS
Northwestern University
Original Assignee
Shanghai Institute of Technical Physics of CAS
Northwestern University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Institute of Technical Physics of CAS, Northwestern University filed Critical Shanghai Institute of Technical Physics of CAS
Priority to CN201710695633.2A priority Critical patent/CN107657964B/zh
Publication of CN107657964A publication Critical patent/CN107657964A/zh
Application granted granted Critical
Publication of CN107657964B publication Critical patent/CN107657964B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Psychiatry (AREA)
  • Hospice & Palliative Care (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Pathology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Artificial Intelligence (AREA)
  • Psychology (AREA)
  • Social Psychology (AREA)
  • Quality & Reliability (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Educational Technology (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • Developmental Disabilities (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于语音处理及图像处理技术领域,公开了一种基于声学特征和稀疏数学的抑郁症辅助检测方法及分类器,基于语音和面部情绪共同识别的抑郁症判别;通过逆滤波器实现声门信号的估计,对语音信号采用全局分析,提取特征参数,分析特征参数的时序和分布特点,找到不同情感语音的韵律规律作为情感识别的依据;使用MFCC作为特征参数分析所要处理的语音信号,并用多组训练数据分别采集录音中的数据,建立神经网络模型进行判别;采用基于OMP的稀疏表示算法得到测试样本的稀疏线性组合,对人脸面部情绪进行判别归类,将得到的结果与语音识别结果线性组合以得到最终的表示每个数据的概率。抑郁症识别率有很大的提升,成本低廉。

Description

基于声学特征和稀疏数学的抑郁症辅助检测方法及分类器
技术领域
本发明属于语音处理及图像处理技术领域,尤其涉及一种基于声学特征和稀疏数学的抑郁症辅助检测方法及分类器。
背景技术
抑郁症是一种伴随有思想和行为异常的精神障碍,已经成为全球范围内严重的公共卫生和社会问题。一项来自国家心理健康研究所(NIMH)的数据显示,2015年,美国预计有1610万18岁以上的成年人在过去一年中至少发生了一次严重的抑郁事件,这一数字占美国成年人的6.7%。其症状主要是持续悲伤、感到无望,入睡困难等,严重的病人会出现自杀的想法和自杀企图。因此,降低自杀风险的最佳策略之一就是基于有效的检测方法。近年来,国内外学者做了大量的研究,Helfer等人基于共振峰特征采用高斯混合模型和支持向量机模型构造了高/低两类抑郁症分类器,其分类准确率分别达到了70%和73%,但其只采用前三共振峰特征值,没有将共振峰特征和其余语音特征相结合,且实验样本数有局限性。Ozdas等人基于声带抖动和声门波频谱范围探究造成抑郁症和自杀的风险因素。但是其实验样本数较少,缺少在大样本情况下的验证,且其实验样本的建立环境来自不同的通讯设备和环境。因此,对实验结果的准确性造成了一定的影响。
综上所述,现有技术存在的问题是:传统抑郁症检测方法是基于主观量表和临床医生的主观判断,存在较大的误判率,且检测与筛查方法单一,缺乏有效的客观评价指标。
发明内容
针对现有技术存在的问题,本发明提供了一种基于声学特征和稀疏数学的抑郁症辅助检测方法及分类器。
本发明是这样实现的,一种基于声学特征和稀疏数学的抑郁症辅助检测方法,所述基于声学特征和稀疏数学的抑郁症辅助检测方法基于语音和面部情绪共同识别的抑郁症判别;通过逆滤波器实现声门信号的估计,对语音信号采用全局分析,提取特征参数,分析特征参数的时序和分布特点,找到不同情感语音的韵律规律作为情感识别的依据;使用MFCC作为特征参数分析所要处理的语音信号,并用多组训练数据分别采集录音中的数据,建立神经网络模型进行判别;采用基于OMP的稀疏表示算法得到测试样本的稀疏线性组合,对人脸面部情绪进行判别归类,将得到的结果与语音识别结果线性组合以得到最终的表示每个数据的概率。
进一步,所述基于声学特征和稀疏数学的抑郁症辅助检测方法包括以下步骤:
步骤一,读入语音数据并预处理,对所有语音进行信号增强;
步骤二,选用标准的3层BP神经网络按顺序分别输入害怕、正常、抑郁三类语音,提取MFCC的12个特征值组成12维特征向量;
步骤三,采用基于BP_adaboost的强分类器,将提取的MFCC的12阶特征参数作为12个弱分类器,将其每个弱分类器的输出进行合并以产生有效分类;
步骤四,从人脸库中的四类测试样本愤怒、抑郁、高兴和正常中对每类表情选出一幅图像,采用OMP(正交匹配追踪)算法得到测试样本的稀疏线性组合,实现人脸识别。
进一步,所述步骤一具体包括:
(1)语音为平稳信号,带噪语音信号表示为:
y(n)=s(n)+d(n),0≤n≤N-1;
式中s(n)为纯净语音信号,d(n)为平稳加性高斯噪声,y(n)为带噪语音信号;将带噪语音信号频域表示,其中*表示复共轭,因此:
|Yk|2=|Sk|2+|Nk|2+SkNk *+Sk *Nk
(2)s(n)与d(n)独立,互谱的统计均值为0,利用发语音前或后的寂静帧来估计噪声,一个分析帧内的短时平稳过程:
|Yk|2=|Sk|2+λ(K);
其中λ(K)为无语音时|Nk|2的统计平均值,λ(K)=E[|Nk|2],得原始语音的估计值:
(3)在元音段等幅度较高的时帧去除噪声时减去n*λ(k)为:
m=0.4,n=0.8;m是谱减功率修正系数,n是谱减噪声系数。
进一步,所述步骤一具体包括:对不同情感语音的基频、共振峰、能量、短时平均幅度进行提取,具体包括:
(1)发浊音时,声门激励是以基音周期为周期的脉冲序列:
其中M和r是正整数,0≤r≤M,αγ是振幅因子,n是基音频率,根据复倒谱的定义得到x(n):
其中,β0=lnα0,
(2)计算浊音基音周期,对倒谱进行低时窗选,通过语音倒谱分析系统的最后一级,进行DFT后的输出即为平滑后的对数模函数,平滑的对数谱显示了特定输入语音段的谐振结构,谱的峰值基本上对应于共振峰频率,对平滑过的对数谱中的峰值进行定位即可估计共振峰;
(3)能量及短时平均幅度估计;定义n时刻某语音信号的短时平均能量En为:
其中N为窗长。
选择一帧语音,计算该帧语音取样值的绝对值的和,得到该帧语音的平均幅度,如果对整段语音的各个分帧分别计算平均幅度,得到整段语音的短时平均幅度,短时平均幅度函数Mn测量语音信号的幅度变化:
进一步,所述步骤二具体包括:
1)先将原始语音信号S(n)预加重,加窗后便得到一帧语音信号,对一帧语音信号进行快速傅里叶变换,得到信号的离散功率谱X(k);
2)由M个三角形带通滤波器组成的滤波器组,每个滤波器的中心频率为f(m),m=1,2,......,M,相邻滤波器交叉重叠在一起,且其中心频率在Mel频率轴上为等间距分布,滤波器组在频域上覆盖从0Hz到Nyquist频率,三角滤波器的频率响应H(k)为:
其中f1和fH分别是滤波器组覆盖范围的低通频率和高通频率,Fs是信号采样频率,单位都是Hz,M是滤波器组中滤波器的个数,N是进行FFT变换时的点数;
3)每个滤波器产生的输出频谱能量,取对数后便得到一组如下系数s(m)为:
再经过离散余弦变换将S(m)转换到时域,是MFCC,MFCC系数c(i)的计算过程为:
进一步,所述步骤三具体包括:
1)从样本空间中随机选择m组训练数据,初始化测试数据分布权值Dt(i)=1/m,根据样本输入输出维数确定神经网络结构,初始化BP神经网络权值和阈值;
2)弱分类器预测,训练第t个弱分类器时,用训练数据训练BP神经网络并预测训练数据输出,得到预测序列g(t)的预测误差和et=∑iDt(i);
3)计算预测序列权重,根据预测预测序列g(t)的预测误差et计算序列的权重αt,权重计算公式为:
4)测试数据权重调整,根据预测序列权重αt调整下一轮训练样本的权重,调整公式为:
其中Bt是归一化因子,目的是在权重比例不变的情况下使分布权值和为1;
5)强分类函数,训练T轮后得到T组弱分类函数f(gt,αt),由T组弱分类函数f(gt,αt)组合得到强分类函数h(x):
进一步,所述步骤四具体包括:
(1)任意类有足够多的训练样本,第i类训练样本用矩阵表示为来自同一类别的测试样本向量y∈Rm被该类训练样本的线性组合逼近:
y=ai,1vi,1+ai,2vi,2+…+ai,jvi,j
其中αi,j∈R,将k类共n个训练样本组合在一起形成整个训练集矩阵A,测试样本y表示为y=Ax,x是信号y在字典A中线性扩展的系数向量,采用OMP算法进行求解;
(2)通过OMP算法寻找训练样本矩阵中与残差最大线性相关的原子来更新索引集,并在每次迭代中获得测试样本在索引集上的最优投影来逐步逼近原始信号,求得稀疏解;初始化余量r0=y,索引集迭代次数t=1;
(3)在A中选出与余量相关性最相关的原子:nt=arg max〈rt-1,vi〉i=1,2,...N,并更新已选列空间:
(4)求解最小二乘问题,获得在已选列向量上的最优投影,更新已选各列的稀疏系数值更新余量:令t=t+1,判断rt<θ,θ为最大残差值,满足则停止并输出否则跳到(3)。
本发明的另一目的在于提供一种应用所述基于声学特征和稀疏数学的抑郁症辅助检测方法的抑郁症分类器。
本发明的优点及积极效果为:结合人脸表情和语音信号的多模态情感识别系统能在这两个信道(人脸、语音)之间取长补短,对能正确判别出是否具有抑郁症有着某种程度的互补作用。相比于单纯的临床检测或者单用情感识别检测抑郁症,本发明避免了光照、姿态、数据库大小、遮挡、年龄、表情等问题对检测带来的困扰。实验证明,当m=0.4,n=0.8时,其较好的做到了降噪与提高语音可懂度之间的折衷。经过仿真结果图6判断,本发明实施例产生的语音质量得到了改善,虽然传统谱减法后的噪声已经得到了抑制,使用改进谱减法消除了周期性干扰在视频网络输出端引起的啸叫噪声,语音的可懂度和自然度未受损失,有效地降低了背景噪声,提高了信噪比。抑郁和愤怒的识别率已经达到85%以上,四种情绪的总体平均识别率为74.4%。愤怒的识别率最高,为87.7%;正确识别出抑郁的概率为85.7%;从图7和图9中得出,通过语音识别模型和面部情绪识别模型得到的抑郁识别率分别为76%和85.7%,实验标准识别率为100%,因此,总体识别率为81.14%,证明本发明所提出的方法可以作为检测抑郁症是否存在的辅助手段。
本发明的实验结果表明,相比于仅利用语音模型或仅利用面部情绪模型识别来说,融合同一时刻的语音和面部情绪的抑郁症辅助检测算法的识别率有很大的提升,且在医院检测仪器上(电脑)易于软硬件的实现,成本低廉;是一种准确、有效的抑郁症辅助检测方法。
附图说明
图1是本发明实施例提供的基于声学特征和稀疏数学的抑郁症辅助检测方法流程图。
图2是本发明实施例提供的“倒谱法检测求基音周期的实现框图”图。
图3是本发明实施例提供的“共振峰提取实现框图”图。
图4是本发明实施例提供的“语音识别流程框图”图。
图5是本发明实施例提供的“人脸识别流程框图”图。
图6是本发明实施例提供的“改进谱减法后的语音信号示意图;
图中:(a)抑郁;(b)害怕;(c)正常”图。
图7是本发明实施例提供的“不同情感语音识别率”图。
图8是本发明实施例提供的“测试样本稀疏表示示意图;
图中:(a)分别是愤怒、抑郁、高兴、正常;(b)稀疏系数图”图。
图9是本发明实施例提供的“人脸面部情绪识别率”图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
下面结合附图对本发明的应用原理作详细的描述。
如图1所示,本发明实施例提供的基于声学特征和稀疏数学的抑郁症辅助检测方法及分类器包括以下步骤:
S101:读入语音数据并预处理,对所有语音进行信号增强;
S102:选用标准的3层BP神经网络按顺序分别输入害怕、正常、抑郁三类语音,提取MFCC的12个特征值组成12维特征向量;
S103:采用基于BP_adaboost的强分类器,将提取的MFCC的12阶特征参数作为12个弱分类器,将其每个弱分类器的输出进行合并以产生有效分类;
S104:从人脸库中的四类测试样本(愤怒、抑郁、高兴和正常)中对每类表情选出一幅图像,乘以基于稀疏表示的面部情绪识别,实现人脸识别。
下面结合具体实施例对本发明的应用原理作进一步的描述。
实施例1
抑郁症语音识别系统的工作条件需要提供一个安静的环境,一旦引入背景噪声,识别系统的性能即将受到影响,因此,本实施例提供一种基于改进谱减法增强语音质量的方法,具体包括以下步骤:
步骤1:假定语音为平稳信号,而噪声和语音为加性信号且彼此不相关,此时带噪语音信号可表示为:
y(n)=s(n)+d(n),0≤n≤N-1 (1)
式中s(n)为纯净语音信号,d(n)为平稳加性高斯噪声,y(n)为带噪语音信号。将带噪语音信号频域表示,其中*表示复共轭,因此:
|Yk|2=|Sk|2+|Nk|2+SkNk *+Sk *Nk (2)
步骤2:假定噪声为不相关的,即s(n)与d(n)独立,互谱的统计均值为0,且因为噪声是局部平稳的,发语音前的噪声与发语音期间的噪声功率谱相同,可以利用发语音前(或后)的“寂静帧”来估计噪声。对于一个分析帧内的短时平稳过程,有:
|Yk|2=|Sk|2+λ(K) (3)
其中λ(K)为无语音时|Nk|2的统计平均值,即λ(K)=E[|Nk|2],可得原始语音的估计值:
在实际计算中,可能会出现|Yk|2小于λ(K)的情况,由于功率谱不能为负,此时修改(4)式为:
其中ε为一个大于0的常数,由实验确定。
步骤3:由于语音能量较集中于某些频率或频段,尤其在元音的共振峰处,因此可在元音段等幅度较高的时帧去除噪声时减去n*λ(k),即将式(4)改为如下形式:
参数m的引进增加了算法的灵活性,实验结果表明,适当调节m、n可以获得比传统谱减法更好的增强效果;实验证明,当m=0.4,n=0.8时,其较好的做到了降噪与提高语音可懂度之间的折衷。经过仿真结果图6判断,本发明实施例产生的的语音质量得到了改善,虽然传统谱减法后的噪声已经得到了抑制,使用改进谱减法消除了周期性干扰在视频网络输出端引起的啸叫噪声,语音的可懂度和自然度未受损失,有效地降低了背景噪声,提高了信噪比。
实施例2
本发明实施例基于实施例1的信号增强的基础上对不同情感语音的特征参数(基频、共振峰、能量、短时平均幅度)进行了提取。采用常用情感识别的五种统计特征参数(最大值,最小值,变化范围,均值,方差)记录,以来体现抑郁患者语音特点及与其余两类情感语音的差别,具体包括以下步骤:
步骤1:读入语音数据并预处理,对语音数据进行端点检测后取出一帧语音数据并加窗,计算倒谱,然后在预期的基音周期附近寻找峰值,如果倒谱的峰值超出了预期设定的门限,则输入语音段定为浊音,而峰的位置就是基音周期的良好估值,如果没有超出门限的峰值,则输入语音段定为清音。倒谱法求基音周期的实现框图如图2所示。
发浊音时,声门激励是以基音周期为周期的脉冲序列,如(7)所示:
其中M和r是正整数,0≤r≤M,αγ是振幅因子,n是基音频率,根据复倒谱的定义可以得到x(n),如(8)所示:
其中,β0=ln α0,
步骤2:计算浊音基音周期,对倒谱进行低时窗选,通过语音倒谱分析系统的最后一级,进行DFT后的输出即为平滑后的对数模函数,平滑的对数谱显示了特定输入语音段的谐振结构,即谱的峰值基本上对应于共振峰频率,对平滑过的对数谱中的峰值进行定位即可估计共振峰。情感状态的变化主要反映在共振峰峰值的第一共振峰、第二共振峰、第三共振峰的变化较大,本发明实施例选取记录前三个共振峰频率,具体实现框图如图3所示。
步骤3:能量及短时平均幅度估计;定义n时刻某语音信号的短时平均能量En为(10),其中N为窗长:
选择一帧语音,计算该帧语音取样值的绝对值的和,得到该帧语音的平均幅度,如果对整段语音的各个分帧分别计算平均幅度,可以得到整段语音的短时平均幅度。定义短时平均幅度函数Mn测量语音信号的幅度变化:
通过实验判别,不难发现抑郁语音的基频变化范围大,语音波动性强,这表明了抑郁情绪的特点是持续的悲伤、焦虑、烦躁、言语愤怒。在除了基频特征外的其余特征中,抑郁和害怕、正常语音的差别也是显而易见的,抑郁症患者语音基频范围的缩小及基频均值的减少,与患者抑郁程度的轻重有着一定的关联。而语音能量的时变规律和短时平均幅度的变化非常接近,正常语音的能量值比抑郁高出近百倍,反映了抑郁患者所固有的抑制,阴郁,缺乏信心和活力等特征。
抑郁的第一共振峰的最大值最大,第一共振峰的变化范围也是最大,害怕和正常的第二共振峰和第三共振峰的变化范围与抑郁相差较大,也是抑郁语音区别于其余情感语音的关键,因此,采用前三个共振峰对三类情感语音的区分力还是很强的。
考虑到害怕情绪容易被错误的定义为抑郁症,因为害怕和抑郁的情感类别和人类表达方式具有一定程度的相似性,如音量变大,加速等,使得特征参数的相似性很大。然而,由试验判别可以得出,无论是从基频、前三共振峰特征,还是从能量、短时幅度特征,害怕语音和抑郁语音都有很大的不同,表明上述特征参数的提取可以作为检测是否患有抑郁症的辅助手段。
实施例3
本发明实施例基于语音识别及面部情绪识别对是否患有抑郁症进行了辅助判别,具体包括以下步骤:
步骤1:读入语音数据并预处理,采用实施例1中的方法对所有语音进行信号增强。
步骤2:选用标准的3层BP神经网络按顺序分别输入害怕、正常、抑郁三类语音,提取MFCC的12个特征值组成12维特征向量,因此BP神经网络的输入层节点数为12,神经元网络的输出层的节点数目由类别数确定,对三种语音情感进行识别,所以BP神经网络的输出层节点数为3,隐含层节点个数为6。对网络进行训练时,如果网络的输入特征向量是属于第K类语音的,则在网络的输出单元,第K个节点的输出为1,其余节点的输出均为0。语音识别流程框图如图4所示。
步骤2.1:先将原始语音信号S(n)预加重,加窗后便得到一帧语音信号,对一帧语音信号进行快速傅里叶变换,得到信号的离散功率谱X(k);
步骤2.2:定义由M个三角形带通滤波器组成的滤波器组,每个滤波器的中心频率为f(m),m=1,2,......,M,相邻滤波器交叉重叠在一起,且其中心频率在Mel频率轴上为等间距分布,滤波器组在频域上覆盖从0Hz到Nyquist频率,三角滤波器的频率响应H(k)为:
其中f1和fH分别是滤波器组覆盖范围的低通频率和高通频率,Fs是信号采样频率,单位都是Hz,M是滤波器组中滤波器的个数,N是进行FFT变换时的点数。
步骤2.3:通过步骤2.2,每个滤波器产生的输出频谱能量,取对数后便得到一组如下系数S(m)为:
再经过离散余弦变换(DCT)将S(m)转换到时域,就是MFCC,MFCC系数c(i)的计算过程为:
步骤2.4:应用MFCC特征参数通过BP神经网络训练、测试后所得不同情感的识别正确率如图7所示,每种情感语音100句,共300句,识别中采用10次交叉检验技术,即所有样本被平分为5份,每次随机选择其中的3份用于训练,2份用于测试,取10次的平均值作为识别结果。
从图7中可以看出,对于情感类别害怕的识别率最高,达到了80%,这是因为这种情感的表达是最强的,特征参数的表征很大。
步骤3:考虑到抑郁语音和害怕语音的相似性,如何能在这两种语音间正确识别出是否患有抑郁症就显得尤为重要。为了提高识别精准度,本发明设计了一种基于BP_adaboost的强分类器,其将提取的MFCC的12阶特征参数作为12个弱分类器,将其每个弱分类器的输出进行合并以产生有效分类,对于本实例来说,共有100组语音样本,每组语音样本的输入为12维,代表MFCC的12个指标,输出为1维,代表情感状态,为-1时表示情感类别为害怕,为1时表示情感类别为抑郁。从中随机选取100组语音样本作为训练数据,30组语音样本作为测试数据,根据数据维数,采用的BP神经网络结构为12-13-1,共训练生成12个BP神经网络弱分类器,最后用12个弱分类器组成强分类器对是否患有抑郁进行判断。通过以下步骤完成强分类的设计:
步骤3.1:从样本空间中随机选择m组训练数据,初始化测试数据分布权值Dt(i)=1/m,根据样本输入输出维数确定神经网络结构,初始化BP神经网络权值和阈值。
步骤3.2:弱分类器预测。训练第t个弱分类器时,用训练数据训练BP神经网络并预测训练数据输出,得到预测序列g(t)的预测误差和et=∑iDt(i);
步骤3.3:计算预测序列权重,根据预测预测序列g(t)的预测误差et计算序列的权重αt,权重计算公式为:
步骤3.4:测试数据权重调整,根据预测序列权重αt调整下一轮训练样本的权重,调整公式为:
其中Bt是归一化因子,目的是在权重比例不变的情况下使分布权值和为1。
步骤3.5:强分类函数,训练T轮后得到T组弱分类函数f(gt,αt),由T组弱分类函数f(gt,αt)组合得到了强分类函数h(x):
从本实施例经验证后的分类误差结果可以得到强分类器分类误差率低于弱分类器分类误差率,表明使用12维的MFCC特征参数设计基于BP_adaboost的分类算法取得了良好的效果。
步骤4:本发明将面部情绪识别作为检测抑郁症的辅助方法,提出了一种基于稀疏表示的面部情绪识别方法,从人脸库中的四类测试样本(愤怒、抑郁、高兴和正常)中对每类表情选出一幅图像,图像经尺寸归一化后,统一为64*64并预处理为灰色图像,采用400幅图像训练,识别中采用5次交叉检验技术,即所有样本被平分为5份,每次随机选择其中的4份用于训练,1份用于测试,取5次的平均值作为识别结果。人脸识别流程框图如图5所示。
步骤4.1:假定任意类都有足够多的训练样本,第i类训练样本用矩阵可以表示为来自同一类别的测试样本向量y∈Rm可以被该类训练样本的线性组合逼近:
y=ai,1vi,1+ai,2vi,2+…+ai,jvi,j (18)
其中αi,j∈R,将k类共n个训练样本组合在一起形成整个训练集矩阵A,测试样本y可以表示为y=Ax,x是信号y在字典A中线性扩展的系数向量,其可以采取多种方法进行求解,本发明采用OMP算法进行求解。
步骤4.2:通过OMP算法寻找训练样本矩阵中与残差最大线性相关的原子来更新索引集,并在每次迭代中获得测试样本在索引集上的最优投影来逐步逼近原始信号,保证残差最小,求得稀疏解。初始化余量r0=y,索引集迭代次数t=1。
步骤4.3:在A中选出与余量相关性最相关的原子:nt=arg max<rt-1,vi>i=1,2,...N,并更新已选列空间:
步骤4.4:求解最小二乘问题,保证残差最小,获得在已选列向量上的最优投影,更新已选各列的稀疏系数值更新余量:令t=t+1,判断rt<θ(θ为设定的最大残差值),满足则停止并输出否则跳到步骤4.3)。
经过上述步骤后,最终可以得到测试样本的稀疏系数组合,通过对稀疏系数组合分析,就能实现对测试样本的判别归类,图8给出了四类测试样本稀疏表示后的稀疏系数图,图9给出了对不同面部情绪的识别率。
从结果可以看出,抑郁和愤怒的识别率已经达到85%以上,四种情绪的总体平均识别率为74.4%。愤怒的识别率最高,为87.7%,这是因为人在愤怒时所表现出的嘴部,眼部,眉毛等特征明显,眼睛和嘴张开的幅度比正常时要大,且其情感因素表达强度最为强烈,特征参数的表征度较大。实验能正确识别出抑郁的概率为85.7%,比高兴和正常情感的识别率高,其中被误判为高兴的概率是5.5%,被误判为正常的概率是5.5%。
步骤5:从情感语音信号中提取语音的情感特征,从面部图像序列中提取表情特征,将通过BP神经网络和通过稀疏表示算法计算得出的抑郁症识别率基于其各自所占的比重进行融合,判别抑郁情感状态。
将待测语音的标准识别率作为多模态融合的输入M,通过语音识别模型和人脸识别模型检测得到的识别率分别记为A和B,因此,总识别率为
从图7和图9中得出,通过语音识别模型和面部情绪识别模型得到的抑郁识别率分别为76%和85.7%,实验标准识别率为100%,因此,总体识别率为81.14%,这证明本实施例所提出的方法可以作为检测抑郁症是否存在的辅助手段。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于声学特征和稀疏数学的抑郁症辅助检测方法,其特征在于,所述基于声学特征和稀疏数学的抑郁症辅助检测方法基于语音和面部情绪共同识别的抑郁症判别;通过逆滤波器实现声门信号的估计,对语音信号采用全局分析,提取特征参数,分析特征参数的时序和分布特点,找到不同情感语音的韵律规律作为情感识别的依据;使用MFCC作为特征参数分析所要处理的语音信号,并用多组训练数据分别采集录音中的数据,建立神经网络模型进行判别;采用基于OMP的稀疏表示算法得到测试样本的稀疏线性组合,对人脸面部情绪进行判别归类,将得到的结果与语音识别结果线性组合以得到最终的表示每个数据的概率。
2.如权利要求1所述的基于声学特征和稀疏数学的抑郁症辅助检测方法,其特征在于,所述基于声学特征和稀疏数学的抑郁症辅助检测方法包括以下步骤:
步骤一,读入语音数据并预处理,对所有语音进行信号增强;
步骤二,选用标准的3层BP神经网络按顺序分别输入害怕、正常、抑郁三类语音,提取MFCC的12个特征值组成12维特征向量;
步骤三,采用基于BP_adaboost的强分类器,将提取的MFCC的12阶特征参数作为12个弱分类器,将每个弱分类器的输出乘以权重后进行合并以产生有效分类;
步骤四,从人脸库中的四类测试样本愤怒、抑郁、高兴和正常中对每类表情选出一幅图像,采用正交匹配追踪算法得到测试样本的稀疏线性组合,实现人脸识别。
3.如权利要求2所述的基于声学特征和稀疏数学的抑郁症辅助检测方法,其特征在于,所述步骤一具体包括:
(1)语音为平稳信号,带噪语音信号表示为:
y(n)=s(n)+d(n),0≤n≤N-1;
式中s(n)为纯净语音信号,d(n)为平稳加性高斯噪声,y(n)为带噪语音信号;将带噪语音信号频域表示,其中*表示复共轭,因此:
|Yk|2=|Sk|2+|Nk|2+SkNk*+Sk*Nk
(2)s(n)与d(n)独立,互谱的统计均值为0,利用发语音前或后的寂静帧来估计噪声,一个分析帧内的短时平稳过程:
|Yk|2=|Sk|2+λ(K);
其中λ(K)为无语音时|Nk|2的统计平均值,λ(K)=E[|Nk|2],得原始语音的估计值:
<mrow> <mo>|</mo> <mover> <msub> <mi>S</mi> <mi>k</mi> </msub> <mo>^</mo> </mover> <mo>|</mo> <mo>=</mo> <msup> <mrow> <mo>&amp;lsqb;</mo> <mo>|</mo> <msub> <mi>Y</mi> <mi>k</mi> </msub> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>-</mo> <mi>E</mi> <mrow> <mo>(</mo> <mo>|</mo> <msub> <mi>N</mi> <mi>k</mi> </msub> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>)</mo> </mrow> <mo>&amp;rsqb;</mo> </mrow> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> </msup> <mo>=</mo> <msup> <mrow> <mo>&amp;lsqb;</mo> <mo>|</mo> <msub> <mi>Y</mi> <mi>k</mi> </msub> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>-</mo> <mi>&amp;lambda;</mi> <mrow> <mo>(</mo> <mi>K</mi> <mo>)</mo> </mrow> <mo>&amp;rsqb;</mo> </mrow> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> </msup> <mo>;</mo> </mrow>
(3)在元音段等幅度较高的时帧去除噪声时减去n*λ(k)为:
<mrow> <mo>|</mo> <mover> <msub> <mi>S</mi> <mi>k</mi> </msub> <mo>^</mo> </mover> <mo>|</mo> <mo>=</mo> <msup> <mrow> <mo>&amp;lsqb;</mo> <mo>|</mo> <msub> <mi>Y</mi> <mi>k</mi> </msub> <msup> <mo>|</mo> <mi>m</mi> </msup> <mo>-</mo> <mi>n</mi> <mi>&amp;lambda;</mi> <msup> <mrow> <mo>(</mo> <mi>K</mi> <mo>)</mo> </mrow> <mi>m</mi> </msup> <mo>&amp;rsqb;</mo> </mrow> <mfrac> <mn>1</mn> <mi>m</mi> </mfrac> </msup> <mo>.</mo> <mo>;</mo> </mrow>
m=0.4,n=0.8;m是谱减功率修正系数,n是谱减噪声系数。
4.如权利要求2所述的基于声学特征和稀疏数学的抑郁症辅助检测方法,其特征在于,所述步骤一具体包括:对不同情感语音的基频、共振峰、能量、短时平均幅度进行提取,具体包括:
(1)发浊音时,声门激励是以基音周期为周期的脉冲序列:
<mrow> <mi>x</mi> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> <mo>=</mo> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>r</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>M</mi> </msubsup> <msub> <mi>&amp;alpha;</mi> <mi>r</mi> </msub> <mi>&amp;delta;</mi> <mrow> <mo>(</mo> <mi>n</mi> <mo>-</mo> <msub> <mi>rN</mi> <mi>p</mi> </msub> <mo>)</mo> </mrow> <mo>;</mo> </mrow>
其中M和r是正整数,0≤r≤M,αγ是振幅因子,n是基音频率,根据复倒谱的定义得到x(n):
其中,β0=lnα0,
(2)计算浊音基音周期,对倒谱进行低时窗选,通过语音倒谱分析系统的最后一级,进行DFT后的输出即为平滑后的对数模函数,平滑的对数谱显示了特定输入语音段的谐振结构,谱的峰值基本上对应于共振峰频率,对平滑过的对数谱中的峰值进行定位即可估计共振峰;
(3)能量及短时平均幅度估计;定义n时刻某语音信号的短时平均能量En为:
<mrow> <msub> <mi>E</mi> <mi>n</mi> </msub> <mo>=</mo> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>m</mi> <mo>=</mo> <mo>-</mo> <mi>&amp;infin;</mi> </mrow> <mrow> <mo>+</mo> <mi>&amp;infin;</mi> </mrow> </msubsup> <msup> <mrow> <mo>&amp;lsqb;</mo> <mi>x</mi> <mrow> <mo>(</mo> <mi>m</mi> <mo>)</mo> </mrow> <mi>&amp;omega;</mi> <mrow> <mo>(</mo> <mi>n</mi> <mo>-</mo> <mi>m</mi> <mo>)</mo> </mrow> <mo>&amp;rsqb;</mo> </mrow> <mn>2</mn> </msup> <mo>=</mo> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>m</mi> <mo>=</mo> <mi>n</mi> <mo>-</mo> <mrow> <mo>(</mo> <mi>N</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow> <mi>n</mi> </msubsup> <msup> <mrow> <mo>&amp;lsqb;</mo> <mi>x</mi> <mrow> <mo>(</mo> <mi>m</mi> <mo>)</mo> </mrow> <mi>&amp;omega;</mi> <mrow> <mo>(</mo> <mi>n</mi> <mo>-</mo> <mi>m</mi> <mo>)</mo> </mrow> <mo>&amp;rsqb;</mo> </mrow> <mn>2</mn> </msup> <mo>;</mo> </mrow>
其中N为窗长;
选择一帧语音,计算该帧语音取样值的绝对值的和,得到该帧语音的平均幅度,如果对整段语音的各个分帧分别计算平均幅度,得到整段语音的短时平均幅度,短时平均幅度函数Mn测量语音信号的幅度变化:
<mrow> <msub> <mi>M</mi> <mi>n</mi> </msub> <mo>=</mo> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>m</mi> <mo>=</mo> <mo>-</mo> <mi>&amp;infin;</mi> </mrow> <mrow> <mo>+</mo> <mi>&amp;infin;</mi> </mrow> </msubsup> <mo>|</mo> <mi>x</mi> <mrow> <mo>(</mo> <mi>m</mi> <mo>)</mo> </mrow> <mo>|</mo> <mo>|</mo> <mi>&amp;omega;</mi> <mrow> <mo>(</mo> <mi>n</mi> <mo>-</mo> <mi>m</mi> <mo>)</mo> </mrow> <mo>|</mo> <mo>=</mo> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>m</mi> <mo>=</mo> <mi>n</mi> <mo>-</mo> <mi>N</mi> <mo>+</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <mo>|</mo> <mi>x</mi> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> <mo>|</mo> <mo>|</mo> <mi>&amp;omega;</mi> <mrow> <mo>(</mo> <mi>n</mi> <mo>-</mo> <mi>m</mi> <mo>)</mo> </mrow> <mo>|</mo> <mo>.</mo> </mrow>
5.如权利要求2所述的基于声学特征和稀疏数学的抑郁症辅助检测方法,其特征在于,所述步骤二具体包括:
1)先将原始语音信号S(n)预加重,加窗后便得到一帧语音信号,对一帧语音信号进行快速傅里叶变换,得到信号的离散功率谱X(k);
2)由M个三角形带通滤波器组成的滤波器组,每个滤波器的中心频率为f(m),m=1,2,......,M,相邻滤波器交叉重叠在一起,且其中心频率在Mel频率轴上为等间距分布,滤波器组在频域上覆盖从0Hz到Nyquist频率,三角滤波器的频率响应H(k)为:
<mrow> <msub> <mi>H</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mn>0</mn> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mi>k</mi> <mo>&lt;</mo> <mi>f</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>&amp;cup;</mo> <mi>k</mi> <mo>&gt;</mo> <mi>k</mi> <mo>&lt;</mo> <mi>f</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mfrac> <mrow> <mn>2</mn> <mrow> <mo>(</mo> <mi>k</mi> <mo>-</mo> <mi>f</mi> <mo>(</mo> <mi>i</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>)</mo> </mrow> <mrow> <mo>(</mo> <mi>f</mi> <mo>(</mo> <mi>i</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> <mo>-</mo> <mi>f</mi> <mo>(</mo> <mi>i</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> <mo>)</mo> <mo>(</mo> <mi>f</mi> <mo>(</mo> <mi>i</mi> <mo>)</mo> <mo>-</mo> <mi>f</mi> <mo>(</mo> <mi>i</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> <mo>)</mo> </mrow> </mfrac> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mo>(</mo> <mi>f</mi> <mo>(</mo> <mrow> <mi>i</mi> <mo>-</mo> <mn>1</mn> </mrow> <mo>)</mo> <mo>&amp;le;</mo> <mi>k</mi> <mo>&amp;le;</mo> <mi>f</mi> <mo>(</mo> <mi>i</mi> <mo>)</mo> <mo>)</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mfrac> <mrow> <mn>2</mn> <mrow> <mo>(</mo> <mi>f</mi> <mo>(</mo> <mi>i</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>-</mo> <mi>k</mi> <mo>)</mo> </mrow> <mrow> <mo>(</mo> <mi>f</mi> <mo>(</mo> <mi>i</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> <mo>-</mo> <mi>f</mi> <mo>(</mo> <mi>i</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> <mo>(</mo> <mi>f</mi> <mo>(</mo> <mi>i</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> <mo>-</mo> <mi>f</mi> <mo>(</mo> <mi>i</mi> <mo>)</mo> <mo>)</mo> <mo>)</mo> </mrow> </mfrac> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mo>(</mo> <mi>f</mi> <mo>(</mo> <mi>i</mi> <mo>)</mo> <mo>&amp;le;</mo> <mi>k</mi> <mo>&amp;le;</mo> <mi>f</mi> <mo>(</mo> <mrow> <mi>i</mi> <mo>+</mo> <mn>1</mn> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>;</mo> </mrow>
其中f1和fH分别是滤波器组覆盖范围的低通频率和高通频率,Fs是信号采样频率,单位都是Hz,M是滤波器组中滤波器的个数,N是进行FFT变换时的点数;
3)每个滤波器产生的输出频谱能量,取对数后便得到一组如下系数S(m)为:
<mrow> <mi>S</mi> <mrow> <mo>(</mo> <mi>m</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>ln</mi> <mrow> <mo>(</mo> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>N</mi> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <mo>|</mo> <mi>X</mi> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <msup> <mo>|</mo> <mn>2</mn> </msup> <msub> <mi>H</mi> <mi>m</mi> </msub> <mo>(</mo> <mi>k</mi> <mo>)</mo> <mo>)</mo> <mo>,</mo> <mi>m</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mn>...</mn> <mi>M</mi> <mo>;</mo> </mrow>
再经过离散余弦变换将S(m)转换到时域,是MFCC,MFCC系数c(i)的计算过程为:
<mrow> <mi>c</mi> <mrow> <mo>(</mo> <mi>m</mi> <mo>)</mo> </mrow> <mo>=</mo> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>n</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>M</mi> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <mi>S</mi> <mrow> <mo>(</mo> <mi>m</mi> <mo>)</mo> </mrow> <mi>cos</mi> <mrow> <mo>(</mo> <mfrac> <mrow> <mi>&amp;pi;</mi> <mi>m</mi> <mrow> <mo>(</mo> <mi>n</mi> <mo>+</mo> <mn>0.5</mn> <mo>)</mo> </mrow> </mrow> <mi>M</mi> </mfrac> <mo>)</mo> </mrow> <mo>,</mo> <mn>1</mn> <mo>&amp;le;</mo> <mi>m</mi> <mo>&amp;le;</mo> <mi>M</mi> <mo>.</mo> </mrow>
6.如权利要求2所述的基于声学特征和稀疏数学的抑郁症辅助检测方法,其特征在于,所述步骤三具体包括:
1)从样本空间中随机选择m组训练数据,初始化测试数据分布权值Dt(i)=1/m,根据样本输入输出维数确定神经网络结构,初始化BP神经网络权值和阈值;
2)弱分类器预测,训练第t个弱分类器时,用训练数据训练BP神经网络并预测训练数据输出,得到预测序列g(t)的预测误差和et=∑iDt(i);
3)计算预测序列权重,根据预测预测序列g(t)的预测误差et计算序列的权重αt,权重计算公式为:
<mrow> <msub> <mi>&amp;alpha;</mi> <mi>t</mi> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <mi>ln</mi> <mrow> <mo>(</mo> <mfrac> <mrow> <mn>1</mn> <mo>-</mo> <msub> <mi>e</mi> <mi>t</mi> </msub> </mrow> <msub> <mi>e</mi> <mi>t</mi> </msub> </mfrac> <mo>)</mo> </mrow> <mo>;</mo> </mrow>
4)测试数据权重调整,根据预测序列权重αt调整下一轮训练样本的权重,调整公式为:
<mrow> <msub> <mi>D</mi> <mrow> <mi>t</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> <mo>+</mo> <mfrac> <mrow> <msub> <mi>D</mi> <mi>t</mi> </msub> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </mrow> <msub> <mi>B</mi> <mi>t</mi> </msub> </mfrac> <mo>*</mo> <mi>exp</mi> <mo>&amp;lsqb;</mo> <mo>-</mo> <msub> <mi>&amp;alpha;</mi> <mi>t</mi> </msub> <msub> <mi>y</mi> <mi>i</mi> </msub> <msub> <mi>g</mi> <mi>t</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>&amp;rsqb;</mo> <mo>,</mo> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mn>...</mn> <mo>,</mo> <mi>m</mi> <mo>;</mo> </mrow>
其中Bt是归一化因子,目的是在权重比例不变的情况下使分布权值和为1;
5)强分类函数,训练T轮后得到T组弱分类函数f(gt,αt),由T组弱分类函数f(gtt)组合得到强分类函数h(x):
<mrow> <mi>h</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>s</mi> <mi>i</mi> <mi>g</mi> <mi>n</mi> <mo>&amp;lsqb;</mo> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>t</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>T</mi> </msubsup> <msub> <mi>&amp;alpha;</mi> <mi>t</mi> </msub> <mo>&amp;CenterDot;</mo> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>g</mi> <mi>t</mi> </msub> <mo>,</mo> <msub> <mi>&amp;alpha;</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> <mo>&amp;rsqb;</mo> <mo>.</mo> </mrow>
7.如权利要求2所述的基于声学特征和稀疏数学的抑郁症辅助检测方法,其特征在于,所述步骤四具体包括:
(1)任意类有足够多的训练样本,第i类训练样本用矩阵表示为来自同一类别的测试样本向量y∈Rm被该类训练样本的线性组合逼近:
y=ai,1vi,1+ai,2vi,2+…+ai,jvi,j
其中αi,j∈R,将k类共n个训练样本组合在一起形成整个训练集矩阵A,测试样本y表示为y=Ax,x是信号y在字典A中线性扩展的系数向量,采用OMP算法进行求解;
(2)通过OMP算法寻找训练样本矩阵中与残差最大线性相关的原子来更新索引集,并在每次迭代中获得测试样本在索引集上的最优投影来逐步逼近原始信号,求得稀疏解;初始化余量r0=y,索引集迭代次数t=1;
(3)在A中选出与余量相关性最相关的原子:nt=arg max<rt-1,vi>i=1,2,...N,并更新已选列空间:
(4)求解最小二乘问题,获得在已选列向量上的最优投影,更新已选各列的稀疏系数值 更新余量:令t=t+1,判断rt<θ,θ为最大残差值,满足则停止并输出否则跳到(3)。
8.一种应用权利要求1~7任意一项所述基于声学特征和稀疏数学的抑郁症辅助检测方法的抑郁症分类器。
CN201710695633.2A 2017-08-15 2017-08-15 基于声学特征和稀疏数学的抑郁症辅助检测方法及分类器 Active CN107657964B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710695633.2A CN107657964B (zh) 2017-08-15 2017-08-15 基于声学特征和稀疏数学的抑郁症辅助检测方法及分类器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710695633.2A CN107657964B (zh) 2017-08-15 2017-08-15 基于声学特征和稀疏数学的抑郁症辅助检测方法及分类器

Publications (2)

Publication Number Publication Date
CN107657964A true CN107657964A (zh) 2018-02-02
CN107657964B CN107657964B (zh) 2021-01-05

Family

ID=61128335

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710695633.2A Active CN107657964B (zh) 2017-08-15 2017-08-15 基于声学特征和稀疏数学的抑郁症辅助检测方法及分类器

Country Status (1)

Country Link
CN (1) CN107657964B (zh)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109034046A (zh) * 2018-07-20 2018-12-18 国网重庆市电力公司电力科学研究院 一种基于声学检测的电能表内异物自动识别方法
CN109978145A (zh) * 2019-03-29 2019-07-05 联想(北京)有限公司 一种处理方法及装置
CN110123343A (zh) * 2019-04-19 2019-08-16 西北师范大学 基于语音分析的抑郁症检测设备
CN110570844A (zh) * 2019-08-15 2019-12-13 平安科技(深圳)有限公司 语音情绪识别方法、装置及计算机可读存储介质
CN110675953A (zh) * 2019-09-23 2020-01-10 湖南检信智能科技有限公司 利用人工智能和大数据筛查识别精神病患者的方法
CN110880360A (zh) * 2018-09-05 2020-03-13 重庆工商职业学院 一种基于稀疏表示的帕金森病数据集分类方法
CN110931040A (zh) * 2018-09-20 2020-03-27 萨基姆宽带简易股份有限公司 过滤由语音识别系统获取的声音信号
CN111329494A (zh) * 2020-02-28 2020-06-26 首都医科大学 基于语音关键词检索和语音情绪识别的抑郁症检测方法
CN111667848A (zh) * 2019-03-07 2020-09-15 上海整合医学研究院有限公司 一种用于监测躁狂发作的语音特征提取方法
CN112006697A (zh) * 2020-06-02 2020-12-01 东南大学 一种基于语音信号的梯度提升决策树抑郁症识别方法
CN112674769A (zh) * 2020-12-10 2021-04-20 成都探马网络科技有限公司 一种基于心理投射的心理测试方法
CN112687390A (zh) * 2021-03-12 2021-04-20 中国科学院自动化研究所 基于混合网络和lp范数池化的抑郁状态检测方法及装置
CN112768070A (zh) * 2021-01-06 2021-05-07 万佳安智慧生活技术(深圳)有限公司 一种基于对话交流的精神健康评测方法和系统
WO2021104099A1 (zh) * 2019-11-29 2021-06-03 中国科学院深圳先进技术研究院 一种基于情景感知的多模态抑郁症检测方法和系统
CN112927722A (zh) * 2021-01-25 2021-06-08 中国科学院心理研究所 基于个体语音分析的抑郁感知系统建立方法及其抑郁感知系统
CN113053417A (zh) * 2021-03-29 2021-06-29 济南大学 带噪语音情感识别方法、系统、设备及存储介质
CN113065449A (zh) * 2021-03-29 2021-07-02 济南大学 面部图像采集方法、装置、计算机设备及存储介质
CN113171214A (zh) * 2021-05-27 2021-07-27 山东大学 基于自适应增强分类器的多路反馈肌电控制假肢手及方法
CN113317791A (zh) * 2021-05-28 2021-08-31 温州康宁医院股份有限公司 一种基于被测者的音频确定抑郁症严重程度的方法及装置
CN113436649A (zh) * 2021-06-25 2021-09-24 武汉大晟极科技有限公司 一种语音情感标定辅助方法及系统
CN113555004A (zh) * 2021-07-15 2021-10-26 复旦大学 基于特征选择与迁移学习的语音抑郁状态识别方法
CN113633287A (zh) * 2021-07-08 2021-11-12 上海市精神卫生中心(上海市心理咨询培训中心) 一种基于语音分析的抑郁症识别方法、系统和设备
JP7466131B2 (ja) 2020-04-28 2024-04-12 Pst株式会社 情報処理装置、方法、及びプログラム
CN117953914A (zh) * 2024-03-27 2024-04-30 深圳市西昊智能家具有限公司 用于智能办公的语音数据增强优化方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101330268B1 (ko) * 2012-09-12 2013-11-15 가천대학교 산학협력단 가중 퍼지 소속 함수 기반 뉴로 퍼지 네트워크를 이용한 음성 감정 인식 모델 생성 방법
CN105976809A (zh) * 2016-05-25 2016-09-28 中国地质大学(武汉) 基于语音和面部表情的双模态情感融合的识别方法及系统
CN106570496A (zh) * 2016-11-22 2017-04-19 上海智臻智能网络科技股份有限公司 情绪识别方法和装置以及智能交互方法和设备
CN106878677A (zh) * 2017-01-23 2017-06-20 西安电子科技大学 基于多传感器的学生课堂掌握程度评估系统和方法
CN106919251A (zh) * 2017-01-09 2017-07-04 重庆邮电大学 一种基于多模态情感识别的虚拟学习环境自然交互方法
CN106971180A (zh) * 2017-05-16 2017-07-21 山东大学 一种基于语音字典稀疏迁移学习的微表情识别方法
CN106980848A (zh) * 2017-05-11 2017-07-25 杭州电子科技大学 基于曲波变换和稀疏学习的人脸表情识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101330268B1 (ko) * 2012-09-12 2013-11-15 가천대학교 산학협력단 가중 퍼지 소속 함수 기반 뉴로 퍼지 네트워크를 이용한 음성 감정 인식 모델 생성 방법
CN105976809A (zh) * 2016-05-25 2016-09-28 中国地质大学(武汉) 基于语音和面部表情的双模态情感融合的识别方法及系统
CN106570496A (zh) * 2016-11-22 2017-04-19 上海智臻智能网络科技股份有限公司 情绪识别方法和装置以及智能交互方法和设备
CN106919251A (zh) * 2017-01-09 2017-07-04 重庆邮电大学 一种基于多模态情感识别的虚拟学习环境自然交互方法
CN106878677A (zh) * 2017-01-23 2017-06-20 西安电子科技大学 基于多传感器的学生课堂掌握程度评估系统和方法
CN106980848A (zh) * 2017-05-11 2017-07-25 杭州电子科技大学 基于曲波变换和稀疏学习的人脸表情识别方法
CN106971180A (zh) * 2017-05-16 2017-07-21 山东大学 一种基于语音字典稀疏迁移学习的微表情识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
徐岩等: "基于谱相减改进算法的语音增强研究", 《铁道学报》 *

Cited By (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109034046A (zh) * 2018-07-20 2018-12-18 国网重庆市电力公司电力科学研究院 一种基于声学检测的电能表内异物自动识别方法
CN110880360A (zh) * 2018-09-05 2020-03-13 重庆工商职业学院 一种基于稀疏表示的帕金森病数据集分类方法
CN110931040B (zh) * 2018-09-20 2022-07-12 萨基姆宽带简易股份有限公司 过滤由语音识别系统获取的声音信号
CN110931040A (zh) * 2018-09-20 2020-03-27 萨基姆宽带简易股份有限公司 过滤由语音识别系统获取的声音信号
CN111667848A (zh) * 2019-03-07 2020-09-15 上海整合医学研究院有限公司 一种用于监测躁狂发作的语音特征提取方法
CN111667848B (zh) * 2019-03-07 2023-07-21 上海整合医学研究院有限公司 一种用于监测躁狂发作的语音特征提取方法
CN109978145A (zh) * 2019-03-29 2019-07-05 联想(北京)有限公司 一种处理方法及装置
CN109978145B (zh) * 2019-03-29 2021-09-14 联想(北京)有限公司 一种处理方法及装置
CN110123343A (zh) * 2019-04-19 2019-08-16 西北师范大学 基于语音分析的抑郁症检测设备
CN110123343B (zh) * 2019-04-19 2023-10-03 西北师范大学 基于语音分析的抑郁症检测设备
CN110570844A (zh) * 2019-08-15 2019-12-13 平安科技(深圳)有限公司 语音情绪识别方法、装置及计算机可读存储介质
CN110570844B (zh) * 2019-08-15 2023-05-05 平安科技(深圳)有限公司 语音情绪识别方法、装置及计算机可读存储介质
CN110675953B (zh) * 2019-09-23 2023-06-30 湖南检信智能科技有限公司 利用人工智能和大数据筛查识别精神病患者的系统
CN110675953A (zh) * 2019-09-23 2020-01-10 湖南检信智能科技有限公司 利用人工智能和大数据筛查识别精神病患者的方法
WO2021104099A1 (zh) * 2019-11-29 2021-06-03 中国科学院深圳先进技术研究院 一种基于情景感知的多模态抑郁症检测方法和系统
CN111329494A (zh) * 2020-02-28 2020-06-26 首都医科大学 基于语音关键词检索和语音情绪识别的抑郁症检测方法
CN111329494B (zh) * 2020-02-28 2022-10-28 首都医科大学 抑郁症参考数据的获取方法及装置
JP7466131B2 (ja) 2020-04-28 2024-04-12 Pst株式会社 情報処理装置、方法、及びプログラム
CN112006697A (zh) * 2020-06-02 2020-12-01 东南大学 一种基于语音信号的梯度提升决策树抑郁症识别方法
CN112674769B (zh) * 2020-12-10 2023-07-18 成都探马网络科技有限公司 一种基于心理投射的心理测试方法
CN112674769A (zh) * 2020-12-10 2021-04-20 成都探马网络科技有限公司 一种基于心理投射的心理测试方法
CN112768070A (zh) * 2021-01-06 2021-05-07 万佳安智慧生活技术(深圳)有限公司 一种基于对话交流的精神健康评测方法和系统
CN112927722A (zh) * 2021-01-25 2021-06-08 中国科学院心理研究所 基于个体语音分析的抑郁感知系统建立方法及其抑郁感知系统
CN112927722B (zh) * 2021-01-25 2022-11-25 中国科学院心理研究所 基于个体语音分析的抑郁感知系统建立方法及其抑郁感知系统
CN112687390B (zh) * 2021-03-12 2021-06-18 中国科学院自动化研究所 基于混合网络和lp范数池化的抑郁状态检测方法及装置
CN112687390A (zh) * 2021-03-12 2021-04-20 中国科学院自动化研究所 基于混合网络和lp范数池化的抑郁状态检测方法及装置
CN113053417A (zh) * 2021-03-29 2021-06-29 济南大学 带噪语音情感识别方法、系统、设备及存储介质
CN113065449A (zh) * 2021-03-29 2021-07-02 济南大学 面部图像采集方法、装置、计算机设备及存储介质
CN113171214A (zh) * 2021-05-27 2021-07-27 山东大学 基于自适应增强分类器的多路反馈肌电控制假肢手及方法
CN113171214B (zh) * 2021-05-27 2023-10-24 山东大学 基于自适应增强分类器的多路反馈肌电控制假肢手及方法
CN113317791B (zh) * 2021-05-28 2023-03-14 温州康宁医院股份有限公司 一种基于被测者的音频确定抑郁症严重程度的方法及装置
CN113317791A (zh) * 2021-05-28 2021-08-31 温州康宁医院股份有限公司 一种基于被测者的音频确定抑郁症严重程度的方法及装置
CN113436649A (zh) * 2021-06-25 2021-09-24 武汉大晟极科技有限公司 一种语音情感标定辅助方法及系统
CN113633287A (zh) * 2021-07-08 2021-11-12 上海市精神卫生中心(上海市心理咨询培训中心) 一种基于语音分析的抑郁症识别方法、系统和设备
CN113555004A (zh) * 2021-07-15 2021-10-26 复旦大学 基于特征选择与迁移学习的语音抑郁状态识别方法
CN117953914A (zh) * 2024-03-27 2024-04-30 深圳市西昊智能家具有限公司 用于智能办公的语音数据增强优化方法

Also Published As

Publication number Publication date
CN107657964B (zh) 2021-01-05

Similar Documents

Publication Publication Date Title
CN107657964B (zh) 基于声学特征和稀疏数学的抑郁症辅助检测方法及分类器
Godino-Llorente et al. Dimensionality reduction of a pathological voice quality assessment system based on Gaussian mixture models and short-term cepstral parameters
Hansen et al. Speaker recognition by machines and humans: A tutorial review
Dibazar et al. Feature analysis for automatic detection of pathological speech
Daqrouq et al. Speaker identification using vowels features through a combined method of formants, wavelets, and neural network classifiers
Dibazar et al. Pathological voice assessment
CN111461176A (zh) 基于归一化互信息的多模态融合方法、装置、介质及设备
Vashkevich et al. Classification of ALS patients based on acoustic analysis of sustained vowel phonations
CN111798874A (zh) 一种语音情绪识别方法及系统
Moro-Velázquez et al. Modulation spectra morphological parameters: A new method to assess voice pathologies according to the grbas scale
CN109285551B (zh) 基于wmfcc和dnn的帕金森患者声纹识别方法
Xu et al. Parkinson’s disease detection based on spectrogram-deep convolutional generative adversarial network sample augmentation
Fontes et al. Classification system of pathological voices using correntropy
CN109979436A (zh) 一种基于频谱自适应法的bp神经网络语音识别系统及方法
Ijitona et al. Automatic detection of speech disorder in dysarthria using extended speech feature extraction and neural networks classification
Zhao et al. Research on depression detection algorithm combine acoustic rhythm with sparse face recognition
Kaushik et al. SLINet: Dysphasia detection in children using deep neural network
Cordeiro et al. Spectral envelope first peak and periodic component in pathological voices: A spectral analysis
Dibazar et al. A system for automatic detection of pathological speech
Wu et al. GMAT: Glottal closure instants detection based on the multiresolution absolute Teager–Kaiser energy operator
Ankışhan A new approach for detection of pathological voice disorders with reduced parameters
Yu et al. Multidimensional acoustic analysis for voice quality assessment based on the GRBAS scale
Costa et al. Pathological voice discrimination using cepstral analysis, vector quantization and hidden Markov models
Xu et al. Voiceprint recognition of Parkinson patients based on deep learning
Cai et al. The best input feature when using convolutional neural network for cough recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant