CN108899052B - 一种基于多带谱减法的帕金森语音增强方法 - Google Patents

一种基于多带谱减法的帕金森语音增强方法 Download PDF

Info

Publication number
CN108899052B
CN108899052B CN201810748612.7A CN201810748612A CN108899052B CN 108899052 B CN108899052 B CN 108899052B CN 201810748612 A CN201810748612 A CN 201810748612A CN 108899052 B CN108899052 B CN 108899052B
Authority
CN
China
Prior art keywords
noise
band
spectrum
frame
parkinson
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810748612.7A
Other languages
English (en)
Other versions
CN108899052A (zh
Inventor
季薇
林钢
李云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN201810748612.7A priority Critical patent/CN108899052B/zh
Publication of CN108899052A publication Critical patent/CN108899052A/zh
Application granted granted Critical
Publication of CN108899052B publication Critical patent/CN108899052B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/66Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明揭示了一种多带谱减法的帕金森语音增强方法,包括以下步骤:通过非接触式方式对帕金森患者进行语音信号采集;采集到的帕金森病患者语音进行采样和短时帧划分;对每一帧语音进行短时能量计算,并根据短时能量进行自适应频带划分;计算每个窗长内含噪声语音的短时功率谱、时变的平滑参数及平滑功率谱;计算偏差修正因子;搜索功率谱密度的最小值;计算并更新噪声的功率谱密度;及采用多带谱减法进行语音增强;本发明在非实验环境下,对录制的帕金森病患者语音进行有效的去噪处理,提高帕金森病患者语音质量,最终有效提高帕金森病的诊断或帕金森病情严重程度预测的准确性。

Description

一种基于多带谱减法的帕金森语音增强方法
技术领域
本发明涉及一种语音增强方法,尤其涉及一种基于多带谱减法的帕金森语音增强方法,属于语音增强领域。
背景技术
帕金森病主要是由于中脑黑质致密部多巴胺能神经元变异,以及残存神经元细胞多巴胺生物合成能力下降,导致纹状体区多巴胺逐渐缺乏而引起的。目前,纹状体区多巴胺递质降低的原因尚不知晓,这也是导致帕金森病只能进行康复诊疗,却无法彻底根治的重要原因。帕金森病将给老年人群及其家庭生活带来极大不便。特别是晚期帕金森病患者,通常出现肌肉僵直症状,只能长期卧床。这不仅给患者本人带来极大痛苦,也给患者家庭造成极大不便。研究表明,帕金森病患者如能尽早发现病情,通过及时的治疗,能够有效延缓病情进展。因此,帕金森病的早期诊断和康复治疗的研究具有十分重要的意义。
研究表明,90%的帕金森病患者都有一定程度的语音障碍。利用语音障碍来诊断和治疗帕金森病,不但费用低廉,而且患者可通过非接触式方法自助测量,简单方便,易于实现远程诊断。通过语音信号进行帕金森病的诊断和康复治疗已经得到国内外研究学者的广泛关注。Little等人使用支持向量机(Support Vector Machine,SVM)对帕金森病患者的语音进行检测,判断用户是否患有帕金森病。叶晓江等人基于该研究,利用安卓技术开发出了基于语音的帕金森检测系统,用户在室内环境下自行采集持续的长元音/a/,然后将采集到的语音上传至该系统,由系统进行帕金森病的诊断。然而,在实际应用场景下,室内广泛存在的环境噪声无疑会对语音的平稳性及其它质量产生影响,进而影响语音特征提取的准确性,最终会影响基于语音和机器学习方法进行的帕金森病相关研究结果的准确性。因此,对帕金森病患者使用非接触方法采集到的连续长元音/a/进行语音增强,是提高帕金森症检测系统性能的关键之一。
语音增强的目的是从带噪声的语音中提取出纯净的语音,同时保证语音的质量(quality)以及可懂度(intelligibility)。谱减法的基本思想是假设噪声具有统计平稳性,用语音的“寂静段”来估计噪声的功率谱;然后,在发声段,用带噪声的语音功率谱减去噪声功率谱,就可以直接得到纯净的语音谱。研究表明,当频谱的信噪比大于8dB时,可直接采用带噪声语音的相位进行增强语音重构。由于室内环境信噪比较高,所以该方法适用于加性噪声语音的估计,且在室内环境下展示了良好的语音增强性能。虽然谱减法能够抑制背景噪声的影响,但噪声的非平稳性以及分布不均匀等特点,将使得寂静段噪声与发声段噪声并不匹配,使用寂静段噪声估计发生段噪声的方法将导致增强后的语音存在较多的“残留噪声”。为此,Berouti等假设噪声对所有语音频谱具有同等影响,提出将噪声估计功率谱乘以一个修正因子,来削弱噪声对频谱的影响。但现实生活中,不同噪声对语音的高频和低频的影响不同。Lockwood提出非线性的谱减法,即根据频率点设计语音每一帧的修正因子,但这会导致增强后的语音存在较多的“音乐噪声”。为了克服这个缺点,Singh提出多带谱减法,将语音频谱分为多个频带,假设噪声对每个频带内的每一帧语音具有同等的影响,将问题转化为设计每个频带的噪声谱修正系数。然而,针对帕金森病患者语音的语音增强方法尚未见报道。
综上所述,如何提供一种基于多带谱减法的帕金森语音增强方法,就成为本领域技术人员亟待解决的问题。
发明内容
本发明的在基于语音进行帕金森病诊断和病情预测的可行性分析基础上,结合采集到的帕金森病患者语音的特点,提出一种基于多带谱减法的帕金森语音增强方法。该方法采用多带谱减法对帕金森病患者的语音进行语音增强,采用基于最小值统计的噪声估计算法作为帕金森语音增强中的噪声估计算法,不仅能够有效降低语音增强算法的复杂度,而且能够有效降低语音增强后的失真度。
本发明的技术解决方案是:
一种多带谱减法的帕金森语音增强方法,包括以下步骤:
S1:通过非接触式方式对帕金森患者进行语音信号采集;
S2:将步骤S1中采集到的帕金森病患者语音进行采样和短时帧划分;
S3:对每一帧语音进行短时能量计算,并根据短时能量进行自适应频带划分;
S4:计算每个窗长内含噪声语音的短时功率谱、时变的平滑参数及平滑功率谱;
S5:计算偏差修正因子;
S6:寻找搜索功率谱密度的最小值;
S7:计算并更新噪声的功率谱密度;
S8:采用多带谱减法进行语音增强;
S81:将自适应频带划分为N个互不重叠的子带,每个子带独立且同步运行谱减法,假设x(t)与d(t)独立,其中,x(t)为纯净语音信号建模,d(t)为噪声建模,且d(t)服从零均值的高斯分布,用Yi(W)表示第i个子带上的含噪语音的傅里叶变换、Xi(W)表示第i个子带上的纯净语音的傅里叶变换、Di(W)表示第i个子带上的噪声信号的傅里叶变换;
S82:对接收到的带噪声信号幅度谱进行平滑处理,并计算平滑后的含噪声语音谱;
S83:根据多带谱减法,利用噪声修正系数对噪声谱进行过减处理,即利用多个子带的权重控制每个子带,并估算第i个子带的纯净语音信号谱;
S84:根据修饰公式对增强后的语音谱进行进一步修饰,所述修饰公式为:
Figure GDA0002666439680000031
其中,
Figure GDA0002666439680000032
为最终得到的增强语音,
Figure GDA0002666439680000033
为第i个子带的纯净语音信号谱,
Figure GDA0002666439680000041
为平滑后的含噪声语音谱;
噪声修正系数αi是第i个频率子带的信噪比函数,计算如下:
Figure GDA0002666439680000042
其中子带的信噪比SNRi的计算如下:
Figure GDA0002666439680000043
其中,bi和ei是第i个子带上频点的起始点和结束点。
优选地,所述步骤S1中的语音信号采集是用户通过非接触方式,在室内安静环境下采集一段时间的语音信号,并将帕金森病患者的纯净语音信号建模为x(t),噪声建模为d(t),且d(t)服从零均值的高斯分布,则采集的帕金森病患者的含噪语音为:
y(t)=x(t)+d(t)。
优选地,所述步骤S2中采样包括采样频率、采样精度及采样后的含噪语音信号,并设采样频率为Fs kHz,采样精度为B bit,采样后的含噪语音信号为y(m),其中,m为离散时间度量单位;
所述步骤S2中短时帧划分的帧长为L,相邻的帧为R点重叠。
优选地,所述短时帧划分时所用的窗函数类型为汉宁窗。
优选地,所述步骤S3中计算每一帧语音进行短时能量为计算每一帧中所有样本值的加权平方和,计算公式为:
取所述汉宁窗的窗函数为w(m),其中0≤m≤L-1,则第λ帧的短时能量计算公式如下:
Figure GDA0002666439680000051
其中,0≤λ≤J-1,J为总帧数;
所述步骤S3中自适应频带划分是在时域将语音信号分离为多个子带信号,并设置阈值e_low和e_high,取短时能量范围在e_low至e_high的频带,若连续多个帧的短时能量Eλ满足Eλ>e_high,则以此连续帧的第一帧作为一个划分的起点;若连续多帧的短时能量Eλ满足Eλ<e_low,则以此连续帧的最后一帧作为一个划分的终点。
优选地,所述步骤S4中短时功率谱的计算方法为:采用步骤S3中经过自适应频带划分所获得的每段频带,针对其中的每一帧,计算出Y(λ,κ),再计算含噪声语音的短时功率谱|Y(λ,κ)|2,计算公式为:
Figure GDA0002666439680000052
其中,λ为帧数标记,λ∈Z;κ表示频率点,κ∈{0,1,...M-1},L是帧长,M为各子带内的频点数;
所述步骤S4中时变的平滑参数的计算方法为:
初始化平滑功率谱P(λ,κ)=0,其中λ<0,噪声的功率谱密度
Figure GDA0002666439680000053
时变的平滑参数δ(λ,κ)计算公式为:
Figure GDA0002666439680000054
其中,P(λ-1,κ)为前一帧的平滑功率谱,λ为帧数标记,λ∈Z;κ表示频率点,κ∈{0,1,...M-1},M为各子带内的频点数;
Figure GDA0002666439680000055
为λ-1帧的噪声的功率谱密度;
所述步骤S4中平滑功率谱的计算公式为:
P(λ,κ)=δ(λ,κ)P(λ-1,κ)+(1-δ(λ,κ))|Y(λ,κ)|2
其中,P(λ,κ)为更新平滑功率谱,δ(λ,κ)为平滑参数,P(λ-1,κ)为前一帧的平滑功率谱。
优选地,所述步骤S5中偏差修正因子Bmin(λ,κ)的计算步骤为:
S51:计算
Figure GDA0002666439680000061
Figure GDA0002666439680000062
其中
Figure GDA0002666439680000063
是E{P(λ,κ)}的一阶平滑估计,
Figure GDA0002666439680000064
采用的是E{P2(λ,κ)}的一阶平滑估计,
Figure GDA0002666439680000065
Figure GDA0002666439680000066
的计算公式分别为:
Figure GDA0002666439680000067
Figure GDA0002666439680000068
其中,λ为帧数标记,λ∈Z;κ表示频率点,κ∈{0,1,...M-1};P(λ,κ)为更新平滑功率谱;δ(λ,κ)为平滑参数;M为各子带内的频点数;
S52:计算P(λ,κ)方差的估值
Figure GDA0002666439680000069
Figure GDA00026664396800000610
S53:计算偏差修正因子Bmin(λ,κ):
Figure GDA00026664396800000611
其中,D为搜索最小值的窗长或帧长,Qeq(λ,κ)为:
Figure GDA00026664396800000612
S54:将Bmin(λ,κ)用系数Bc(λ)进行修正,Bc(λ)取值如下:
Figure GDA00026664396800000613
其中,
Figure GDA0002666439680000071
优选地,所述步骤S6中搜索功率谱密度的最小值是在长度为D帧的窗内,搜索最小功率谱密度Pmin(λ,κ),其中,λ为帧数标记,λ∈Z;κ表示频率点,κ∈{0,1,...M-1},且当处理第V帧时,其中V<D,将最小功率谱密度Pmin(λ,κ)更新。
优选地,所述步骤S7中噪声的功率谱密度是当取到更小值时,就更新噪声的功率谱密度
Figure GDA0002666439680000072
噪声的功率谱密度
Figure GDA0002666439680000073
的计算公式为:
Figure GDA0002666439680000074
其中,λ为帧数标记,λ∈Z;κ表示频率点,κ∈{0,1,...M-1},Pmin(λ,κ)为最小功率谱密度,Bmin(λ,κ)为偏差修正因子。
优选地,所述步骤S81中第i个子带上含噪语音、纯净语音、噪声信号的傅里叶变换公式为:
|Yi(w)|2=|Xi(w)|2+|Wi(w)|2
其中,Yi(W)表示第i个子带上的含噪语音、Xi(W)表示第i个子带上的纯净语音、Di(W)表示第i个子带上的噪声信号;采集的帕金森病患者语音为持续长元音/a/,用户在发声前和发声期间的平稳噪声功率谱相同,并通过基于最小值统计的噪声估计算法估算出噪声的功率谱
Figure GDA0002666439680000075
所述步骤S82中平滑后的含噪声语音谱的计算公式为:
Figure GDA0002666439680000076
其中,取P=2;wk=2πk/M是离散频率,k=0,1,...,M-1;Wj是分配给每一子带的权重,0<Wj<1;
所述步骤S83中第i个子带的纯净语音信号谱的估算公式为:
Figure GDA0002666439680000081
其中,αi为第i个子带的噪声修正系数,亦称过减因子,且αi≥1;δi为第i个子带的权重因子或减法因子;
Figure GDA0002666439680000082
为所估计的噪声功率谱;bi和ei是第i个子带上频点的起始点和结束点;
减法过程产生的负值按带噪信号谱取下限,则第i个子带的纯净语音信号谱转换为:
Figure GDA0002666439680000083
其中,β为谱下限参数;
所述步骤S83利用多个子带的权重控制每个子带的权重因子δi的计算公式为:
Figure GDA0002666439680000084
其中,fi为第i个子带的频率上界,FS为采样频率。
本发明提供了一种基于多带谱减法的帕金森语音增强方法,其优点主要体现在:
(1)本发明对帕金森病患者在非实验室场景下采集到的语音进行语音增强,同时尽可能降低对语音造成的失真。
(2)本发明在非实验环境下,如室内环境、复杂的噪声环境等,对录制的帕金森病患者语音进行有效的去噪处理,提高帕金森病患者语音质量,最终有效提高帕金森病的诊断或帕金森病情严重程度预测的准确性。
以下便结合实施例附图,对本发明的具体实施方式作进一步的详述,以使本发明技术方案更易于理解、掌握。
附图说明
图1是本发明的流程图;
图2是本发明中自适应频带划分的流程图。
具体实施方式
一种多带谱减法的帕金森语音增强方法,如图1所示:包括以下步骤:
S1:通过非接触式方式对帕金森患者进行语音信号采集,且在室内安静环境下采集一段时间的语音信号,在本实施例中,采集的时间长为4s至8s,并将帕金森病患者的纯净语音信号建模为x(t),噪声建模为d(t),且d(t)服从零均值的高斯分布,则采集的帕金森病患者的含噪语音为:
y(t)=x(t)+d(t)
S2:将步骤S1中采集到的帕金森病患者语音进行采样和短时帧划分;其中,采样包括采样频率、采样精度及采样后的含噪语音信号,并设采样频率为FskHz,采样精度为Bbit,采样后的含噪语音信号为y(m),其中,m为离散时间度量单位;短时帧划分的帧长为L,为保持信号的连贯,相邻的帧为R点重叠,且短时帧划分时所用的窗函数类型可根据需要设定为矩形窗、汉宁窗或汉明窗。在本发明的技术方案中,短时帧划分时所用的窗函数类型为汉宁窗。
S3:对每一帧语音进行短时能量计算,并根据短时能量进行自适应频带划分;在每一帧中,计算每一帧语音进行短时能量为计算每一帧中所有样本值的加权平方和,计算公式为:
取所述汉宁窗的窗函数为w(m),其中0≤m≤L-1,则第λ帧的短时能量计算公式如下:
Figure GDA0002666439680000101
其中,0≤λ≤J-1,J为总帧数;
另外,自适应频带划分,如图2所示,是在时域将语音信号分离为多个子带信号,并设置阈值e_low和e_high,取短时能量范围在e_low至e_high的频带,若连续多个帧的短时能量Eλ满足Eλ>e_high,则以此连续帧的第一帧作为一个划分的起点;若连续多帧的短时能量Eλ满足Eλ<e_low,则以此连续帧的最后一帧作为一个划分的终点。
S4:计算每个窗长内含噪声语音的短时功率谱、时变的平滑参数及平滑功率谱;
其中,短时功率谱的计算方法为:采用步骤S3中经过自适应频带划分所获得的每段频带,针对其中的每一帧,计算出Y(λ,κ),再计算含噪声语音的短时功率谱|Y(λ,κ)|2,计算公式为:
Figure GDA0002666439680000102
其中,λ为帧数标记,λ∈Z;κ表示频率点,κ∈{0,1,...M-1},L是帧长,M为各子带内的频点数;
另外,时变的平滑参数的计算方法为:
初始化平滑功率谱P(λ,κ)=0(λ<0),其中λ<0,噪声的功率谱密度
Figure GDA0002666439680000103
时变的平滑参数δ(λ,κ)计算公式为:
Figure GDA0002666439680000104
其中,P(λ-1,κ)为前一帧的平滑功率谱,
Figure GDA0002666439680000111
为λ-1帧的噪声的功率谱密度;
进一步地,平滑功率谱的计算公式为:
P(λ,κ)=δ(λ,κ)P(λ-1,κ)+(1-δ(λ,κ))|Y(λ,κ)|2
其中,P(λ,κ)为更新平滑功率谱,δ(λ,κ)为平滑参数,P(λ-1,κ)为前一帧的平滑功率谱。
S5:计算偏差修正因子;偏差修正因子Bmin(λ,κ)的计算步骤为:
S51:计算
Figure GDA0002666439680000112
Figure GDA0002666439680000113
其中
Figure GDA0002666439680000114
是E{P(λ,κ)}的一阶平滑估计,
Figure GDA0002666439680000115
采用的是E{P2(λ,κ)}的一阶平滑估计,
Figure GDA0002666439680000116
Figure GDA0002666439680000117
的计算公式分别为:
Figure GDA0002666439680000118
Figure GDA0002666439680000119
其中,λ为帧数标记,λ∈Z;κ表示频率点,κ∈{0,1,...M-1};P(λ,κ)为更新平滑功率谱;δ(λ,κ)为平滑参数;M为各子带内的频点数;
S52:计算P(λ,κ)方差的估值
Figure GDA00026664396800001110
Figure GDA00026664396800001111
S53:计算偏差修正因子Bmin(λ,κ):
Figure GDA00026664396800001112
其中,D为搜索最小值的窗长或帧长,Qeq(λ,κ)为:
Figure GDA00026664396800001113
S54:将Bmin(λ,κ)用系数Bc(λ)进行修正,Bc(λ)取值如下:
Figure GDA0002666439680000121
其中,
Figure GDA0002666439680000122
S6:寻找搜索功率谱密度的最小值,是在长度为D帧的窗内,搜索最小功率谱密度Pmin(λ,κ),其中,λ为帧数标记,λ∈Z;κ表示频率点,κ∈{0,1,...M-1},且当处理第V帧时,其中V<D,将最小功率谱密度Pmin(λ,κ)更新。
S7:计算并更新噪声的功率谱密度;当取到更小值时,就更新噪声的功率谱密度
Figure GDA0002666439680000123
噪声的功率谱密度
Figure GDA0002666439680000124
的计算公式为:
Figure GDA0002666439680000125
其中,λ为帧数标记,λ∈Z;κ表示频率点,κ∈{0,1,...M-1},Pmin(λ,κ)为最小功率谱密度,Bmin(λ,κ)为偏差修正因子;
S8:采用多带谱减法进行语音增强;
S81:将自适应频带划分为N个互不重叠的子带,每个子带独立且同步运行谱减法,假设x(t)与d(t)独立,其中,x(t)为纯净语音信号建模,d(t)为噪声建模,且d(t)服从零均值的高斯分布,用Yi(W)表示第i个子带上的含噪语音、Xi(W)表示第i个子带上的纯净语音、Di(W)表示第i个子带上的噪声信号,其傅里叶变换公式为:
|Yi(w)|2=|Xi(w)|2+|Di(w)|2
其中,Yi(W)表示第i个子带上的含噪语音、Xi(W)表示第i个子带上的纯净语音、Di(W)表示第i个子带上的噪声信号;采集的帕金森病患者语音为持续长元音/a/,用户在发声前和发声期间的平稳噪声功率谱相同,并通过基于最小值统计的噪声估计算法估算出噪声的功率谱
Figure GDA0002666439680000131
S82:对接收到的带噪声信号幅度谱进行平滑处理,并计算平滑后的含噪声语音谱,平滑后的含噪声语音谱的计算公式为:
Figure GDA0002666439680000132
其中,取P=2;wk=2πk/M是离散频率,k=0,1,...,M-1;Wj是分配给每一子带的权重,0<Wj<1;
S83:根据多带谱减法,利用噪声修正系数对噪声谱进行过减处理,即利用多个子带的权重控制每个子带,并估算第i个子带的纯净语音信号谱;
第i个子带的纯净语音信号谱的估算公式为:
Figure GDA0002666439680000133
其中,αi为第i个子带的噪声修正系数,亦称过减因子,且αi≥1;δi为第i个子带的权重因子或减法因子;
Figure GDA0002666439680000134
为所估计的噪声功率谱;bi和ei是第i个子带上频点的起始点和结束点;
减法过程产生的负值按带噪信号谱取下限,则第i个子带的纯净语音信号谱转换为:
Figure GDA0002666439680000135
其中,β为谱下限参数;
另外,利用多个子带的权重控制每个子带的权重因子δi的计算公式为:
Figure GDA0002666439680000141
其中,fi为第i个子带的频率上界,FS为采样频率;
S84:根据修饰公式对增强后的语音谱进行进一步修饰。
修饰公式为:
Figure GDA0002666439680000142
其中,
Figure GDA0002666439680000143
为最终得到的增强语音;
噪声修正系数αi是第i个频率子带的信噪比函数,计算如下:
Figure GDA0002666439680000144
其中子带的信噪比SNRi的计算如下:
Figure GDA0002666439680000145
以下用具体实施例说明多带谱减法的帕金森语音增强方法:
步骤S1:通过非接触式方式对帕金森患者进行语音信号采集;
在本发明的技术方案中,用户通过手机等非接触方式,在室内安静环境下采集4至8秒长的语音信号,其中第1秒不发声,从第2秒开始持续发元音/a/。为了后续步骤表述上的方便,将帕金森病患者的纯净语音信号建模为x(t),加性噪声建模为d(t),d(t)服从零均值的高斯分布,则采集的含噪帕金森病患者语音可以表示为:
y(t)=x(t)+d(t)
步骤S2:将步骤S1中采集到的帕金森病患者语音进行采样和短时帧划分。
采样频率设为Fs kHz,采样精度设为Bbit。采样后的含噪语音信号记为y(m),其中,m为离散时间度量单位。短时帧划分的帧长为L,为保持信号的连贯,相邻的帧重叠R点。短时帧划分时所用的窗函数类型可根据需要设定矩形窗、汉宁窗、汉明窗等。本发明中,可设采样频率8kHz,采样精度16bit;短时帧划分的帧长L为256(每帧时长32毫秒),窗函数选汉明窗;帧移R设为128,即帧之间的重叠度为50%。
步骤S3:对每一帧语音进行短时平均能量计算,并根据短时能量进行自适应频带划分;
在每一帧中,计算该帧中所有样本值的加权平方和作为该帧的短时能量。取窗函数w(m),其中0≤m≤L-1,则第λ帧的短时平均能量计算公式如下:
Figure GDA0002666439680000151
其中,0≤λ≤J-1,J为总帧数;
根据短时平均能量进行自适应频带划分,具体过程为:
设置阈值e_low和e_high,并根据计算所得的每一帧语音的短时平均能量Eλ,在时域将语音信号分离为多个子带信号,若连续多个帧的短时平均能量Eλ满足Eλ>e_high,则以此连续帧的第一帧作为一个划分的起点;若连续多帧的短时平均能量Eλ满足Eλ<e_low,则以此连续帧的最后一帧作为一个划分的终点。由于采集到的语音是在第2秒开始发声,第1秒未发声段语音包含的只有噪声。设第1秒内未发声段的短时平均能量为阈值e_low,由于噪声的随机性,第1秒未发声段语音的短时平均能量不同。因此,对于不同语音样本,e_low的取值不同,即可以根据不同的语音样本自适应调整边界条件或阈值。通过步骤S3,最终实现所采集语音信号的自适应频带划分。取短时能量范围在e_low至e_high的频带,对其中每一帧执行接下来的步骤。
步骤S4:针对自适应划分的频带,计算每个窗长内含噪声语音的短时功率谱、时变的平滑参数及平滑功率谱。
经过自适应频带划分所获得的每段频带,针对其中的每一帧,计算出Y(λ,κ),再计算含噪声语音的短时功率谱|Y(λ,κ)|2,具体计算过程如下:
Figure GDA0002666439680000161
其中,λ为帧数标记,λ∈Z;κ表示频率点,κ∈{0,1,...M-1},M表示各子带内的频点数,L是帧长。
计算时变的平滑参数。
初始化平滑功率谱P(λ,κ)=0,其中λ<0,噪声的功率谱密度
Figure GDA0002666439680000162
时变的平滑参数δ(λ,κ)计算公式如下:
Figure GDA0002666439680000163
其中,P(λ-1,κ)为前一帧的平滑功率谱,
Figure GDA0002666439680000164
为λ-1帧的噪声的功率谱密度。
计算平滑功率谱过程为:更新平滑功率谱P(λ,κ),计算公式如下:
P(λ,κ)=δ(λ,κ)P(λ-1,κ)+(1-δ(λ,κ))|Y(λ,κ)|2
其中,δ(λ,κ)为平滑参数,P(λ-1,κ)为前一帧的平滑功率谱。
步骤S5:计算偏差修正因子;计算偏差修正因子Bmin(λ,κ),计算公式如下:
Figure GDA0002666439680000171
其中,D为搜索最小值的窗长或帧长,本实施例中最小值的窗长取值为96,Qeq(λ,κ)的计算如下:
Figure GDA0002666439680000172
其中,
Figure GDA0002666439680000173
为P(λ,κ)方差的估值,计算公式如下:
Figure GDA0002666439680000174
其中,
Figure GDA0002666439680000175
采用的是E{P(λ,κ)}的一阶平滑估计;
Figure GDA0002666439680000176
采用的是E{P2(λ,κ)}的一阶平滑估计,计算公式如下:
Figure GDA0002666439680000177
Figure GDA0002666439680000178
其中,λ为帧数标记,λ∈Z;κ表示频率点,κ∈{0,1,...M-1};P(λ,κ)为更新平滑功率谱;δ(λ,κ)为平滑参数;M为各子带内的频点数;
为了增强在随机噪声环境下噪声估计的稳定性,将Bmin(λ,κ)用系数Bc(λ)进行修正,Bc(λ)取值如下:
Figure GDA0002666439680000179
其中,
Figure GDA0002666439680000181
步骤S6:寻找搜索功率谱密度的最小值;
在长度为D帧的窗内,搜索最小功率谱密度Pmin(λ,κ)。λ为帧数标记,λ∈Z;κ表示频率点,κ∈{0,1,...M-1},且当处理第V帧时,其中V<D,将该最小值更新。
步骤S7:计算并更新噪声的功率谱密度;
计算噪声的功率谱密度,若取到更小值,就更新噪声的功率谱密度
Figure GDA0002666439680000182
计算公式如下:
Figure GDA0002666439680000183
其中,λ为帧数标记,λ∈Z;κ表示频率点,κ∈{0,1,...M-1},Pmin(λ,κ)为最小功率谱密度,Bmin(λ,κ)为偏差修正因子。
步骤S8:采用多带谱减法进行语音增强;
针对前面划分的N个互不重叠的子带,谱减法在每个子带独立且同步运行。第i(1≤i≤N)个子带的纯净语音信号谱的估计如下:
假设x(t)与d(t)独立,用Yi(W)表示第i个子带上的含噪语音的傅里叶变换、Xi(W)表示第i个子带上的纯净语音的傅里叶变换、Di(W)表示第i个子带上的噪声信号的傅里叶变换,且满足:
|Yi(w)|2=|Xi(w)|2+|Di(w)|2
其中,Yi(W)表示第i个子带上的含噪语音、Xi(W)表示第i个子带上的纯净语音、Di(W)表示第i个子带上的噪声信号;采集的帕金森病患者语音为持续长元音/a/,可认为用户在发声前和发声期间的平稳噪声功率谱几乎不产生变化,通过基于最小值统计的噪声估计算法可估计出噪声的功率谱
Figure GDA0002666439680000191
为防止对语音谱信息造成损伤,首先对接收到的带噪声信号幅度谱Yi(wk)进行平滑处理。平滑后的带噪声语音谱为
Figure GDA0002666439680000192
其中,一般取P=2;wk=2πk/M是离散频率,k=0,1,...,M-1;Wj是分配给每一子带的权重,0<Wj<1,本实施例中取Wj=[0.09,0.25,0.32,0.25,0.09]。
根据多带谱减法,利用噪声修正系数对噪声谱进行过减处理,还可利用多个子带的权重更加灵活地控制每个子带。则第i个子带的纯净语音信号谱的估计如下:
Figure GDA0002666439680000193
其中,αi为第i个子带的噪声修正系数,亦称过减因子,且αi≥1;δi为第i个子带的权重因子或减法因子;
Figure GDA0002666439680000194
为所估计的噪声功率谱;bi和ei是第i个子带上频点的起始点和结束点,它可以按子带独立设置以满足不同的噪声抑制需求。减法过程产生的负值按带噪信号谱取下限,则上式转换为:
Figure GDA0002666439680000195
其中,谱下限参数β的值为0.002。为进一步消除“音乐噪声”,可对增强后的语音谱进行进一步修饰,公式如下:
Figure GDA0002666439680000201
其中,
Figure GDA0002666439680000202
为最终得到的增强语音。
噪声修正系数αi是第i个频率子带的信噪比函数,根据经验确定其计算如下:
Figure GDA0002666439680000203
其中子带的信噪比SNRi的计算如下:
Figure GDA0002666439680000204
权重因子(减法因子)δi的计算公式如下:
Figure GDA0002666439680000205
其中,fi为第i个子带的频率上界,FS为采样频率。
本发明提供的基于多带谱减法的帕金森语音增强方法,主要基于采集患者的持续长元音/a/,持续长元音/a/除了语音的起始和终止,发声期间并没有“寂静段”,通过计算语音的短时能量,并根据短时能量划分频带,即自适应频带划分,该方法可有效降低语音增强算法的复杂度。此外,对于一般语音而言,在语音的“寂静段”,单个频带的带噪语音信号的功率也会衰减到噪声的平均功率,基于最小值统计的噪声估计算法无需对语音的“寂静段”和“发声段”的噪声分别进行估计,因而该噪声估计算法对低频带的语音增强具有更好的质量。因此,采用基于最小值统计的噪声估计算法作为帕金森语音增强中的噪声估计算法,不仅能够有效降低语音增强算法的复杂度,而且能够有效降低语音增强后的失真度。
应该注意的是,上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。

Claims (10)

1.一种多带谱减法的帕金森语音增强方法,其特征在于,包括以下步骤:
S1:通过非接触式方式对帕金森患者进行语音信号采集;
S2:将步骤S1中采集到的帕金森病患者语音进行采样和短时帧划分;
S3:对每一帧语音进行短时能量计算,并根据短时能量进行自适应频带划分;
S4:计算每个窗长内含噪声语音的短时功率谱、时变的平滑参数及平滑功率谱;
S5:计算偏差修正因子;
S6:寻找搜索功率谱密度的最小值;
S7:计算并更新噪声的功率谱密度;
S8:采用多带谱减法进行语音增强;
S81:将自适应频带划分为N个互不重叠的子带,每个子带独立且同步运行谱减法,假设x(t)与d(t)独立,其中,x(t)为纯净语音信号建模,d(t)为噪声建模,且d(t)服从零均值的高斯分布,用Yi(W)表示第i个子带上的含噪语音的傅里叶变换、Xi(W)表示第i个子带上的纯净语音的傅里叶变换、Di(W)表示第i个子带上的噪声信号的傅里叶变换;
S82:对接收到的带噪声信号幅度谱进行平滑处理,并计算平滑后的含噪声语音谱;
S83:根据多带谱减法,利用噪声修正系数对噪声谱进行过减处理,即利用多个子带的权重控制每个子带,并估算第i个子带的纯净语音信号谱;
S84:根据修饰公式对增强后的语音谱进行进一步修饰,所述修饰公式为:
Figure FDA0002666439670000011
其中,
Figure FDA0002666439670000012
为最终得到的增强语音,
Figure FDA0002666439670000013
为第i个子带的纯净语音信号谱,
Figure FDA0002666439670000021
为平滑后的含噪声语音谱;
噪声修正系数αi是第i个频率子带的信噪比函数,计算如下:
Figure FDA0002666439670000022
其中子带的信噪比SNRi的计算如下:
Figure FDA0002666439670000023
其中,bi和ei是第i个子带上频点的起始点和结束点。
2.根据权利要求1所述一种基于多带谱减法的帕金森语音增强方法,其特征在于:所述步骤S1中的语音信号采集是用户通过非接触方式,在室内安静环境下采集一段时间的语音信号,并将帕金森病患者的纯净语音信号建模为x(t),噪声建模为d(t),且d(t)服从零均值的高斯分布,则采集的帕金森病患者的含噪语音为:
y(t)=x(t)+d(t)。
3.根据权利要求2所述一种基于多带谱减法的帕金森语音增强方法,其特征在于:所述步骤S2中采样包括采样频率、采样精度及采样后的含噪语音信号,并设采样频率为Fs kHz,采样精度为B bit,采样后的含噪语音信号为y(m),其中,m为离散时间度量单位;
所述步骤S2中短时帧划分的帧长为L,相邻的帧为R点重叠。
4.根据权利要求3所述一种基于多带谱减法的帕金森语音增强方法,其特征在于:所述短时帧划分时所用的窗函数类型为汉宁窗。
5.根据权利要求4所述一种基于多带谱减法的帕金森语音增强方法,其特征在于:所述步骤S3中计算每一帧语音进行短时能量为计算每一帧中所有样本值的加权平方和,计算公式为:
取所述汉宁窗的窗函数为w(m),其中0≤m≤L-1,则第λ帧的短时能量计算公式如下:
Figure FDA0002666439670000031
其中,0≤λ≤J-1,J为总帧数;
所述步骤S3中自适应频带划分是在时域将语音信号分离为多个子带信号,并设置阈值e_low和e_high,取短时能量范围在e_low至e_high的频带,若连续多个帧的短时能量Eλ满足Eλ>e_high,则以此连续帧的第一帧作为一个划分的起点;若连续多帧的短时能量Eλ满足Eλ<e_low,则以此连续帧的最后一帧作为一个划分的终点。
6.根据权利要求5所述一种基于多带谱减法的帕金森语音增强方法,其特征在于:所述步骤S4中短时功率谱的计算方法为:采用步骤S3中经过自适应频带划分所获得的每段频带,针对其中的每一帧,计算出Y(λ,κ),再计算含噪声语音的短时功率谱|Y(λ,κ)|2,计算公式为:
Figure FDA0002666439670000032
其中,λ为帧数标记,λ∈Z;κ表示频率点,κ∈{0,1,...M-1},L是帧长,M为各子带内的频点数;
所述步骤S4中时变的平滑参数的计算方法为:
初始化平滑功率谱P(λ,κ)=0,其中λ<0,噪声的功率谱密度
Figure FDA0002666439670000033
时变的平滑参数δ(λ,κ)计算公式为:
Figure FDA0002666439670000041
其中,P(λ-1,κ)为前一帧的平滑功率谱,λ为帧数标记,λ∈Z;κ表示频率点,κ∈{0,1,...M-1},M为各子带内的频点数;
Figure FDA0002666439670000042
为λ-1帧的噪声的功率谱密度;
所述步骤S4中平滑功率谱的计算公式为:
P(λ,κ)=δ(λ,κ)P(λ-1,κ)+(1-δ(λ,κ))|Y(λ,κ)|2
其中,P(λ,κ)为更新平滑功率谱,δ(λ,κ)为平滑参数,P(λ-1,κ)为前一帧的平滑功率谱。
7.根据权利要求6所述一种基于多带谱减法的帕金森语音增强方法,其特征在于:所述步骤S5中偏差修正因子Bmin(λ,κ)的计算步骤为:
S51:计算
Figure FDA0002666439670000043
Figure FDA0002666439670000044
其中
Figure FDA0002666439670000045
是E{P(λ,κ)}的一阶平滑估计,
Figure FDA0002666439670000046
采用的是E{P2(λ,κ)}的一阶平滑估计,
Figure FDA0002666439670000047
Figure FDA0002666439670000048
的计算公式分别为:
Figure FDA0002666439670000049
Figure FDA00026664396700000410
其中,λ为帧数标记,λ∈Z;κ表示频率点,κ∈{0,1,...M-1};P(λ,κ)为更新平滑功率谱;δ(λ,κ)为平滑参数;M为各子带内的频点数;
S52:计算P(λ,κ)方差的估值
Figure FDA00026664396700000411
Figure FDA00026664396700000412
S53:计算偏差修正因子Bmin(λ,κ):
Figure FDA00026664396700000413
其中,D为搜索最小值的窗长或帧长,Qeq(λ,κ)为:
Figure FDA0002666439670000051
S54:将Bmin(λ,κ)用系数Bc(λ)进行修正,Bc(λ)取值如下:
Figure FDA0002666439670000052
其中,
Figure FDA0002666439670000053
8.根据权利要求7所述一种基于多带谱减法的帕金森语音增强方法,其特征在于:所述步骤S6中搜索功率谱密度的最小值是在长度为D帧的窗内,搜索最小功率谱密度Pmin(λ,κ),其中,λ为帧数标记,λ∈Z;κ表示频率点,κ∈{0,1,...M-1},且当处理第V帧时,其中V<D,将最小功率谱密度Pmin(λ,κ)更新。
9.根据权利要求8所述一种基于多带谱减法的帕金森语音增强方法,其特征在于:所述步骤S7中噪声的功率谱密度是当取到更小值时,就更新噪声的功率谱密度
Figure FDA0002666439670000054
噪声的功率谱密度
Figure FDA0002666439670000055
的计算公式为:
Figure FDA0002666439670000056
其中,λ为帧数标记,λ∈Z;κ表示频率点,κ∈{0,1,...M-1},Pmin(λ,κ)为最小功率谱密度,Bmin(λ,κ)为偏差修正因子。
10.根据权利要求9所述一种基于多带谱减法的帕金森语音增强方法,其特征在于:所述步骤S81中第i个子带上含噪语音、纯净语音、噪声信号的傅里叶变换公式为:
|Yi(w)|2=|Xi(w)|2+|Di(w)|2
其中,Yi(W)表示第i个子带上的含噪语音、Xi(W)表示第i个子带上的纯净语音、Di(W)表示第i个子带上的噪声信号;采集的帕金森病患者语音为持续长元音/a/,用户在发声前和发声期间的平稳噪声功率谱相同,并通过基于最小值统计的噪声估计算法估算出噪声的功率谱
Figure FDA0002666439670000061
所述步骤S82中平滑后的含噪声语音谱的计算公式为:
Figure FDA0002666439670000062
其中,取P=2;wk=2πk/M是离散频率,k=0,1,...,M-1;Wj是分配给每一子带的权重,0<Wj<1;
所述步骤S83中第i个子带的纯净语音信号谱的估算公式为:
Figure FDA0002666439670000063
其中,αi为第i个子带的噪声修正系数,亦称过减因子,且αi≥1;δi为第i个子带的权重因子或减法因子;
Figure FDA0002666439670000064
为所估计的噪声功率谱;bi和ei是第i个子带上频点的起始点和结束点;
减法过程产生的负值按带噪信号谱取下限,则第i个子带的纯净语音信号谱转换为:
Figure FDA0002666439670000065
其中,β为谱下限参数;
所述步骤S83利用多个子带的权重控制每个子带的权重因子δi的计算公式为:
Figure FDA0002666439670000071
其中,fi为第i个子带的频率上界,FS为采样频率。
CN201810748612.7A 2018-07-10 2018-07-10 一种基于多带谱减法的帕金森语音增强方法 Active CN108899052B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810748612.7A CN108899052B (zh) 2018-07-10 2018-07-10 一种基于多带谱减法的帕金森语音增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810748612.7A CN108899052B (zh) 2018-07-10 2018-07-10 一种基于多带谱减法的帕金森语音增强方法

Publications (2)

Publication Number Publication Date
CN108899052A CN108899052A (zh) 2018-11-27
CN108899052B true CN108899052B (zh) 2020-12-01

Family

ID=64348810

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810748612.7A Active CN108899052B (zh) 2018-07-10 2018-07-10 一种基于多带谱减法的帕金森语音增强方法

Country Status (1)

Country Link
CN (1) CN108899052B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110310656A (zh) * 2019-05-27 2019-10-08 重庆高开清芯科技产业发展有限公司 一种语音增强方法
CN110136738A (zh) * 2019-06-13 2019-08-16 苏州思必驰信息科技有限公司 噪声估计方法及装置
CN110335624A (zh) * 2019-07-29 2019-10-15 吉林大学 基于功率归一化倒谱系数特征的帕金森病语音检测方法
CN110931007B (zh) * 2019-12-04 2022-07-12 思必驰科技股份有限公司 语音识别方法及系统
CN111899752B (zh) * 2020-07-13 2023-01-10 紫光展锐(重庆)科技有限公司 快速计算语音存在概率的噪声抑制方法及装置、存储介质、终端
CN112697270B (zh) * 2020-12-07 2023-07-18 广州极飞科技股份有限公司 故障检测方法、装置、无人设备及存储介质
CN113113022A (zh) * 2021-04-15 2021-07-13 吉林大学 一种基于说话人声纹信息的自动识别身份的方法
CN114373484A (zh) * 2022-03-22 2022-04-19 南京邮电大学 语音驱动的帕金森病多症状特征参数的小样本学习方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103594094A (zh) * 2012-08-15 2014-02-19 王景芳 自适应谱减法实时语音增强
CN104021796A (zh) * 2013-02-28 2014-09-03 华为技术有限公司 语音增强处理方法和装置
CN104810023A (zh) * 2015-05-25 2015-07-29 河北工业大学 一种用于语音信号增强的谱减法
CN106409287A (zh) * 2016-12-12 2017-02-15 天津大学 提高肌肉萎缩或神经退行性病人语音可懂度装置和方法
CN106504763A (zh) * 2015-12-22 2017-03-15 电子科技大学 基于盲源分离与谱减法的麦克风阵列多目标语音增强方法
CN106710604A (zh) * 2016-12-07 2017-05-24 天津大学 提高语音可懂度的共振峰增强装置和方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170316790A1 (en) * 2016-04-27 2017-11-02 Knuedge Incorporated Estimating Clean Speech Features Using Manifold Modeling

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103594094A (zh) * 2012-08-15 2014-02-19 王景芳 自适应谱减法实时语音增强
CN104021796A (zh) * 2013-02-28 2014-09-03 华为技术有限公司 语音增强处理方法和装置
CN104810023A (zh) * 2015-05-25 2015-07-29 河北工业大学 一种用于语音信号增强的谱减法
CN106504763A (zh) * 2015-12-22 2017-03-15 电子科技大学 基于盲源分离与谱减法的麦克风阵列多目标语音增强方法
CN106710604A (zh) * 2016-12-07 2017-05-24 天津大学 提高语音可懂度的共振峰增强装置和方法
CN106409287A (zh) * 2016-12-12 2017-02-15 天津大学 提高肌肉萎缩或神经退行性病人语音可懂度装置和方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于多带谱减法的生物雷达语音增强方法研究;胡金艳 等;《科学技术与工程》;20170630;第17卷(第16期);第76-80页 *
多带谱相减结合感觉加权的语音增强方法研究;王晓娣;《电力系统通信》;20051231;第26卷(第158期);第50-53页 *

Also Published As

Publication number Publication date
CN108899052A (zh) 2018-11-27

Similar Documents

Publication Publication Date Title
CN108899052B (zh) 一种基于多带谱减法的帕金森语音增强方法
CN105513605B (zh) 手机麦克风的语音增强系统和语音增强方法
JP5666444B2 (ja) 特徴抽出を使用してスピーチ強調のためにオーディオ信号を処理する装置及び方法
Hermansky et al. Recognition of speech in additive and convolutional noise based on RASTA spectral processing
CN109410977B (zh) 一种基于EMD-Wavelet的MFCC相似度的语音段检测方法
CN108447495B (zh) 一种基于综合特征集的深度学习语音增强方法
RU2329550C2 (ru) Способ и устройство для улучшения речевого сигнала в присутствии фонового шума
CN108831499A (zh) 利用语音存在概率的语音增强方法
US20190172480A1 (en) Voice activity detection systems and methods
WO2002029782A1 (en) Perceptual harmonic cepstral coefficients as the front-end for speech recognition
WO2000017859A1 (en) Noise suppression for low bitrate speech coder
Chen et al. Improved voice activity detection algorithm using wavelet and support vector machine
CN108305639B (zh) 语音情感识别方法、计算机可读存储介质、终端
CN108682432B (zh) 语音情感识别装置
CN110767244A (zh) 语音增强方法
CN113077806B (zh) 音频处理方法及装置、模型训练方法及装置、介质和设备
JP6374120B2 (ja) 発話の復元のためのシステムおよび方法
WO2020024787A1 (zh) 音乐噪声抑制方法及装置
CN113974607B (zh) 一种基于脉冲神经网络的睡眠鼾声检测系统
CN103400578B (zh) 谱减与动态时间规整算法联合处理的抗噪声声纹识别装置
Trawicki et al. Speech enhancement using Bayesian estimators of the perceptually-motivated short-time spectral amplitude (STSA) with Chi speech priors
Kaewtip et al. A pitch-based spectral enhancement technique for robust speech processing.
Tong et al. Multi-Band Spectral Subtraction Based on Adaptive Noise Estimation and Spectral Floor Optimization
CN117711419B (zh) 用于数据中台的数据智能清洗方法
Dong et al. Speech denoising based on perceptual weighting filter

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: Room 201, building 2, phase II, No.1 Kechuang Road, Yaohua street, Qixia District, Nanjing City, Jiangsu Province

Applicant after: NANJING University OF POSTS AND TELECOMMUNICATIONS

Address before: 210003 Gulou District, Jiangsu, Nanjing new model road, No. 66

Applicant before: NANJING University OF POSTS AND TELECOMMUNICATIONS

GR01 Patent grant
GR01 Patent grant