CN108899052B - 一种基于多带谱减法的帕金森语音增强方法 - Google Patents
一种基于多带谱减法的帕金森语音增强方法 Download PDFInfo
- Publication number
- CN108899052B CN108899052B CN201810748612.7A CN201810748612A CN108899052B CN 108899052 B CN108899052 B CN 108899052B CN 201810748612 A CN201810748612 A CN 201810748612A CN 108899052 B CN108899052 B CN 108899052B
- Authority
- CN
- China
- Prior art keywords
- noise
- band
- spectrum
- frame
- parkinson
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000003595 spectral effect Effects 0.000 title claims abstract description 67
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000001228 spectrum Methods 0.000 claims abstract description 110
- 208000018737 Parkinson disease Diseases 0.000 claims abstract description 43
- 238000004364 calculation method Methods 0.000 claims abstract description 37
- 238000012937 correction Methods 0.000 claims abstract description 34
- 238000009499 grossing Methods 0.000 claims abstract description 32
- 238000005070 sampling Methods 0.000 claims abstract description 28
- 230000002708 enhancing effect Effects 0.000 claims abstract description 6
- 230000003044 adaptive effect Effects 0.000 claims description 12
- 239000000126 substance Substances 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 238000012986 modification Methods 0.000 claims description 6
- 230000004048 modification Effects 0.000 claims description 6
- 238000011410 subtraction method Methods 0.000 claims description 5
- 238000005259 measurement Methods 0.000 claims description 4
- 102000003712 Complement factor B Human genes 0.000 claims description 2
- 108090000056 Complement factor B Proteins 0.000 claims description 2
- 238000003745 diagnosis Methods 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 11
- VYFYYTLLBUKUHU-UHFFFAOYSA-N dopamine Chemical compound NCCC1=CC=C(O)C(O)=C1 VYFYYTLLBUKUHU-UHFFFAOYSA-N 0.000 description 6
- 238000011160 research Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 229960003638 dopamine Drugs 0.000 description 3
- 239000000654 additive Substances 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 241001573498 Compacta Species 0.000 description 1
- 206010052904 Musculoskeletal stiffness Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 210000005064 dopaminergic neuron Anatomy 0.000 description 1
- 238000013399 early diagnosis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 210000001259 mesencephalon Anatomy 0.000 description 1
- 210000001577 neostriatum Anatomy 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000004171 remote diagnosis Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 210000003523 substantia nigra Anatomy 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/66—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明揭示了一种多带谱减法的帕金森语音增强方法,包括以下步骤:通过非接触式方式对帕金森患者进行语音信号采集;采集到的帕金森病患者语音进行采样和短时帧划分;对每一帧语音进行短时能量计算,并根据短时能量进行自适应频带划分;计算每个窗长内含噪声语音的短时功率谱、时变的平滑参数及平滑功率谱;计算偏差修正因子;搜索功率谱密度的最小值;计算并更新噪声的功率谱密度;及采用多带谱减法进行语音增强;本发明在非实验环境下,对录制的帕金森病患者语音进行有效的去噪处理,提高帕金森病患者语音质量,最终有效提高帕金森病的诊断或帕金森病情严重程度预测的准确性。
Description
技术领域
本发明涉及一种语音增强方法,尤其涉及一种基于多带谱减法的帕金森语音增强方法,属于语音增强领域。
背景技术
帕金森病主要是由于中脑黑质致密部多巴胺能神经元变异,以及残存神经元细胞多巴胺生物合成能力下降,导致纹状体区多巴胺逐渐缺乏而引起的。目前,纹状体区多巴胺递质降低的原因尚不知晓,这也是导致帕金森病只能进行康复诊疗,却无法彻底根治的重要原因。帕金森病将给老年人群及其家庭生活带来极大不便。特别是晚期帕金森病患者,通常出现肌肉僵直症状,只能长期卧床。这不仅给患者本人带来极大痛苦,也给患者家庭造成极大不便。研究表明,帕金森病患者如能尽早发现病情,通过及时的治疗,能够有效延缓病情进展。因此,帕金森病的早期诊断和康复治疗的研究具有十分重要的意义。
研究表明,90%的帕金森病患者都有一定程度的语音障碍。利用语音障碍来诊断和治疗帕金森病,不但费用低廉,而且患者可通过非接触式方法自助测量,简单方便,易于实现远程诊断。通过语音信号进行帕金森病的诊断和康复治疗已经得到国内外研究学者的广泛关注。Little等人使用支持向量机(Support Vector Machine,SVM)对帕金森病患者的语音进行检测,判断用户是否患有帕金森病。叶晓江等人基于该研究,利用安卓技术开发出了基于语音的帕金森检测系统,用户在室内环境下自行采集持续的长元音/a/,然后将采集到的语音上传至该系统,由系统进行帕金森病的诊断。然而,在实际应用场景下,室内广泛存在的环境噪声无疑会对语音的平稳性及其它质量产生影响,进而影响语音特征提取的准确性,最终会影响基于语音和机器学习方法进行的帕金森病相关研究结果的准确性。因此,对帕金森病患者使用非接触方法采集到的连续长元音/a/进行语音增强,是提高帕金森症检测系统性能的关键之一。
语音增强的目的是从带噪声的语音中提取出纯净的语音,同时保证语音的质量(quality)以及可懂度(intelligibility)。谱减法的基本思想是假设噪声具有统计平稳性,用语音的“寂静段”来估计噪声的功率谱;然后,在发声段,用带噪声的语音功率谱减去噪声功率谱,就可以直接得到纯净的语音谱。研究表明,当频谱的信噪比大于8dB时,可直接采用带噪声语音的相位进行增强语音重构。由于室内环境信噪比较高,所以该方法适用于加性噪声语音的估计,且在室内环境下展示了良好的语音增强性能。虽然谱减法能够抑制背景噪声的影响,但噪声的非平稳性以及分布不均匀等特点,将使得寂静段噪声与发声段噪声并不匹配,使用寂静段噪声估计发生段噪声的方法将导致增强后的语音存在较多的“残留噪声”。为此,Berouti等假设噪声对所有语音频谱具有同等影响,提出将噪声估计功率谱乘以一个修正因子,来削弱噪声对频谱的影响。但现实生活中,不同噪声对语音的高频和低频的影响不同。Lockwood提出非线性的谱减法,即根据频率点设计语音每一帧的修正因子,但这会导致增强后的语音存在较多的“音乐噪声”。为了克服这个缺点,Singh提出多带谱减法,将语音频谱分为多个频带,假设噪声对每个频带内的每一帧语音具有同等的影响,将问题转化为设计每个频带的噪声谱修正系数。然而,针对帕金森病患者语音的语音增强方法尚未见报道。
综上所述,如何提供一种基于多带谱减法的帕金森语音增强方法,就成为本领域技术人员亟待解决的问题。
发明内容
本发明的在基于语音进行帕金森病诊断和病情预测的可行性分析基础上,结合采集到的帕金森病患者语音的特点,提出一种基于多带谱减法的帕金森语音增强方法。该方法采用多带谱减法对帕金森病患者的语音进行语音增强,采用基于最小值统计的噪声估计算法作为帕金森语音增强中的噪声估计算法,不仅能够有效降低语音增强算法的复杂度,而且能够有效降低语音增强后的失真度。
本发明的技术解决方案是:
一种多带谱减法的帕金森语音增强方法,包括以下步骤:
S1:通过非接触式方式对帕金森患者进行语音信号采集;
S2:将步骤S1中采集到的帕金森病患者语音进行采样和短时帧划分;
S3:对每一帧语音进行短时能量计算,并根据短时能量进行自适应频带划分;
S4:计算每个窗长内含噪声语音的短时功率谱、时变的平滑参数及平滑功率谱;
S5:计算偏差修正因子;
S6:寻找搜索功率谱密度的最小值;
S7:计算并更新噪声的功率谱密度;
S8:采用多带谱减法进行语音增强;
S81:将自适应频带划分为N个互不重叠的子带,每个子带独立且同步运行谱减法,假设x(t)与d(t)独立,其中,x(t)为纯净语音信号建模,d(t)为噪声建模,且d(t)服从零均值的高斯分布,用Yi(W)表示第i个子带上的含噪语音的傅里叶变换、Xi(W)表示第i个子带上的纯净语音的傅里叶变换、Di(W)表示第i个子带上的噪声信号的傅里叶变换;
S82:对接收到的带噪声信号幅度谱进行平滑处理,并计算平滑后的含噪声语音谱;
S83:根据多带谱减法,利用噪声修正系数对噪声谱进行过减处理,即利用多个子带的权重控制每个子带,并估算第i个子带的纯净语音信号谱;
S84:根据修饰公式对增强后的语音谱进行进一步修饰,所述修饰公式为:
噪声修正系数αi是第i个频率子带的信噪比函数,计算如下:
其中子带的信噪比SNRi的计算如下:
其中,bi和ei是第i个子带上频点的起始点和结束点。
优选地,所述步骤S1中的语音信号采集是用户通过非接触方式,在室内安静环境下采集一段时间的语音信号,并将帕金森病患者的纯净语音信号建模为x(t),噪声建模为d(t),且d(t)服从零均值的高斯分布,则采集的帕金森病患者的含噪语音为:
y(t)=x(t)+d(t)。
优选地,所述步骤S2中采样包括采样频率、采样精度及采样后的含噪语音信号,并设采样频率为Fs kHz,采样精度为B bit,采样后的含噪语音信号为y(m),其中,m为离散时间度量单位;
所述步骤S2中短时帧划分的帧长为L,相邻的帧为R点重叠。
优选地,所述短时帧划分时所用的窗函数类型为汉宁窗。
优选地,所述步骤S3中计算每一帧语音进行短时能量为计算每一帧中所有样本值的加权平方和,计算公式为:
取所述汉宁窗的窗函数为w(m),其中0≤m≤L-1,则第λ帧的短时能量计算公式如下:
其中,0≤λ≤J-1,J为总帧数;
所述步骤S3中自适应频带划分是在时域将语音信号分离为多个子带信号,并设置阈值e_low和e_high,取短时能量范围在e_low至e_high的频带,若连续多个帧的短时能量Eλ满足Eλ>e_high,则以此连续帧的第一帧作为一个划分的起点;若连续多帧的短时能量Eλ满足Eλ<e_low,则以此连续帧的最后一帧作为一个划分的终点。
优选地,所述步骤S4中短时功率谱的计算方法为:采用步骤S3中经过自适应频带划分所获得的每段频带,针对其中的每一帧,计算出Y(λ,κ),再计算含噪声语音的短时功率谱|Y(λ,κ)|2,计算公式为:
其中,λ为帧数标记,λ∈Z;κ表示频率点,κ∈{0,1,...M-1},L是帧长,M为各子带内的频点数;
所述步骤S4中时变的平滑参数的计算方法为:
所述步骤S4中平滑功率谱的计算公式为:
P(λ,κ)=δ(λ,κ)P(λ-1,κ)+(1-δ(λ,κ))|Y(λ,κ)|2
其中,P(λ,κ)为更新平滑功率谱,δ(λ,κ)为平滑参数,P(λ-1,κ)为前一帧的平滑功率谱。
优选地,所述步骤S5中偏差修正因子Bmin(λ,κ)的计算步骤为:
其中,λ为帧数标记,λ∈Z;κ表示频率点,κ∈{0,1,...M-1};P(λ,κ)为更新平滑功率谱;δ(λ,κ)为平滑参数;M为各子带内的频点数;
S53:计算偏差修正因子Bmin(λ,κ):
其中,D为搜索最小值的窗长或帧长,Qeq(λ,κ)为:
S54:将Bmin(λ,κ)用系数Bc(λ)进行修正,Bc(λ)取值如下:
优选地,所述步骤S6中搜索功率谱密度的最小值是在长度为D帧的窗内,搜索最小功率谱密度Pmin(λ,κ),其中,λ为帧数标记,λ∈Z;κ表示频率点,κ∈{0,1,...M-1},且当处理第V帧时,其中V<D,将最小功率谱密度Pmin(λ,κ)更新。
其中,λ为帧数标记,λ∈Z;κ表示频率点,κ∈{0,1,...M-1},Pmin(λ,κ)为最小功率谱密度,Bmin(λ,κ)为偏差修正因子。
优选地,所述步骤S81中第i个子带上含噪语音、纯净语音、噪声信号的傅里叶变换公式为:
|Yi(w)|2=|Xi(w)|2+|Wi(w)|2
其中,Yi(W)表示第i个子带上的含噪语音、Xi(W)表示第i个子带上的纯净语音、Di(W)表示第i个子带上的噪声信号;采集的帕金森病患者语音为持续长元音/a/,用户在发声前和发声期间的平稳噪声功率谱相同,并通过基于最小值统计的噪声估计算法估算出噪声的功率谱
所述步骤S82中平滑后的含噪声语音谱的计算公式为:
其中,取P=2;wk=2πk/M是离散频率,k=0,1,...,M-1;Wj是分配给每一子带的权重,0<Wj<1;
所述步骤S83中第i个子带的纯净语音信号谱的估算公式为:
减法过程产生的负值按带噪信号谱取下限,则第i个子带的纯净语音信号谱转换为:
其中,β为谱下限参数;
所述步骤S83利用多个子带的权重控制每个子带的权重因子δi的计算公式为:
其中,fi为第i个子带的频率上界,FS为采样频率。
本发明提供了一种基于多带谱减法的帕金森语音增强方法,其优点主要体现在:
(1)本发明对帕金森病患者在非实验室场景下采集到的语音进行语音增强,同时尽可能降低对语音造成的失真。
(2)本发明在非实验环境下,如室内环境、复杂的噪声环境等,对录制的帕金森病患者语音进行有效的去噪处理,提高帕金森病患者语音质量,最终有效提高帕金森病的诊断或帕金森病情严重程度预测的准确性。
以下便结合实施例附图,对本发明的具体实施方式作进一步的详述,以使本发明技术方案更易于理解、掌握。
附图说明
图1是本发明的流程图;
图2是本发明中自适应频带划分的流程图。
具体实施方式
一种多带谱减法的帕金森语音增强方法,如图1所示:包括以下步骤:
S1:通过非接触式方式对帕金森患者进行语音信号采集,且在室内安静环境下采集一段时间的语音信号,在本实施例中,采集的时间长为4s至8s,并将帕金森病患者的纯净语音信号建模为x(t),噪声建模为d(t),且d(t)服从零均值的高斯分布,则采集的帕金森病患者的含噪语音为:
y(t)=x(t)+d(t)
S2:将步骤S1中采集到的帕金森病患者语音进行采样和短时帧划分;其中,采样包括采样频率、采样精度及采样后的含噪语音信号,并设采样频率为FskHz,采样精度为Bbit,采样后的含噪语音信号为y(m),其中,m为离散时间度量单位;短时帧划分的帧长为L,为保持信号的连贯,相邻的帧为R点重叠,且短时帧划分时所用的窗函数类型可根据需要设定为矩形窗、汉宁窗或汉明窗。在本发明的技术方案中,短时帧划分时所用的窗函数类型为汉宁窗。
S3:对每一帧语音进行短时能量计算,并根据短时能量进行自适应频带划分;在每一帧中,计算每一帧语音进行短时能量为计算每一帧中所有样本值的加权平方和,计算公式为:
取所述汉宁窗的窗函数为w(m),其中0≤m≤L-1,则第λ帧的短时能量计算公式如下:
其中,0≤λ≤J-1,J为总帧数;
另外,自适应频带划分,如图2所示,是在时域将语音信号分离为多个子带信号,并设置阈值e_low和e_high,取短时能量范围在e_low至e_high的频带,若连续多个帧的短时能量Eλ满足Eλ>e_high,则以此连续帧的第一帧作为一个划分的起点;若连续多帧的短时能量Eλ满足Eλ<e_low,则以此连续帧的最后一帧作为一个划分的终点。
S4:计算每个窗长内含噪声语音的短时功率谱、时变的平滑参数及平滑功率谱;
其中,短时功率谱的计算方法为:采用步骤S3中经过自适应频带划分所获得的每段频带,针对其中的每一帧,计算出Y(λ,κ),再计算含噪声语音的短时功率谱|Y(λ,κ)|2,计算公式为:
其中,λ为帧数标记,λ∈Z;κ表示频率点,κ∈{0,1,...M-1},L是帧长,M为各子带内的频点数;
另外,时变的平滑参数的计算方法为:
进一步地,平滑功率谱的计算公式为:
P(λ,κ)=δ(λ,κ)P(λ-1,κ)+(1-δ(λ,κ))|Y(λ,κ)|2
其中,P(λ,κ)为更新平滑功率谱,δ(λ,κ)为平滑参数,P(λ-1,κ)为前一帧的平滑功率谱。
S5:计算偏差修正因子;偏差修正因子Bmin(λ,κ)的计算步骤为:
其中,λ为帧数标记,λ∈Z;κ表示频率点,κ∈{0,1,...M-1};P(λ,κ)为更新平滑功率谱;δ(λ,κ)为平滑参数;M为各子带内的频点数;
S53:计算偏差修正因子Bmin(λ,κ):
其中,D为搜索最小值的窗长或帧长,Qeq(λ,κ)为:
S54:将Bmin(λ,κ)用系数Bc(λ)进行修正,Bc(λ)取值如下:
S6:寻找搜索功率谱密度的最小值,是在长度为D帧的窗内,搜索最小功率谱密度Pmin(λ,κ),其中,λ为帧数标记,λ∈Z;κ表示频率点,κ∈{0,1,...M-1},且当处理第V帧时,其中V<D,将最小功率谱密度Pmin(λ,κ)更新。
其中,λ为帧数标记,λ∈Z;κ表示频率点,κ∈{0,1,...M-1},Pmin(λ,κ)为最小功率谱密度,Bmin(λ,κ)为偏差修正因子;
S8:采用多带谱减法进行语音增强;
S81:将自适应频带划分为N个互不重叠的子带,每个子带独立且同步运行谱减法,假设x(t)与d(t)独立,其中,x(t)为纯净语音信号建模,d(t)为噪声建模,且d(t)服从零均值的高斯分布,用Yi(W)表示第i个子带上的含噪语音、Xi(W)表示第i个子带上的纯净语音、Di(W)表示第i个子带上的噪声信号,其傅里叶变换公式为:
|Yi(w)|2=|Xi(w)|2+|Di(w)|2
其中,Yi(W)表示第i个子带上的含噪语音、Xi(W)表示第i个子带上的纯净语音、Di(W)表示第i个子带上的噪声信号;采集的帕金森病患者语音为持续长元音/a/,用户在发声前和发声期间的平稳噪声功率谱相同,并通过基于最小值统计的噪声估计算法估算出噪声的功率谱
S82:对接收到的带噪声信号幅度谱进行平滑处理,并计算平滑后的含噪声语音谱,平滑后的含噪声语音谱的计算公式为:
其中,取P=2;wk=2πk/M是离散频率,k=0,1,...,M-1;Wj是分配给每一子带的权重,0<Wj<1;
S83:根据多带谱减法,利用噪声修正系数对噪声谱进行过减处理,即利用多个子带的权重控制每个子带,并估算第i个子带的纯净语音信号谱;
第i个子带的纯净语音信号谱的估算公式为:
减法过程产生的负值按带噪信号谱取下限,则第i个子带的纯净语音信号谱转换为:
其中,β为谱下限参数;
另外,利用多个子带的权重控制每个子带的权重因子δi的计算公式为:
其中,fi为第i个子带的频率上界,FS为采样频率;
S84:根据修饰公式对增强后的语音谱进行进一步修饰。
修饰公式为:
噪声修正系数αi是第i个频率子带的信噪比函数,计算如下:
其中子带的信噪比SNRi的计算如下:
以下用具体实施例说明多带谱减法的帕金森语音增强方法:
步骤S1:通过非接触式方式对帕金森患者进行语音信号采集;
在本发明的技术方案中,用户通过手机等非接触方式,在室内安静环境下采集4至8秒长的语音信号,其中第1秒不发声,从第2秒开始持续发元音/a/。为了后续步骤表述上的方便,将帕金森病患者的纯净语音信号建模为x(t),加性噪声建模为d(t),d(t)服从零均值的高斯分布,则采集的含噪帕金森病患者语音可以表示为:
y(t)=x(t)+d(t)
步骤S2:将步骤S1中采集到的帕金森病患者语音进行采样和短时帧划分。
采样频率设为Fs kHz,采样精度设为Bbit。采样后的含噪语音信号记为y(m),其中,m为离散时间度量单位。短时帧划分的帧长为L,为保持信号的连贯,相邻的帧重叠R点。短时帧划分时所用的窗函数类型可根据需要设定矩形窗、汉宁窗、汉明窗等。本发明中,可设采样频率8kHz,采样精度16bit;短时帧划分的帧长L为256(每帧时长32毫秒),窗函数选汉明窗;帧移R设为128,即帧之间的重叠度为50%。
步骤S3:对每一帧语音进行短时平均能量计算,并根据短时能量进行自适应频带划分;
在每一帧中,计算该帧中所有样本值的加权平方和作为该帧的短时能量。取窗函数w(m),其中0≤m≤L-1,则第λ帧的短时平均能量计算公式如下:
其中,0≤λ≤J-1,J为总帧数;
根据短时平均能量进行自适应频带划分,具体过程为:
设置阈值e_low和e_high,并根据计算所得的每一帧语音的短时平均能量Eλ,在时域将语音信号分离为多个子带信号,若连续多个帧的短时平均能量Eλ满足Eλ>e_high,则以此连续帧的第一帧作为一个划分的起点;若连续多帧的短时平均能量Eλ满足Eλ<e_low,则以此连续帧的最后一帧作为一个划分的终点。由于采集到的语音是在第2秒开始发声,第1秒未发声段语音包含的只有噪声。设第1秒内未发声段的短时平均能量为阈值e_low,由于噪声的随机性,第1秒未发声段语音的短时平均能量不同。因此,对于不同语音样本,e_low的取值不同,即可以根据不同的语音样本自适应调整边界条件或阈值。通过步骤S3,最终实现所采集语音信号的自适应频带划分。取短时能量范围在e_low至e_high的频带,对其中每一帧执行接下来的步骤。
步骤S4:针对自适应划分的频带,计算每个窗长内含噪声语音的短时功率谱、时变的平滑参数及平滑功率谱。
经过自适应频带划分所获得的每段频带,针对其中的每一帧,计算出Y(λ,κ),再计算含噪声语音的短时功率谱|Y(λ,κ)|2,具体计算过程如下:
其中,λ为帧数标记,λ∈Z;κ表示频率点,κ∈{0,1,...M-1},M表示各子带内的频点数,L是帧长。
计算时变的平滑参数。
计算平滑功率谱过程为:更新平滑功率谱P(λ,κ),计算公式如下:
P(λ,κ)=δ(λ,κ)P(λ-1,κ)+(1-δ(λ,κ))|Y(λ,κ)|2
其中,δ(λ,κ)为平滑参数,P(λ-1,κ)为前一帧的平滑功率谱。
步骤S5:计算偏差修正因子;计算偏差修正因子Bmin(λ,κ),计算公式如下:
其中,D为搜索最小值的窗长或帧长,本实施例中最小值的窗长取值为96,Qeq(λ,κ)的计算如下:
其中,λ为帧数标记,λ∈Z;κ表示频率点,κ∈{0,1,...M-1};P(λ,κ)为更新平滑功率谱;δ(λ,κ)为平滑参数;M为各子带内的频点数;
为了增强在随机噪声环境下噪声估计的稳定性,将Bmin(λ,κ)用系数Bc(λ)进行修正,Bc(λ)取值如下:
步骤S6:寻找搜索功率谱密度的最小值;
在长度为D帧的窗内,搜索最小功率谱密度Pmin(λ,κ)。λ为帧数标记,λ∈Z;κ表示频率点,κ∈{0,1,...M-1},且当处理第V帧时,其中V<D,将该最小值更新。
步骤S7:计算并更新噪声的功率谱密度;
其中,λ为帧数标记,λ∈Z;κ表示频率点,κ∈{0,1,...M-1},Pmin(λ,κ)为最小功率谱密度,Bmin(λ,κ)为偏差修正因子。
步骤S8:采用多带谱减法进行语音增强;
针对前面划分的N个互不重叠的子带,谱减法在每个子带独立且同步运行。第i(1≤i≤N)个子带的纯净语音信号谱的估计如下:
假设x(t)与d(t)独立,用Yi(W)表示第i个子带上的含噪语音的傅里叶变换、Xi(W)表示第i个子带上的纯净语音的傅里叶变换、Di(W)表示第i个子带上的噪声信号的傅里叶变换,且满足:
|Yi(w)|2=|Xi(w)|2+|Di(w)|2
其中,Yi(W)表示第i个子带上的含噪语音、Xi(W)表示第i个子带上的纯净语音、Di(W)表示第i个子带上的噪声信号;采集的帕金森病患者语音为持续长元音/a/,可认为用户在发声前和发声期间的平稳噪声功率谱几乎不产生变化,通过基于最小值统计的噪声估计算法可估计出噪声的功率谱
为防止对语音谱信息造成损伤,首先对接收到的带噪声信号幅度谱Yi(wk)进行平滑处理。平滑后的带噪声语音谱为
其中,一般取P=2;wk=2πk/M是离散频率,k=0,1,...,M-1;Wj是分配给每一子带的权重,0<Wj<1,本实施例中取Wj=[0.09,0.25,0.32,0.25,0.09]。
根据多带谱减法,利用噪声修正系数对噪声谱进行过减处理,还可利用多个子带的权重更加灵活地控制每个子带。则第i个子带的纯净语音信号谱的估计如下:
其中,αi为第i个子带的噪声修正系数,亦称过减因子,且αi≥1;δi为第i个子带的权重因子或减法因子;为所估计的噪声功率谱;bi和ei是第i个子带上频点的起始点和结束点,它可以按子带独立设置以满足不同的噪声抑制需求。减法过程产生的负值按带噪信号谱取下限,则上式转换为:
其中,谱下限参数β的值为0.002。为进一步消除“音乐噪声”,可对增强后的语音谱进行进一步修饰,公式如下:
噪声修正系数αi是第i个频率子带的信噪比函数,根据经验确定其计算如下:
其中子带的信噪比SNRi的计算如下:
权重因子(减法因子)δi的计算公式如下:
其中,fi为第i个子带的频率上界,FS为采样频率。
本发明提供的基于多带谱减法的帕金森语音增强方法,主要基于采集患者的持续长元音/a/,持续长元音/a/除了语音的起始和终止,发声期间并没有“寂静段”,通过计算语音的短时能量,并根据短时能量划分频带,即自适应频带划分,该方法可有效降低语音增强算法的复杂度。此外,对于一般语音而言,在语音的“寂静段”,单个频带的带噪语音信号的功率也会衰减到噪声的平均功率,基于最小值统计的噪声估计算法无需对语音的“寂静段”和“发声段”的噪声分别进行估计,因而该噪声估计算法对低频带的语音增强具有更好的质量。因此,采用基于最小值统计的噪声估计算法作为帕金森语音增强中的噪声估计算法,不仅能够有效降低语音增强算法的复杂度,而且能够有效降低语音增强后的失真度。
应该注意的是,上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。
Claims (10)
1.一种多带谱减法的帕金森语音增强方法,其特征在于,包括以下步骤:
S1:通过非接触式方式对帕金森患者进行语音信号采集;
S2:将步骤S1中采集到的帕金森病患者语音进行采样和短时帧划分;
S3:对每一帧语音进行短时能量计算,并根据短时能量进行自适应频带划分;
S4:计算每个窗长内含噪声语音的短时功率谱、时变的平滑参数及平滑功率谱;
S5:计算偏差修正因子;
S6:寻找搜索功率谱密度的最小值;
S7:计算并更新噪声的功率谱密度;
S8:采用多带谱减法进行语音增强;
S81:将自适应频带划分为N个互不重叠的子带,每个子带独立且同步运行谱减法,假设x(t)与d(t)独立,其中,x(t)为纯净语音信号建模,d(t)为噪声建模,且d(t)服从零均值的高斯分布,用Yi(W)表示第i个子带上的含噪语音的傅里叶变换、Xi(W)表示第i个子带上的纯净语音的傅里叶变换、Di(W)表示第i个子带上的噪声信号的傅里叶变换;
S82:对接收到的带噪声信号幅度谱进行平滑处理,并计算平滑后的含噪声语音谱;
S83:根据多带谱减法,利用噪声修正系数对噪声谱进行过减处理,即利用多个子带的权重控制每个子带,并估算第i个子带的纯净语音信号谱;
S84:根据修饰公式对增强后的语音谱进行进一步修饰,所述修饰公式为:
噪声修正系数αi是第i个频率子带的信噪比函数,计算如下:
其中子带的信噪比SNRi的计算如下:
其中,bi和ei是第i个子带上频点的起始点和结束点。
2.根据权利要求1所述一种基于多带谱减法的帕金森语音增强方法,其特征在于:所述步骤S1中的语音信号采集是用户通过非接触方式,在室内安静环境下采集一段时间的语音信号,并将帕金森病患者的纯净语音信号建模为x(t),噪声建模为d(t),且d(t)服从零均值的高斯分布,则采集的帕金森病患者的含噪语音为:
y(t)=x(t)+d(t)。
3.根据权利要求2所述一种基于多带谱减法的帕金森语音增强方法,其特征在于:所述步骤S2中采样包括采样频率、采样精度及采样后的含噪语音信号,并设采样频率为Fs kHz,采样精度为B bit,采样后的含噪语音信号为y(m),其中,m为离散时间度量单位;
所述步骤S2中短时帧划分的帧长为L,相邻的帧为R点重叠。
4.根据权利要求3所述一种基于多带谱减法的帕金森语音增强方法,其特征在于:所述短时帧划分时所用的窗函数类型为汉宁窗。
5.根据权利要求4所述一种基于多带谱减法的帕金森语音增强方法,其特征在于:所述步骤S3中计算每一帧语音进行短时能量为计算每一帧中所有样本值的加权平方和,计算公式为:
取所述汉宁窗的窗函数为w(m),其中0≤m≤L-1,则第λ帧的短时能量计算公式如下:
其中,0≤λ≤J-1,J为总帧数;
所述步骤S3中自适应频带划分是在时域将语音信号分离为多个子带信号,并设置阈值e_low和e_high,取短时能量范围在e_low至e_high的频带,若连续多个帧的短时能量Eλ满足Eλ>e_high,则以此连续帧的第一帧作为一个划分的起点;若连续多帧的短时能量Eλ满足Eλ<e_low,则以此连续帧的最后一帧作为一个划分的终点。
6.根据权利要求5所述一种基于多带谱减法的帕金森语音增强方法,其特征在于:所述步骤S4中短时功率谱的计算方法为:采用步骤S3中经过自适应频带划分所获得的每段频带,针对其中的每一帧,计算出Y(λ,κ),再计算含噪声语音的短时功率谱|Y(λ,κ)|2,计算公式为:
其中,λ为帧数标记,λ∈Z;κ表示频率点,κ∈{0,1,...M-1},L是帧长,M为各子带内的频点数;
所述步骤S4中时变的平滑参数的计算方法为:
所述步骤S4中平滑功率谱的计算公式为:
P(λ,κ)=δ(λ,κ)P(λ-1,κ)+(1-δ(λ,κ))|Y(λ,κ)|2
其中,P(λ,κ)为更新平滑功率谱,δ(λ,κ)为平滑参数,P(λ-1,κ)为前一帧的平滑功率谱。
7.根据权利要求6所述一种基于多带谱减法的帕金森语音增强方法,其特征在于:所述步骤S5中偏差修正因子Bmin(λ,κ)的计算步骤为:
其中,λ为帧数标记,λ∈Z;κ表示频率点,κ∈{0,1,...M-1};P(λ,κ)为更新平滑功率谱;δ(λ,κ)为平滑参数;M为各子带内的频点数;
S53:计算偏差修正因子Bmin(λ,κ):
其中,D为搜索最小值的窗长或帧长,Qeq(λ,κ)为:
S54:将Bmin(λ,κ)用系数Bc(λ)进行修正,Bc(λ)取值如下:
8.根据权利要求7所述一种基于多带谱减法的帕金森语音增强方法,其特征在于:所述步骤S6中搜索功率谱密度的最小值是在长度为D帧的窗内,搜索最小功率谱密度Pmin(λ,κ),其中,λ为帧数标记,λ∈Z;κ表示频率点,κ∈{0,1,...M-1},且当处理第V帧时,其中V<D,将最小功率谱密度Pmin(λ,κ)更新。
10.根据权利要求9所述一种基于多带谱减法的帕金森语音增强方法,其特征在于:所述步骤S81中第i个子带上含噪语音、纯净语音、噪声信号的傅里叶变换公式为:
|Yi(w)|2=|Xi(w)|2+|Di(w)|2
其中,Yi(W)表示第i个子带上的含噪语音、Xi(W)表示第i个子带上的纯净语音、Di(W)表示第i个子带上的噪声信号;采集的帕金森病患者语音为持续长元音/a/,用户在发声前和发声期间的平稳噪声功率谱相同,并通过基于最小值统计的噪声估计算法估算出噪声的功率谱
所述步骤S82中平滑后的含噪声语音谱的计算公式为:
其中,取P=2;wk=2πk/M是离散频率,k=0,1,...,M-1;Wj是分配给每一子带的权重,0<Wj<1;
所述步骤S83中第i个子带的纯净语音信号谱的估算公式为:
减法过程产生的负值按带噪信号谱取下限,则第i个子带的纯净语音信号谱转换为:
其中,β为谱下限参数;
所述步骤S83利用多个子带的权重控制每个子带的权重因子δi的计算公式为:
其中,fi为第i个子带的频率上界,FS为采样频率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810748612.7A CN108899052B (zh) | 2018-07-10 | 2018-07-10 | 一种基于多带谱减法的帕金森语音增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810748612.7A CN108899052B (zh) | 2018-07-10 | 2018-07-10 | 一种基于多带谱减法的帕金森语音增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108899052A CN108899052A (zh) | 2018-11-27 |
CN108899052B true CN108899052B (zh) | 2020-12-01 |
Family
ID=64348810
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810748612.7A Active CN108899052B (zh) | 2018-07-10 | 2018-07-10 | 一种基于多带谱减法的帕金森语音增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108899052B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110310656A (zh) * | 2019-05-27 | 2019-10-08 | 重庆高开清芯科技产业发展有限公司 | 一种语音增强方法 |
CN110136738A (zh) * | 2019-06-13 | 2019-08-16 | 苏州思必驰信息科技有限公司 | 噪声估计方法及装置 |
CN110335624A (zh) * | 2019-07-29 | 2019-10-15 | 吉林大学 | 基于功率归一化倒谱系数特征的帕金森病语音检测方法 |
CN110931007B (zh) * | 2019-12-04 | 2022-07-12 | 思必驰科技股份有限公司 | 语音识别方法及系统 |
CN111899752B (zh) * | 2020-07-13 | 2023-01-10 | 紫光展锐(重庆)科技有限公司 | 快速计算语音存在概率的噪声抑制方法及装置、存储介质、终端 |
CN112697270B (zh) * | 2020-12-07 | 2023-07-18 | 广州极飞科技股份有限公司 | 故障检测方法、装置、无人设备及存储介质 |
CN113113022A (zh) * | 2021-04-15 | 2021-07-13 | 吉林大学 | 一种基于说话人声纹信息的自动识别身份的方法 |
CN114373484A (zh) * | 2022-03-22 | 2022-04-19 | 南京邮电大学 | 语音驱动的帕金森病多症状特征参数的小样本学习方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103594094A (zh) * | 2012-08-15 | 2014-02-19 | 王景芳 | 自适应谱减法实时语音增强 |
CN104021796A (zh) * | 2013-02-28 | 2014-09-03 | 华为技术有限公司 | 语音增强处理方法和装置 |
CN104810023A (zh) * | 2015-05-25 | 2015-07-29 | 河北工业大学 | 一种用于语音信号增强的谱减法 |
CN106409287A (zh) * | 2016-12-12 | 2017-02-15 | 天津大学 | 提高肌肉萎缩或神经退行性病人语音可懂度装置和方法 |
CN106504763A (zh) * | 2015-12-22 | 2017-03-15 | 电子科技大学 | 基于盲源分离与谱减法的麦克风阵列多目标语音增强方法 |
CN106710604A (zh) * | 2016-12-07 | 2017-05-24 | 天津大学 | 提高语音可懂度的共振峰增强装置和方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170316790A1 (en) * | 2016-04-27 | 2017-11-02 | Knuedge Incorporated | Estimating Clean Speech Features Using Manifold Modeling |
-
2018
- 2018-07-10 CN CN201810748612.7A patent/CN108899052B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103594094A (zh) * | 2012-08-15 | 2014-02-19 | 王景芳 | 自适应谱减法实时语音增强 |
CN104021796A (zh) * | 2013-02-28 | 2014-09-03 | 华为技术有限公司 | 语音增强处理方法和装置 |
CN104810023A (zh) * | 2015-05-25 | 2015-07-29 | 河北工业大学 | 一种用于语音信号增强的谱减法 |
CN106504763A (zh) * | 2015-12-22 | 2017-03-15 | 电子科技大学 | 基于盲源分离与谱减法的麦克风阵列多目标语音增强方法 |
CN106710604A (zh) * | 2016-12-07 | 2017-05-24 | 天津大学 | 提高语音可懂度的共振峰增强装置和方法 |
CN106409287A (zh) * | 2016-12-12 | 2017-02-15 | 天津大学 | 提高肌肉萎缩或神经退行性病人语音可懂度装置和方法 |
Non-Patent Citations (2)
Title |
---|
基于多带谱减法的生物雷达语音增强方法研究;胡金艳 等;《科学技术与工程》;20170630;第17卷(第16期);第76-80页 * |
多带谱相减结合感觉加权的语音增强方法研究;王晓娣;《电力系统通信》;20051231;第26卷(第158期);第50-53页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108899052A (zh) | 2018-11-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108899052B (zh) | 一种基于多带谱减法的帕金森语音增强方法 | |
CN105513605B (zh) | 手机麦克风的语音增强系统和语音增强方法 | |
JP5666444B2 (ja) | 特徴抽出を使用してスピーチ強調のためにオーディオ信号を処理する装置及び方法 | |
Hermansky et al. | Recognition of speech in additive and convolutional noise based on RASTA spectral processing | |
CN109410977B (zh) | 一种基于EMD-Wavelet的MFCC相似度的语音段检测方法 | |
CN108447495B (zh) | 一种基于综合特征集的深度学习语音增强方法 | |
RU2329550C2 (ru) | Способ и устройство для улучшения речевого сигнала в присутствии фонового шума | |
CN108831499A (zh) | 利用语音存在概率的语音增强方法 | |
US20190172480A1 (en) | Voice activity detection systems and methods | |
WO2002029782A1 (en) | Perceptual harmonic cepstral coefficients as the front-end for speech recognition | |
WO2000017859A1 (en) | Noise suppression for low bitrate speech coder | |
Chen et al. | Improved voice activity detection algorithm using wavelet and support vector machine | |
CN108305639B (zh) | 语音情感识别方法、计算机可读存储介质、终端 | |
CN108682432B (zh) | 语音情感识别装置 | |
CN110767244A (zh) | 语音增强方法 | |
CN113077806B (zh) | 音频处理方法及装置、模型训练方法及装置、介质和设备 | |
JP6374120B2 (ja) | 発話の復元のためのシステムおよび方法 | |
WO2020024787A1 (zh) | 音乐噪声抑制方法及装置 | |
CN113974607B (zh) | 一种基于脉冲神经网络的睡眠鼾声检测系统 | |
CN103400578B (zh) | 谱减与动态时间规整算法联合处理的抗噪声声纹识别装置 | |
Trawicki et al. | Speech enhancement using Bayesian estimators of the perceptually-motivated short-time spectral amplitude (STSA) with Chi speech priors | |
Kaewtip et al. | A pitch-based spectral enhancement technique for robust speech processing. | |
Tong et al. | Multi-Band Spectral Subtraction Based on Adaptive Noise Estimation and Spectral Floor Optimization | |
CN117711419B (zh) | 用于数据中台的数据智能清洗方法 | |
Dong et al. | Speech denoising based on perceptual weighting filter |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: Room 201, building 2, phase II, No.1 Kechuang Road, Yaohua street, Qixia District, Nanjing City, Jiangsu Province Applicant after: NANJING University OF POSTS AND TELECOMMUNICATIONS Address before: 210003 Gulou District, Jiangsu, Nanjing new model road, No. 66 Applicant before: NANJING University OF POSTS AND TELECOMMUNICATIONS |
|
GR01 | Patent grant | ||
GR01 | Patent grant |