CN106409287B - 提高肌肉萎缩或神经退行性病人语音可懂度装置和方法 - Google Patents
提高肌肉萎缩或神经退行性病人语音可懂度装置和方法 Download PDFInfo
- Publication number
- CN106409287B CN106409287B CN201611140893.5A CN201611140893A CN106409287B CN 106409287 B CN106409287 B CN 106409287B CN 201611140893 A CN201611140893 A CN 201611140893A CN 106409287 B CN106409287 B CN 106409287B
- Authority
- CN
- China
- Prior art keywords
- voice
- formant
- speech
- patient
- detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 42
- 201000000585 muscular atrophy Diseases 0.000 title claims description 26
- 230000000626 neurodegenerative effect Effects 0.000 title claims description 15
- 238000001228 spectrum Methods 0.000 claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 6
- 230000003014 reinforcing effect Effects 0.000 claims abstract description 3
- 238000001514 detection method Methods 0.000 claims description 51
- 206010028289 Muscle atrophy Diseases 0.000 claims description 22
- 230000002708 enhancing effect Effects 0.000 claims description 16
- 230000020763 muscle atrophy Effects 0.000 claims description 15
- 238000005070 sampling Methods 0.000 claims description 14
- 230000004770 neurodegeneration Effects 0.000 claims description 12
- 230000003044 adaptive effect Effects 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 6
- 230000036541 health Effects 0.000 claims description 4
- 208000015122 neurodegenerative disease Diseases 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 2
- 238000012937 correction Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 230000032683 aging Effects 0.000 description 5
- 230000003595 spectral effect Effects 0.000 description 5
- 238000013179 statistical model Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 206010002026 amyotrophic lateral sclerosis Diseases 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 238000002630 speech therapy Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 201000006938 muscular dystrophy Diseases 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 208000024827 Alzheimer disease Diseases 0.000 description 1
- 206010056677 Nerve degeneration Diseases 0.000 description 1
- 208000018737 Parkinson disease Diseases 0.000 description 1
- 206010039966 Senile dementia Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 230000036772 blood pressure Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 201000006417 multiple sclerosis Diseases 0.000 description 1
- 230000000474 nursing effect Effects 0.000 description 1
- 230000002688 persistence Effects 0.000 description 1
- 238000005316 response function Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72403—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
- H04M1/72406—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality by software upgrading or downloading
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Computer Networks & Wireless Communication (AREA)
- Prostheses (AREA)
- Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
Abstract
本发明涉及语音帮助、语音增强技术,为不易懂语言通过智能手机的麦克风输入,增强之后变得易懂的语音通过智能手机的扬声器输出,本发明,由手机及设置在手机上的语音增强模块构成,不易懂语言通过手机的麦克风输入,经增强模块增强之后变得易懂的语音通过智能手机的扬声器输出;其中,增强模块包括:傅里叶变换模块,变换后输出到自适应滤波器模块,自适应滤波器模块利用参考频谱进行训练,所述参考频谱为生病前语音频谱的模型,或者是对于每个年龄段、性别、地区从健康人的发音进行统计得到语音频谱模型,训练完毕后的自适应滤波器对输入的信号进行增强,最后经傅里叶逆变换输出增强后的语音。本发明主要应用于语音增强场合。
Description
技术领域
本发明涉及语音帮助;语音增强;语音处理等医疗康复器械。具体讲,涉及提高肌肉萎缩或神经退行性病人语音可懂度装置和方法。
背景技术
目前全世界的老龄化程度越来越严重,尤其在工业化国家老龄化更为严重,中国因为长时间的计划生育政策也走上老龄化道路。而老年人因为年龄的增加,导致发音部位的肌肉萎缩,发音不清楚,使人听不懂。
一些神经退行性疾病,例如帕金森氏症、老年痴呆症、多发性硬化症、肌萎缩性脊髓侧索硬化症(ALS)等也会导致发音不清楚。著名科学家霍金就是ALS患者。而这些疾病跟人口结构变化关系密切,因为导致这些疾病的一大原因是年龄增长。
目前肌肉萎缩或神经退行性语音病人去语音诊所进行语音治疗(speechtherapy)。语音治疗周期性长、费用高,并且持久性差。因为肌肉萎缩或神经退行性导致发音可懂度低的病人经过长期治疗后,虽然语音可懂度会有所提高,但是过些年后其可懂度又会变差。
到目前为止,申请人尚未发现通过信号处理改善肌肉萎缩或神经退行性病人发音可懂度的文献,但是查找到了用于其它目的改善语音可懂度的报道。
文献[1]通过检测和增强语音共振峰附近频率信号成分来改善低语可懂度。[2]处理语音基础频率和其谐波频率信号成分,从而来提高由于接受带宽受限传输通道语音信号声码器的可懂度。[3]通过根据噪声和语音信号功率关系控制语音信号增益,来提高系统可懂度。[4]通过增强语音共振峰附近频率信号成分等措施来加大辅音对比度,以便解决由于语音信号在传输或处理过程中带宽降低所造成的可懂度下降问题。[5]通过使用一个近似逆等响曲线的频率响应函数滤波,解决由于背景噪声造成的语音可懂度下降问题。[6]通过共振峰增强来提高由于背景噪声带来的对话可懂度降低问题。[7]通过动态频谱形状修改增强辅音来提高助听器、或传输之后语音信号的可懂度。[8]通过自适应音频系统改善通信设备音频信号的可懂度。[9]也是通过共振峰增强来提高由于背景噪声带来的对话可懂度降低问题。该专利申请基于线谱对系数鉴别语音区的存在。
[1]Ian Vince McLoughlin,Hamid Reza Sharifzadeh,Farzaneh Ahmadi,Methodand System for Reconstructing Speech from an Input Signal ComprisingWhispers,US patent application 2012/0150544
[2]Mark Lewis Grabb,Enhancement of Speech Signals Transmitted over aVocoder Channel,US patent 6,081,777
[3]Toru Marumoto,Nozomu Saito,Voice Intelligibility EnhancementSystem and Voice Intelligibility Enhancement Method,US patent 8,249,259
[4]Nico R.Chong-White,Richard Vandervoort Cox,Enhancing SpeechIntelligibility using Variable-Rate Time-scale Modification,US patent 7,065,485
[5]Arnold I.Klayman,Voice Intelligibility Enhancement System,USpatent 6,993,480
[6]Arnold I.Klayman,Public Address Intelligibility System,US patent5,459,813
[7]James M.Kates,Speech Intelligibility Enhancement,US patent 4,454,609
[8]杨均等,用于自适应话音可懂度处理的系统,中国专利申请CN 102498482
[9]吴润学,扑海光,使用共振峰增强对话的方法和装置,中国专利申请CN1619646。
发明内容
为克服现有技术的不足,本发明旨在提出一种语言增强算法,通过智能手机编写软件以一种App的形式实现该算法。不易懂语言通过智能手机的麦克风输入,增强之后变得易懂的语音通过智能手机的扬声器输出。除了智能手机的App形式外,还可开发改善语音可懂度的专用手提电子设备。为此,本发明采用的技术方案是,由手机及设置在手机上的语音增强模块构成,不易懂语言通过手机的麦克风输入,经增强模块增强之后变得易懂的语音通过智能手机的扬声器输出;其中,增强模块包括:傅里叶变换模块,用于对语音信号进行傅里叶变换,变换后输出到自适应滤波器模块,自适应滤波器模块利用参考频谱进行训练,所述参考频谱为生病前语音频谱的模型,或者是对于每个年龄段、性别、地区从健康人的发音进行统计得到语音频谱模型,训练完毕后的自适应滤波器对输入的信号进行增强,最后经傅里叶逆变换输出增强后的语音。
还包括共振峰检测模块:若存储了病人健康时候的语音,通过该语音由共振峰检测模块进行共振峰检测,通过倒频谱法或LPC方法得到共振峰频率,增强病人语音共振峰频率附近的信号成分,特别是前三个共振峰频率附近的信号成分。
更进一步地,共振峰检测模块中通过多种共振峰检测方法检测到多种共振峰的检测结果,这些不确定的结果,即弱特征,通过模糊逻辑的方法或自适应增强的方法综合从而形成一种强特征,若存关于病人健康语音共振峰的先验知识,也可用来提高共振峰的检测结果。
还包括下采样模块,先采用由低通滤波和样本的取舍两部分形成的下采样步骤,进行语音噪声区分,然后对原信号和下采样信号分别进行共振峰检测,并综合使用原信号和下采样信号检测共振峰的结果,以便可靠检测共振峰。
还包括辅音检测模块,利用元音以及语音区和非语音区的区分结果检测辅音的存在,一旦确定了辅音的存在,即对其增强。
在一个实例中,具体地:
通过每两个样本舍去一个的下采样模块区分语音区和非语音区;
通过检测共振峰模块,采用局部最大点、LPC或两个以上的共振峰检测方法,检测共振峰;
辅音检测模块,利用元音以及语音区和非语音区的区分结果检测辅音;
增强共振峰频率附近的语音信号成分,特别是增强前三个共振峰频率附近的语音信号成分;增强辅音;通过模糊逻辑融合增强结果。
本发明的特点及有益效果是:
语音交流无论对日常生活,还是对就医看病都是至关重要的,因此提高老年人语音可懂度具有重要意义。
通过智能手机语音App或改善语音可懂度专用手提电子设备的处理,肌肉萎缩或神经退行性病人发出难懂的语音变得易懂,可以提高病人的自理能力,也可提高其生活质量。
这种通过信号处理改善肌肉萎缩或神经退行性病人发音可懂度的方法可以代替耗时的语音治疗,大大降低医疗费用。
附图说明:
图1一种提高肌肉萎缩或神经退行性病人语音可懂度的实现举例。
图2下采样原理图。
图3下采样提高相邻留取样本数据(ο和ο)的差值。
图4采取下采样方法检测共振峰。
图5采取下采样方法检测语音与非语音区。
图6局部最大和最小点。
图7一种提高肌肉萎缩或神经退行性病人语音可懂度的实现举例。
图8示出提高肌肉萎缩或神经退行性病人语音可懂度装置和方法的流程图。
肌肉萎缩或神经退行性病人对着智能手机讲话,智能手机在对该语音进行分析和处理之后进行增强,增强后的语音通过扬声器给出。
通过智能手机语音App形式来改善肌肉萎缩或神经退行性病人发音可懂度,如图7所示。
具体实施方式
(1)存在病人语音记录的情况
如果肌肉萎缩或神经退行性病人存在患病前的语音记录,利用病人的语音记录可以较容易地提高肌肉萎缩或神经退行性病人语音可懂度。语音数据就像其他反映身体健康的数据(例如血压、血糖、脉搏等)一样被存储起来,在必要的时候该语音记录被当作参考信号,用来修正病人当前时刻的语音。此修正过程属于信号处理中的逆滤波技术。
原则上,修正病人当前时刻的语音即可以在时域、也可在变换域(例如频域)进行。在频域进行语音矫正比较简单,以下本发明讨论在频域进行语音矫正。
在频域进行语音矫正,先将语音信号进行快速傅里叶变换(FFT),得到其频谱。从参考语音信号数据的频谱中可以得到代表健康语音的特征频谱。该特征频谱用来作为参考频谱来矫正病人当前语音的频谱。参考频谱可以是病人生病前语音频谱的模型。例如利用健康语音的傅里叶变换系数建立一个高斯混合模型(GMM:Gaussian Mixture Models)D(f)。由于语音信号为非稳定信号,需要使用短时间傅里叶变换(Short Time FourierTransform);或者为了更好的性能,应用众所周知的小波变换(Wavelet Transform)。
自适应滤波器的目的或任务是:将一个信号或模型(一般不甚理想,有待改进)与一个理想的信号或模型(一般被称为参考信号或模型)进行比较,并自动调节自适应滤波器的系数,以便改进不甚理想的信号或模型,使之接近参考信号或模型。
高斯混合模型并不是唯一的方案,也可建立其它数学模型。
对矫正后病人当前语音的频谱进行傅里叶逆变换(IFFT),即可得到矫正的语音,其可懂度会大大提高。图1示出自适应语音矫正方案。
自适应滤波器的训练一般无需经常进行。一次训练好的自适应滤波器系数可以一直使用,直到病人的语音有较大变化。为了达到增强信号的目的,可以人为修改D(f),特别是提高其高频信号分量的幅度。
上述频谱矫正方法需要一个参考频谱D(f),该参考频谱不一定存在。
除了进行频谱矫正外,还可以矫正或增强语音共振峰频率附近的信号成分。由存储的病人健康语音,例如通过倒频谱法、LPC法等可以较容易得到共振峰频率。由于LPC方法符合声道特性,并且计算不是非常复杂,从而被广泛应用。人语音前三个共振峰对语音可懂度至关重要,所以可以只增强病人语音前三个共振峰频率附近的信号成分,这里可以采用诸如放大器等能够增强语音信号成分的方法。
(2)不存在病人语音记录的情况
直到目前为止,语音记录尚不普及,所以必须面对没有病人语音参考信号的情况。
(2.1)统计模型的方法
不存在病人语音的记录,也可以得到参考频谱。对于每个年龄段、性别、地区都可以从健康人的发音进行统计,从而得到所需参考频谱统计模型频率。
利用频谱统计模型,通过逆滤波方法,例如图1所示方法,矫正病人当前语音。
通过与病人互动、或与长期照顾病人的护理或家庭人员进行互动,还可以继续优化统计模型,以便更好地矫正病人当前语音。
除了得到每个年龄段、性别、地区健康人的发音频谱统计模型外,也可以得到其共振峰的先验分布。
(2.2)元音共振峰检测的方法
由于共振峰与语音的可懂度直接相关,增强共振峰频率附近的语音信号成分,特别是增强前三个共振峰频率附近的语音信号成分,可以有效地提高肌肉萎缩或神经退行性病人语音的可懂度。
但是检测肌肉萎缩或神经退行性病人语音的共振峰远比检测一般语音共振峰困难,因为其元音共振峰与共振峰之间的分隔很不明显、元音和辅音之间的分隔也很不明显;另外,肌肉萎缩或神经退行性病人的语音信号弱,容易受噪声干扰。
检测肌肉萎缩或神经退行性病人语音共振峰采取的第一个措施是下采样(downsampling).下采样包含两部分:低通滤波和样本的取舍,如图2所示。
低通滤波可以降低干扰,而舍弃样本可以提高信号样本的梯度值。图3示出每两个样本数据留取一个的原理图。其中ο和·分别表示取和舍的样本。由该图可以看出,相邻留取样本数据(ο和ο)的差值大于原来相邻样本数据(ο和·)的差值。因此,下采样可以提高信号的陡度,有助于能量集中。
对原信号和下采样信号分别进行共振峰检测,从而提高共振峰检测的准确性和可靠性。
上述下采样处理不限于一次,可以多次;样本数据取舍的比例也不一定限于图3所示2:1情况。
下采样处理还可以有助于区分语音区和非语音区。由于下采样可以降低噪声干扰,下采样信号本身就有助于对语音区和非语音区的检测。对原信号和下采样信号分别进行语音区和非语音区检测,并比较分别它们检测的结果,可更有效地区分语音区和非语音区。很多文献都介绍了区分语音区和非语音区的方法,例如利用能量、过零检测等方法。
不仅利用下采样区分语音区和非语音区,检测共振峰也可以结合由下采样和原输入信号共振峰的检测结果。
检测共振峰可以利用语音区和非语音区的区分结果,也可以不利用语音区和非语音区的区分结果。
检测肌肉萎缩或神经退行性病人语音共振峰采取的第二个措施是采用多于一个检测共振峰的方法,例如采取两个共振峰检测方法,并将它们的检测结果结合起来。结合的方法是模糊逻辑。
共振峰检测方法很多,很多文献都有介绍,例如LPC、倒频谱方法(cepstrum)、bark-、mel-频谱方法等等。
可以采用多种共振峰检测方法进行检测,每一种共振峰检测可以检测到语音的一种弱特征,多种共振峰检测方法就能够检测到多种语音弱特征,这些弱特征可以通过模糊逻辑的方法综合从而形成一种强特征,但是最好使用自适应增强的方法进行综合。
语谱图是语音分析的常用手段,很多文献都有介绍。由于肌肉萎缩或神经退行性病人语音的共振峰不易检测,可以直接寻找语谱图的局部最大点。局部最大点被看作共振峰的候选位置,然后通过其它共振峰检测方法和先验知识对共振峰的候选位置进行筛选。
由于单个检测共振峰的方法不一定能做出准确判断,将几个检测共振峰方法的检测结果采用模糊逻辑、自适应增强等方法结合起来,就能提高共振峰检测结果的可靠性。
(2.3)辅音的检测
辅音没有元音那样的共振峰。但是利用元音以及语音区和非语音区的区分结果可以有效检测辅音的存在。一旦确定了辅音的存在,就可以对其增强,从而提高肌肉萎缩或神经退行性病人语音的可懂度。
(2.4)结合统计模型或参数与共振峰检测的方法
由每个年龄段、性别、地区得到的健康人发音共振峰的先验分布可以帮助共振峰的检测,使得共振峰检测结果更可靠。
本发明的一个实例步骤如下:
(3.1)通过智能手机语音App形式来改善肌肉萎缩或神经退行性病人发音可懂度。
(3.2)通过增强共振峰频率附近的语音信号成分,特别是增强前三个共振峰频率附近的语音信号成分,来提高肌肉萎缩或神经退行性病人语音的可懂度。
(3.3)通过每两个样本舍去一个的下采样技术区分语音区和非语音区,以及检测共振峰。
(3.4)采用两个以上的共振峰检测方法,寻找语谱图的局部最大点、LPC等共振峰检测方法是其中之一。
(3.5)利用元音以及语音区和非语音区的区分结果检测辅音。
Claims (6)
1.一种提高肌肉萎缩或神经退行性病人语音可懂度系统,其特征是,由手机及设置在手机上的语音增强模块构成,不易懂语言通过手机的麦克风输入,经增强模块增强之后变得易懂的语音通过智能手机的扬声器输出;其中,增强模块包括:傅里叶变换模块,用于对语音信号进行傅里叶变换,变换后输出到自适应滤波器模块,自适应滤波器模块利用参考频谱进行训练,所述参考频谱为生病前语音频谱的模型,或者是对于每个年龄段、性别、地区从健康人的发音进行统计得到语音频谱模型,训练完毕后的自适应滤波器对输入的信号进行增强,最后经傅里叶逆变换输出增强后的语音。
2.如权利要求1所述的提高肌肉萎缩或神经退行性病人语音可懂度系统,其特征是,还包括共振峰检测模块:若存储了病人健康时候的语音,通过该语音由共振峰检测模块进行共振峰检测,通过倒频谱法或LPC方法得到共振峰频率,增强病人语音共振峰频率附近的信号成分,具体是前三个共振峰频率附近的信号成分。
3.如权利要求2所述的提高肌肉萎缩或神经退行性病人语音可懂度系统,其特征是,更进一步地,共振峰检测模块中通过多种共振峰检测方法检测到多种共振峰的检测结果,所述多种共振峰的检测结果为不确定的结果,即弱特征,通过模糊逻辑的方法或自适应增强的方法综合从而形成一种强特征;若存关于病人健康语音共振峰的先验知识,也可单独或辅助提高共振峰的检测结果。
4.如权利要求1所述的提高肌肉萎缩或神经退行性病人语音可懂度系统,其特征是,还包括下采样模块,先采用由低通滤波和样本的取舍两部分形成的下采样步骤,进行语音噪声区分,然后对原信号和下采样信号分别进行共振峰检测,并综合使用原信号和下采样信号检测共振峰的结果,以便可靠检测共振峰。
5.如权利要求1所述的提高肌肉萎缩或神经退行性病人语音可懂度系统,其特征是,还包括辅音检测模块,利用元音以及语音区和非语音区的区分结果检测辅音的存在,一旦确定了辅音的存在,即对其增强。
6.如权利要求1、2、4或5所述的提高肌肉萎缩或神经退行性病人语音可懂度系统,其特征是,具体地:
通过每两个样本舍去一个的下采样模块区分语音区和非语音区;
通过检测共振峰模块,采用局部最大点、LPC或两个以上的共振峰检测方法,检测共振峰;
辅音检测模块,利用元音以及语音区和非语音区的区分结果检测辅音;
增强共振峰频率附近的语音信号成分,具体是增强前三个共振峰频率附近的语音信号成分;增强辅音;通过模糊逻辑融合增强多种共振峰的检测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611140893.5A CN106409287B (zh) | 2016-12-12 | 2016-12-12 | 提高肌肉萎缩或神经退行性病人语音可懂度装置和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611140893.5A CN106409287B (zh) | 2016-12-12 | 2016-12-12 | 提高肌肉萎缩或神经退行性病人语音可懂度装置和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106409287A CN106409287A (zh) | 2017-02-15 |
CN106409287B true CN106409287B (zh) | 2019-12-13 |
Family
ID=58085408
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611140893.5A Expired - Fee Related CN106409287B (zh) | 2016-12-12 | 2016-12-12 | 提高肌肉萎缩或神经退行性病人语音可懂度装置和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106409287B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108899052B (zh) * | 2018-07-10 | 2020-12-01 | 南京邮电大学 | 一种基于多带谱减法的帕金森语音增强方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4882755A (en) * | 1986-08-21 | 1989-11-21 | Oki Electric Industry Co., Ltd. | Speech recognition system which avoids ambiguity when matching frequency spectra by employing an additional verbal feature |
US6993480B1 (en) * | 1998-11-03 | 2006-01-31 | Srs Labs, Inc. | Voice intelligibility enhancement system |
US7065485B1 (en) * | 2002-01-09 | 2006-06-20 | At&T Corp | Enhancing speech intelligibility using variable-rate time-scale modification |
CN1303586C (zh) * | 2003-11-21 | 2007-03-07 | 三星电子株式会社 | 使用共振峰增强对话的方法和装置 |
CN102498482A (zh) * | 2009-09-14 | 2012-06-13 | Srs实验室有限公司 | 用于自适应话音可懂度处理的系统 |
CN103594091A (zh) * | 2013-11-15 | 2014-02-19 | 深圳市中兴移动通信有限公司 | 一种移动终端及其语音信号处理方法 |
CN104464746A (zh) * | 2013-09-12 | 2015-03-25 | 索尼公司 | 语音滤波方法、装置以及电子设备 |
CN104919525A (zh) * | 2012-11-16 | 2015-09-16 | 荷兰应用自然科学研究组织Tno | 用于评估退化语音信号的可理解性的方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120150544A1 (en) * | 2009-08-25 | 2012-06-14 | Mcloughlin Ian Vince | Method and system for reconstructing speech from an input signal comprising whispers |
-
2016
- 2016-12-12 CN CN201611140893.5A patent/CN106409287B/zh not_active Expired - Fee Related
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4882755A (en) * | 1986-08-21 | 1989-11-21 | Oki Electric Industry Co., Ltd. | Speech recognition system which avoids ambiguity when matching frequency spectra by employing an additional verbal feature |
US6993480B1 (en) * | 1998-11-03 | 2006-01-31 | Srs Labs, Inc. | Voice intelligibility enhancement system |
US7065485B1 (en) * | 2002-01-09 | 2006-06-20 | At&T Corp | Enhancing speech intelligibility using variable-rate time-scale modification |
CN1303586C (zh) * | 2003-11-21 | 2007-03-07 | 三星电子株式会社 | 使用共振峰增强对话的方法和装置 |
CN102498482A (zh) * | 2009-09-14 | 2012-06-13 | Srs实验室有限公司 | 用于自适应话音可懂度处理的系统 |
CN104919525A (zh) * | 2012-11-16 | 2015-09-16 | 荷兰应用自然科学研究组织Tno | 用于评估退化语音信号的可理解性的方法和装置 |
CN104464746A (zh) * | 2013-09-12 | 2015-03-25 | 索尼公司 | 语音滤波方法、装置以及电子设备 |
CN103594091A (zh) * | 2013-11-15 | 2014-02-19 | 深圳市中兴移动通信有限公司 | 一种移动终端及其语音信号处理方法 |
Non-Patent Citations (1)
Title |
---|
"语音共振峰轨迹跟踪的算法研究及其应用";王叶斌;《中国优秀硕士学位论文全文数据库 信息科技辑》;20081130;I136-94 * |
Also Published As
Publication number | Publication date |
---|---|
CN106409287A (zh) | 2017-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kingsbury et al. | Robust speech recognition using the modulation spectrogram | |
Lu et al. | The contribution of changes in F0 and spectral tilt to increased intelligibility of speech produced in noise | |
Yegnanarayana et al. | Epoch-based analysis of speech signals | |
Cooke et al. | The auditory organization of speech and other sources in listeners and computational models | |
Rao et al. | Duration modification using glottal closure instants and vowel onset points | |
CN108564956B (zh) | 一种声纹识别方法和装置、服务器、存储介质 | |
Illner et al. | Validation of freely-available pitch detection algorithms across various noise levels in assessing speech captured by smartphone in Parkinson’s disease | |
Milner et al. | Clean speech reconstruction from MFCC vectors and fundamental frequency using an integrated front-end | |
Hsu et al. | Voice activity detection based on frequency modulation of harmonics | |
Maganti et al. | Auditory processing-based features for improving speech recognition in adverse acoustic conditions | |
Hermansky | History of modulation spectrum in ASR | |
Haque et al. | Perceptual features for automatic speech recognition in noisy environments | |
Patil et al. | Marathi speech intelligibility enhancement using I-AMS based neuro-fuzzy classifier approach for hearing aid users | |
CN106409287B (zh) | 提高肌肉萎缩或神经退行性病人语音可懂度装置和方法 | |
Zouhir et al. | A bio-inspired feature extraction for robust speech recognition | |
Amano-Kusumoto et al. | Determining the relevance of different aspects of formant contours to intelligibility | |
Mesgarani et al. | Speech processing with a cortical representation of audio | |
Hsu et al. | Modulation Wiener filter for improving speech intelligibility | |
Tchorz et al. | Estimation of the signal-to-noise ratio with amplitude modulation spectrograms | |
Patil et al. | Classification of normal and pathological voices using TEO phase and Mel cepstral features | |
Boril et al. | Data-driven design of front-end filter bank for Lombard speech recognition | |
Sudhakar et al. | Automatic speech segmentation to improve speech synthesis performance | |
Karjigi et al. | Investigation of different time–frequency representations for detection of fricatives | |
Albahri | Automatic emotion recognition in noisy, coded and narrow-band speech | |
Mital | Speech enhancement for automatic analysis of child-centered audio recordings |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20191213 Termination date: 20201212 |