CN106409287B

CN106409287B - 提高肌肉萎缩或神经退行性病人语音可懂度装置和方法

Info

Publication number: CN106409287B
Application number: CN201611140893.5A
Authority: CN
Inventors: 雷志春
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2016-12-12
Filing date: 2016-12-12
Publication date: 2019-12-13
Anticipated expiration: 2036-12-12
Also published as: CN106409287A

Abstract

本发明涉及语音帮助、语音增强技术，为不易懂语言通过智能手机的麦克风输入，增强之后变得易懂的语音通过智能手机的扬声器输出，本发明，由手机及设置在手机上的语音增强模块构成，不易懂语言通过手机的麦克风输入，经增强模块增强之后变得易懂的语音通过智能手机的扬声器输出；其中，增强模块包括：傅里叶变换模块，变换后输出到自适应滤波器模块，自适应滤波器模块利用参考频谱进行训练，所述参考频谱为生病前语音频谱的模型，或者是对于每个年龄段、性别、地区从健康人的发音进行统计得到语音频谱模型，训练完毕后的自适应滤波器对输入的信号进行增强，最后经傅里叶逆变换输出增强后的语音。本发明主要应用于语音增强场合。

Description

提高肌肉萎缩或神经退行性病人语音可懂度装置和方法

技术领域

本发明涉及语音帮助；语音增强；语音处理等医疗康复器械。具体讲,涉及提高肌肉萎缩或神经退行性病人语音可懂度装置和方法。

背景技术

目前全世界的老龄化程度越来越严重，尤其在工业化国家老龄化更为严重，中国因为长时间的计划生育政策也走上老龄化道路。而老年人因为年龄的增加，导致发音部位的肌肉萎缩，发音不清楚，使人听不懂。

一些神经退行性疾病,例如帕金森氏症、老年痴呆症、多发性硬化症、肌萎缩性脊髓侧索硬化症(ALS)等也会导致发音不清楚。著名科学家霍金就是ALS患者。而这些疾病跟人口结构变化关系密切，因为导致这些疾病的一大原因是年龄增长。

目前肌肉萎缩或神经退行性语音病人去语音诊所进行语音治疗(speechtherapy)。语音治疗周期性长、费用高，并且持久性差。因为肌肉萎缩或神经退行性导致发音可懂度低的病人经过长期治疗后，虽然语音可懂度会有所提高，但是过些年后其可懂度又会变差。

到目前为止，申请人尚未发现通过信号处理改善肌肉萎缩或神经退行性病人发音可懂度的文献，但是查找到了用于其它目的改善语音可懂度的报道。

文献[1]通过检测和增强语音共振峰附近频率信号成分来改善低语可懂度。[2]处理语音基础频率和其谐波频率信号成分，从而来提高由于接受带宽受限传输通道语音信号声码器的可懂度。[3]通过根据噪声和语音信号功率关系控制语音信号增益，来提高系统可懂度。[4]通过增强语音共振峰附近频率信号成分等措施来加大辅音对比度，以便解决由于语音信号在传输或处理过程中带宽降低所造成的可懂度下降问题。[5]通过使用一个近似逆等响曲线的频率响应函数滤波，解决由于背景噪声造成的语音可懂度下降问题。[6]通过共振峰增强来提高由于背景噪声带来的对话可懂度降低问题。[7]通过动态频谱形状修改增强辅音来提高助听器、或传输之后语音信号的可懂度。[8]通过自适应音频系统改善通信设备音频信号的可懂度。[9]也是通过共振峰增强来提高由于背景噪声带来的对话可懂度降低问题。该专利申请基于线谱对系数鉴别语音区的存在。

[1]Ian Vince McLoughlin,Hamid Reza Sharifzadeh,Farzaneh Ahmadi,Methodand System for Reconstructing Speech from an Input Signal ComprisingWhispers,US patent application 2012/0150544

[2]Mark Lewis Grabb,Enhancement of Speech Signals Transmitted over aVocoder Channel,US patent 6,081,777

[3]Toru Marumoto,Nozomu Saito,Voice Intelligibility EnhancementSystem and Voice Intelligibility Enhancement Method,US patent 8,249,259

[4]Nico R.Chong-White,Richard Vandervoort Cox,Enhancing SpeechIntelligibility using Variable-Rate Time-scale Modification,US patent 7,065,485

[5]Arnold I.Klayman,Voice Intelligibility Enhancement System,USpatent 6,993,480

[6]Arnold I.Klayman,Public Address Intelligibility System,US patent5,459,813

[7]James M.Kates,Speech Intelligibility Enhancement,US patent 4,454,609

[8]杨均等，用于自适应话音可懂度处理的系统，中国专利申请CN 102498482

[9]吴润学，扑海光，使用共振峰增强对话的方法和装置，中国专利申请CN1619646。

发明内容

为克服现有技术的不足，本发明旨在提出一种语言增强算法，通过智能手机编写软件以一种App的形式实现该算法。不易懂语言通过智能手机的麦克风输入，增强之后变得易懂的语音通过智能手机的扬声器输出。除了智能手机的App形式外，还可开发改善语音可懂度的专用手提电子设备。为此，本发明采用的技术方案是，由手机及设置在手机上的语音增强模块构成，不易懂语言通过手机的麦克风输入，经增强模块增强之后变得易懂的语音通过智能手机的扬声器输出；其中，增强模块包括：傅里叶变换模块，用于对语音信号进行傅里叶变换，变换后输出到自适应滤波器模块，自适应滤波器模块利用参考频谱进行训练，所述参考频谱为生病前语音频谱的模型，或者是对于每个年龄段、性别、地区从健康人的发音进行统计得到语音频谱模型，训练完毕后的自适应滤波器对输入的信号进行增强，最后经傅里叶逆变换输出增强后的语音。

还包括共振峰检测模块：若存储了病人健康时候的语音，通过该语音由共振峰检测模块进行共振峰检测，通过倒频谱法或LPC方法得到共振峰频率，增强病人语音共振峰频率附近的信号成分，特别是前三个共振峰频率附近的信号成分。

更进一步地，共振峰检测模块中通过多种共振峰检测方法检测到多种共振峰的检测结果，这些不确定的结果，即弱特征，通过模糊逻辑的方法或自适应增强的方法综合从而形成一种强特征，若存关于病人健康语音共振峰的先验知识，也可用来提高共振峰的检测结果。

还包括下采样模块，先采用由低通滤波和样本的取舍两部分形成的下采样步骤，进行语音噪声区分，然后对原信号和下采样信号分别进行共振峰检测，并综合使用原信号和下采样信号检测共振峰的结果，以便可靠检测共振峰。

还包括辅音检测模块，利用元音以及语音区和非语音区的区分结果检测辅音的存在，一旦确定了辅音的存在，即对其增强。

在一个实例中，具体地：

通过每两个样本舍去一个的下采样模块区分语音区和非语音区；

通过检测共振峰模块，采用局部最大点、LPC或两个以上的共振峰检测方法，检测共振峰；

辅音检测模块，利用元音以及语音区和非语音区的区分结果检测辅音；

增强共振峰频率附近的语音信号成分，特别是增强前三个共振峰频率附近的语音信号成分；增强辅音；通过模糊逻辑融合增强结果。

本发明的特点及有益效果是：

语音交流无论对日常生活，还是对就医看病都是至关重要的，因此提高老年人语音可懂度具有重要意义。

通过智能手机语音App或改善语音可懂度专用手提电子设备的处理，肌肉萎缩或神经退行性病人发出难懂的语音变得易懂，可以提高病人的自理能力，也可提高其生活质量。

这种通过信号处理改善肌肉萎缩或神经退行性病人发音可懂度的方法可以代替耗时的语音治疗，大大降低医疗费用。

附图说明：

图1一种提高肌肉萎缩或神经退行性病人语音可懂度的实现举例。

图2下采样原理图。

图3下采样提高相邻留取样本数据(ο和ο)的差值。

图4采取下采样方法检测共振峰。

图5采取下采样方法检测语音与非语音区。

图6局部最大和最小点。

图7一种提高肌肉萎缩或神经退行性病人语音可懂度的实现举例。

图8示出提高肌肉萎缩或神经退行性病人语音可懂度装置和方法的流程图。

肌肉萎缩或神经退行性病人对着智能手机讲话，智能手机在对该语音进行分析和处理之后进行增强，增强后的语音通过扬声器给出。

通过智能手机语音App形式来改善肌肉萎缩或神经退行性病人发音可懂度，如图7所示。

具体实施方式

(1)存在病人语音记录的情况

如果肌肉萎缩或神经退行性病人存在患病前的语音记录，利用病人的语音记录可以较容易地提高肌肉萎缩或神经退行性病人语音可懂度。语音数据就像其他反映身体健康的数据(例如血压、血糖、脉搏等)一样被存储起来，在必要的时候该语音记录被当作参考信号，用来修正病人当前时刻的语音。此修正过程属于信号处理中的逆滤波技术。

原则上，修正病人当前时刻的语音即可以在时域、也可在变换域(例如频域)进行。在频域进行语音矫正比较简单，以下本发明讨论在频域进行语音矫正。

在频域进行语音矫正，先将语音信号进行快速傅里叶变换(FFT)，得到其频谱。从参考语音信号数据的频谱中可以得到代表健康语音的特征频谱。该特征频谱用来作为参考频谱来矫正病人当前语音的频谱。参考频谱可以是病人生病前语音频谱的模型。例如利用健康语音的傅里叶变换系数建立一个高斯混合模型(GMM:Gaussian Mixture Models)D(f)。由于语音信号为非稳定信号，需要使用短时间傅里叶变换(Short Time FourierTransform)；或者为了更好的性能，应用众所周知的小波变换(Wavelet Transform)。

自适应滤波器的目的或任务是：将一个信号或模型(一般不甚理想，有待改进)与一个理想的信号或模型(一般被称为参考信号或模型)进行比较，并自动调节自适应滤波器的系数，以便改进不甚理想的信号或模型，使之接近参考信号或模型。

高斯混合模型并不是唯一的方案，也可建立其它数学模型。

对矫正后病人当前语音的频谱进行傅里叶逆变换(IFFT)，即可得到矫正的语音，其可懂度会大大提高。图1示出自适应语音矫正方案。

自适应滤波器的训练一般无需经常进行。一次训练好的自适应滤波器系数可以一直使用，直到病人的语音有较大变化。为了达到增强信号的目的，可以人为修改D(f)，特别是提高其高频信号分量的幅度。

上述频谱矫正方法需要一个参考频谱D(f)，该参考频谱不一定存在。

除了进行频谱矫正外，还可以矫正或增强语音共振峰频率附近的信号成分。由存储的病人健康语音，例如通过倒频谱法、LPC法等可以较容易得到共振峰频率。由于LPC方法符合声道特性，并且计算不是非常复杂，从而被广泛应用。人语音前三个共振峰对语音可懂度至关重要，所以可以只增强病人语音前三个共振峰频率附近的信号成分，这里可以采用诸如放大器等能够增强语音信号成分的方法。

(2)不存在病人语音记录的情况

直到目前为止，语音记录尚不普及，所以必须面对没有病人语音参考信号的情况。

(2.1)统计模型的方法

不存在病人语音的记录，也可以得到参考频谱。对于每个年龄段、性别、地区都可以从健康人的发音进行统计，从而得到所需参考频谱统计模型频率。

利用频谱统计模型，通过逆滤波方法，例如图1所示方法，矫正病人当前语音。

通过与病人互动、或与长期照顾病人的护理或家庭人员进行互动，还可以继续优化统计模型，以便更好地矫正病人当前语音。

除了得到每个年龄段、性别、地区健康人的发音频谱统计模型外，也可以得到其共振峰的先验分布。

(2.2)元音共振峰检测的方法

由于共振峰与语音的可懂度直接相关，增强共振峰频率附近的语音信号成分，特别是增强前三个共振峰频率附近的语音信号成分，可以有效地提高肌肉萎缩或神经退行性病人语音的可懂度。

但是检测肌肉萎缩或神经退行性病人语音的共振峰远比检测一般语音共振峰困难，因为其元音共振峰与共振峰之间的分隔很不明显、元音和辅音之间的分隔也很不明显；另外，肌肉萎缩或神经退行性病人的语音信号弱，容易受噪声干扰。

检测肌肉萎缩或神经退行性病人语音共振峰采取的第一个措施是下采样(downsampling).下采样包含两部分：低通滤波和样本的取舍，如图2所示。

低通滤波可以降低干扰，而舍弃样本可以提高信号样本的梯度值。图3示出每两个样本数据留取一个的原理图。其中ο和·分别表示取和舍的样本。由该图可以看出，相邻留取样本数据(ο和ο)的差值大于原来相邻样本数据(ο和·)的差值。因此，下采样可以提高信号的陡度,有助于能量集中。

对原信号和下采样信号分别进行共振峰检测，从而提高共振峰检测的准确性和可靠性。

上述下采样处理不限于一次，可以多次；样本数据取舍的比例也不一定限于图3所示2:1情况。

下采样处理还可以有助于区分语音区和非语音区。由于下采样可以降低噪声干扰，下采样信号本身就有助于对语音区和非语音区的检测。对原信号和下采样信号分别进行语音区和非语音区检测，并比较分别它们检测的结果，可更有效地区分语音区和非语音区。很多文献都介绍了区分语音区和非语音区的方法，例如利用能量、过零检测等方法。

不仅利用下采样区分语音区和非语音区，检测共振峰也可以结合由下采样和原输入信号共振峰的检测结果。

检测共振峰可以利用语音区和非语音区的区分结果，也可以不利用语音区和非语音区的区分结果。

检测肌肉萎缩或神经退行性病人语音共振峰采取的第二个措施是采用多于一个检测共振峰的方法，例如采取两个共振峰检测方法，并将它们的检测结果结合起来。结合的方法是模糊逻辑。

共振峰检测方法很多，很多文献都有介绍，例如LPC、倒频谱方法(cepstrum)、bark-、mel-频谱方法等等。

可以采用多种共振峰检测方法进行检测，每一种共振峰检测可以检测到语音的一种弱特征，多种共振峰检测方法就能够检测到多种语音弱特征，这些弱特征可以通过模糊逻辑的方法综合从而形成一种强特征，但是最好使用自适应增强的方法进行综合。

语谱图是语音分析的常用手段，很多文献都有介绍。由于肌肉萎缩或神经退行性病人语音的共振峰不易检测，可以直接寻找语谱图的局部最大点。局部最大点被看作共振峰的候选位置，然后通过其它共振峰检测方法和先验知识对共振峰的候选位置进行筛选。

由于单个检测共振峰的方法不一定能做出准确判断，将几个检测共振峰方法的检测结果采用模糊逻辑、自适应增强等方法结合起来，就能提高共振峰检测结果的可靠性。

(2.3)辅音的检测

辅音没有元音那样的共振峰。但是利用元音以及语音区和非语音区的区分结果可以有效检测辅音的存在。一旦确定了辅音的存在，就可以对其增强，从而提高肌肉萎缩或神经退行性病人语音的可懂度。

(2.4)结合统计模型或参数与共振峰检测的方法

由每个年龄段、性别、地区得到的健康人发音共振峰的先验分布可以帮助共振峰的检测，使得共振峰检测结果更可靠。

本发明的一个实例步骤如下：

(3.1)通过智能手机语音App形式来改善肌肉萎缩或神经退行性病人发音可懂度。

(3.2)通过增强共振峰频率附近的语音信号成分，特别是增强前三个共振峰频率附近的语音信号成分，来提高肌肉萎缩或神经退行性病人语音的可懂度。

(3.3)通过每两个样本舍去一个的下采样技术区分语音区和非语音区，以及检测共振峰。

(3.4)采用两个以上的共振峰检测方法，寻找语谱图的局部最大点、LPC等共振峰检测方法是其中之一。

(3.5)利用元音以及语音区和非语音区的区分结果检测辅音。

Claims

1.一种提高肌肉萎缩或神经退行性病人语音可懂度系统，其特征是，由手机及设置在手机上的语音增强模块构成，不易懂语言通过手机的麦克风输入，经增强模块增强之后变得易懂的语音通过智能手机的扬声器输出；其中，增强模块包括：傅里叶变换模块，用于对语音信号进行傅里叶变换，变换后输出到自适应滤波器模块，自适应滤波器模块利用参考频谱进行训练，所述参考频谱为生病前语音频谱的模型，或者是对于每个年龄段、性别、地区从健康人的发音进行统计得到语音频谱模型，训练完毕后的自适应滤波器对输入的信号进行增强，最后经傅里叶逆变换输出增强后的语音。

2.如权利要求1所述的提高肌肉萎缩或神经退行性病人语音可懂度系统，其特征是，还包括共振峰检测模块：若存储了病人健康时候的语音，通过该语音由共振峰检测模块进行共振峰检测，通过倒频谱法或LPC方法得到共振峰频率，增强病人语音共振峰频率附近的信号成分，具体是前三个共振峰频率附近的信号成分。

3.如权利要求2所述的提高肌肉萎缩或神经退行性病人语音可懂度系统，其特征是，更进一步地，共振峰检测模块中通过多种共振峰检测方法检测到多种共振峰的检测结果，所述多种共振峰的检测结果为不确定的结果，即弱特征，通过模糊逻辑的方法或自适应增强的方法综合从而形成一种强特征；若存关于病人健康语音共振峰的先验知识，也可单独或辅助提高共振峰的检测结果。

4.如权利要求1所述的提高肌肉萎缩或神经退行性病人语音可懂度系统，其特征是，还包括下采样模块，先采用由低通滤波和样本的取舍两部分形成的下采样步骤，进行语音噪声区分，然后对原信号和下采样信号分别进行共振峰检测，并综合使用原信号和下采样信号检测共振峰的结果，以便可靠检测共振峰。

5.如权利要求1所述的提高肌肉萎缩或神经退行性病人语音可懂度系统，其特征是，还包括辅音检测模块，利用元音以及语音区和非语音区的区分结果检测辅音的存在，一旦确定了辅音的存在，即对其增强。

6.如权利要求1、2、4或5所述的提高肌肉萎缩或神经退行性病人语音可懂度系统，其特征是，具体地：

增强共振峰频率附近的语音信号成分，具体是增强前三个共振峰频率附近的语音信号成分；增强辅音；通过模糊逻辑融合增强多种共振峰的检测结果。