CN114446326A

CN114446326A - 基于时频分辨率的吞咽障碍患者识别方法及设备

Info

Publication number: CN114446326A
Application number: CN202210097719.6A
Authority: CN
Inventors: 李颖; 彭旭超; 何飞; 杨雪
Original assignee: West China Hospital of Sichuan University
Current assignee: West China Hospital of Sichuan University
Priority date: 2022-01-27
Filing date: 2022-01-27
Publication date: 2022-05-06
Anticipated expiration: 2042-01-27
Also published as: CN114446326B

Abstract

本申请涉及一种基于时频分辨率的吞咽障碍患者识别方法及设备，方法包括：获取训练数据，训练数据包括正常人语音数据和吞咽障碍患者语音数据。基于时域对训练数据进行预处理，基于频域在预处理后的训练数据中提取多组特征。根据多组特征组成的特征集训练识别模型，基于识别模型对待识别语音数据进行识别。由于本申请中用于输入分类器训练的特征至少包括：在频域能量上的分布差异特征和语音韵律差异特征。这些特征参数从不同的角度反映了语音信号的能量分布特点及韵律特点，可以更好的表征吞咽障碍患者与正常人在语音表达上的差异。

Description

基于时频分辨率的吞咽障碍患者识别方法及设备

技术领域

本申请涉及吞咽障碍分类技术领域，尤其涉及一种基于时频分辨率的吞咽障碍患者识别方法及设备。

背景技术

吞咽障碍患者在说话时由于吞咽功能的不完善，可能会导致他们的语音信号与正常人的语音信号存在分布差异，例如语音信号能量集中频段的改变、噪声成分的增加、说话韵律节奏的改变等。现有技术中已经证实了吞咽障碍患者语音信号在基频分布及谐波噪声比分布上具有显著性差异。语谱图做为语音信号各帧频谱的组合，包含了非常多语音信号的特征，例如基频、语音信号在各个频段的能量分布特征、共振峰等，能够反映语音信号是静音段还是有声段、反映语音信号发音位置的变化等。现有技术中进行吞咽障碍分类时一般使用的现有经典语音特征去进行分类测试，例如MFCC参数、HNR等，将一系列经典语音特征做为分类器输入进行分类实验，并未探索表征吞咽障碍患者语音变化的关键性特征。

发明内容

为至少在一定程度上克服相关技术中使用的现有经典语音特征去进行分类测试，未探索表征吞咽障碍患者语音变化的关键性特征的问题，本申请提供一种基于时频分辨率的吞咽障碍患者识别方法。

本申请的方案如下：

根据本申请实施例的第一方面，提供一种基于时频分辨率的吞咽障碍患者识别方法，包括：

获取训练数据，所述训练数据包括正常人语音数据和吞咽障碍患者语音数据；

基于时域对所述训练数据进行预处理；

基于频域在预处理后的训练数据中提取多组特征；所述特征至少包括：在频域能量上的分布差异特征和语音韵律差异特征；

根据多组所述特征组成的特征集训练识别模型；

基于所述识别模型对待识别语音数据进行识别。

优选的，在本申请一种可实现的方式中，所述基于时域对所述训练数据进行预处理，包括：

基于时域对所述训练数据进行高位削波。

优选的，在本申请一种可实现的方式中，所述基于时域对所述训练数据进行高位削波，包括：

对所述训练数据的每一数据点取绝对值；

计算取绝对值后训练数据全部数据点的均值；

基于预设高位削波系数和所述全部数据点的均值，得到高位削波自适应阈值；

遍历所述训练数据中的每一数据点，在所述数据点的绝对值不高于所述高位削波自适应阈值时保留所述数据点；在所述数据点的绝对值高于所述高位削波自适应阈值时，将所述数据点的数据值以0代替；

输出高位削波后的训练数据。

优选的，在本申请一种可实现的方式中，所述基于频域在预处理后的训练数据中提取多组特征，包括：

对预处理后的训练数据进行幅值归一化；

对幅值归一化后的训练数据的每一数据点进行2048点傅里叶变换，取前1024个点为能量系数；

取每一数据点傅里叶变换系数的前200个点进行显著性差异测试，基于预设的置信度，得到所述正常人语音数据和所述吞咽障碍患者语音数据的能量分布存在显著性差异差异的频段，作为第一分类特征。

优选的，在本申请一种可实现的方式中，所述基于频域在预处理后的训练数据中提取多组特征，还包括：

基于所述能量系数，分别计算所述正常人语音数据和所述吞咽障碍患者语音数据的归一化谱系数包络面积；所述归一化谱系数包络面积的纵坐标为能量系数，横坐标为各能量系数对应的频率成分；

将各组能量系数和频率成分的对应关系，作为第二分类特征。

基于预设的算法计算所述正常人语音数据和所述吞咽障碍患者语音数据在频谱中不同频段的分布差异，作为第三分类特征。

对所述正常人语音数据和所述吞咽障碍患者语音数据进行短分帧；

将所述正常人语音数据和所述吞咽障碍患者语音数据的对应帧信号进行结组；

对各组帧信号提取特征进行显著性差异测试，基于预设的置信度，确定所述正常人语音数据和所述吞咽障碍患者语音数据存在显著性差异的帧信号序列，将帧序列对应的语音特征作为第四分类特征。

优选的，在本申请一种可实现的方式中，所述预设的算法包括：

确定用于评估各个频率分量振幅变化的指标A_total；

其中，fs表示采样频率；s表示当前语音数据通过傅里叶变换得到的频谱系数；f表示对应的频率索引；d表示频率区域的对称中心且d取整数；

引入权重因子W，且所述权重因子W为对应频率坐标刻度以2为底的对数值；

计算所述第三分类特征ILOG-SSDL：

优选的，在本申请一种可实现的方式中，所述训练数据包括一组正常人语音数据和两组吞咽障碍患者语音数据；其中，第一组所述吞咽障碍患者语音数据用于提取多组特征，第二组所述吞咽障碍患者语音数据用于对所述识别模型进行验证。

根据本申请实施例的第二方面，提供一种基于时频分辨率的吞咽障碍患者识别设备，包括：

处理器和存储器；

所述处理器与存储器通过通信总线相连接：

其中，所述处理器，用于调用并执行所述存储器中存储的程序；

所述存储器，用于存储程序，所述程序至少用于执行如以上任一项所述的一种基于时频分辨率的吞咽障碍患者识别方法。

本申请提供的技术方案可以包括以下有益效果：本申请中的基于时频分辨率的吞咽障碍患者识别方法，包括：获取训练数据，训练数据包括正常人语音数据和吞咽障碍患者语音数据。基于时域对训练数据进行预处理，基于频域在预处理后的训练数据中提取多组特征。根据多组特征组成的特征集训练识别模型，基于识别模型对待识别语音数据进行识别。由于本申请中用于输入分类器训练的特征至少包括：在频域能量上的分布差异特征和语音韵律差异特征。这些特征参数从不同的角度反映了语音信号的能量分布特点及韵律特点，可以更好的表征吞咽障碍患者与正常人在语音表达上的差异。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是本申请一个实施例提供的一种基于时频分辨率的吞咽障碍患者识别方法的流程示意图；

图2是本申请一个实施例提供的一种基于时频分辨率的吞咽障碍患者识别方法中第三分类特征参数计算示意图；

图3是本申请一个实施例提供的一种基于时频分辨率的吞咽障碍患者识别设备的结构示意图。

附图标记：处理器-21；存储器-22。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

一种基于时频分辨率的吞咽障碍患者识别方法，参照图1，包括：

S11：获取训练数据，训练数据包括正常人语音数据和吞咽障碍患者语音数据；

优选的，本实施例中，训练数据包括一组正常人语音数据和两组吞咽障碍患者语音数据；其中，第一组吞咽障碍患者语音数据用于提取多组特征，第二组吞咽障碍患者语音数据用于对识别模型进行验证。

优选的，本实施例中纳入数据为正常人语音数据一组40例，吞咽障碍患者语音数据两组92例，每组分别为46例。

S12：基于时域对训练数据进行预处理；

语音数据一般会存在不同长度的静音段，在进行特征提取前需要去除语音数据录制时产生的前后静音段及语音数据中两个句子间较长的静音段。去除静音段以后对语音数据进行滤波。信号滤波采用巴特沃斯高通滤波器滤除频率成分低于500Hz的成分，滤波器阶数为10。

具体的，基于时域对训练数据进行预处理，包括：

基于时域对训练数据进行高位削波，包括：

对训练数据的每一数据点取绝对值；

计算取绝对值后训练数据全部数据点的均值；

基于预设高位削波系数和全部数据点的均值，得到高位削波自适应阈值；

遍历训练数据中的每一数据点，在数据点的绝对值不高于高位削波自适应阈值时保留数据点；在数据点的绝对值高于高位削波自适应阈值时，将数据点的数据值以0代替；

输出高位削波后的训练数据。

本实施例中提出了基于时域对训练数据进行高位削波的概念，即自适应去除训练数据中幅度值非常显著的点，让特征提取过程集中到训练数据分布更为细微的差异当中。针对训练数据中的每一数据点(即每一语音信号)，自适应高位削波的计算步骤如下：

1)将训练数据的每一数据点取绝对值；

2)计算取绝对值后训练数据全部数据点的均值m；

3)基于预设高位削波系数r(如预设为0.6)和全部数据点的均值m，得到高位削波自适应阈值T1＝r*m。

4)遍历训练数据中的每一数据点，在数据点的绝对值不高于高位削波自适应阈值时保留数据点；在数据点的绝对值高于高位削波自适应阈值时，将数据点的数据值以0代替。

最终输出的训练数据为进行高位削波的训练数据。

S13：基于频域在预处理后的训练数据中提取多组特征；特征至少包括：在频域能量上的分布差异特征和语音韵律差异特征；

本实施例中的特征主要包含四类语音特征，分别为表征关键频段能量分布特点的快速傅里叶变换系数(FFT-8000)，归一化谱面积(Normalized Spectrum area,NS-area)、改进的对数对称谱差异系数(Improved Log Symmetric Spectral Difference Level,ILOG-SSDL)及动态韵律差异性特征集(Dynamic Rhythm Differences,DRDs)，这些特征参数从不同的角度反映了语音信号的能量分布特点及韵律特点。

具体的，基于频域在预处理后的训练数据中提取多组特征，包括：

1)对预处理后的训练数据进行幅值归一化；

取每一数据点傅里叶变换系数的前200个点进行显著性差异测试，基于预设的置信度，得到正常人语音数据和吞咽障碍患者语音数据的能量分布存在显著性差异差异的频段，作为第一分类特征。

FFT-8000致力于探究吞咽障碍患者及正常人语音信号在声音各个主要频段是否存在能量的分布差异。针对处理后的训练数据中的每一句子，为了避免音量造成的影响，首先进行幅值归一化，然后对每一数据点进行2048点傅里叶变换，由于频谱的对称性，取前1024个点为所求的能量系数，每个点代表的频带宽度约为43Hz。由于人类声音的频率较低，前8000Hz的语音信号已经包含了绝大部分有用信息，因此本实施例中取每一语音信号傅里叶变换系数的前200(200*43＝8600Hz)个点进行显著性差异测试,探索组间具有显著性差异的频率成分，本实施例中总共有200组频率成分需要进行组间检验。

显著性差异检验方式为T检验，置信度为99.5％。经过显著性检验，得出第100组到第160组具有组间差异的频率组合最多，即吞咽障碍患者语音数据与正常人语音数据在4000Hz到6400Hz的频段存在显著的能量分布差异，将该具有显著性差异的频率特征组合做为第一分类特征。

显著性检验是事先对总体(随机变量)的参数或总体分布形式做出一个假设，然后利用样本信息来判断这个假设(备择假设)是否合理，即判断总体的真实情况与原假设是否有显著性差异。或者说，显著性检验要判断样本与对总体所做的假设之间的差异是纯属机会变异，还是由所做的假设与总体真实情况之间不一致所引起的。显著性检验是针对对总体所做的假设做检验，其原理就是“小概率事件实际不可能性原理”来接受或否定假设。

基于频域在预处理后的训练数据中提取多组特征，还包括：

2)基于能量系数，分别计算正常人语音数据和吞咽障碍患者语音数据的归一化谱系数包络面积；归一化谱系数包络面积的纵坐标为能量系数，横坐标为各能量系数对应的频率成分；

NS-area可以反应语音信号整体的能量分布，本实施例中基于上一步骤中得到的1024个能量系数，计算归一化谱系数包络面积。具体的，采用梯形数值积分计算方法计算谱系数曲线下的面积。在梯形数值积分计算中，横坐标为各个能量系数对应的频率成分，纵坐标为相应的能量系数。积分后，针对每一组能量系数，得到第二分类特征NS-area。

基于频域在预处理后的训练数据中提取多组特征，还包括：

3)基于预设的算法计算正常人语音数据和吞咽障碍患者语音数据在频谱中不同频段的分布差异，作为第三分类特征。

预设的算法包括：

基于公式(1)确定用于评估各个频率分量振幅变化的指标A_total；

引入权重因子W，且权重因子W为对应频率坐标刻度以2为底的对数值；

基于公式(2)计算第三分类特征ILOG-SSDL：

吞咽障碍患者语音数据的频谱相关特征可能不同于正常人语音数据的频谱相关特征。这些差异包括频率成分和其对应的幅值在语音频谱中分布。考虑到频率成分的变化，本实施例中提出了一种算法来强调吞咽障碍患者语音和正常语音频谱中的这些差异。一般来说，语音频谱的差异反映在各个频率分量的分布上，频率分量的分布可以通过其位置和相应的振幅来确定。考虑到能量幅值，提出了一种确定用于评估各个频率分量振幅变化的指标A_total。

在本次实验中设d为2，即参与计算的范围为整个频谱(fs/2)*2＝fs；如果d设置为4，(fs/4)*2＝fs/2则参与计算的频率范围为前1/2频率成分范围，以此类推。如图2为d等于2时的示例，此时对称轴为fs/2，距离对称轴相等距离的信号值为一对对称序列。

通过公式(1)，得到各频率成分幅值对称谱差异的值。由于频谱的变化不仅涉及振幅，还涉及到幅值分布的位置，因此在A_total的计算过程中引入了权重因子。在本实施例中，对SSDL中的权重因子进行了改进，引入的权重因子为对应频率坐标刻度以2为底的对数值，且因为对称轴为fs/2，为了强调低频成分与高频成分的分布差异，调整了坐标权重矩阵。在更高频率区域发生的差异可以通过更高的权重进行加权。如公式(2)所示。

通过公式(2)，计算得到最终的第三分类特征ILOG-SSDL。该特征结合了语音频率成分在幅值分布及对应位置分布的差异，通过改进的权重因子强调了正常人语音数据和吞咽障碍患者语音数据在频谱中不同频段的分布差异。

基于频域在预处理后的训练数据中提取多组特征，还包括：

4)对正常人语音数据和吞咽障碍患者语音数据进行短分帧；

将正常人语音数据和吞咽障碍患者语音数据的对应帧信号进行结组；

对各组帧信号提取特征进行显著性差异测试，基于预设的置信度，确定正常人语音数据和吞咽障碍患者语音数据存在显著性差异的帧信号序列，将帧序列对应的语音特征作为第四分类特征。

上述三个特征主要探索了吞咽障碍患者语音数据与正常人语音数据在细节的能量频段、整体的能量分布上的差异。DRDs不同于前面的特征，其通过短分帧(每一帧语音长度约在5-15ms的范围内)技术，提高了时间分辨率，基于短分帧计算语谱图，在语谱图上可以清晰的辨识出有声段与无声段的位置，从而使得通过语谱图反映语音的韵律变化特点成为了可能。

基于短分帧技术，每一语音数据帧长为本身信号长度的1/1000，帧移为语音数据本身长度的1/4000，计算语音数据前1300帧中每一帧信号的频谱均值。

本实施例中为了探究语音数据产生韵律差异的地方，将正常人语音数据和吞咽障碍患者语音数据的对应语音数据帧信号进行结组，分别利用T检验对1300组语音信号的频谱均值进行组间差异检验，设定置信度为95％，定位集合中存在显著性差异的帧序列。从而找出吞咽障碍患者和正常人在表述同一内容语句时的特征差异。本实施例中，采集吞咽障碍患者和正常人在表述“吃葡萄不吐葡萄皮，不吃葡萄倒吐葡萄皮”这一语句的语音数据，结果发现吞咽障碍患者语正常人在读“吃葡萄不吐葡萄皮，不吃葡萄倒吐葡萄皮”，在初始发音位置及句末存在较多具有显著性差异的特征组，将这些存在显著性差异的帧信号序列对应的特征组，作为第四分类特征。

S14：根据多组特征组成的特征集训练识别模型；

基于前面提取的四类特征组成特征集，该模型可以先但不限于为SVM(supportvector machine,支持向量机)分类器，SVM算法中的最优分类面是基于线性可分的情况提出的。最优分类面要求分类面不但能将两类样本点尽可能无错误地分开，而且能使两类的分类空隙最大，在二分类信号处理中具有突出的优势，是典型的适用于两类识别的分类器。本实施例中使用SVM分类器的高斯核。在第二组吞咽障碍患者语音数据上验证的分类正确率为81.4％，敏感性为85％，特异性为80％。验证结果证明本实施例提出的方法能够有效的通过语音数据实现吞咽障碍患者及正常人的正确分类，相比现有技术在分类准确性、特征针对性等方面都获得了更好的分类性能。

S15：基于识别模型对待识别语音数据进行识别。

本实施例中的基于时频分辨率的吞咽障碍患者识别方法，包括：获取训练数据，训练数据包括正常人语音数据和吞咽障碍患者语音数据。基于时域对训练数据进行预处理，基于频域在预处理后的训练数据中提取多组特征。根据多组特征组成的特征集训练识别模型，基于识别模型对待识别语音数据进行识别。由于本实施例中用于输入分类器训练的特征至少包括：在频域能量上的分布差异特征和语音韵律差异特征。这些特征参数从不同的角度反映了语音信号的能量分布特点及韵律特点，可以更好的表征吞咽障碍患者与正常人在语音表达上的差异。

一种基于时频分辨率的吞咽障碍患者识别设备，参照图3，包括：

处理器21和存储器22；

处理器21与存储器22通过通信总线相连接：

其中，处理器21，用于调用并执行存储器22中存储的程序；

存储器22，用于存储程序，程序至少用于执行以上实施例中的基于时频分辨率的吞咽障碍患者识别方法。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于时频分辨率的吞咽障碍患者识别方法，其特征在于，包括：

基于时域对所述训练数据进行预处理；

根据多组所述特征组成的特征集训练识别模型；

基于所述识别模型对待识别语音数据进行识别。

2.根据权利要求1所述的方法，其特征在于，所述基于时域对所述训练数据进行预处理，包括：

基于时域对所述训练数据进行高位削波。

3.根据权利要求2所述的方法，其特征在于，所述基于时域对所述训练数据进行高位削波，包括：

对所述训练数据的每一数据点取绝对值；

计算取绝对值后训练数据全部数据点的均值；

输出高位削波后的训练数据。

4.根据权利要求1所述的方法，其特征在于，所述基于频域在预处理后的训练数据中提取多组特征，包括：

对预处理后的训练数据进行幅值归一化；

5.根据权利要求4所述的方法，其特征在于，所述基于频域在预处理后的训练数据中提取多组特征，还包括：

6.根据权利要求1所述的方法，其特征在于，所述基于频域在预处理后的训练数据中提取多组特征，还包括：

7.根据权利要求1所述的方法，其特征在于，所述基于频域在预处理后的训练数据中提取多组特征，还包括：

对各组帧信号提取特征进行显著性差异测试，基于预设的置信度，确定所述正常人语音数据和所述吞咽障碍患者语音数据存在显著性差异的帧信号序列，将帧序列对应的特征组作为第四分类特征。

8.根据权利要求6所述的方法，其特征在于，所述预设的算法包括：

确定用于评估各个频率分量振幅变化的指标A_total；

计算所述第三分类特征ILOG-SSDL：

9.根据权利要求1所述的方法，其特征在于，所述训练数据包括一组正常人语音数据和两组吞咽障碍患者语音数据；其中，第一组所述吞咽障碍患者语音数据用于提取多组特征，第二组所述吞咽障碍患者语音数据用于对所述识别模型进行验证。

10.一种基于时频分辨率的吞咽障碍患者识别设备，其特征在于，包括：

处理器和存储器；

所述处理器与存储器通过通信总线相连接：

所述存储器，用于存储程序，所述程序至少用于执行权利要求1-9任一项所述的一种基于时频分辨率的吞咽障碍患者识别方法。