CN113223498A

CN113223498A - 基于喉部语音信息的吞咽障碍识别方法、设备及装置

Info

Publication number: CN113223498A
Application number: CN202110552174.9A
Authority: CN
Inventors: 李颖; 杨雪; 江杨洋; 李佳颖; 宋娇
Original assignee: West China Hospital of Sichuan University
Current assignee: West China Hospital of Sichuan University
Priority date: 2021-05-20
Filing date: 2021-05-20
Publication date: 2021-08-06

Abstract

本申请涉及一种基于喉部语音信息的吞咽障碍识别方法、设备及装置，包括：基于喉部振动器采集受试者的喉部语音信息；提取喉部语音信息中的音频特征；根据音频特征，基于预先训练的集成分类器，得到受试者的识别结果。由于本申请中基于喉部振动器采集受试者的喉部语音信息，不仅可以提高医务工作者的工作效率，扩大吞咽障碍的诊断范围，喉部振动器本身也不会对受试者造成不利的影响，且基于喉部振动器采集受试者的喉部语音信息成本低。且基于预先训练的集成分类器根据音频特征得到受试者的识别结果，相较于单分类器识别效率更高，准确度更高。

Description

基于喉部语音信息的吞咽障碍识别方法、设备及装置

技术领域

本申请涉及机器学习技术领域，尤其涉及一种基于喉部语音信息的吞咽障碍识别方法、设备及装置。

背景技术

吞咽障碍是指由于下颌、双唇、舌、软腭、咽喉、食管等器官结构和(或)功能受损，不能安全有效地把食物输送到胃内取得足够营养和水分的进食困难。目前临床主要通过吞咽造影检查(VFSS)的手段来检测吞咽障碍，它通过在X射线透视下观察病人吞咽不同粘稠度的由造影剂包裹的食团和不同容积的食团的情况，对整个吞咽的不同阶段的情况进行评估。这种操作具有放射性，存在误吸造影剂的风险，且不能定量测量误吸量，经济成本较高。

发明内容

为至少在一定程度上克服相关技术中通过在X射线透视下观察病人吞咽对病人不安全且经济成本较高的问题，本申请提供一种基于喉部语音信息的吞咽障碍识别方法、设备及装置。

本申请的方案如下：

根据本申请实施例的第一方面，提供一种基于喉部语音信息的吞咽障碍识别方法，包括：

基于喉部振动器采集受试者的喉部语音信息；

提取所述喉部语音信息中的音频特征；

根据所述音频特征，基于预先训练的集成分类器，得到所述受试者的识别结果；其中，所述集成分类器至少包括三个单分类器。

优选的，在本申请一种可实现的方式中，还包括：

采集样本数据；

对所述样本数据进行处理，并从处理后的样本数据中提取特征向量；

根据所述处理后的样本数据和所述特征向量，训练所述集成分类器中的各单分类器。

优选的，在本申请一种可实现的方式中，所述对所述样本数据进行处理具体包括：

对所述样本数据进行剪裁对准，包括：

以第一预设时间长度为基准，对所述样本数据开始和结束时的数据进行剪裁；

在所述样本数据剪裁剩余的数据中选取第二预设时间长度的持续不断地发音的数据作为标准数据。

优选的，在本申请一种可实现的方式中，所述从处理后的样本数据中提取特征向量，具体包括：

根据所述样本数据处理后得到的标准数据，基于音频分析技术，在所述标准数据中提取多个音频相关的特征向量；所述特征向量至少包括：频率微扰、振幅微扰、基频、周期和杂项；

对所述特征向量进行数据标准化处理；

对数据标准化后的特征向量进行特征降维。

优选的，在本申请一种可实现的方式中，所述对所述特征向量进行数据标准化处理，具体包括：

基于均值方差归一化方法，对提取出的所有特征向量进行统一的中心归一化处理，使处理后的所有特征向量均符合标准正太分布。

优选的，在本申请一种可实现的方式中，所述对数据标准化后的特征向量进行特征降维，具体包括：

基于主成分分析方法和标准PCA模型，在所有特征向量中筛选，和/或，从统计理论中计算得到部分重要度在预设值之上的特征，将筛选，和/或，计算得到的特征组合在一起作为用于训练所述分类器的特征向量。

优选的，在本申请一种可实现的方式中，所述采集样本数据具体包括：

基于所述喉部振动器采集多个受试者的喉部语音信息，检测所述喉部语音信息中患者的喉部语音信息数量和正常人的喉部语音信息数量；

若所述患者的喉部语音信息数量大于所述正常人的喉部语音信息数量，则随机丢弃部分所述患者的喉部语音信息，使所述患者的喉部语音信息数量等于所述正常人的喉部语音信息数量。

优选的，在本申请一种可实现的方式中，还包括：

将训练完成的各单分类器进行集成，综合各单分类器输出的识别结果，输出最终识别结果。

优选的，在本申请一种可实现的方式中，识别结果包括1和-1；其中，用1表示吞咽障碍患者，用-1表示不是吞咽障碍患者；

所述集成分类器中继承的单分类器个数为单数；

所述综合各单分类器输出的识别结果，输出最终识别结果，具体包括：

将各单分类器输出的识别结果进行求和，若求和结果大于0则输出最终识别结果为1，若求和结果小于0则输出最终识别结果为-1。

根据本申请实施例的第二方面，提供一种基于喉部语音信息的吞咽障碍识别设备，包括：

处理器和存储器；

所述处理器与存储器通过通信总线相连接：

其中，所述处理器，用于调用并执行所述存储器中存储的程序；

所述存储器，用于存储程序，所述程序至少用于执行以上任一项所述的一种基于喉部语音信息的吞咽障碍识别方法。

根据本申请实施例的第三方面，提供一种基于喉部语音信息的吞咽障碍识别装置，包括：

采集模块，用于基于喉部振动器采集受试者的喉部语音信息；

提取模块，用于提取所述喉部语音信息中的音频特征；

识别模块，用于根据所述音频特征，基于预先训练的集成分类器，得到所述受试者的识别结果。

本申请提供的技术方案可以包括以下有益效果：本申请中的基于喉部语音信息的吞咽障碍识别方法、设备及装置，包括：基于喉部振动器采集受试者的喉部语音信息；提取喉部语音信息中的音频特征；根据音频特征，基于预先训练的集成分类器，得到受试者的识别结果。由于本申请中基于喉部振动器采集受试者的喉部语音信息，不仅可以提高医务工作者的工作效率，扩大吞咽障碍的诊断范围，喉部振动器本身也不会对受试者造成不利的影响，且基于喉部振动器采集受试者的喉部语音信息成本低。且基于预先训练的集成分类器根据音频特征得到受试者的识别结果，相较于单分类器识别效率更高，准确度更高。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是本申请一个实施例提供的一种基于喉部语音信息的吞咽障碍识别方法的流程示意图；

图2是本申请一个实施例提供的一种基于喉部语音信息的吞咽障碍识别方法中训练分类器的流程示意图；

图3是本申请一个实施例提供的一种基于喉部语音信息的吞咽障碍识别方法中从处理后的样本数据中提取特征向量的流程示意图；

图4是本申请一个实施例提供的一种基于喉部语音信息的吞咽障碍识别设备的结构示意图；

图5是本申请一个实施例提供的一种基于喉部语音信息的吞咽障碍识别装置的结构示意图；

图6是本申请一个实施例提供的一种基于喉部语音信息的吞咽障碍识别方法中集成分类器的集成方法。

附图标记：处理器-31；存储器-32；采集模块-41；提取模块-42；识别模块-43。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

一种基于喉部语音信息的吞咽障碍识别方法，参照图1，包括：

S11：基于喉部振动器采集受试者的喉部语音信息；

S12：提取喉部语音信息中的音频特征；

S13：根据音频特征，基于预先训练的集成分类器，得到受试者的识别结果；其中，集成分类器至少包括三个单分类器。

吞咽障碍是指由于下颌、双唇、舌、软腭、咽喉、食管等器官结构和(或)功能受损，不能安全有效地把食物输送到胃内取得足够营养和水分的进食困难。

一般情况下，人在发音时喉部的振动信号产生的喉部语音信息中包括基频、振幅微扰、频率微扰、音高、周期和间隔等26个音频特征，有研究表明，咽障碍患者发音时的喉部振动数据在这些音频特征上的表现与正常人不同。基于上述研究，本实施例中提供一种基于喉部语音信息的吞咽障碍识别方法，本实施例中，基于喉部振动器采集受试者的喉部语音信息，提取喉部语音信息中的音频特征，根据音频特征，基于预先训练的分类器，得到受试者的识别结果。

本项技术需要的硬件工具是喉部振动器。基于喉部振动器采集受试者的喉部语音信息步骤具体实施时，将喉部振动器放置在受试者的喉部，并指导受试者按照要求发出三个元音字母a,o,e，并且发音时间尽可能地长，此时喉部振动器通过数据线将受试者的振动数据实时地传送与电脑上进行保存，得到采集后的数据，数据格式为音频格式并以(.wav)格式保存。

优选的，喉部振动器采用南京正泽科技股份有限公司的喉骨传导耳机PTE-796版本，其将一个振动传感器贴合在喉部上，来采集受试者发音时的喉部语音信息，并且通过数据线实时传送与电脑上以音频文件的格式进行保存。

本实施例中，优选的，可以采用语音分析软件Praat提取喉部语音信息中的音频特征。Praat是一个开源的语音分析软件，本实施例中基于Praat来提取受试者的喉部语音信息中的包括基频、振幅微扰、频率微扰、音高、周期和间隔等26个音频特征。

本申请中基于喉部振动器采集受试者的喉部语音信息，不仅可以提高医务工作者的工作效率，扩大吞咽障碍的诊断范围，喉部振动器本身也不会对受试者造成不利的影响，且基于喉部振动器采集受试者的喉部语音信息成本低。且基于预先训练的分类器根据音频特征得到受试者的识别结果，识别效率高，准确度高。检测速度快，整个检测过程都可由计算机程序完成，仅需要采集受试者十数秒中的语音信息即可，避免了现有技术中吞咽造影检查繁琐的诊断流程。

在本实施例的其他可选方案中，在采集受试者语音信息时，喉部振动器也可以替换为传统的录音设备(如录音笔)。采用喉部振动器主要是为了避免噪声，提取更为纯净的语音信号。

本实施例中基于喉部语音信息的吞咽障碍识别方法、设备及装置，包括：基于喉部振动器采集受试者的喉部语音信息；提取喉部语音信息中的音频特征；根据音频特征，基于预先训练的集成分类器，得到受试者的识别结果。由于本申请中基于喉部振动器采集受试者的喉部语音信息，不仅可以提高医务工作者的工作效率，扩大吞咽障碍的诊断范围，喉部振动器本身也不会对受试者造成不利的影响，且基于喉部振动器采集受试者的喉部语音信息成本低。且基于预先训练的集成分类器根据音频特征得到受试者的识别结果，相较于单分类器识别效率更高，准确度更高。

一些实施例中的基于喉部语音信息的吞咽障碍识别方法，参照图2，还包括：

S21：采集样本数据；

具体包括：

基于喉部振动器采集多个受试者的喉部语音信息，检测喉部语音信息中患者的喉部语音信息数量和正常人的喉部语音信息数量；

若患者的喉部语音信息数量大于正常人的喉部语音信息数量，则随机丢弃部分患者的喉部语音信息，使患者的喉部语音信息数量等于正常人的喉部语音信息数量。

因为吞咽障碍比较常见，实际采集到的数据中，患者的数目比正常人的数目要大得多，这种正负样本比例悬殊的情况会导致分类器的精度下降。所以本实施例中采用了一种降采样的方法，采集样本数据时，首先随机丢弃一些吞咽障碍患者的数据，使两者的比例尽量均衡。

S22：对样本数据进行处理，并从处理后的样本数据中提取特征向量；

对样本数据进行处理具体包括：对样本数据进行剪裁对准，包括：

以第一预设时间长度为基准，对样本数据开始和结束时的数据进行剪裁；

在样本数据剪裁剩余的数据中选取第二预设时间长度的持续不断地发音的数据作为标准数据。

采集数据时要求受试者发音时间尽可能地长，所以得到的音频数据时间长度区别很大，并且开始采集和结束采集时，不可避免地会采集到不相关的杂音。所以需要对样本数据进行一个预先处理，首先以第一预设时间长度为基准，将样本数据开始和结束时的一小段数据剪裁掉，再选取一个第二预设时间长度的持续不断地发音的时间段作为标准数据。

优选的，第二预设时间长度为3s，第一预设时间长度根据样本数据长度确定。

从处理后的样本数据中提取特征向量，参照图3，具体包括：

S221：根据样本数据处理后得到的标准数据，基于音频分析技术，在标准数据中提取多个音频相关的特征向量；

将处理后的样本数据送入到软件Praat中进行分析，提取其26个音频相关的特征。

主要包括：

频率微扰：Local；Local absolute；Rqp；Ppq5；Ddp；

振幅微扰：Local；Local，dB；Apq3；Apq5；Apq11；Dda；

基频：Mcdian；Mean；Standard deviation；Minimun；Maximum；

周期：Number of pnlses；Number of periods；Mean period；Standard Dec.Ofperio；

杂项：Auto-corrlation Median Local；Noise-to-Harmonic；Harmonic-to-Noise；Fraction of loally unvoiced frames；Number of voicc breaks；Degree ofvoice breaks；

S222：对特征向量进行数据标准化处理；

具体包括：基于均值方差归一化方法，对提取出的所有特征向量进行统一的中心归一化处理，使处理后的所有特征向量均符合标准正太分布。

因为提取到的26个音频特征代表的物理意义不同，其量纲单位也不同，需要进行统一的中心归一化处理。比如代表平均基频的特征Pitch(Mean)通常在200Hz左右，而代表频率微扰百分比的特征Jitter(local)通常在1.5％左右，Pitch(Mean)的数值比Jitter(local)大很多，这种情况下分类器倾向于从数值较大的特征中学习，然而实际情况下正常人与吞咽障碍患者在Jitter(local)特征上表现差别更大。这说明Jitter(local)这个特征更为重要。为了解决不同特征表现在数值上的差异问题，这一步采用均值方差归一化方法。对待测数据的每一个特征x，使用公式

进行转换。其中

代表着该特征在所有样本中的平均值；σ代表着该特征在所有样本中的方差，这两个参数均是由训练集上计算得来的。这样处理后的所有特征向量都将符合标准正太分布。

S223：对数据标准化后的特征向量进行特征降维。

具体包括：

基于主成分分析方法和标准PCA模型，在所有特征向量中提取统计学中最重要几个特征，将这些特征组合在一起作为用于训练所述分类器的特征向量。特征指的是反映一个信号幅度的数值，比如声音频率100Hz,噪声幅度30dB；而特征向量是指多个特征组合在一起的一个数组，比如一个2维的特征向量(100Hz，30dB)。降维后的数组里的值可能是从特征向量中筛选的，也可能是从统计理论中计算得到的，也可能是从特征向量中筛选了一部分，从统计理论中计算得到了一部分。

如上一步骤中提到的，26个特征中，有的特征向量重要度高，有的特征向量重要度低，所以为了提高最终分类器的精度，采用主成分分析(PCA)的方法，从26个特征中提取22个最相关的特征，具体做法是采用标准PCA模型，在训练集上学习到一个降维映射f，再将原始26维的特征向量输入到这个映射中，得到最终的22维特征向量。

S23：根据处理后的样本数据和特征向量，训练集成分类器中的各单分类器。

分类器训练完成后，将根据受试者的喉部语音信息提取的音频特征送入到训练好的单个分类器中，单个分类器输出识别结果(-1或1)，-1代表不是吞咽障碍患者，1代表是吞咽障碍患者。

分类器训练流程中，使用到的样本数据是前期采集到的多个受试者的数据，在执行检测流程时只针对以一个受试者的数据。

进一步的，将训练完成的各单分类器进行集成，综合各单分类器输出的识别结果，输出最终识别结果。

由于识别结果包括1和-1；其中，用1表示吞咽障碍患者，用-1表示不是吞咽障碍患者；

为了保证集成分类器最终输出的识别结果不为0，集成分类器中继承的单分类器个数为单数；

综合各单分类器输出的识别结果，输出最终识别结果，具体包括：

本实施例中使用的分类器为集成分类器。因为单个分类器的鲁棒性不强，优选的，本实施例中将支持向量机(SVM)、多层感知机(MLP)和Adaboost算法这三种单个的分类器进行集成得到最终的集成分类器，可以有效的提高检测准确率并且避免异常数据的干扰。

集成方法如图6所示，将SVM做为分类器1，MLP称为分类器2，Adaboost称为分类器3。三个单分类器得出-1或1的结果，求和之后如果大于0则输出为1，小于0则输出为-1。

集成分类器相较于单分类器的优势在于使得检测结果更加可靠。本实施例中采用三个单分类器集成为一个鲁棒性更高的分类器。如下表所示，检测三个样本时，每个分类器的检测准确率均为67％，即有一个样本判断错误。而每个样本只有一个分类器检测错误，但是另外两个分类器判断正确，此时集成分类器对该样本也会判断正确。最终集成分类器对这三个样本的检测准确率高达百分之百。在临床应用之中，这种集成分类器对病人是否患有吞咽障碍的判断将显得更加可靠。

本发明中采用的三个单分类器本身就具有良好的性质。支持向量机本身就是针对二分类(区分患病和健康)任务设计的，可以找到区分患病和健康的最佳分界线。多层感知机能够很好的拟合训练集的特性，判断患病和健康。Adaboost也是一种集成学习算法，所以其本身检测效果就不错，再集成另外两个单分类器的结果使得最终的集成分类器检测准确率更高。

一种基于喉部语音信息的吞咽障碍识别设备，参照图4，包括：

处理器31和存储器32；

处理器31与存储器32通过通信总线相连接：

其中，处理器31，用于调用并执行存储器32中存储的程序；

存储器32，用于存储程序，程序至少用于执行以上任一实施例中的一种基于喉部语音信息的吞咽障碍识别方法。

一种基于喉部语音信息的吞咽障碍识别装置，参照图5，包括：

采集模块41，用于基于喉部振动器采集受试者的喉部语音信息；

提取模块42，用于提取喉部语音信息中的音频特征；

识别模块43，用于根据音频特征，基于预先训练的分类器，得到受试者的识别结果。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于喉部语音信息的吞咽障碍识别方法，其特征在于，包括：

基于喉部振动器采集受试者的喉部语音信息；

提取所述喉部语音信息中的音频特征；

2.根据权利要求1所述的方法，其特征在于，还包括：

采集样本数据；

3.根据权利要求2所述的方法，其特征在于，所述对所述样本数据进行处理具体包括：

对所述样本数据进行剪裁对准，包括：

4.根据权利要求3所述的方法，其特征在于，所述从处理后的样本数据中提取特征向量，具体包括：

对所述特征向量进行数据标准化处理；

对数据标准化后的特征向量进行特征降维。

5.根据权利要求4所述的方法，其特征在于，所述对所述特征向量进行数据标准化处理，具体包括：

6.根据权利要求4所述的方法，其特征在于，所述对数据标准化后的特征向量进行特征降维，具体包括：

7.根据权利要求2所述的方法，其特征在于，所述采集样本数据具体包括：

8.根据权利要求2所述的方法，其特征在于，还包括：

9.根据权利要求8所述的方法，其特征在于，识别结果包括1和-1；其中，用1表示吞咽障碍患者，用-1表示不是吞咽障碍患者；

所述集成分类器中继承的单分类器个数为单数；

10.一种基于喉部语音信息的吞咽障碍识别设备，其特征在于，包括：

处理器和存储器；

所述处理器与存储器通过通信总线相连接：

所述存储器，用于存储程序，所述程序至少用于执行权利要求1-9任一项所述的一种基于喉部语音信息的吞咽障碍识别方法。