CN113571088B

CN113571088B - 一种基于深度学习声纹识别的困难气道评估方法及装置

Info

Publication number: CN113571088B
Application number: CN202110848800.9A
Authority: CN
Inventors: 夏明�; 姜虹; 钱彦旻; 周韧; 曹爽; 周之恺; 徐天意; 王杰; 金晨昱; 裴蓓
Original assignee: Shanghai Jiaotong University; Ninth Peoples Hospital Shanghai Jiaotong University School of Medicine
Current assignee: Shanghai Jiaotong University; Ninth Peoples Hospital Shanghai Jiaotong University School of Medicine
Priority date: 2021-07-27
Filing date: 2021-07-27
Publication date: 2023-10-03
Anticipated expiration: 2041-07-27
Also published as: CN113571088A

Abstract

本发明涉及一种基于深度学习声纹识别的困难气道评估方法及装置，方法包括以下步骤：获取患者的语音数据；对所述语音数据进行特征提取，得到声学特征、声纹特征和语音识别特征；构建基于语音技术的困难气道分类器，通过训练好的困难气道分类器对提取的所述声学特征、声纹特征和语音识别特征进行分析并对困难气道严重程度进行评分，得到困难气道的评估结果。本发明能够精准的对临床麻醉中困难气道做出预警。

Description

一种基于深度学习声纹识别的困难气道评估方法及装置

技术领域

本发明涉及计算机辅助技术领域，特别是涉及一种基于深度学习声纹识别的困难气道评估方法及装置。

背景技术

气管插管是麻醉医生对全身麻醉状态下的患者进行气道管理的重要手段，在保持气道通畅、通气供氧、呼吸支持、维持氧合等方面起到了重要的作用。然而，尽管气管插管技术和设备有了很大的进步和改进，但是困难气道导致的围手术期并发症和伤残的发生率并没有得到很好的改善，特别是对于未预知的困难气道。目前，评估困难气道的方法一般包括Mallampatti分级、LEMON评分、Wilson评分及辅助CT、MRI、US等，过程复杂且阳性评估值不高，均存在一定局限性。

发明内容

本发明所要解决的技术问题是提供一种基于深度学习声纹识别的困难气道评估方法及装置，能够精准的对临床麻醉中困难气道做出预警。

本发明解决其技术问题所采用的技术方案是：提供一种基于深度学习声纹识别的困难气道评估方法，包括以下步骤：

(1)获取患者的语音数据；

(2)对所述语音数据进行特征提取，得到声学特征、声纹特征和语音识别特征；

(3)构建基于语音技术的困难气道分类器，通过训练好的困难气道分类器对提取的所述声学特征、声纹特征和语音识别特征进行分析并对困难气道严重程度进行评分，得到困难气道的评估结果。

所述步骤(1)中获取的语音数据为能够反映气道解剖结构及功能的语音数据。

所述步骤(1)中的语音数据包括/a/，/e/，/i/，/o/，/u/，/ü/六个元音。

所述步骤(2)中提取声学特征时，采用短时傅里叶变换以及线性变换组合的方式对所述语音数据提取梅尔倒谱系数、感知线性预测系数、梅尔滤波器组特征以及线性预测系数；提取声纹特征时，对所述语音数据使用说话人识别模型提取声纹表示向量；提取语音识别特征时，从所述语音数据中获得音素的概率后验。

所述步骤(3)中在进行困难气道分类器的训练时，基于科马克-汉勒评分的标签，使用所述声学特征、声纹特征和语音识别特征以及患者的年龄、性别、身高、体重作为输入信息，训练一个支持向量分类器进行分类，并根据十倍交叉验证结果来选择最佳的超参数，通过候选内核是sigmoid函数、有理基函数、线性和多项式进行超参数的调整。

本发明解决其技术问题所采用的技术方案是：还提供一种基于深度学习声纹识别的困难气道评估装置，包括：获取模块，用于获取患者的语音数据；特征提取模块，用于对所述语音数据进行特征提取，得到声学特征、声纹特征和语音识别特征；评估模块，用于构建基于语音技术的困难气道分类器，通过训练好的困难气道分类器对提取的所述声学特征、声纹特征和语音识别特征进行分析并对困难气道严重程度进行评分，得到困难气道的评估结果。

所述获取模块获取的语音数据为能够反映气道解剖结构及功能的语音数据。

所述获取模块获取的语音数据包括/a/，/e/，/i/，/o/，/u/，/ü/六个元音。

所述特征提取模块包括：声学特征提取单元，用于采用短时傅里叶变换以及线性变换组合的方式对所述语音数据提取梅尔倒谱系数、感知线性预测系数、梅尔滤波器组特征以及线性预测系数；声纹特征提取单元，用于对所述语音数据使用说话人识别模型提取声纹表示向量；语音识别特征提取单元，用于从所述语音数据中获得音素的概率后验。

所述评估模块在进行困难气道分类器的训练时，基于科马克-汉勒评分的标签，使用所述声学特征、声纹特征和语音识别特征以及患者的年龄、性别、身高、体重作为输入信息，训练一个支持向量分类器进行分类，并根据十倍交叉验证结果来选择最佳的超参数，通过候选内核是sigmoid函数、有理基函数、线性和多项式进行超参数的调整。

有益效果

由于采用了上述的技术方案，本发明与现有技术相比，具有以下的优点和积极效果：本发明利用基于语音技术提取语音特征信息，避免人工测量，具有自动化的优点；利用神经网络、支持向量机等机器学习算法构建的分类器进行困难气道严重程度评分，避免过拟合的现象，从而能够精准的对临床麻醉中困难气道做出预警。

附图说明

图1是本发明实施方式的流程图；

图2是本发明实施方式的结构示意图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

本发明的实施方式涉及一种基于深度学习声纹识别的困难气道评估方法，如图1所示，包括以下步骤：获取患者的语音数据；对所述语音数据进行特征提取，得到声学特征、声纹特征和语音识别特征；构建基于语音技术的困难气道分类器，通过训练好的困难气道分类器对提取的所述声学特征、声纹特征和语音识别特征进行分析并对困难气道严重程度进行评分，得到困难气道的评估结果。

其中，获取语音数据具体为：将患者安排在一个固定的安静诊室中，平静坐位下，使用索尼ICD-PX470录音笔LinearPCM格式进行语音数据采集。采集的语音数据为能够反映气道解剖结构及功能的语音数据，包括/a/，/e/，/i/，/o/，/u/，/ü/六个元音。所得的音频文件以WAV格式输出，所得的音频文件数据存储在保密性数据库中。采集内容为六个元音和10句话，元音全部读第一声，读音适当拖长，每个元音间停顿一秒以上。句间间隔两秒以上；句内间隔小于一秒。

语音数据整理：数据命名：同一个受试者录音文件存放在同一文件夹中并以筛选号命名文件夹，患者的其它信息如年龄、性别、身高、体重、困难气道评估量表以及CL分级等信息存放在数据库中，序号与录音文件夹的名称对应。

数据清洗：剔除信息不全的样本(录音信息缺失、插管信息等)，将整理成语音识别任务的数据集。

语音特征提取：本实施方式中语音特征提取可分为以下三个方面：(1)传统声学特征：使用短时傅里叶变换以及线性变换等的组合，对音频尝试性提取梅尔倒谱系数(MFCC)、感知线性预测系数(PLP)、梅尔滤波器组特征(Filterbank)以及线性预测系数(LPC)等作为后续模型的输入特征。以上特征大多基于人声特性设计，并在语音识别、声纹识别等任务中广为使用。(2)声纹特征：使用基于大规模语音数据训练的说话人识别模型提取声纹表示向量或进行联合训练，可以有效地减少说话内容的影响而更重视说话人的发声情况。将声纹表示向量作为后续模型的特征。(3)语音识别特征：在现有大规模语音数据训练的语音识别模型的基础上，可以从语音中获得音素的概率后验(PhoneticPosteriorgrams,PPG)，可将PPG作为后续模型的特征。

在进行语音特征提取前，需要对每隔语音数据进行分类，将整段音频使用VAD算法进行切分，得到小段音频后，从中提取出/a/，/e/，/i/，/o/，/u/，/ü/六个元音，将每个元音的前三个共振峰提取出来。提取六个元音可以采用机器学习方法实现，通过对六个元音进行对应的标签化处理，使用数据集对模型进行训练，对于数据集中的多条语音数据采用8:2的比例划分出训练集和验证集，使用机器学习算法进行训练，训练好的模型即可提取出语音数据中的六个元音。

本实施方式中提取梅尔倒谱系数(MFCC)时，基于6个元音进行特征提取，送入网络进行训练，本实施方式采用的神经网络为一个简单的多层CNN加两层全连接层，其中每两层卷积层为一个块，一层负责提取特征一层负责下采样，多层CNN最终将音频特征转成(-1,64,1,8)的特征图，将特征展开通过两层全连接层进行分类，从而实现对梅尔倒谱系数的提取。

训练集和测试集数据拆分与验证公正性：训练时预先以80％:10％:10％按说话人划分训练、验证以及测试集。其中训练集将被用来作为神经网络、支持向量机等机器学习算法参数的更新，算法在验证集的表现被用来作为调整神经网络学习率、支持向量机的核函数选择等的参考。而测试集用来评估最终模型的表现。测试时将会基于模型预测概率与实际标签绘制ROC曲线、计算AUC以及计算给定阈值下的准确率(accuracy)、特异度(specificity)和灵敏度(sensitivity)。

在进行困难气道分类器的训练时，基于科马克-汉勒(Cormack-Lehane,CL)评分的标签(Ⅰ-Ⅱ级为非困难气道，Ⅲ-Ⅳ级为困难气道)，使用语音特征以及患者的年龄、性别、身高、体重等作为输入信息，训练一个支持向量分类器(supportvectorclassifier,SVC)来对语音特征进行分类。根据十倍交叉验证结果来选择选择最佳的超参数。对于超参数的调整，候选内核是sigmoid函数、有理基函数(rationalbasisfunction,RBF)、线性和多项式。在{1,10,100,1000}中对正则化参数(C)进行网格搜索，在{1e-2,1e-3,1e-4g}中对核系数(gamma)进行检索。

本发明的实施方式还涉及一种基于深度学习声纹识别的困难气道评估装置，如图2所示，包括：获取模块，用于获取患者的语音数据；特征提取模块，用于对所述语音数据进行特征提取，得到声学特征、声纹特征和语音识别特征；评估模块，用于构建基于语音技术的困难气道分类器，通过训练好的困难气道分类器对提取的所述声学特征、声纹特征和语音识别特征进行分析并对困难气道严重程度进行评分，得到困难气道的评估结果。

不难发现，本发明利用基于语音技术提取语音特征信息，避免人工测量，具有自动化的优点；利用神经网络、支持向量机等机器学习算法构建的分类器进行困难气道严重程度评分，避免过拟合的现象，从而能够精准的对临床麻醉中困难气道做出预警。

Claims

1.一种基于深度学习声纹识别的困难气道评估方法，其特征在于，包括以下步骤：

(1)获取患者的语音数据；

(3)构建基于语音技术的困难气道分类器，通过训练好的困难气道分类器对提取的所述声学特征、声纹特征和语音识别特征进行分析并对困难气道严重程度进行评分，得到困难气道的评估结果；所述步骤(3)中在进行困难气道分类器的训练时，基于科马克-汉勒评分的标签，使用所述声学特征、声纹特征和语音识别特征以及患者的年龄、性别、身高、体重作为输入信息，训练一个支持向量分类器进行分类，并根据十倍交叉验证结果来选择最佳的超参数，通过候选内核是sigmoid函数、有理基函数、线性和多项式进行超参数的调整。

2.根据权利要求1所述的基于深度学习声纹识别的困难气道评估方法，其特征在于，所述步骤(1)中获取的语音数据为能够反映气道解剖结构及功能的语音数据。

3.根据权利要求1所述的基于深度学习声纹识别的困难气道评估方法，其特征在于，所述步骤(1)中的语音数据包括/a/，/e/，/i/，/o/，/u/，/ü/六个元音。

4.根据权利要求1所述的基于深度学习声纹识别的困难气道评估方法，其特征在于，所述步骤(2)中提取声学特征时，采用短时傅里叶变换以及线性变换组合的方式对所述语音数据提取梅尔倒谱系数、感知线性预测系数、梅尔滤波器组特征以及线性预测系数；提取声纹特征时，对所述语音数据使用说话人识别模型提取声纹表示向量；提取语音识别特征时，从所述语音数据中获得音素的概率后验。

5.一种基于深度学习声纹识别的困难气道评估装置，其特征在于，包括：获取模块，用于获取患者的语音数据；特征提取模块，用于对所述语音数据进行特征提取，得到声学特征、声纹特征和语音识别特征；评估模块，用于构建基于语音技术的困难气道分类器，通过训练好的困难气道分类器对提取的所述声学特征、声纹特征和语音识别特征进行分析并对困难气道严重程度进行评分，得到困难气道的评估结果；所述评估模块在进行困难气道分类器的训练时，基于科马克-汉勒评分的标签，使用所述声学特征、声纹特征和语音识别特征以及患者的年龄、性别、身高、体重作为输入信息，训练一个支持向量分类器进行分类，并根据十倍交叉验证结果来选择最佳的超参数，通过候选内核是sigmoid函数、有理基函数、线性和多项式进行超参数的调整。

6.根据权利要求5所述的基于深度学习声纹识别的困难气道评估装置，其特征在于，所述获取模块获取的语音数据为能够反映气道解剖结构及功能的语音数据。

7.根据权利要求5所述的基于深度学习声纹识别的困难气道评估装置，其特征在于，所述获取模块获取的语音数据包括/a/，/e/，/i/，/o/，/u/，/ü/六个元音。

8.根据权利要求5所述的基于深度学习声纹识别的困难气道评估装置，其特征在于，所述特征提取模块包括：声学特征提取单元，用于采用短时傅里叶变换以及线性变换组合的方式对所述语音数据提取梅尔倒谱系数、感知线性预测系数、梅尔滤波器组特征以及线性预测系数；声纹特征提取单元，用于对所述语音数据使用说话人识别模型提取声纹表示向量；语音识别特征提取单元，用于从所述语音数据中获得音素的概率后验。