CN115497502A

CN115497502A - 基于人体表征判别新冠感染的方法、系统

Info

Publication number: CN115497502A
Application number: CN202211382639.1A
Authority: CN
Inventors: 赵冰清; 胡勇超; 龙利民; 李强
Original assignee: Tuling Artificial Intelligence Institute Nanjing Co ltd
Current assignee: Tuling Artificial Intelligence Institute Nanjing Co ltd
Priority date: 2022-11-07
Filing date: 2022-11-07
Publication date: 2022-12-20

Abstract

本发明提供基于人体表征判别新冠感染的方法，包括根据获取的目标人员音频集，生成目标人员音频模态特征向量；对待识别的特征向量进行梅尔倒谱变换；基于采样比例对咳嗽音频频谱特征向量进行分割获得表征咳嗽音频的分割特征向量后将其映射为嵌入向量；输出判别目标人员新冠感染的概率结果。本发明在实际的防疫场景中提出了在多头注意力机制中双向计算的方式，使得本发明在新冠感染判别的过程中保留了音频特征的位置信息，使得模型能够在不同的角度上学习咳嗽音频的内在联系。

Description

基于人体表征判别新冠感染的方法、系统

技术领域

本发明涉及表征医学分析技术领域，具体为基于人体表征判别新冠感染的方法、系统。

背景技术

现阶段，神经网络模型中含有大量的参数，这些参数与每次的输入数据进行运算，最终得到结果值，然后将结果与正确答案进行对比，从而计算梯度反向传播更新内部参数，这些计算是通过矩阵运算实现，因而使用专门处理矩阵运算的显卡可以实现人工智能模型在大规模数据上学习，其训练出的模型参数即代表了模型在大规模数据上自动捕捉到的知识，包括人类难以察觉的微小联系。

基于此，神经网络模型已在医疗诊断、医学信息处理领域得到研究，各类模型和数据集被提出，且在医学相关任务上卓有成效。同时，在语音领域已有神经网络模型的广泛应用，比如：通过频谱分析识别说话人声纹，说话语音内容，录音声音来源，通过噪音监测工业设备的磨损程度等。由于基于Transformer的神经网络模型在人工智能领域的各项任务上创造出最好的效果，也逐渐被用到医学相关任务上，如防控检测任务中。

众所周知，业界内的防控检测任务最主要包括：

1）采用试剂进行核酸检测，例如咽拭子等手段采样，即，专业技术人员通过实验室设备将标本处理，按批次获得检测结果。并利用新冠确诊结果对接触人员和区域做医学估计。

但是，在上述的检测方案中，其得到检测结果的主要方案是通过实验室设备做试剂核酸检测，并在医疗统计的基础上对新冠接触者的感染情况进行估计而得出隔离时间和医疗资源调度等。这样的方案一方面缺乏可变性，造成过度隔离，同时对于新冠康复情况的参考性较差，造成医疗资源不合理调度；另一方面依赖于实验室结果，使之成本高，耗时长。采用试剂进行核酸检测，在规模较大的情境下存在高成本。

2）在公共场所中，广泛使用的是通过体温筛查新冠感染。由于新冠感染的症状之一是发热，因此利用耳温枪、额温枪、红外热成像测温仪等在公共场所监控人员的体温，对于异常体温做筛选，找出发热人员，对之进一步隔离检测。

但是，在上述的检测方案中，由于是利用体温检测，一方面系统误差大，主要来源于测量方案的测温效果不稳定。一般性能的设备以及干扰较大的测量因素会造成大的测温误差；另一方面，以温度测量造成的误检与漏检都较高。因为新冠患者的临床症状存在差异，包括无症状感染者在内，使得仅通过发热症状判断的检出率低。体外热源或环境因素导致测量出现较高温度的情况使得方案存在误检。

发明内容

针对现有技术存在的不足，本发明目的是提供基于人体表征判别新冠感染的方法、系统，以解决上述背景技术中提出的问题，本发明基于Transformer模型的特性，构建基于分块嵌入的Transformer的AI模型，从而在实际的防疫场景中对受试者的音频特征建模，并利用基于矩阵运算的注意力机制，在多头注意力机制中双向计算得到每个音频特征间的关系后，训练与推理得到受试者为新冠感染者的概率的方式，解决了现有技术中的问题。

为了实现上述目的，本发明是通过如下的技术方案来实现：基于人体表征判别新冠感染的方法，包括以下步骤：

第一步，根据获取的目标人员音频集，生成用于表征待识别的目标人员音频模态特征向量；

第二步，对待识别的所述特征向量进行梅尔倒谱变换，并对变换后得到的梅尔倒谱图进行特征提取，生成出现在目标人员音频模态特征向量中的咳嗽音频频谱特征向量；

第三步，基于采样比例对所述咳嗽音频频谱特征向量进行分割获得表征咳嗽音频的分割特征向量后将其映射为嵌入向量，并将所述嵌入向量以及预先学习得到的分类嵌入向量进行拼接融合预处理，得到新的嵌入向量，以减少目标人员音频模态特征向量在生成有效分割特征向量的训练过程中的采样被动损失；

第四步，将新的嵌入向量输入至Transformer结构模块后，通过修改了注意力机制的Transformer结构模块建立的深度学习模型，预测目标人员的咳嗽音频频谱特征进行分类，输出判别目标人员新冠感染的概率结果；

第五步，整理所述概率结果并上传防疫系统，结束。

作为本发明的第二方面，提出了一种基于人体表征判别新冠感染的系统，包括数据采集模块，用于对医疗系统内目标人员的音频数据进行预处理采集，以组织形成训练集和测试集；梅尔倒谱系数获取模块，根据所述音频数据得到每条音频数据中表征目标人员咳嗽的采样数据的梅尔倒谱，并对所述梅尔倒谱图进行特征提取，生成咳嗽音频频谱特征向量；数据分段模块，基于采样比例对咳嗽音频频谱特征向量进行分段，得到L个片段的分割特征向量；AI模型训练模块，基于注意力机制，构建深度学习模型，以将分割特征向量作为深度学习模型的输入并进行训练，输出判别目标人员新冠感染的概率结果；AI模型训练优化模块，基于交叉熵损失函数对判别目标人员新冠感染的概率结果、与人工标注结果进行交叉熵计算，得到概率结果与人工标注结果分布间的差异性信息，以训练所述深度学习模型。

在本发明第二方面的一种可能实现方式中，所述AI模型训练模块是基于修改了注意力机制的Transformer结构模块进行构建，其中，

AI模型训练模块包括依次设置的卷积层、注意力机制模块、分类器、全连接层与激活函数层；

所述注意力机制模块设有多个，且每个所述注意力机制模块均包括卷积层、激活层和Sigmoid函数层；且注意力机制模块的注意力输出值是基于神经网络的权重矩阵得到。

与现有技术相比，本发明的有益效果：

1、基于Transformer模型的特性，构建基于分块嵌入的Transformer的AI模型，从而在实际的防疫场景中对受试者的音频特征建模中，提出了在多头注意力机制中双向计算的方式，使得本发明在新冠感染判别的过程中保留了音频特征的位置信息且取消了时序性，使得模型能够在不同的角度上学习咳嗽音频的内在联系；

2、本发明在将经融合预处理后的新的嵌入向量输入至Transformer结构模块后，采用端到端的方式进行训练与推理深度学习模型，相较于现有技术中手动设计特征关系和数据的分析，更便于模型的计算与更新；

3、本发明提出通过修改了注意力机制的Transformer结构模块建立的深度学习模型，预测目标人员的咳嗽音频频谱特征进行分类，输出判别目标人员新冠感染的概率结果的方式，使得建立的深度学习模型更具鲁棒性，从而降低、避免初始获取的目标人员音频集中的噪音干扰，使得判别结果更为准确。

附图说明

参照附图来说明本发明的公开内容。应当了解，附图仅仅用于说明目的，而并非意在对本发明的保护范围构成限制，在附图中，相同的附图标记用于指代相同的部件。其中：

图1为本发明一实施例中所提出的基于AI模型结构获取受试者新冠感染概率的时序流程框图；

图2为本发明一实施例中所提出的AI模型结构在实际防疫系统中的训练和预测流程示意图；

图3为本发明一实施例中所提出的通过修改注意力机制的Transformer结构模块建立的深度学习模型时的训练流程示意图；

图4为本发明一实施例中所提出的基于训练好的深度学习模型对受试者进行新冠概率判别的流程示意图。

具体实施方式

容易理解，根据本发明的技术方案，在不变更本发明实质精神下，本领域的一般技术人员可以提出可相互替换的多种结构方式以及实现方式。因此，以下具体实施方式以及附图仅是对本发明的技术方案的示例性说明，而不应当视为本发明的全部或者视为对本发明技术方案的限定或限制。

作为对本发明技术构思以及实现原理的理解：本发明是利用基于神经网络架构的深度学习技术解决分类回归问题：即，在大量数据的学习中，通过梯度下降法和反向传播等手段，能够捕捉输入数据中的联系。在模型未曾见过的数据被输入时，模型通过它已见过的数据中学到的知识，输出其判别概率。同时，将通过音频特征提取获得的特征作为神经网络模型的训练数据，同时利用提前人为的标注的分类答案用于训练神经网络、实现反向传播和梯度下降，即是近两年语音信号领域的主流研究，同时也是人工智能领域的研究。通过这样的范式，研究领域内的各个任务的解决上实现了远优于传统方案的效果。例如分析说话者的声纹，或判断音频的类别和内容。

在表征医学分析方面，不同的呼吸道疾病会在一定程度上体现出不同的症状特征，为此，可以通过深度学习模型在咳嗽声数据上进行训练，从而使之捕捉到关键的微小细节和联系，从而进一步拥有一定程度的仅通过咳嗽录音判断受试者是否患有新冠的能力，但是，利用AI（深度学习模型）分割的方案对医学影像数据存在高要求，而医学影像往往难以大量获取，且需专业医学技术人员给予分割标注，使得训练成本高，且医学影像的成本及仪器要求高于核酸检测，这就造成了此方案不适合规模化推广。

基于此，为解决现有的技术方案中分割标注、训练成本高，造成应用场景局限化的问题。

如图1所示，作为本发明的一个实施例，本发明提供技术方案：基于人体表征判别新冠感染的方法，包括：

第一步：

根据获取的目标人员音频集（人分为训练集和测试集），生成用于表征待识别的目标人员音频模态特征向量。

基于上述第一步的技术构思，需要说明的是，目标人员音频来源可以是通过学术研究相关的公开数据集和医疗系统所提供的以往带标签的咳嗽数据，在获取到（受试者）目标人员的音频集后，由人为组织分为训练集和测试集。

在生成用于表征待识别的目标人员音频模态特征向量后，由于(目标人员音频集携带的)声音信号本是一维的时域信号，直观上很难看出频率变化规律，如果通过傅里叶变换把它变到频域上，虽然可以看出信号的频率分布，但是丢失了时域信息，无法看出频率分布随时间的变化。为此，就需要对短时的声音信号做傅里叶变化，得到的二维信号（声谱图），但是又由于得到的声谱图往往是很大的一张图，而为了得到合适大小的声音特征，往往把它通过梅尔标度滤波器组（mel-scale filter banks），变换为梅尔频谱，为此，本发明提出了第二步技术思路：即，

对待识别的特征向量进行梅尔倒谱变换，并对变换后得到的梅尔倒谱图进行特征提取，生成出现在目标人员音频模态特征向量中的咳嗽音频频谱特征向量。

需要说明的是，在本发明的一实施例中，基于梅尔倒谱提取得到咳嗽音频频谱特征向量的具体提取过程为：

首先，先对目标人员音频集进行预加重、分帧和加窗，并对每一个短时分析窗，通过FFT得到对应的频谱；其次，将上述频谱通过Mel滤波器组得到Mel频谱后，在Mel频谱上面进行倒谱分析（只对得到的Mel频谱对其取对数功率，不进行逆变换）因此，就可以得到Mel频谱后对其取对数功率，得到Fbank，可以理解的是，此Fbank即为Transformer结构模块中建立的深度学习模型的分割特征向量。

基于上述技术构思，此时提取到的咳嗽音频频谱特征向量为Mel倒谱向量，通过这些Mel倒谱向量（咳嗽音频频谱特征向量）可以对语音分类器进行训练和识别。

但是，考虑到目标人员音频模态特征向量在后续的训练过程中（即，生成有效分割特征向量的训练过程中）的采样被动损失，因此，为减少此损失，本发明提出了第三步技术思路：即，

第三步，基于采样比例对咳嗽音频频谱特征向量进行分割获得表征咳嗽音频的分割特征向量后将其映射为嵌入向量，并将嵌入向量以及预先学习得到的分类嵌入向量进行拼接融合预处理，得到新的嵌入向量，需要说明的是，由于transformer结构模块的输入必须是一串分割的特征向量，为此，就需要对咳嗽音频频谱特征向量进行分割，得到分割特征向量，以便作为Transformer的输入参与运算，从而减少在生成有效分割特征向量的训练过程中的采样被动损失。

需要说明的是，在本发明的一实施例中，基于采样比例分割获得表征咳嗽音频的分割特征向量后将其映射为嵌入向量的具体过程为：按照FFT的短时分析窗将咳嗽音频频谱特征向量分割成段，其中，对于咳嗽音频频谱特征向量中的一段语音，先以10ms～30ms为一个窗口得到窗口内的频谱，再根据采样率及固定窗口时间得到窗口内的采样帧数。而接下来生成新的嵌入向量的拼接融合方式为：首先，保证预先学习得到的分类嵌入向量长度与频谱特征嵌入向量最后一维的长度一致；其次，将拼接后得到的分类嵌入向量与频谱特征嵌入向量相比：保持最后一维长度不变，倒数第二维的长度加1，以便作为Transformer结构模块的输入，参与运算。

如图3-4所示，本发明还包括：第四步：

将经融合预处理后的新的嵌入向量输入至Transformer结构模块后，通过修改了注意力机制的Transformer结构模块建立的深度学习模型，预测目标人员的咳嗽音频频谱特征进行分类，输出判别目标人员新冠感染的概率结果。

基于上述第四步的技术构思，需要说明的是，Transformer模型是基于多头自注意力机制，其原理为通过把输入转化为嵌入向量，然后利用基于矩阵运算的注意力机制，得到每个向量与其他向量的关系，以此获得输出值。

故而，在本发明的一实施例中，可以将基于Transformer的模型用于音频所提取的特征向量上，通过整个模型输出其为新冠感染者的概率，其实施思路为：基于Transformer的模型通过将输入的向量转化为嵌入向量后，将嵌入向量通过注意力机制建模的深度学习模型，（其序列是取消了时序的，转而使用位置编码的机制），输出的分类向量接上全连接层与激活函数，从而输出判别的概率结果。为此，本发明提出的构建的深度学习模型包括依次设置的卷积层、注意力机制模块、分类器、全连接层与激活函数层；其中，注意力机制模块设有多个，且每个注意力机制模块均包括卷积层、激活层和Sigmoid函数层，同时，注意力机制模块的注意力输出值是基于神经网络的权重矩阵得到，其具体计算过程为：首先，将新的嵌入向量映射为q、k、v三个向量：

（1）

（2）

V（3）

式中，

、

以及

分别表示为3个不同的权值矩阵；

其次，对于每个新的嵌入向量，用之对应的q所有向量对应的k分别做矩阵乘法运算；

再次，通过Softmax函数得到新的嵌入向量的一系列权重；

最后，将权重乘以所有的向量v，得到注意力输出值：

（4）。

基于上述技术构思，可以理解的是，根据Transformer模型的特性，在构建基于分块嵌入的Transformer的AI模型，从而在实际的防疫场景中对受试者的音频特征建模中，本发明提出的在多头注意力机制中双向计算的方式，使得本发明判别的过程中保留了音频特征的位置信息且取消了时序性，使得模型能够在不同的角度上学习咳嗽音频的内在联系，同时在将经融合预处理后的新的嵌入向量输入至Transformer结构模块后，采用端到端的方式进行训练与推理深度学习模型，相较于现有技术中手动设计特征关系和数据的分析，更便于模型的计算与更新。

如图2所示，本发明还包括：第五步：整理概率结果并上传防疫系统，结束。

但是，考虑到在实际的防疫场景中，初始获取的目标人员音频集中存在大量的噪音干扰，判别的结果准确性低下，为此，本发明提出：

在第一至第四步中，在输出得到一个批次的上传至防疫系统的判别目标人员新冠感染的概率结果后，还需要对深度学习模型进行离线学习，以对其优化，其中，具体离线优化过程为：

基于交叉熵损失函数对上传至防疫系统的当前批次的判别目标人员新冠感染的概率结果、与人工标注结果进行交叉熵计算，得到概率结果与人工标注结果分布间的差异性信息，并将上传至此防疫系统的当前批次的人工标注结果加入原有的训练集进行模型训练，继续训练深度学习模型，当模型离线学习做优化更新，重新部署于线上时，对于每次测试，若可提供实际核酸检测结果，则将该数据反馈给模型继续做在线学习、优化更新，确保模型更具鲁棒性。

作为本发明的第二方面，提出执行基于人体表征判别新冠感染的方法的处理系统，包括数据采集模块，用于对医疗系统内目标人员的音频数据进行预处理采集，以组织形成训练集和测试集；梅尔倒谱系数获取模块，根据音频数据得到每条音频数据中表征目标人员咳嗽的采样数据的梅尔倒谱，并对梅尔倒谱图进行特征提取，生成咳嗽音频频谱特征向量；数据分段模块，基于采样比例对咳嗽音频频谱特征向量进行分段，得到L个片段的分割特征向量；AI模型训练模块，基于注意力机制构建深度学习模型，以将分割特征向量作为深度学习模型的输入并进行训练，输出判别目标人员新冠感染的概率结果；AI模型训练优化模块，基于交叉熵损失函数对判别目标人员新冠感染的概率结果、与人工标注结果进行交叉熵计算，得到概率结果与人工标注结果分布间的差异性信息，以训练深度学习模型。

在本发明第二方面的实施例中，AI模型训练模块是基于修改了注意力机制的Transformer结构模块进行构建，其中，AI模型训练模块包括依次设置的卷积层、注意力机制模块、分类器、全连接层与激活函数层；注意力机制模块设有多个，且每个注意力机制模块均包括卷积层、激活层和Sigmoid函数层；且注意力机制模块的注意力输出值是基于神经网络的权重矩阵得到。

本发明的技术范围不仅仅局限于上述说明中的内容，本领域技术人员可以在不脱离本发明技术思想的前提下，对上述实施例进行多种变形和修改，而这些变形和修改均应当属于本发明的保护范围内。

Claims

1.基于人体表征判别新冠感染的方法，其特征在于：包括以下步骤：

第三步，基于采样比例对所述咳嗽音频频谱特征向量进行分割获得表征咳嗽音频的分割特征向量后将其映射为嵌入向量，并将所述嵌入向量以及预先学习得到的分类嵌入向量进行拼接融合预处理，得到新的嵌入向量，以便作为Transformer结构模块的输入参与运算；

第四步，将新的嵌入向量输入至Transformer结构模块后，通过修改了注意力机制的Transformer结构模块，建立的深度学习模型，预测目标人员的咳嗽音频频谱特征后，进行分类，输出判别目标人员新冠感染的概率结果；

第五步，整理所述概率结果并上传防疫系统，结束。

2.根据权利要求1所述的基于人体表征判别新冠感染的方法，其特征在于：基于建立的深度学习模型，在输出得到一个批次的上传至防疫系统的判别目标人员新冠感染的概率结果后，还需要

对所述深度学习模型进行离线学习，以对其优化，其中，具体离线优化过程为：

基于交叉熵损失函数对上传至防疫系统的当前批次的判别目标人员新冠感染的概率结果、与人工标注结果进行交叉熵计算，得到所述概率结果与所述人工标注结果分布间的差异性信息，并将上传至此防疫系统的当前批次的人工标注结果加入原有的训练集进行模型训练，继续训练深度学习模型。

3.根据权利要求1所述的基于人体表征判别新冠感染的方法，其特征在于：第二步中，在获取到待识别的目标人员音频模态特征向量后，

基于梅尔倒谱提取得到咳嗽音频频谱特征向量的具体过程为：

先对目标人员音频模态特征向量进行预加重、分帧和加窗；

对每一个短时分析窗，通过FFT得到对应的频谱；将上述频谱通过Mel滤波器组得到Mel频谱；

在Mel频谱上面进行倒谱分析：只对得到的所述Mel频谱对其取对数功率，不进行逆变换，得到Fbank，其中，Fbank表示为输入深度学习模型的分割特征向量。

4.根据权利要求1所述的基于人体表征判别新冠感染的方法，其特征在于：第三步中，基于采样比例分割获得表征咳嗽音频的分割特征向量后将其映射为嵌入向量的具体过程为：按照FFT的短时分析窗将所述咳嗽音频频谱特征向量分割成段，其中，对于咳嗽音频频谱特征向量中的一段语音，先以10ms～30ms为一个窗口得到窗口内的频谱，再根据采样率及固定窗口时间得到窗口内的采样帧数，且

生成新的嵌入向量的拼接融合方式为：

首先，保证预先学习得到的分类嵌入向量长度与频谱特征嵌入向量最后一维的长度一致；

其次，将拼接后得到的分类嵌入向量与频谱特征嵌入向量相比：保持最后一维长度不变，倒数第二维的长度加1，以便作为Transformer结构模块的输入，参与运算。

5.根据权利要求1所述的基于人体表征判别新冠感染的方法，其特征在于：第四步中，构建的深度学习模型包括依次设置的卷积层、注意力机制模块、分类器、全连接层与激活函数层；

所述注意力机制模块设有多个，且每个所述注意力机制模块均包括卷积层、激活层和Sigmoid函数层，其中，注意力机制模块的注意力输出值是基于神经网络的权重矩阵得到，其具体计算过程为：

首先，将新的嵌入向量映射为q、k、v三个向量：