CN115497502A - 基于人体表征判别新冠感染的方法、系统 - Google Patents
基于人体表征判别新冠感染的方法、系统 Download PDFInfo
- Publication number
- CN115497502A CN115497502A CN202211382639.1A CN202211382639A CN115497502A CN 115497502 A CN115497502 A CN 115497502A CN 202211382639 A CN202211382639 A CN 202211382639A CN 115497502 A CN115497502 A CN 115497502A
- Authority
- CN
- China
- Prior art keywords
- vector
- target person
- module
- audio
- attention mechanism
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 208000015181 infectious disease Diseases 0.000 title claims abstract description 38
- 241000282414 Homo sapiens Species 0.000 title claims abstract description 18
- 239000013598 vector Substances 0.000 claims abstract description 112
- 238000001228 spectrum Methods 0.000 claims abstract description 43
- 230000007246 mechanism Effects 0.000 claims abstract description 42
- 206010011224 Cough Diseases 0.000 claims abstract description 40
- 230000011218 segmentation Effects 0.000 claims abstract description 19
- 230000008569 process Effects 0.000 claims abstract description 18
- 238000005070 sampling Methods 0.000 claims abstract description 17
- 230000002265 prevention Effects 0.000 claims abstract description 15
- 238000004364 calculation method Methods 0.000 claims abstract description 13
- 230000009466 transformation Effects 0.000 claims abstract description 9
- 238000013507 mapping Methods 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 claims description 34
- 238000013136 deep learning model Methods 0.000 claims description 32
- 230000006870 function Effects 0.000 claims description 18
- 238000012512 characterization method Methods 0.000 claims description 12
- 238000002372 labelling Methods 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 5
- 150000001875 compounds Chemical class 0.000 claims description 2
- 238000009432 framing Methods 0.000 claims description 2
- 230000002457 bidirectional effect Effects 0.000 abstract description 3
- 238000001514 detection method Methods 0.000 description 15
- 238000003062 neural network model Methods 0.000 description 6
- 150000007523 nucleic acids Chemical class 0.000 description 5
- 102000039446 nucleic acids Human genes 0.000 description 5
- 108020004707 nucleic acids Proteins 0.000 description 5
- 206010037660 Pyrexia Diseases 0.000 description 4
- 230000036760 body temperature Effects 0.000 description 4
- 230000004927 fusion Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 208000024891 symptom Diseases 0.000 description 4
- 238000009529 body temperature measurement Methods 0.000 description 3
- 239000003153 chemical reaction reagent Substances 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002955 isolation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 208000031504 Asymptomatic Infections Diseases 0.000 description 1
- 229910000831 Steel Inorganic materials 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000005299 abrasion Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 208000029078 coronary artery disease Diseases 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 210000001061 forehead Anatomy 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000003449 preventive effect Effects 0.000 description 1
- 230000001681 protective effect Effects 0.000 description 1
- 208000023504 respiratory system disease Diseases 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 239000010959 steel Substances 0.000 description 1
- 238000001931 thermography Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/66—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Public Health (AREA)
- General Health & Medical Sciences (AREA)
- Epidemiology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Image Analysis (AREA)
Abstract
本发明提供基于人体表征判别新冠感染的方法,包括根据获取的目标人员音频集,生成目标人员音频模态特征向量;对待识别的特征向量进行梅尔倒谱变换;基于采样比例对咳嗽音频频谱特征向量进行分割获得表征咳嗽音频的分割特征向量后将其映射为嵌入向量;输出判别目标人员新冠感染的概率结果。本发明在实际的防疫场景中提出了在多头注意力机制中双向计算的方式,使得本发明在新冠感染判别的过程中保留了音频特征的位置信息,使得模型能够在不同的角度上学习咳嗽音频的内在联系。
Description
技术领域
本发明涉及表征医学分析技术领域,具体为基于人体表征判别新冠感染的方法、系统。
背景技术
现阶段,神经网络模型中含有大量的参数,这些参数与每次的输入数据进行运算,最终得到结果值,然后将结果与正确答案进行对比,从而计算梯度反向传播更新内部参数,这些计算是通过矩阵运算实现,因而使用专门处理矩阵运算的显卡可以实现人工智能模型在大规模数据上学习,其训练出的模型参数即代表了模型在大规模数据上自动捕捉到的知识,包括人类难以察觉的微小联系。
基于此,神经网络模型已在医疗诊断、医学信息处理领域得到研究,各类模型和数据集被提出,且在医学相关任务上卓有成效。同时,在语音领域已有神经网络模型的广泛应用,比如:通过频谱分析识别说话人声纹,说话语音内容,录音声音来源,通过噪音监测工业设备的磨损程度等。由于基于Transformer的神经网络模型在人工智能领域的各项任务上创造出最好的效果,也逐渐被用到医学相关任务上,如防控检测任务中。
众所周知,业界内的防控检测任务最主要包括:
1)采用试剂进行核酸检测,例如咽拭子等手段采样,即,专业技术人员通过实验室设备将标本处理,按批次获得检测结果。并利用新冠确诊结果对接触人员和区域做医学估计。
但是,在上述的检测方案中,其得到检测结果的主要方案是通过实验室设备做试剂核酸检测,并在医疗统计的基础上对新冠接触者的感染情况进行估计而得出隔离时间和医疗资源调度等。这样的方案一方面缺乏可变性,造成过度隔离,同时对于新冠康复情况的参考性较差,造成医疗资源不合理调度;另一方面依赖于实验室结果,使之成本高,耗时长。采用试剂进行核酸检测,在规模较大的情境下存在高成本。
2)在公共场所中,广泛使用的是通过体温筛查新冠感染。由于新冠感染的症状之一是发热,因此利用耳温枪、额温枪、红外热成像测温仪等在公共场所监控人员的体温,对于异常体温做筛选,找出发热人员,对之进一步隔离检测。
但是,在上述的检测方案中,由于是利用体温检测,一方面系统误差大,主要来源于测量方案的测温效果不稳定。一般性能的设备以及干扰较大的测量因素会造成大的测温误差;另一方面,以温度测量造成的误检与漏检都较高。因为新冠患者的临床症状存在差异,包括无症状感染者在内,使得仅通过发热症状判断的检出率低。体外热源或环境因素导致测量出现较高温度的情况使得方案存在误检。
发明内容
针对现有技术存在的不足,本发明目的是提供基于人体表征判别新冠感染的方法、系统,以解决上述背景技术中提出的问题,本发明基于Transformer模型的特性,构建基于分块嵌入的Transformer的AI模型,从而在实际的防疫场景中对受试者的音频特征建模,并利用基于矩阵运算的注意力机制,在多头注意力机制中双向计算得到每个音频特征间的关系后,训练与推理得到受试者为新冠感染者的概率的方式,解决了现有技术中的问题。
为了实现上述目的,本发明是通过如下的技术方案来实现:基于人体表征判别新冠感染的方法,包括以下步骤:
第一步,根据获取的目标人员音频集,生成用于表征待识别的目标人员音频模态特征向量;
第二步,对待识别的所述特征向量进行梅尔倒谱变换,并对变换后得到的梅尔倒谱图进行特征提取,生成出现在目标人员音频模态特征向量中的咳嗽音频频谱特征向量;
第三步,基于采样比例对所述咳嗽音频频谱特征向量进行分割获得表征咳嗽音频的分割特征向量后将其映射为嵌入向量,并将所述嵌入向量以及预先学习得到的分类嵌入向量进行拼接融合预处理,得到新的嵌入向量,以减少目标人员音频模态特征向量在生成有效分割特征向量的训练过程中的采样被动损失;
第四步,将新的嵌入向量输入至Transformer结构模块后,通过修改了注意力机制的Transformer结构模块建立的深度学习模型,预测目标人员的咳嗽音频频谱特征进行分类,输出判别目标人员新冠感染的概率结果;
第五步,整理所述概率结果并上传防疫系统,结束。
作为本发明的第二方面,提出了一种基于人体表征判别新冠感染的系统,包括数据采集模块,用于对医疗系统内目标人员的音频数据进行预处理采集,以组织形成训练集和测试集;梅尔倒谱系数获取模块,根据所述音频数据得到每条音频数据中表征目标人员咳嗽的采样数据的梅尔倒谱,并对所述梅尔倒谱图进行特征提取,生成咳嗽音频频谱特征向量;数据分段模块,基于采样比例对咳嗽音频频谱特征向量进行分段,得到L个片段的分割特征向量;AI模型训练模块,基于注意力机制,构建深度学习模型,以将分割特征向量作为深度学习模型的输入并进行训练,输出判别目标人员新冠感染的概率结果;AI模型训练优化模块,基于交叉熵损失函数对判别目标人员新冠感染的概率结果、与人工标注结果进行交叉熵计算,得到概率结果与人工标注结果分布间的差异性信息,以训练所述深度学习模型。
在本发明第二方面的一种可能实现方式中,所述AI模型训练模块是基于修改了注意力机制的Transformer结构模块进行构建,其中,
AI模型训练模块包括依次设置的卷积层、注意力机制模块、分类器、全连接层与激活函数层;
所述注意力机制模块设有多个,且每个所述注意力机制模块均包括卷积层、激活层和Sigmoid函数层;且注意力机制模块的注意力输出值是基于神经网络的权重矩阵得到。
与现有技术相比,本发明的有益效果:
1、基于Transformer模型的特性,构建基于分块嵌入的Transformer的AI模型,从而在实际的防疫场景中对受试者的音频特征建模中,提出了在多头注意力机制中双向计算的方式,使得本发明在新冠感染判别的过程中保留了音频特征的位置信息且取消了时序性,使得模型能够在不同的角度上学习咳嗽音频的内在联系;
2、本发明在将经融合预处理后的新的嵌入向量输入至Transformer结构模块后,采用端到端的方式进行训练与推理深度学习模型,相较于现有技术中手动设计特征关系和数据的分析,更便于模型的计算与更新;
3、本发明提出通过修改了注意力机制的Transformer结构模块建立的深度学习模型,预测目标人员的咳嗽音频频谱特征进行分类,输出判别目标人员新冠感染的概率结果的方式,使得建立的深度学习模型更具鲁棒性,从而降低、避免初始获取的目标人员音频集中的噪音干扰,使得判别结果更为准确。
附图说明
参照附图来说明本发明的公开内容。应当了解,附图仅仅用于说明目的,而并非意在对本发明的保护范围构成限制,在附图中,相同的附图标记用于指代相同的部件。其中:
图1为本发明一实施例中所提出的基于AI模型结构获取受试者新冠感染概率的时序流程框图;
图2为本发明一实施例中所提出的AI模型结构在实际防疫系统中的训练和预测流程示意图;
图3为本发明一实施例中所提出的通过修改注意力机制的Transformer结构模块建立的深度学习模型时的训练流程示意图;
图4为本发明一实施例中所提出的基于训练好的深度学习模型对受试者进行新冠概率判别的流程示意图。
具体实施方式
容易理解,根据本发明的技术方案,在不变更本发明实质精神下,本领域的一般技术人员可以提出可相互替换的多种结构方式以及实现方式。因此,以下具体实施方式以及附图仅是对本发明的技术方案的示例性说明,而不应当视为本发明的全部或者视为对本发明技术方案的限定或限制。
作为对本发明技术构思以及实现原理的理解:本发明是利用基于神经网络架构的深度学习技术解决分类回归问题:即,在大量数据的学习中,通过梯度下降法和反向传播等手段,能够捕捉输入数据中的联系。在模型未曾见过的数据被输入时,模型通过它已见过的数据中学到的知识,输出其判别概率。同时,将通过音频特征提取获得的特征作为神经网络模型的训练数据,同时利用提前人为的标注的分类答案用于训练神经网络、实现反向传播和梯度下降,即是近两年语音信号领域的主流研究,同时也是人工智能领域的研究。通过这样的范式,研究领域内的各个任务的解决上实现了远优于传统方案的效果。例如分析说话者的声纹,或判断音频的类别和内容。
在表征医学分析方面,不同的呼吸道疾病会在一定程度上体现出不同的症状特征,为此,可以通过深度学习模型在咳嗽声数据上进行训练,从而使之捕捉到关键的微小细节和联系,从而进一步拥有一定程度的仅通过咳嗽录音判断受试者是否患有新冠的能力,但是,利用AI(深度学习模型)分割的方案对医学影像数据存在高要求,而医学影像往往难以大量获取,且需专业医学技术人员给予分割标注,使得训练成本高,且医学影像的成本及仪器要求高于核酸检测,这就造成了此方案不适合规模化推广。
基于此,为解决现有的技术方案中分割标注、训练成本高,造成应用场景局限化的问题。
如图1所示,作为本发明的一个实施例,本发明提供技术方案:基于人体表征判别新冠感染的方法,包括:
第一步:
根据获取的目标人员音频集(人分为训练集和测试集),生成用于表征待识别的目标人员音频模态特征向量。
基于上述第一步的技术构思,需要说明的是,目标人员音频来源可以是通过学术研究相关的公开数据集和医疗系统所提供的以往带标签的咳嗽数据,在获取到(受试者)目标人员的音频集后,由人为组织分为训练集和测试集。
在生成用于表征待识别的目标人员音频模态特征向量后,由于(目标人员音频集携带的)声音信号本是一维的时域信号,直观上很难看出频率变化规律,如果通过傅里叶变换把它变到频域上,虽然可以看出信号的频率分布,但是丢失了时域信息,无法看出频率分布随时间的变化。为此,就需要对短时的声音信号做傅里叶变化,得到的二维信号(声谱图),但是又由于得到的声谱图往往是很大的一张图,而为了得到合适大小的声音特征,往往把它通过梅尔标度滤波器组(mel-scale filter banks),变换为梅尔频谱,为此,本发明提出了第二步技术思路:即,
对待识别的特征向量进行梅尔倒谱变换,并对变换后得到的梅尔倒谱图进行特征提取,生成出现在目标人员音频模态特征向量中的咳嗽音频频谱特征向量。
需要说明的是,在本发明的一实施例中,基于梅尔倒谱提取得到咳嗽音频频谱特征向量的具体提取过程为:
首先,先对目标人员音频集进行预加重、分帧和加窗,并对每一个短时分析窗,通过FFT得到对应的频谱;其次,将上述频谱通过Mel滤波器组得到Mel频谱后,在Mel频谱上面进行倒谱分析(只对得到的Mel频谱对其取对数功率,不进行逆变换)因此,就可以得到Mel频谱后对其取对数功率,得到Fbank,可以理解的是,此Fbank即为Transformer结构模块中建立的深度学习模型的分割特征向量。
基于上述技术构思,此时提取到的咳嗽音频频谱特征向量为Mel倒谱向量,通过这些Mel倒谱向量(咳嗽音频频谱特征向量)可以对语音分类器进行训练和识别。
但是,考虑到目标人员音频模态特征向量在后续的训练过程中(即,生成有效分割特征向量的训练过程中)的采样被动损失,因此,为减少此损失,本发明提出了第三步技术思路:即,
第三步,基于采样比例对咳嗽音频频谱特征向量进行分割获得表征咳嗽音频的分割特征向量后将其映射为嵌入向量,并将嵌入向量以及预先学习得到的分类嵌入向量进行拼接融合预处理,得到新的嵌入向量,需要说明的是,由于transformer结构模块的输入必须是一串分割的特征向量,为此,就需要对咳嗽音频频谱特征向量进行分割,得到分割特征向量,以便作为Transformer的输入参与运算,从而减少在生成有效分割特征向量的训练过程中的采样被动损失。
需要说明的是,在本发明的一实施例中,基于采样比例分割获得表征咳嗽音频的分割特征向量后将其映射为嵌入向量的具体过程为:按照FFT的短时分析窗将咳嗽音频频谱特征向量分割成段,其中,对于咳嗽音频频谱特征向量中的一段语音,先以10ms~30ms为一个窗口得到窗口内的频谱,再根据采样率及固定窗口时间得到窗口内的采样帧数。而接下来生成新的嵌入向量的拼接融合方式为:首先,保证预先学习得到的分类嵌入向量长度与频谱特征嵌入向量最后一维的长度一致;其次,将拼接后得到的分类嵌入向量与频谱特征嵌入向量相比:保持最后一维长度不变,倒数第二维的长度加1,以便作为Transformer结构模块的输入,参与运算。
如图3-4所示,本发明还包括:第四步:
将经融合预处理后的新的嵌入向量输入至Transformer结构模块后,通过修改了注意力机制的Transformer结构模块建立的深度学习模型,预测目标人员的咳嗽音频频谱特征进行分类,输出判别目标人员新冠感染的概率结果。
基于上述第四步的技术构思,需要说明的是,Transformer模型是基于多头自注意力机制,其原理为通过把输入转化为嵌入向量,然后利用基于矩阵运算的注意力机制,得到每个向量与其他向量的关系,以此获得输出值。
故而,在本发明的一实施例中,可以将基于Transformer的模型用于音频所提取的特征向量上,通过整个模型输出其为新冠感染者的概率,其实施思路为:基于Transformer的模型通过将输入的向量转化为嵌入向量后,将嵌入向量通过注意力机制建模的深度学习模型,(其序列是取消了时序的,转而使用位置编码的机制),输出的分类向量接上全连接层与激活函数,从而输出判别的概率结果。为此,本发明提出的构建的深度学习模型包括依次设置的卷积层、注意力机制模块、分类器、全连接层与激活函数层;其中,注意力机制模块设有多个,且每个注意力机制模块均包括卷积层、激活层和Sigmoid函数层,同时,注意力机制模块的注意力输出值是基于神经网络的权重矩阵得到,其具体计算过程为:首先,将新的嵌入向量映射为q、k、v三个向量:
其次,对于每个新的嵌入向量,用之对应的q所有向量对应的k分别做矩阵乘法运算;
再次,通过Softmax函数得到新的嵌入向量的一系列权重;
最后,将权重乘以所有的向量v,得到注意力输出值:
基于上述技术构思,可以理解的是,根据Transformer模型的特性,在构建基于分块嵌入的Transformer的AI模型,从而在实际的防疫场景中对受试者的音频特征建模中,本发明提出的在多头注意力机制中双向计算的方式,使得本发明判别的过程中保留了音频特征的位置信息且取消了时序性,使得模型能够在不同的角度上学习咳嗽音频的内在联系,同时在将经融合预处理后的新的嵌入向量输入至Transformer结构模块后,采用端到端的方式进行训练与推理深度学习模型,相较于现有技术中手动设计特征关系和数据的分析,更便于模型的计算与更新。
如图2所示,本发明还包括:第五步:整理概率结果并上传防疫系统,结束。
但是,考虑到在实际的防疫场景中,初始获取的目标人员音频集中存在大量的噪音干扰,判别的结果准确性低下,为此,本发明提出:
在第一至第四步中,在输出得到一个批次的上传至防疫系统的判别目标人员新冠感染的概率结果后,还需要对深度学习模型进行离线学习,以对其优化,其中,具体离线优化过程为:
基于交叉熵损失函数对上传至防疫系统的当前批次的判别目标人员新冠感染的概率结果、与人工标注结果进行交叉熵计算,得到概率结果与人工标注结果分布间的差异性信息,并将上传至此防疫系统的当前批次的人工标注结果加入原有的训练集进行模型训练,继续训练深度学习模型,当模型离线学习做优化更新,重新部署于线上时,对于每次测试,若可提供实际核酸检测结果,则将该数据反馈给模型继续做在线学习、优化更新,确保模型更具鲁棒性。
作为本发明的第二方面,提出执行基于人体表征判别新冠感染的方法的处理系统,包括数据采集模块,用于对医疗系统内目标人员的音频数据进行预处理采集,以组织形成训练集和测试集;梅尔倒谱系数获取模块,根据音频数据得到每条音频数据中表征目标人员咳嗽的采样数据的梅尔倒谱,并对梅尔倒谱图进行特征提取,生成咳嗽音频频谱特征向量;数据分段模块,基于采样比例对咳嗽音频频谱特征向量进行分段,得到L个片段的分割特征向量;AI模型训练模块,基于注意力机制构建深度学习模型,以将分割特征向量作为深度学习模型的输入并进行训练,输出判别目标人员新冠感染的概率结果;AI模型训练优化模块,基于交叉熵损失函数对判别目标人员新冠感染的概率结果、与人工标注结果进行交叉熵计算,得到概率结果与人工标注结果分布间的差异性信息,以训练深度学习模型。
在本发明第二方面的实施例中,AI模型训练模块是基于修改了注意力机制的Transformer结构模块进行构建,其中,AI模型训练模块包括依次设置的卷积层、注意力机制模块、分类器、全连接层与激活函数层;注意力机制模块设有多个,且每个注意力机制模块均包括卷积层、激活层和Sigmoid函数层;且注意力机制模块的注意力输出值是基于神经网络的权重矩阵得到。
本发明的技术范围不仅仅局限于上述说明中的内容,本领域技术人员可以在不脱离本发明技术思想的前提下,对上述实施例进行多种变形和修改,而这些变形和修改均应当属于本发明的保护范围内。
Claims (7)
1.基于人体表征判别新冠感染的方法,其特征在于:包括以下步骤:
第一步,根据获取的目标人员音频集,生成用于表征待识别的目标人员音频模态特征向量;
第二步,对待识别的所述特征向量进行梅尔倒谱变换,并对变换后得到的梅尔倒谱图进行特征提取,生成出现在目标人员音频模态特征向量中的咳嗽音频频谱特征向量;
第三步,基于采样比例对所述咳嗽音频频谱特征向量进行分割获得表征咳嗽音频的分割特征向量后将其映射为嵌入向量,并将所述嵌入向量以及预先学习得到的分类嵌入向量进行拼接融合预处理,得到新的嵌入向量,以便作为Transformer结构模块的输入参与运算;
第四步,将新的嵌入向量输入至Transformer结构模块后,通过修改了注意力机制的Transformer结构模块,建立的深度学习模型,预测目标人员的咳嗽音频频谱特征后,进行分类,输出判别目标人员新冠感染的概率结果;
第五步,整理所述概率结果并上传防疫系统,结束。
2.根据权利要求1所述的基于人体表征判别新冠感染的方法,其特征在于:基于建立的深度学习模型,在输出得到一个批次的上传至防疫系统的判别目标人员新冠感染的概率结果后,还需要
对所述深度学习模型进行离线学习,以对其优化,其中,具体离线优化过程为:
基于交叉熵损失函数对上传至防疫系统的当前批次的判别目标人员新冠感染的概率结果、与人工标注结果进行交叉熵计算,得到所述概率结果与所述人工标注结果分布间的差异性信息,并将上传至此防疫系统的当前批次的人工标注结果加入原有的训练集进行模型训练,继续训练深度学习模型。
3.根据权利要求1所述的基于人体表征判别新冠感染的方法,其特征在于:第二步中,在获取到待识别的目标人员音频模态特征向量后,
基于梅尔倒谱提取得到咳嗽音频频谱特征向量的具体过程为:
先对目标人员音频模态特征向量进行预加重、分帧和加窗;
对每一个短时分析窗,通过FFT得到对应的频谱;将上述频谱通过Mel滤波器组得到Mel频谱;
在Mel频谱上面进行倒谱分析:只对得到的所述Mel频谱对其取对数功率,不进行逆变换,得到Fbank,其中,Fbank表示为输入深度学习模型的分割特征向量。
4.根据权利要求1所述的基于人体表征判别新冠感染的方法,其特征在于:第三步中,基于采样比例分割获得表征咳嗽音频的分割特征向量后将其映射为嵌入向量的具体过程为:按照FFT的短时分析窗将所述咳嗽音频频谱特征向量分割成段,其中,对于咳嗽音频频谱特征向量中的一段语音,先以10ms~30ms为一个窗口得到窗口内的频谱,再根据采样率及固定窗口时间得到窗口内的采样帧数,且
生成新的嵌入向量的拼接融合方式为:
首先,保证预先学习得到的分类嵌入向量长度与频谱特征嵌入向量最后一维的长度一致;
其次,将拼接后得到的分类嵌入向量与频谱特征嵌入向量相比:保持最后一维长度不变,倒数第二维的长度加1,以便作为Transformer结构模块的输入,参与运算。
5.根据权利要求1所述的基于人体表征判别新冠感染的方法,其特征在于:第四步中,构建的深度学习模型包括依次设置的卷积层、注意力机制模块、分类器、全连接层与激活函数层;
所述注意力机制模块设有多个,且每个所述注意力机制模块均包括卷积层、激活层和Sigmoid函数层,其中,注意力机制模块的注意力输出值是基于神经网络的权重矩阵得到,其具体计算过程为:
首先,将新的嵌入向量映射为q、k、v三个向量:
其次,对于每个新的嵌入向量,用之对应的q所有向量对应的k分别做矩阵乘法运算:
再次,通过Softmax函数得到新的嵌入向量的一系列权重;
最后,将权重乘以所有的向量v,得到注意力输出值:
6.一种基于人体表征判别新冠感染的系统,基于权利要求1-5任一项所述的判别新冠感染的方法,其特征在于:包括
数据采集模块,用于对医疗系统内目标人员的音频数据进行预处理采集,以组织形成训练集和测试集;
梅尔倒谱系数获取模块,根据所述音频数据得到每条音频数据中表征目标人员咳嗽的采样数据的梅尔倒谱,并对所述梅尔倒谱图进行特征提取,生成咳嗽音频频谱特征向量;
数据分段模块,基于采样比例对咳嗽音频频谱特征向量进行分段,得到L个片段的分割特征向量;
AI模型训练模块,基于注意力机制构建深度学习模型,以将分割特征向量作为深度学习模型的输入并对其进行训练,输出判别目标人员新冠感染的概率结果;
AI模型训练优化模块,基于交叉熵损失函数对判别目标人员新冠感染的概率结果、与人工标注结果进行交叉熵计算,得到概率结果与人工标注结果分布间的差异性信息,以训练所述深度学习模型。
7.根据权利要求6所述的基于人体表征判别新冠感染的系统,其特征在于:所述AI模型训练模块是基于修改了注意力机制的Transformer结构模块进行构建,其中,
AI模型训练模块包括依次设置的卷积层、注意力机制模块、分类器、全连接层与激活函数层;
所述注意力机制模块设有多个,且每个所述注意力机制模块均包括卷积层、激活层和Sigmoid函数层;且注意力机制模块的注意力输出值是基于神经网络的权重矩阵得到。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211382639.1A CN115497502A (zh) | 2022-11-07 | 2022-11-07 | 基于人体表征判别新冠感染的方法、系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211382639.1A CN115497502A (zh) | 2022-11-07 | 2022-11-07 | 基于人体表征判别新冠感染的方法、系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115497502A true CN115497502A (zh) | 2022-12-20 |
Family
ID=85115910
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211382639.1A Pending CN115497502A (zh) | 2022-11-07 | 2022-11-07 | 基于人体表征判别新冠感染的方法、系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115497502A (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109431507A (zh) * | 2018-10-26 | 2019-03-08 | 平安科技(深圳)有限公司 | 基于深度学习的咳嗽疾病识别方法及装置 |
CN112309505A (zh) * | 2020-11-05 | 2021-02-02 | 湖南大学 | 一种基于网络表征的抗新冠炎症药物发现方法 |
RU2758649C1 (ru) * | 2021-02-11 | 2021-11-01 | Общество с ограниченной ответственностью «Кардио Маркер» | Технология анализа акустических данных на наличие признаков заболевания covid-19 |
CN113593714A (zh) * | 2021-07-26 | 2021-11-02 | 陕西师范大学 | 一种多分类新冠肺炎病例的检测方法、系统、设备及介质 |
CN113724731A (zh) * | 2021-08-30 | 2021-11-30 | 中国科学院声学研究所 | 利用音频判别模型进行音频判别的方法和装置 |
CN114420303A (zh) * | 2021-12-29 | 2022-04-29 | 讯达律科(苏州)计算机信息科技有限公司 | 一种基于声音特征的新型新冠辅助筛查方法 |
CN114420304A (zh) * | 2021-12-29 | 2022-04-29 | 讯达律科(苏州)计算机信息科技有限公司 | 一种基于深度学习的新型新冠辅助筛查方法及装置 |
CN114467142A (zh) * | 2020-09-02 | 2022-05-10 | 熠隆服务(新加坡)有限公司 | 通过声音分析的肺部健康感测 |
WO2022186727A1 (ru) * | 2021-03-03 | 2022-09-09 | Общество с ограниченной ответственностью "Кардио Маркер" | Диагностика респираторной инфекции посредством cnn с механизмом внимания |
CN115424638A (zh) * | 2022-09-05 | 2022-12-02 | 新疆大学 | 一种基于有限咳嗽音数据的疾病检测方法 |
-
2022
- 2022-11-07 CN CN202211382639.1A patent/CN115497502A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109431507A (zh) * | 2018-10-26 | 2019-03-08 | 平安科技(深圳)有限公司 | 基于深度学习的咳嗽疾病识别方法及装置 |
CN114467142A (zh) * | 2020-09-02 | 2022-05-10 | 熠隆服务(新加坡)有限公司 | 通过声音分析的肺部健康感测 |
CN112309505A (zh) * | 2020-11-05 | 2021-02-02 | 湖南大学 | 一种基于网络表征的抗新冠炎症药物发现方法 |
RU2758649C1 (ru) * | 2021-02-11 | 2021-11-01 | Общество с ограниченной ответственностью «Кардио Маркер» | Технология анализа акустических данных на наличие признаков заболевания covid-19 |
WO2022186727A1 (ru) * | 2021-03-03 | 2022-09-09 | Общество с ограниченной ответственностью "Кардио Маркер" | Диагностика респираторной инфекции посредством cnn с механизмом внимания |
CN113593714A (zh) * | 2021-07-26 | 2021-11-02 | 陕西师范大学 | 一种多分类新冠肺炎病例的检测方法、系统、设备及介质 |
CN113724731A (zh) * | 2021-08-30 | 2021-11-30 | 中国科学院声学研究所 | 利用音频判别模型进行音频判别的方法和装置 |
CN114420303A (zh) * | 2021-12-29 | 2022-04-29 | 讯达律科(苏州)计算机信息科技有限公司 | 一种基于声音特征的新型新冠辅助筛查方法 |
CN114420304A (zh) * | 2021-12-29 | 2022-04-29 | 讯达律科(苏州)计算机信息科技有限公司 | 一种基于深度学习的新型新冠辅助筛查方法及装置 |
CN115424638A (zh) * | 2022-09-05 | 2022-12-02 | 新疆大学 | 一种基于有限咳嗽音数据的疾病检测方法 |
Non-Patent Citations (1)
Title |
---|
贺长江: "辅助诊疗的音频信息分类和定位方法的研究", 《中国优秀硕士学位论文全文数据库 医药卫生科技辑》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kochetov et al. | Noise masking recurrent neural network for respiratory sound classification | |
CN112818892B (zh) | 基于时间卷积神经网络的多模态抑郁症检测方法及系统 | |
CN109635676B (zh) | 一种从视频中定位音源的方法 | |
CN111048114A (zh) | 一种设备异常声音检测的设备及方法 | |
CN112329438B (zh) | 基于域对抗训练的自动谎言检测方法及系统 | |
CN114973062A (zh) | 基于Transformer的多模态情感分析方法 | |
CN115862684A (zh) | 一种基于音频的双模式融合型神经网络的抑郁状态辅助检测的方法 | |
CN114724224A (zh) | 一种用于医疗护理机器人的多模态情感识别方法 | |
CN116842460A (zh) | 基于注意力机制与残差神经网络的咳嗽关联疾病识别方法和系统 | |
CN114373452A (zh) | 基于深度学习的嗓音异常识别和评价的方法及系统 | |
Mukherjee et al. | Lung health analysis: adventitious respiratory sound classification using filterbank energies | |
CN112466284B (zh) | 一种口罩语音鉴别方法 | |
CN115497502A (zh) | 基于人体表征判别新冠感染的方法、系统 | |
Villanueva et al. | Respiratory Sound Classification Using Long-Short Term Memory | |
Mamutova et al. | DEVELOPING A SPEECH EMOTION RECOGNITION SYSTEM USING CNN ENCODERS WITH ATTENTION FOCUS | |
Kim et al. | Stethoscope-Guided Supervised Contrastive Learning for Cross-Domain Adaptation on Respiratory Sound Classification | |
CN112951270B (zh) | 语音流利度检测的方法、装置和电子设备 | |
Amami et al. | A robust voice pathology detection system based on the combined bilstm–cnn architecture | |
NM et al. | A Novel Health Model Using NuSVC to Predict Severity of Asthma on The basis Of Cough Audio Signal. | |
CN116052725B (zh) | 一种基于深度神经网络的细粒度肠鸣音识别方法及装置 | |
CN116978408B (zh) | 基于语音预训练模型的抑郁症检测方法及系统 | |
CN118098288B (zh) | 一种基于自学习标签校正的弱监督语音抑郁症检测方法 | |
CN117198468B (zh) | 基于行为识别和数据分析的干预方案智慧化管理系统 | |
CN112259126B (zh) | 一种自闭症语音特征辅助识别机器人及方法 | |
Bhavani et al. | Speech Recognition using the NN |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20221220 |