CN114324549B - 基于呼出气质谱检测的肺结核风险评估方法及系统 - Google Patents
基于呼出气质谱检测的肺结核风险评估方法及系统 Download PDFInfo
- Publication number
- CN114324549B CN114324549B CN202210002154.9A CN202210002154A CN114324549B CN 114324549 B CN114324549 B CN 114324549B CN 202210002154 A CN202210002154 A CN 202210002154A CN 114324549 B CN114324549 B CN 114324549B
- Authority
- CN
- China
- Prior art keywords
- spectrogram
- mass
- spectrum
- exhaled breath
- detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 130
- 208000008128 pulmonary tuberculosis Diseases 0.000 title claims abstract description 75
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000004949 mass spectrometry Methods 0.000 title claims abstract description 24
- 238000012502 risk assessment Methods 0.000 title abstract description 31
- 238000001819 mass spectrum Methods 0.000 claims abstract description 76
- 238000013145 classification model Methods 0.000 claims abstract description 47
- 239000012855 volatile organic compound Substances 0.000 claims abstract description 45
- 238000012549 training Methods 0.000 claims abstract description 33
- 238000012795 verification Methods 0.000 claims abstract description 16
- 238000011282 treatment Methods 0.000 claims abstract description 6
- 238000001228 spectrum Methods 0.000 claims description 99
- 201000008827 tuberculosis Diseases 0.000 claims description 67
- 238000012937 correction Methods 0.000 claims description 31
- 238000012216 screening Methods 0.000 claims description 27
- 230000003595 spectral effect Effects 0.000 claims description 22
- 230000035945 sensitivity Effects 0.000 claims description 18
- 238000007664 blowing Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 8
- 239000000463 material Substances 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 238000003860 storage Methods 0.000 claims description 6
- 238000013519 translation Methods 0.000 claims description 6
- 230000007613 environmental effect Effects 0.000 claims description 5
- 238000012887 quadratic function Methods 0.000 claims description 5
- 230000001419 dependent effect Effects 0.000 claims description 3
- 238000004519 manufacturing process Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims 1
- 238000003745 diagnosis Methods 0.000 abstract description 5
- 150000001875 compounds Chemical class 0.000 description 29
- 239000007789 gas Substances 0.000 description 25
- 238000005516 engineering process Methods 0.000 description 15
- 238000012360 testing method Methods 0.000 description 12
- 238000010801 machine learning Methods 0.000 description 7
- 230000002685 pulmonary effect Effects 0.000 description 6
- 238000007637 random forest analysis Methods 0.000 description 6
- 206010036790 Productive cough Diseases 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 210000003802 sputum Anatomy 0.000 description 5
- 208000024794 sputum Diseases 0.000 description 5
- 238000011998 interferon-gamma release assay Methods 0.000 description 4
- 208000035473 Communicable disease Diseases 0.000 description 3
- 239000008280 blood Substances 0.000 description 3
- 210000004369 blood Anatomy 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 229940079593 drug Drugs 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 238000002290 gas chromatography-mass spectrometry Methods 0.000 description 3
- 201000009671 multidrug-resistant tuberculosis Diseases 0.000 description 3
- IJGRMHOSHXDMSA-UHFFFAOYSA-N Atomic nitrogen Chemical compound N#N IJGRMHOSHXDMSA-UHFFFAOYSA-N 0.000 description 2
- CURLTUGMZLYLDI-UHFFFAOYSA-N Carbon dioxide Chemical compound O=C=O CURLTUGMZLYLDI-UHFFFAOYSA-N 0.000 description 2
- 206010065048 Latent tuberculosis Diseases 0.000 description 2
- MWUXSHHQAYIFBG-UHFFFAOYSA-N Nitric oxide Chemical compound O=[N] MWUXSHHQAYIFBG-UHFFFAOYSA-N 0.000 description 2
- 239000000427 antigen Substances 0.000 description 2
- 102000036639 antigens Human genes 0.000 description 2
- 108091007433 antigens Proteins 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000010219 correlation analysis Methods 0.000 description 2
- 238000003795 desorption Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 208000033353 latent tuberculosis infection Diseases 0.000 description 2
- 230000003902 lesion Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 238000001179 sorption measurement Methods 0.000 description 2
- 238000000528 statistical test Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 229960001005 tuberculin Drugs 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 102000008070 Interferon-gamma Human genes 0.000 description 1
- 108010074328 Interferon-gamma Proteins 0.000 description 1
- 241001467552 Mycobacterium bovis BCG Species 0.000 description 1
- 241000187479 Mycobacterium tuberculosis Species 0.000 description 1
- 208000036981 active tuberculosis Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 1
- 229960000190 bacillus calmette–guérin vaccine Drugs 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 229910002092 carbon dioxide Inorganic materials 0.000 description 1
- 239000001569 carbon dioxide Substances 0.000 description 1
- 238000013375 chromatographic separation Methods 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 229940125810 compound 20 Drugs 0.000 description 1
- 230000037029 cross reaction Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000003748 differential diagnosis Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 229940044627 gamma-interferon Drugs 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- JAXFJECJQZDFJS-XHEPKHHKSA-N gtpl8555 Chemical compound OC(=O)C[C@H](N)C(=O)N[C@@H](CCC(O)=O)C(=O)N[C@@H](C(C)C)C(=O)N[C@@H](C(C)C)C(=O)N1CCC[C@@H]1C(=O)N[C@H](B1O[C@@]2(C)[C@H]3C[C@H](C3(C)C)C[C@H]2O1)CCC1=CC=C(F)C=C1 JAXFJECJQZDFJS-XHEPKHHKSA-N 0.000 description 1
- 239000001257 hydrogen Substances 0.000 description 1
- 229910052739 hydrogen Inorganic materials 0.000 description 1
- -1 hydrogen ions Chemical class 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 230000004060 metabolic process Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 229910052757 nitrogen Inorganic materials 0.000 description 1
- 150000007523 nucleic acids Chemical class 0.000 description 1
- 102000039446 nucleic acids Human genes 0.000 description 1
- 108020004707 nucleic acids Proteins 0.000 description 1
- 239000001301 oxygen Substances 0.000 description 1
- 229910052760 oxygen Inorganic materials 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Landscapes
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
Abstract
本发明公开一种基于呼出气质谱检测的肺结核风险评估方法与系统,包括以下步骤:采集目标人群的呼出气样本;通过质谱检测设备对每份呼出气样本进行检测,输出原始谱图;对原始谱图进行校准处理,得到标准谱图;将标准谱图按照预设比例划分为训练集与验证集;提取确定分子量精度下每个分子量的挥发性有机物的相对丰度作为质谱特征;构建谱图分类模型;多次训练,选择AUC最优的所述谱图分类模型作为肺结核检测模型;采集待检测人员的呼出气,经过质谱检测后输入到所述肺结核检测模型中,得到肺结核风险评估结果。本发明在肺结核诊断上具有较好的敏感性和特异性,具有检测限度低、分辨率高、灵敏度高和检测速度快等优点。
Description
【技术领域】
本发明涉及气体检测技术领域,尤其涉及一种基于呼出气质谱检测的肺结核风险评估方法、系统及存储介质。
【背景技术】
目前,在临床上针对结核病的诊断手段较多,其中主要包括三类手段。一是基于免疫血原理的抗原抗体检测手段,其中包括:结核菌素皮肤测试(Tuberculin Skin Test,TST)试验和γ-干扰素释放试验(interferon gamma release assay,IGRA)。TST可产生抗原反应的有200多种抗原成分,其中大量与卡介苗和非结核分枝杆菌(NTM)相同或相似,导致TST很容易发生交叉反应,因而导致出现假阳性的可能性较大,从而TST一般用于大规模筛查;IGRA试验是是目前潜伏结核感染检测最为准确的方法,然而IGRA试验需要抽取人体外周全血在实验室仪器上检测,高通量检测有限,不适合大规模快速筛查且价格昂贵。同时,这两种基于免疫血原理的方法无法区分活动性肺结核和潜伏结核感染。二是基于病原学检查手段。其中包括:痰涂片、痰培养以及基于核酸检测的GeneXpert技术,此类方法是临床结核病诊断的金标准,但是均需要采集受试者的痰样本,而肺结核患者容易出现无痰或少痰的情况,导致适用范围有限,且痰培养的周期较长,培养成功率低。同时,GeneXpert技术需要良好的基础设施,并且价格昂贵,不适用于大范围推广适用。三是基于临床综合诊断手段,通过结合患者流行病学史、临床表现、胸部影像和其他辅助检查结果进行综合分析和鉴别诊断,过程较为复杂,比较依赖医生的经验。总体而言,目前临床上肺结核检测手段多样,但都存在各种各样的缺陷,无法满足实际临床高效、准确、低成本的检测需求。
其中,呼气检测是一种无创伤、简便快捷的医学检测方法,它通过检测人体呼气中的挥发性有机物(volatile organic compounds,VOC)的成分及相对浓度,来获取人体新陈代谢以及机体生理病理状态。目前绝大多数VOCs研究都是基于气相色谱-质谱联用(GC-MS)实验室科研平台进行,检测过程较为复杂,需要对样本进行吸附富集、热解析脱吸附、色谱分离和质谱定性定量检测等处理,设备成本高,不仅需要专业的检测技术,而且单次样本检测时间长达2-7小时,无法在临床场景中大规模推广应用。
鉴于此,实有必要提供一种基于呼出气质谱检测的肺结核风险评估方法、系统及存储介质以克服上述缺陷。
【发明内容】
本发明的目的是提供一种基于呼出气质谱检测的肺结核风险评估方法、系统及存储介质,旨在解决现有肺结核检测技术在速度、便捷、成本、检测条件等方面不足的问题,使得肺结核检测技术的检测限度低、分辨率高、灵敏度高及检测速度快。
为了实现上述目的,本发明第一方面提供一种基于呼出气质谱检测的肺结核风险评估方法,包括以下步骤:
采集目标人群的呼出气样本;其中,所述目标人群包括预设数量的临床确诊肺结核患者及未感染肺结核病的受试者;
通过质谱检测设备对每份所述呼出气样本进行检测,输出原始谱图;其中,所述原始谱图的横轴表示呼出气中挥发性有机物的分子量,纵轴表示接收到的挥发性有机物的物质信号强度;
对所述原始谱图进行校准处理,得到标准谱图;
将得到的所述标准谱图按照预设比例划分为训练集与验证集;其中,以所述临床确诊肺结核患者的所述标准谱图作为正类,以所述未感染肺结核病的受试者的所述标准谱图作为负类;
在所述标准谱图中提取确定分子量精度下每个分子量的挥发性有机物的相对丰度作为质谱特征;
根据所述质谱特征进行筛选,构建谱图分类模型;
根据所述训练集对所述谱图分类模型进行多次训练,并计算所述谱图分类模型在所述验证集上的敏感性、特异性、准确性与AUC,并选择AUC最优的所述谱图分类模型作为肺结核检测模型;
采集待检测人员的呼出气,经过质谱检测后输入到所述肺结核检测模型中,得到肺结核风险评估结果。
在一个优选实施方式中,还包括步骤:
对所述谱图分类模型中选择的所述质谱特征按照在模型中的权重和贡献度由高到低进行排序,得到呼出气中各种挥发性有机物对肺结核检测的重要性排序列表;
选择所述重要性排序列表中排序靠前预设名次的挥发性有机物,重新构建谱图分类模型,然后根据上述步骤得到最终的肺结核检测模型。
在一个优选实施方式中,所述采集目标人群的呼出气样本步骤中包括以下步骤:
目标人群经过采气前准备后,通过吹气嘴缓慢向气袋内吹气,吹起完成后关闭气袋阀门;
使用同种气袋收集所述目标人群当前所处场地的环境气体。
在一个优选实施方式中,所述对所述原始谱图进行校准处理,得到标准谱图步骤中包括以下步骤:
步骤S301,对所述原始谱图信号进行多次离散小波变换,将其拆分为高频信号和低频基线信号,然后舍弃低频基线信号,进行小波反变换,从而去除所述原始谱图信号中的噪声以及进行基线漂移校正;
步骤S302,对去噪及校准基线漂移后的谱图进行谱峰识别,寻找谱图中的每一个谱峰;
步骤S303,基于预设的人体呼出气必然存在的挥发性有机物的质量数列表,寻找谱峰的峰值点中与所述挥发性有机物的质量数最近的质谱峰,然后计算所有匹配的谱峰偏移量均值,对所有谱峰进行平移校正;
步骤S304,计算经平移校正后的谱峰与所述挥发性有机物的质量数偏差,并判断所述质量数偏差是否小于预设的最小质量数偏差阈值;
步骤S305,当结果为是时,则认为存在目标谱峰,并将所述目标谱峰的质量数设置为所述目标谱峰的标准质量数;
步骤S306,将所述标准质量数与实际采用事件进行二次函数拟合,得到拟合参数,然后根据所述拟合参数对经平移校正后的质谱图的质量数进行整体校正;
步骤S307,重复执行所述步骤S306,直到到达目标迭代次数或者平均质量数偏差不再减少,则结束质量数校正,得到标准化的呼出气质谱图。
在一个优选实施方式中,所述步骤S302包括以下步骤:
在谱峰信号前后各插入两个0值点,然后计算谱峰信号的一阶导数、一阶导数的符号函数及其二阶导数;其中,当变量分别为正数、负数或零时,所述符号函数的因变量相应的分别为1,-1和0;
当所述谱峰信号的二阶导数值等于-2时,则认为该点为谱峰峰值点;当二阶导数值等于2时,则认为该点为两个谱峰的交叉点;当二阶导数值等于1时,则认为该点为谱峰峰起点或终点;
将获得的谱峰起点、谱峰终点、谱峰峰值点、和两个谱峰的交叉点,按照谱峰起点或交叉点、谱峰峰值点、谱峰终点或交叉点进行排序组合后,再将所有点的坐标减2即为经步骤S301进行去噪和基线漂移校正后的谱图的所有谱峰的谱峰起点或交叉点、谱峰峰值点、谱峰终点或交叉点。
在一个优选实施方式中,还包括步骤:
对所述呼出气样本中的环境气体进行检测以及标准化校正,得到标准化的环境气质谱图;
基于标准化的环境气质谱图中对应的谱峰,对标准化的呼出气质谱图中的谱峰进行背景扣除,得到扣除背景后的呼出气质谱图。
在一个优选实施方式中,所述在所述标准谱图中提取确定分子量精度下每个分子量的挥发性有机物的相对丰度作为质谱特征步骤中包括以下步骤:
以预设的质量数精度为步长,计算收集的每个呼出气样本的标准谱图中谱峰距离目标质量数的偏差,并将对应谱峰的面积作为对应质量数的挥发性有机物的相对丰度作为特征,从而将标准质谱图转化为等长的向量特征;其中,若无目标质量数的匹配谱峰,则特征值设为0。
在一个优选实施方式中,所述根据所述质谱特征进行筛选,构建谱图分类模型步骤中包括以下至少一种筛选方式:
计算所述正类与所述负类的所有样本中每个质谱特征的两两相关性,若相关性超过相关性阈值,则抛弃所述质谱特征;
计算每个质谱特征在所述正类与所述负类之间的统计学差异,如其统计p值小于设定阈值,则选择所述质谱特征,否则抛弃所述质谱特征;
逐个增加正负类分类模型所使用的特征,直到所述正负类分类模型的准确度不再增加,则认为已选择的特征数为所述正负类分类模型的最优特征数。
本发明第二方面提供一种基于呼出气质谱检测的肺结核风险评估系统,包括:
样本采集装置,用于采集目标人群的呼出气样本;其中,所述目标人群包括预设数量的临床确诊肺结核患者及未感染肺结核病的受试者;
样本检测模块,用于通过质谱检测设备对每份所述呼出气样本进行检测,输出原始谱图;其中,所述原始谱图的横轴表示呼出气中挥发性有机物的分子量,纵轴表示接收到的挥发性有机物的物质信号强度;
谱图校准模块,用于对所述原始谱图进行校准处理,得到标准谱图;
谱图分类模块,用于将得到的所述标准谱图按照预设比例划分为训练集与验证集;其中,以所述临床确诊肺结核患者的所述标准谱图作为正类,以所述未感染肺结核病的受试者的所述标准谱图作为负类;
特征确定模块,用于在所述标准谱图中提取确定分子量精度下每个分子量的挥发性有机物的相对丰度作为质谱特征;
特征筛选模块,用于根据所述质谱特征进行筛选,构建谱图分类模型;
模型训练模块,用于根据所述训练集对所述谱图分类模型进行多次训练,并计算所述谱图分类模型在所述验证集上的敏感性、特异性、准确性与AUC,并选择AUC最优的所述谱图分类模型作为肺结核检测模型;
风险评估模块,用于采集待检测人员的呼出气,经过质谱检测后输入到所述肺结核检测模型中,得到肺结核风险评估结果。
本发明第三方面提供一种计算机可读存储介质,所述计算机可读存储介质包括存储器、处理器以及存储在所述存储器并可在所述处理器上运行的基于呼出气质谱检测的肺结核风险评估程序,所述基于呼出气质谱检测的肺结核风险评估程序被所述处理器执行时实现如上述实施方式任一项所述的基于呼出气质谱检测的肺结核风险评估方法的各个步骤。
本发明提供的基于呼出气质谱检测的肺结核风险评估方法与系统,基于质谱检测技术实现呼出气的检测,并基于其检测的质谱数据,采用创新的质谱数据处理技术,将质谱数据进行特征化,挖掘呼出气中与肺结核相关的重要挥发性化合物,可通过与其他来源的信息进行整合归并,提取筛选肺结核特异性化合物,从而构建新的肺结核检测模型,从而在肺结核诊断上具有较好的敏感性和特异性,具有检测限度低、分辨率高、灵敏度高和检测速度快等优点,解决了现有肺结核检测技术在速度、便捷、成本、检测条件等方面的不足之处。
【附图说明】
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明提供的基于呼出气质谱检测的肺结核风险评估方法的流程图;
图2为经步骤S200后得到的原始谱图;
图3为图2的原始谱图经步骤S300后得到的标准谱图;
图4为步骤S300的子步骤流程图;
图5为经步骤S800得到的检测结果的ROC曲线图;
图6为图1所示基于呼出气质谱检测的肺结核风险评估方法一个优选实施例的流程图;
图7为实施例三中受试者经模型model-10plus检测后的ROC曲线图;
图8为实施例四中受试者经模型model-20plus检测后的ROC曲线图;
图9为本发明提供的基于呼出气质谱检测的肺结核风险评估系统的框架图。
【具体实施方式】
为了使本发明的目的、技术方案和有益技术效果更加清晰明白,以下结合附图和具体实施方式,对本发明进行进一步详细说明。应当理解的是,本说明书中描述的具体实施方式仅仅是为了解释本发明,并不是为了限定本发明。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
实施例一
在本发明的实施例一中,提供一种基于呼出气质谱检测的肺结核风险评估方法,用于实现呼出气的检测,并基于其检测的质谱数据,通过人工智能技术实现肺结核的检测评估。
如图1所示,基于呼出气质谱检测的肺结核风险评估方法包括以下步骤S100-S800。
步骤S100,采集目标人群的呼出气样本;其中,目标人群包括预设数量的临床确诊肺结核患者及未感染肺结核病的受试者。
在本步骤中,可招募一定数量的临床确诊肺结核患者和未感染肺结核病的受试者,采用具有低渗出、低吸附的高分子材料气袋和一次性气嘴和管道收集的呼出气样本和当前场地的环境气体。其中,采集呼出气前两小时禁食刺激性气味食物,采集前使用清水漱口。在本实施例中,可招募耐多药肺结核、药物敏感肺结核、治疗中肺结核共714例受试者,采集其他肺部感染性疾病、无肺部病灶体检者共1120例受试者。具体的,本步骤可包括以下子步骤:
首先,目标人群经过采气前准备后,通过吹气嘴缓慢向气袋内吹气,吹起完成后关闭气袋阀门。即,受试者进行采气前准备,包括受试者漱口,安装好气袋和吹气管。然后受试者深吸气,停留3-5s,缓慢通过一次性吹气嘴和吹气管向气袋中吹气,吹气完成后,关闭气袋阀门。
然后,使用同种气袋收集目标人群当前所处场地的环境气体,以便除去环境气对于呼出气检测结果的干扰。
步骤S200,通过质谱检测设备对每份所述呼出气样本进行检测,输出原始谱图;其中,原始谱图的横轴表示呼出气中挥发性有机物的分子量,纵轴表示接收到的挥发性有机物的物质信号强度。
在本步骤中,可使用“人体呼出气检测质谱仪”等类似呼出气检测设备对呼出气样本进行检测,对采集的每个呼出气样本中分子量0-500范围内的化合物(即挥发性有机物)进行检测,输出原始谱图(如图2所示)。质谱图可以表示呼出气中挥发性有机物的种类和相对浓度。
步骤S300,对原始谱图进行校准处理,得到标准谱图。
在本步骤中,对上述原始谱图进行校准处理,其中包括:基线漂移校准、去噪、质量数校准、谱峰对齐,从而得到标准谱图(如图3所示)。具体的,如图4所示,本步骤包括以下步骤S301-S307。
步骤S301,对原始谱图信号进行多次离散小波变换,将其拆分为高频信号和低频基线信号,然后舍弃低频基线信号,进行小波反变换,从而去除原始谱图信号中的噪声以及进行基线漂移校正。即采用小波变换对原始谱图信号进行处理。
步骤S302,对去噪及校准基线漂移后的谱图进行谱峰识别,寻找谱图中的每一个谱峰。
具体的,步骤S302包括以下步骤:
在谱峰信号前后各插入两个0值点,然后计算谱峰信号的一阶导数、一阶导数的符号函数及其二阶导数;其中,当变量分别为正数、负数或零时,符号函数的因变量相应的分别为1,-1和0。当谱峰信号的二阶导数值等于-2时,则认为该点为谱峰峰值点;当二阶导数值等于2时,则认为该点为两个谱峰的交叉点;当二阶导数值等于1时,则认为该点为谱峰峰起点或终点。
将获得的谱峰起点、谱峰终点、谱峰峰值点、和两个谱峰的交叉点,按照谱峰起点或交叉点、谱峰峰值点、谱峰终点或交叉点进行排序组合后,再将所有点的坐标减2即为经步骤S301进行去噪和基线漂移校正后的谱图的所有谱峰的谱峰起点或交叉点、谱峰峰值点、谱峰终点或交叉点。
步骤S303,基于预设的人体呼出气必然存在的挥发性有机物的质量数列表,寻找谱峰的峰值点中与挥发性有机物的质量数最近的质谱峰,然后计算所有匹配的谱峰偏移量均值,对所有谱峰进行平移校正。
具体的,基于预设的人体呼出气必然存在的化合物质量数列表:28.00615(氮气)、29.99799(一氧化氮)、31.98984(氧气)、37.02897(水和氢离子)、43.98984(二氧化碳),首选寻找上述步骤中获取的谱峰峰值点中与呼出气常见化合物质量数最近的质谱峰,计算所有匹配的谱峰偏移量均值,对所有谱峰进行平移校正。
步骤S304,计算经平移校正后的谱峰与挥发性有机物的质量数偏差,并判断质量数偏差是否小于预设的最小质量数偏差阈值(例如0.5)。
具体的,计算上一步骤中进行质量数平移校正之后的谱峰与呼出气常见化合物分子(分子数分别为:28.00615,29.99799,31.98984,37.02897,43.98984,58.04187,59.04969,61.06535,68.06260,78.04695,79.04220,88.08882,89.09665,92.06260,101.09665,104.06260,106.07825,,109.96901,110,112.00798,120.09390,136.12520,145.96901)的质量数偏差。
步骤S305,当结果为是时,则认为存在目标谱峰,并将目标谱峰的质量数设置为所述目标谱峰的标准质量数。
步骤S306,将标准质量数与实际采用事件进行二次函数拟合,得到拟合参数,然后根据拟合参数对经平移校正后的质谱图的质量数进行整体校正。
在步骤S304-S306中,计算步骤303中进行质量数平移校正之后的谱峰与呼出气常见化合物分子的质量数偏差,当质量数偏差小于预设的最小质量数偏差阈值时(如设置为0.5),则认为存在目标谱峰,将该谱峰的质量数设置为目标谱峰的标准质量数。当样本图谱可以匹配呼出气常见化合物质量数列表至少预设目标谱峰数且偏移偏差小于0.05时视为合格的谱图,则将校正的质量数与实际采用事件进行二次函数拟合,得到拟合参数,从而对步骤303中进行质量数平移校正之后的质谱图的质量数进行整体校正。
步骤S307,重复执行步骤S306,直到到达目标迭代次数,或者寻找的目标质谱法不再增加,或者平均质量数偏差不再减少,则结束质量数校正,得到标准化的呼出气质谱图。
进一步的,在一个实施例中,步骤S300还包括以下步骤:
首先,根据上述的步骤S301-S307对呼出气样本中的环境气体进行检测以及标准化校正,得到标准化的环境气质谱图。
然后,基于标准化的环境气质谱图中对应的谱峰,对标准化的呼出气质谱图中的谱峰进行背景扣除,得到扣除背景后的呼出气质谱图(如图3所示)。
步骤S400,将得到的标准谱图按照预设比例(一般为7:3或8:2)划分为训练集与验证集;其中,以临床确诊肺结核患者(包括耐多药肺结核、药物敏感肺结核、治疗中肺结核)的标准谱图作为正类,以未感染肺结核病的受试者(其他肺部感染性疾病、无肺部病灶体检者)的标准谱图作为负类。
步骤S500,在标准谱图中提取确定分子量精度下每个分子量的挥发性有机物的相对丰度作为质谱特征。
具体的,步骤S500包括以下步骤:
首先,以预设的质量数精度(例如0.2)为步长,计算收集的每个呼出气样本的标准谱图中谱峰距离目标质量数的偏差,并将对应谱峰的面积作为对应质量数的挥发性有机物的相对丰度作为特征,从而将标准质谱图转化为等长的向量特征,在本实施例中,将标准质谱图转化为2500的向量特征;其中,若无目标质量数的匹配谱峰,则特征值设为0。
步骤S600,根据质谱特征进行筛选,构建谱图分类模型。
在本步骤中,对质谱特征进行筛选后,采用随机森林、支持向量机、高斯混合模型和多层感知机等机器学习算法构建谱图分类模型。其中,随机对样本进行划分,按照确定比例划分为训练集和验证集,基于训练集的正、负类,进行特征筛选。具体的,特征筛选方法包括以下三种:
(一)基于相关性分析的特征筛选:计算正类与负类的所有样本中每个质谱特征的两两相关性,若相关性超过相关性阈值,则抛弃质谱特征。即计算正、负类所有样本中每个特征的两两相关性,如相关性较高,则表示特征存在强相关,则为冗余特征,可以抛弃该特征
(二)基于分组统计检验的特征筛选:计算每个质谱特征在正类与负类之间的统计学差异,如其统计p值小于设定阈值,则选择质谱特征,否则抛弃质谱特征。
(三)基于模型的特征筛选:逐个增加正负类分类模型所使用的特征,直到正负类分类模型的准确度不再增加,则认为已选择的特征数为正负类分类模型的最优特征数。
需要说明的是,上述特征筛选方法或其他同等特征筛选方法可组合搭配使用。在本实施例中,基于训练集的正、负类,进行特征筛选方法依次采用:基于相关性分析的特征筛选、基于分组统计检验的特征筛选和基于模型的特征筛选三种方法进行特征筛选,依次确定的特征数目分别为:265,243,98。
步骤S700,根据训练集对谱图分类模型进行多次训练,并计算谱图分类模型在验证集上的敏感性、特异性、准确性与AUC(area under cureve of receiver operatingcharacteristic,工作特征曲线下面积),并选择AUC最优的谱图分类模型作为肺结核检测模型。
其中,确定目标特征后,训练随机森林、支持向量机、高斯混合模型和多层感知机等机器学习模型,并在验证集上验证其敏感性、特异性、准确性和受试者工作特征曲线下面积(AUC)。在本实施例中,基于步骤S600选择的98个化合物特征在训练集上训练随机森林二分类模型。
重复进行步骤,直到达到目标设定的迭代次数,从多次迭代中,选择验证集上AUC最高的模型,作为肺结核检测模型。在本实施例中,最终选择的肺结核检测模型的敏感度、特异性、准确度和AUC分别为:0.939,0.908,0.92和0.925。
步骤S800,采集待检测人员的呼出气,经过质谱检测后输入到肺结核检测模型中,得到肺结核风险评估结果。
在本实施例中,招募耐多药肺结核、药物敏感肺结核、治疗中肺结核共100例受试者,采集其他肺部感染性疾病、无肺部病灶体检者共100例受试者。然后根据上述步骤S100-S600进行呼出气采集、检测和特征提取,每个样本提取最终选择的98个呼出气化合物特征,输入步骤S700中选择的肺结核检测模型,得到肺结核检测结果,其ROC曲线如图5所示,并计算其敏感性、特异性、准确性和AUC分别为:0.93,0.90,0.915和0.903。
进一步的,在一个实施例中,如图6所示,本方法还包括步骤S901-S902。
步骤S901,对谱图分类模型中选择的质谱特征按照在模型中的权重和贡献度由高到低进行排序,得到呼出气中各种挥发性有机物对肺结核检测的重要性排序列表。
步骤S902,选择重要性排序列表中排序靠前预设名次的挥发性有机物,重新构建谱图分类模型,然后根据上述步骤得到最终的肺结核检测模型。举例来说,可选择其中排序前5、前10和前20的化合物分别重新构建机器学习模型,该机器学习模型可与步骤5的机器学习模型不同,分别可得到三种不同的肺结核检测模型,从而在保证检测精度差别不大的前提下,减少模型的数据训练量。
实施例二
(1)基于上述步骤S100-S700得到一个肺结核检测模型(为肺结核二分类模型),然后根据步骤S901-S902,将该肺结核二分类模型中选择的特征按照其在模型中的权重和贡献度由高到低进行排序,得到排序,得到呼出气中各种化合物(即挥发性有机物)对肺结核检测的重要性排序列表。
(2)选择排序前5、前10和前20的化合物的特征分别重新基于上述步骤中确定的肺结核检测模型所对应的训练数据集上,训练三个随机森林二分类模型模型,分别定义为:model-5,model-10,model-20。
(3)在实施例一中步骤S800中获取的受试者上进行测试,同样提取其中前5、前10和前20的化合物对应分子数的特征,分别输入到model-5,model-10,model-20,得到相应的肺结核检测结果,计算其敏感性、特异性、准确性和AUC,如下表表1所示:
实施例三
(1)基于上述步骤S100-S700得到一个肺结核检测模型(为肺结核二分类模型),然后根据步骤S901-S902,将该肺结核二分类模型中选择的特征按照其在模型中的权重和贡献度由高到低进行排序,得到排序,得到呼出气中各种化合物(即挥发性有机物)对肺结核检测的重要性排序列表。
(2)根据已发表的基于GC-MS(气相色谱-质谱联用仪)检测呼出气的相关文献,选择已发现的潜在化合物对应分子数的特征,将其与排序前10的化合物的特征作为共同的特征。
(3)重新基于上述步骤中确定的肺结核检测模型所对应的训练数据集上,训练三个随机森林二分类模型模型:model-10plus。
(4)在实施例一中步骤S800中获取的受试者上进行测试,提取步骤(3)中确定的化合物对应分子数的特征,将其输入模型model-10plus进行测试,得到肺结核检测结果,计算其敏感性、特异性、准确性和AUC分别为:0.89,0.88,0.885和0.886,其ROC曲线如下图7所示。
实施例四
(1)基于上述步骤S100-S700得到一个肺结核检测模型(为肺结核二分类模型),然后根据步骤S901-S902,将该肺结核二分类模型中选择的特征按照其在模型中的权重和贡献度由高到低进行排序,得到排序,得到呼出气中各种化合物(即挥发性有机物)对肺结核检测的重要性排序列表。
(2)采集20例不同种群的结核分枝杆菌的培养顶层空气,采用“人体呼出气检测质谱仪”等检测设备进行检测,将其中检测到的化合物与其与步骤上述重要性排序列表中排序前20的化合物进行对比,其中有16种化合物重合,重合度至少为80%。
(3)选择发现的重合度至少为80%的16种化合物对应分子数的特征,重新基于上述步骤中确定的肺结核检测模型所对应的训练数据集上,训练三个随机森林二分类模型模型:model-20plus。
(4)在实施例一中步骤S800中获取的受试者上进行测试,提取步骤(3)中确定的化合物对应分子数的特征,将其输入模型model-20plus进行测试,得到肺结核检测结果,计算其敏感性、特异性、准确性和AUC分别为:0.92,0.90,0.91和0.924,其ROC曲线如图8所示。
结合实施例二、三与四可以看出,本发明方法采用机器学习技术可挖掘呼出气中与肺结核相关的重要挥发性化合物,可通过与其他来源的信息进行整合归并,提取肺结核特异性化合物,从而构建新的肺结核检测模型,进而在保证检测精度的前提下,具有检测限度低、灵敏度高和检测速度快等特点。需要说明的是,本发明的方法不限于使用该项呼出气检测技术,任何具有同等检测效力的检测技术均适用于本发明方法。
实施例五
本发明提供一种基于呼出气质谱检测的肺结核风险评估系统100,用于实现呼出气的检测,并基于其检测的质谱数据,通过人工智能技术实现肺结核的检测评估。需要说明的是,基于呼出气质谱检测的肺结核风险评估系统100的实现原理及实施方式与上述的基于呼出气质谱检测的肺结核风险评估方法相一致,故以下不再赘述。
如图9所示,基于呼出气质谱检测的肺结核风险评估系统100包括:
样本采集装置10,用于采集目标人群的呼出气样本;其中,目标人群包括预设数量的临床确诊肺结核患者及未感染肺结核病的受试者;
样本检测模块20,用于通过质谱检测设备对每份呼出气样本进行检测,输出原始谱图;其中,原始谱图的横轴表示呼出气中挥发性有机物的分子量,纵轴表示接收到的挥发性有机物的物质信号强度;
谱图校准模块30,用于对原始谱图进行校准处理,得到标准谱图;
谱图分类模块40,用于将得到的标准谱图按照预设比例划分为训练集与验证集;其中,以临床确诊肺结核患者的标准谱图作为正类,以未感染肺结核病的受试者的标准谱图作为负类;
特征确定模块50,用于在标准谱图中提取确定分子量精度下每个分子量的挥发性有机物的相对丰度作为质谱特征;
特征筛选模块60,用于根据质谱特征进行筛选,构建谱图分类模型;
模型训练模块70,用于根据训练集对谱图分类模型进行多次训练,并计算谱图分类模型在验证集上的敏感性、特异性、准确性与AUC,并选择AUC最优的谱图分类模型作为肺结核检测模型;
风险评估模块80,用于采集待检测人员的呼出气,经过质谱检测后输入到肺结核检测模型中,得到肺结核风险评估结果。
实施例六
本发明提供一种计算机可读存储介质,计算机可读存储介质包括存储器、处理器以及存储在所述存储器并可在所述处理器上运行的基于呼出气质谱检测的肺结核风险评估程序,所述基于呼出气质谱检测的肺结核风险评估程序被所述处理器执行时实现如上述实施方式任一项所述的基于呼出气质谱检测的肺结核风险评估方法的各个步骤。
综上所述,本发明提供的基于呼出气质谱检测的肺结核风险评估方法与系统,基于质谱检测技术实现呼出气的检测,并基于其检测的质谱数据,采用创新的质谱数据处理技术,将质谱数据进行特征化,挖掘呼出气中与肺结核相关的重要挥发性化合物,可通过与其他来源的信息进行整合归并,提取筛选肺结核特异性化合物,从而构建新的肺结核检测模型,从而在肺结核诊断上具有较好的敏感性和特异性,具有检测限度低、分辨率高、灵敏度高和检测速度快等优点,解决了现有肺结核检测技术在速度、便捷、成本、检测条件等方面的不足之处。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的系统或装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的系统或装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
本发明并不仅仅限于说明书和实施方式中所描述,因此对于熟悉领域的人员而言可容易地实现另外的优点和修改,故在不背离权利要求及等同范围所限定的一般概念的精神和范围的情况下,本发明并不限于特定的细节、代表性的设备和这里示出与描述的图示示例。
Claims (8)
1.一种基于呼出气质谱检测的肺结核模型构建方法,其特征在于,包括以下步骤:
采集目标人群的呼出气样本;其中,所述目标人群包括预设数量的临床确诊肺结核患者及未感染肺结核病的受试者;
通过质谱检测设备对每份所述呼出气样本进行检测,输出原始谱图;其中,所述原始谱图的横轴表示呼出气中挥发性有机物的分子量,纵轴表示接收到的挥发性有机物的物质信号强度;
对所述原始谱图进行校准处理,得到标准谱图;
将得到的所述标准谱图按照预设比例划分为训练集与验证集;其中,以所述临床确诊肺结核患者的所述标准谱图作为正类,以所述未感染肺结核病的受试者的所述标准谱图作为负类;
在所述标准谱图中提取确定分子量精度下每个分子量的挥发性有机物的相对丰度作为质谱特征;
根据所述质谱特征进行筛选,构建谱图分类模型;
根据所述训练集对所述谱图分类模型进行多次训练,并计算所述谱图分类模型在所述验证集上的敏感性、特异性、准确性与AUC,并选择AUC最优的所述谱图分类模型作为肺结核检测模型;
其中,所述对所述原始谱图进行校准处理,得到标准谱图步骤中包括以下步骤:
步骤S301,对所述原始谱图信号进行多次离散小波变换,将其拆分为高频信号和低频基线信号,然后舍弃低频基线信号,进行小波反变换,从而去除所述原始谱图信号中的噪声以及进行基线漂移校正;
步骤S302,对去噪及校准基线漂移后的谱图进行谱峰识别,寻找谱图中的每一个谱峰;
步骤S303,基于预设的人体呼出气必然存在的挥发性有机物的质量数列表,寻找谱峰的峰值点中与所述挥发性有机物的质量数最近的质谱峰,然后计算所有匹配的谱峰偏移量均值,对所有谱峰进行平移校正;
步骤S304,计算经平移校正后的谱峰与所述挥发性有机物的质量数偏差,并判断所述质量数偏差是否小于预设的最小质量数偏差阈值;
步骤S305,当结果为是时,则认为存在目标谱峰,并将所述目标谱峰的质量数设置为所述目标谱峰的标准质量数;
步骤S306,将所述标准质量数与实际采用事件进行二次函数拟合,得到拟合参数,然后根据所述拟合参数对经平移校正后的质谱图的质量数进行整体校正;
步骤S307,重复执行所述步骤S306,直到到达目标迭代次数或者平均质量数偏差不再减少,则结束质量数校正,得到标准化的呼出气质谱图;
其中,所述在所述标准谱图中提取确定分子量精度下每个分子量的挥发性有机物的相对丰度作为质谱特征步骤中包括以下步骤:
以预设的质量数精度为步长,计算收集的每个呼出气样本的标准谱图中谱峰距离目标质量数的偏差,并将对应谱峰的面积作为对应质量数的挥发性有机物的相对丰度作为特征,从而将标准质谱图转化为等长的向量特征;其中,若无目标质量数的匹配谱峰,则特征值设为0。
2.如权利要求1所述的基于呼出气质谱检测的肺结核模型构建方法,其特征在于,还包括步骤:
对所述谱图分类模型中选择的所述质谱特征按照在模型中的权重和贡献度由高到低进行排序,得到呼出气中各种挥发性有机物对肺结核检测的重要性排序列表;
选择所述重要性排序列表中排序靠前预设名次的挥发性有机物,重新构建谱图分类模型,然后根据上述步骤得到最终的肺结核检测模型。
3.如权利要求1所述的基于呼出气质谱检测的肺结核模型构建方法,其特征在于,所述采集目标人群的呼出气样本步骤中包括以下步骤:
目标人群经过采气前准备后,通过吹气嘴缓慢向气袋内吹气,吹气完成后关闭气袋阀门;
使用同种气袋收集所述目标人群当前所处场地的环境气体。
4.如权利要求1所述的基于呼出气质谱检测的肺结核模型构建方法,其特征在于,所述步骤S302包括以下步骤:
在谱峰信号前后各插入两个0值点,然后计算谱峰信号的一阶导数、一阶导数的符号函数及其二阶导数;其中,当变量分别为正数、负数或零时,所述符号函数的因变量相应的分别为1,-1和0;
当所述谱峰信号的二阶导数值等于-2时,则认为该点为谱峰峰值点;当二阶导数值等于2时,则认为该点为两个谱峰的交叉点;当二阶导数值等于1时,则认为该点为谱峰峰起点或终点;
将获得的谱峰起点、谱峰终点、谱峰峰值点、和两个谱峰的交叉点,按照谱峰起点或交叉点、谱峰峰值点、谱峰终点或交叉点进行排序组合后,再将所有点的坐标减2即为经步骤S301进行去噪和基线漂移校正后的谱图的所有谱峰的谱峰起点或交叉点、谱峰峰值点、谱峰终点或交叉点。
5.如权利要求1所述的基于呼出气质谱检测的肺结核模型构建方法,其特征在于,还包括步骤:
对所述呼出气样本中的环境气体进行检测以及标准化校正,得到标准化的环境气质谱图;
基于标准化的环境气质谱图中对应的谱峰,对标准化的呼出气质谱图中的谱峰进行背景扣除,得到扣除背景后的呼出气质谱图。
6.如权利要求1所述的基于呼出气质谱检测的肺结核模型构建方法,其特征在于,所述根据所述质谱特征进行筛选,构建谱图分类模型步骤中包括以下至少一种筛选方式:
计算所述正类与所述负类的所有样本中每个质谱特征的两两相关性,若相关性超过相关性阈值,则抛弃所述质谱特征;
计算每个质谱特征在所述正类与所述负类之间的统计学差异,如其统计p值小于设定阈值,则选择所述质谱特征,否则抛弃所述质谱特征;
逐个增加正负类分类模型所使用的特征,直到所述正负类分类模型的准确度不再增加,则认为已选择的特征数为所述正负类分类模型的最优特征数。
7.一种基于呼出气质谱检测的肺结核模型构建系统,其特征在于,包括:
样本采集装置,用于采集目标人群的呼出气样本;其中,所述目标人群包括预设数量的临床确诊肺结核患者及未感染肺结核病的受试者;
样本检测模块,用于通过质谱检测设备对每份所述呼出气样本进行检测,输出原始谱图;其中,所述原始谱图的横轴表示呼出气中挥发性有机物的分子量,纵轴表示接收到的挥发性有机物的物质信号强度;
谱图校准模块,用于对所述原始谱图进行校准处理,得到标准谱图;
谱图分类模块,用于将得到的所述标准谱图按照预设比例划分为训练集与验证集;其中,以所述临床确诊肺结核患者的所述标准谱图作为正类,以所述未感染肺结核病的受试者的所述标准谱图作为负类;
特征确定模块,用于在所述标准谱图中提取确定分子量精度下每个分子量的挥发性有机物的相对丰度作为质谱特征;
特征筛选模块,用于根据所述质谱特征进行筛选,构建谱图分类模型;
模型训练模块,用于根据所述训练集对所述谱图分类模型进行多次训练,并计算所述谱图分类模型在所述验证集上的敏感性、特异性、准确性与AUC,并选择AUC最优的所述谱图分类模型作为肺结核检测模型;
其中,所述谱图校准模块的具体实现包括以下步骤:
步骤S301,对所述原始谱图信号进行多次离散小波变换,将其拆分为高频信号和低频基线信号,然后舍弃低频基线信号,进行小波反变换,从而去除所述原始谱图信号中的噪声以及进行基线漂移校正;
步骤S302,对去噪及校准基线漂移后的谱图进行谱峰识别,寻找谱图中的每一个谱峰;
步骤S303,基于预设的人体呼出气必然存在的挥发性有机物的质量数列表,寻找谱峰的峰值点中与所述挥发性有机物的质量数最近的质谱峰,然后计算所有匹配的谱峰偏移量均值,对所有谱峰进行平移校正;
步骤S304,计算经平移校正后的谱峰与所述挥发性有机物的质量数偏差,并判断所述质量数偏差是否小于预设的最小质量数偏差阈值;
步骤S305,当结果为是时,则认为存在目标谱峰,并将所述目标谱峰的质量数设置为所述目标谱峰的标准质量数;
步骤S306,将所述标准质量数与实际采用事件进行二次函数拟合,得到拟合参数,然后根据所述拟合参数对经平移校正后的质谱图的质量数进行整体校正;
步骤S307,重复执行所述步骤S306,直到到达目标迭代次数或者平均质量数偏差不再减少,则结束质量数校正,得到标准化的呼出气质谱图;
其中,所述特征确定模块的具体实现包括以下步骤:
以预设的质量数精度为步长,计算收集的每个呼出气样本的标准谱图中谱峰距离目标质量数的偏差,并将对应谱峰的面积作为对应质量数的挥发性有机物的相对丰度作为特征,从而将标准质谱图转化为等长的向量特征;其中,若无目标质量数的匹配谱峰,则特征值设为0。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储器、处理器以及存储在所述存储器并可在所述处理器上运行的基于呼出气质谱检测的肺结核模型构建程序,所述基于呼出气质谱检测的肺结核模型构建程序被所述处理器执行时实现如权利要求1-6任一项所述的基于呼出气质谱检测的肺结核模型构建方法的各个步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210002154.9A CN114324549B (zh) | 2022-01-04 | 2022-01-04 | 基于呼出气质谱检测的肺结核风险评估方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210002154.9A CN114324549B (zh) | 2022-01-04 | 2022-01-04 | 基于呼出气质谱检测的肺结核风险评估方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114324549A CN114324549A (zh) | 2022-04-12 |
CN114324549B true CN114324549B (zh) | 2024-01-12 |
Family
ID=81022529
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210002154.9A Active CN114324549B (zh) | 2022-01-04 | 2022-01-04 | 基于呼出气质谱检测的肺结核风险评估方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114324549B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114970772B (zh) * | 2022-07-26 | 2022-11-04 | 北京纳通医用机器人科技有限公司 | 用于肺部疾病检测的模型训练方法、设备、装置和介质 |
CN117831756A (zh) * | 2024-03-05 | 2024-04-05 | 精智未来(广州)智能科技有限公司 | 一种认知障碍的辅助分析方法、装置、设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005010482A2 (en) * | 2003-06-06 | 2005-02-03 | Ciphergen Biosystems, Inc. | Detection of biomarkers |
WO2011003922A1 (en) * | 2009-07-06 | 2011-01-13 | Universiteit Maastricht | Method for the diagnosis of asthma by detecting volatile organic compounds in exhaled air |
WO2014117747A2 (en) * | 2013-02-01 | 2014-08-07 | The Chinese University Of Hong Kong | Systems and methods using exhaled breath for medical diagnostics and treatment |
CN109791140A (zh) * | 2016-06-16 | 2019-05-21 | 泰克年研究发展基金会公司 | 用于疾病的区别诊断的系统和方法 |
CN111710372A (zh) * | 2020-05-21 | 2020-09-25 | 中国医学科学院生物医学工程研究所 | 一种呼出气检测装置及其呼出气标志物的建立方法 |
CN111999375A (zh) * | 2020-09-30 | 2020-11-27 | 暨南大学 | 一种基于实时在线质谱的呼气挥发性有机化合物定量方法 |
CN113219042A (zh) * | 2020-12-03 | 2021-08-06 | 深圳市步锐生物科技有限公司 | 一种用于人体呼出气体中各成分分析检测的装置及其方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010126856A1 (en) * | 2009-04-27 | 2010-11-04 | The Charles Stark Draper Laboratory, Inc. | Rapid detection of volatile organic compounds for identification of mycobacterium tuberculosis in a sample |
EP3143930A1 (en) * | 2015-09-21 | 2017-03-22 | Université de Liège | Method for the diagnosis of airway disease inflammatory subtype |
-
2022
- 2022-01-04 CN CN202210002154.9A patent/CN114324549B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005010482A2 (en) * | 2003-06-06 | 2005-02-03 | Ciphergen Biosystems, Inc. | Detection of biomarkers |
WO2011003922A1 (en) * | 2009-07-06 | 2011-01-13 | Universiteit Maastricht | Method for the diagnosis of asthma by detecting volatile organic compounds in exhaled air |
WO2014117747A2 (en) * | 2013-02-01 | 2014-08-07 | The Chinese University Of Hong Kong | Systems and methods using exhaled breath for medical diagnostics and treatment |
CN109791140A (zh) * | 2016-06-16 | 2019-05-21 | 泰克年研究发展基金会公司 | 用于疾病的区别诊断的系统和方法 |
CN111710372A (zh) * | 2020-05-21 | 2020-09-25 | 中国医学科学院生物医学工程研究所 | 一种呼出气检测装置及其呼出气标志物的建立方法 |
CN111999375A (zh) * | 2020-09-30 | 2020-11-27 | 暨南大学 | 一种基于实时在线质谱的呼气挥发性有机化合物定量方法 |
CN113219042A (zh) * | 2020-12-03 | 2021-08-06 | 深圳市步锐生物科技有限公司 | 一种用于人体呼出气体中各成分分析检测的装置及其方法 |
Non-Patent Citations (4)
Title |
---|
Assessment of an Exhaled Breath Test Using High-Pressure Photon Ionization Time-of-Flight Mass Spectrometry to Detect Lung Cancer;Meng Shushi等;JAMA NETWORK OPEN;第4卷(第3期);第1-10页 * |
Preliminary investigation of human exhaled breath for tuberculosis diagnosis by multidimensional gas chromatography - Time of flight mass spectrometry and machine learning;Beccaria, M等;JOURNAL OF CHROMATOGRAPHY B-ANALYTICAL TECHNOLOGIES IN THE BIOMEDICAL AND LIFE SCIENCES;第1074-1075卷;第46-50页 * |
基于稳定同位素的代谢组学临床研究进展;高英慧 等;生命科学研究;第21卷(第06期);第558-564页 * |
质子转移反应质谱对肺癌患者呼气中特征性VOCs的筛选及研究;郭冰清 等;分析测试学报;第37卷(第03期);第263-268页 * |
Also Published As
Publication number | Publication date |
---|---|
CN114324549A (zh) | 2022-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114324549B (zh) | 基于呼出气质谱检测的肺结核风险评估方法及系统 | |
Chaudhary et al. | FBSED based automatic diagnosis of COVID-19 using X-ray and CT images | |
CN109919230B (zh) | 基于循环特征金字塔的医学图像肺结节检测方法 | |
CN110731773B (zh) | 一种基于心电波形图全局与局部深度特征融合的异常心电图筛查方法 | |
CN111710372B (zh) | 一种呼出气检测装置及其呼出气标志物的建立方法 | |
CN108095685B (zh) | 一种基于互作网络正负关系比值的分类技术及其用途 | |
CN106446777A (zh) | 基于卷积神经网络的无创血糖数据处理方法及系统 | |
CN110991536A (zh) | 原发性肝癌的早期预警模型的训练方法 | |
CN111413492A (zh) | 一种用于检测新型冠状病毒covid-2019肺炎的方法及系统 | |
Guo et al. | Sparse representation-based classification for breath sample identification | |
CN111932522B (zh) | 一种基于脑成像大数据深度学习的阿尔兹海默症分类器 | |
CN111833330A (zh) | 基于影像与机器嗅觉融合的肺癌智能检测方法及系统 | |
CN111598868A (zh) | 一种肺部超声图像识别方法和系统 | |
Flaucher et al. | Smartphone-based colorimetric analysis of urine test strips for at-home prenatal care | |
CN109870533A (zh) | 一种基于分子地图的生物样本快速智能识别方法 | |
CN113076878B (zh) | 基于注意力机制卷积网络结构的体质辨识方法 | |
Bhatia et al. | Transfer learning for detection of COVID-19 infection using chest X-ray images | |
Guo et al. | Diabetes identification and classification by means of a breath analysis system | |
EP4018927A1 (en) | Apparatus for identifying pathological states and corresponding method. | |
Guo et al. | Monitor blood glucose levels via breath analysis system and sparse representation approach | |
US20220095923A1 (en) | System and apparatus for detecting diseases | |
Riyanto et al. | CLASSIFICATION OF COVID 19, PNEUMONIA AND NORMAL LUNGS BASED ON X-RAY IMAGES USING CONVOLUTIONAL NEURAL NETWORK | |
CN113219042A (zh) | 一种用于人体呼出气体中各成分分析检测的装置及其方法 | |
Zhang et al. | Bayesian peptide peak detection for high resolution TOF mass spectrometry | |
CN111554319A (zh) | 一种基于低秩张量学习的多通道心肺音异常识别系统与装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |