CN111832477A - 一种新型冠状病毒的检测方法及系统 - Google Patents

一种新型冠状病毒的检测方法及系统 Download PDF

Info

Publication number
CN111832477A
CN111832477A CN202010669899.1A CN202010669899A CN111832477A CN 111832477 A CN111832477 A CN 111832477A CN 202010669899 A CN202010669899 A CN 202010669899A CN 111832477 A CN111832477 A CN 111832477A
Authority
CN
China
Prior art keywords
sample
novel coronavirus
training
laser
learning model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010669899.1A
Other languages
English (en)
Inventor
郭连波
胡桢麟
褚燕武
汪威良
张登
张思屿
寇卫萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202010669899.1A priority Critical patent/CN111832477A/zh
Publication of CN111832477A publication Critical patent/CN111832477A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
  • Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)

Abstract

本发明提供了一种新型冠状病毒的检测方法及系统,包括:确定待检测样本;待检测样本可能含有新型冠状病毒;对待检测样本进行激光聚焦烧蚀,获取待检测样本的激光诱导击穿光谱;将待检测样本的激光诱导击穿光谱输入到训练好的集成学习模型,以判断待检测样本中是否含有新型冠状病毒;训练好的集成学习模型通过对含有新型冠状病毒样本的激光诱导击穿光谱和不含有新型冠状病毒样本的激光诱导击穿光谱训练学习得到,用于通过样本激光诱导击穿光谱检测对应的样本是否含有新型冠状病毒。本发明集成学习结合的激光诱导击穿光谱物质判别技术制样简单、快速便捷,提高了新型冠状病毒检测的特异性和敏感性,保证判别效果。

Description

一种新型冠状病毒的检测方法及系统
技术领域
本发明属于病毒检测技术领域,更具体地,涉及一种新型冠状病毒的检测 方法及系统。
背景技术
新型冠状病毒的呼吸道飞沫传播和直接接触传播方式已被证实,随着相 关研究的推进,气溶胶传播的可能性持续上升。为确保疑似病例的快速检出 以及公共场所的安全排查,新型冠状病毒的快速精准检测显得尤为重要。
新型冠状病毒的检测手段主要有核酸检测、抗体检测和CT影像学检测。 核酸检测方法是直接对病毒的核酸进行检测,主要包括样本处理、核酸提取、 PCR检测等多个步骤,检测时间大于2小时。抗体检测方法是检测人体血液中 的抗体,包括胶体金法和磁微粒化学发光法,胶体金法检测时间为15分钟左右, 磁微粒化学发光法为30~60分钟。CT影像学检测通过直接观察患者的肺部的病 变程度,判断患者是否感染新型冠状病毒以及严重程度。在人体感染新型冠状 病毒的早期,人体内可能还未产生抗体,且肺部还未发生明显病变,所以抗体 检测和CT影像学检测存在检测窗口期,核酸检测由于其特异性强、敏感度高,是目前COVID-19最主要的检测手段,但其检测时间较长,针对COVID-19病 例的快速大批量筛查和公共场所的安全排查亟需一种便携、快速、全面且操作 简单的检测方法及系统。
发明内容
针对现有技术的缺陷,本发明的目的在于提供一种新型冠状病毒的检测方 法及系统,旨在解决现有新型冠状病毒的检测时间较长,缺少一种便携、快速、 全面且操作简单的检测技术的问题。
为实现上述目的,第一方面,本发明提供了一种新型冠状病毒的检测方法, 包括以下步骤:
确定待检测样本;所述待检测样本可能含有新型冠状病毒;
对待检测样本进行激光聚焦烧蚀,获取待检测样本的激光诱导击穿光谱;
将待检测样本的激光诱导击穿光谱输入到训练好的集成学习模型,以判断 待检测样本中是否含有新型冠状病毒;所述训练好的集成学习模型通过对含有 新型冠状病毒样本的激光诱导击穿光谱和不含有新型冠状病毒样本的激光诱导 击穿光谱训练学习得到,用于通过样本激光诱导击穿光谱检测对应的样本是否 含有新型冠状病毒。
可选地,所述集成学习模型通过如下步骤训练得到:
确定训练样本;所述训练样本包括含有新型冠状病毒的第一样本和不含有 新型冠状病毒的第二样本;
将训练样本随机分为两组,分别为训练集和测试集;所述训练集和测试集 中第一样本和第二样本的比例相同;
将多个弱分类器集成得到集成学习模型;
通过训练集对集成学习模型训练以进行参数优化;
通过测试集对训练好的集成学习模型进行性能评价,以使得训练好的集成 学习模型性能达到最优。
可选地,所述训练样本中第一样本和第二样本的比例可调。
可选地,将所述训练样本随机分为两组,具体包括:
对训练样本进行预处理,所述预处理包括:异常光谱剔除、去噪、背景扣 除、强度归一化、降维以及特征标准化;
将预处理后的训练样本随机分为两组。
可选地,所述样本为固体、液体或气溶胶。
第二方面,本发明提供一种新型冠状病毒的检测系统,包括:
样本确定单元,用于确定待检测样本;所述待检测样本可能含有新型冠状 病毒;
光谱获取单元,用于对待检测样本进行激光聚焦烧蚀,获取待检测样本的 激光诱导击穿光谱;
病毒检测单元,用于将待检测样本的激光诱导击穿光谱输入到训练好的集 成学习模型,以判断待检测样本中是否含有新型冠状病毒;所述训练好的集成 学习模型通过对含有新型冠状病毒样本的激光诱导击穿光谱和不含有新型冠状 病毒样本的激光诱导击穿光谱训练学习得到,用于通过样本激光诱导击穿光谱 检测对应的样本是否含有新型冠状病毒。
可选地,所述集成学习模型通过如下步骤训练得到:确定训练样本;所述 训练样本包括含有新型冠状病毒的第一样本和不含有新型冠状病毒的第二样本; 将训练样本随机分为两组,分别为训练集和测试集;所述训练集和测试集中第 一样本和第二样本的比例相同;将多个弱分类器集成得到集成学习模型;通过 训练集对集成学习模型训练以进行参数优化;通过测试集对训练好的集成学习 模型进行性能评价,以使得训练好的集成学习模型性能达到最优。
可选地,所述训练样本中第一样本和第二样本的比例可调。
可选地,将所述训练样本随机分为两组,具体包括:对训练样本进行预处 理,所述预处理包括:异常光谱剔除、去噪、背景扣除、强度归一化、降维以 及特征标准化;将预处理后的训练样本随机分为两组。
可选地,所述样本为固体、液体或气溶胶。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下 有益效果:
本发明提供一种新型冠状病毒的检测方法及系统,首次将激光诱导击穿光 谱技术和集成学习相结合用于新型冠状病毒的检测。集成学习结合的激光诱导 击穿光谱物质判别技术制样简单、快速便捷,所采用的集成学习模型实现简单、 训练快速,可得到特征的重要性排序,可获得比单一的学习器更加显著的泛化 性能,进而提高了新型冠状病毒检测的特异性和敏感性,保证判别效果。
附图说明
图1为本发明提供的新型冠状病毒的检测方法流程图;
图2为基于集成学习辅助激光诱导击穿光谱的新型冠状病毒识别方法的流 程图;
图3为基于集成学习辅助激光诱导击穿光谱的新型冠状病毒识别系统的结 构图;
图4为本发明提供的新型冠状病毒的检测系统架构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实 施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅 仅用以解释本发明,并不用于限定本发明。
激光诱导击穿光谱技术(Laser-Induced Breakdown Spectroscopy,LIBS)是 一种原子发射光谱分析技术,其通过高能脉冲激光聚焦烧蚀待测样本产生等离 子体,通过分析等离子体发射光谱的特征谱线波长与强度,获取关于待测样本 的组分信息。新兴的LIBS技术具有无需制样、快速、远程、原位在线、多元 素同时分析等特点,其已在冶金、能源、考古、环境监测、生物医疗、深空探 测等领域有了较为广泛的应用,被著名的分析化学专家J.D.Winfordner誉为“分 析化学的未来巨星”。
LIBS光谱可以对物质进行判别分析和分类识别,传统的分类方法主要聚焦 于不同种类物质间的元素差异导致的特征谱线差异,但对于组分极其相似的物 质,LIBS光谱的差异性可能就比较细微。随着近年来人工智能算法的飞速发展, LIBS与机器学习算法的结合为物质的鉴别提供了新途径。由于LIBS具有原位 在线、快速实时等优势,LIBS与分类算法相结合的物质判别分析技术必将在分 类识别领域大放异彩。而其在细菌、真菌、噬菌体、肿瘤等快速检测与分类的 成功经验,为COVID-19的早期诊断提供了一种可能。
在LIBS与分类算法相结合的物质判别分析技术中,常用的分类算法主要 有K邻近、K均值、支持向量机、BP神经网络等这类监督或非监督机器学习 模型。而集成学习(Ensemble Learning)通过构建并结合多个学习器来完成分 类或回归任务,常可获得比单一学习器更加显著的泛化性能。从公开的报道来 看,目前还没有将LIBS技术与集成学习相结合用于新型冠状病毒检测的方法。
图1为本发明提供的新型冠状病毒的检测方法流程图;如图1所示,包括 如下步骤:
S101,确定待检测样本;所述待检测样本可能含有新型冠状病毒;
S102,对待检测样本进行激光聚焦烧蚀,获取待检测样本的激光诱导击穿 光谱;
S103,将待检测样本的激光诱导击穿光谱输入到训练好的集成学习模型, 以判断待检测样本中是否含有新型冠状病毒;所述训练好的集成学习模型通过 对含有新型冠状病毒样本的激光诱导击穿光谱和不含有新型冠状病毒样本的激 光诱导击穿光谱训练学习得到,用于通过样本激光诱导击穿光谱检测对应的样 本是否含有新型冠状病毒。
可选地,所述集成学习模型通过如下步骤训练得到:
确定训练样本;所述训练样本包括含有新型冠状病毒的第一样本和不含有 新型冠状病毒的第二样本;
将训练样本随机分为两组,分别为训练集和测试集;所述训练集和测试集 中第一样本和第二样本的比例相同;
将多个弱分类器集成得到集成学习模型;
通过训练集对集成学习模型训练以进行参数优化;
通过测试集对训练好的集成学习模型进行性能评价,以使得训练好的集成 学习模型性能达到最优。
可选地,所述训练样本中第一样本和第二样本的比例可调。
可以理解的是,本发明实施例提供了一种基于集成学习辅助激光诱导击穿 光谱的新型冠状病毒识别方法及系统,能够准确判别待测样本中是否存在新型 冠状病毒。
结合本发明实施例的第一方面,提供了一种基于集成学习辅助激光诱导击 穿光谱的新型冠状病毒识别方法,步骤如下:
S1、制备或采集含有新型冠状病毒的样本和空白对照。
具体地,本发明中的空白对照指的是:不含新型冠状病毒的样本。
S2、利用激光诱导击穿光谱仪对含有新型冠状病毒的样本和空白对照进行 检测,获得光谱数据集,该数据集为一(A+B)×P的矩阵,A为含有新型冠状病 毒样本的光谱数量,B为空白对照的光谱数量,(A+B)不少于100,P为波长采 样点数量,通常为2千到2万;
S3、对步骤S2所述(A+B)×P矩阵进行预处理,包括异常光谱剔除、去噪、 背景扣除、强度归一化、降维、特征标准化;
S4、将步骤S3所述预处理后的光谱数据集随机分为两组,分别为训练集 和测试集,训练集和测试集光谱数量之比通常为6:4,训练集和测试集中含有新 型冠状病毒的样本和空白对照的光谱数量比均为A:B。选择合适的集成学习模 型的弱分类器种类、弱分类器数量和集成方式。选取所述训练集对选定的集成 学习模型进行参数优化,选取所述测试集对训练后的模型进行性能评价,最终 得到训练好的集成学习模型;
S5、获取待测样本的激光诱导击穿光谱数据,将预处理后的光谱数据输入 到步骤S4所述集成学习模型,获得待测样本中是否存在新型冠状病毒的判别结 果。
步骤S1中,所述样本,可以是固体、液体或者气溶胶。
步骤S3中,所述强度归一化,是将每幅光谱的强度变换到0与1之间。
步骤S3中,所述降维包括两种方法,一是将每幅光谱与发射谱线数据库 进行比对,提取光谱中所含有原子、离子、分子发射谱线的强度值,将各发射 谱线强度值重新组合形成新的数据集,该数据集为一(A+B)×Q矩阵(Q<<P),Q为发射谱线强度值数量;二是通过主成分分析等统计方法对光谱进行降维, 形成新的数据集,该数据集为一(A+B)×Q矩阵(Q<<P),Q为数据集降维后的 特征数量。
步骤S3中,所述特征标准化,是将所述(A+B)×Q矩阵中的每列特征分别 进行Z-score标准化,即将每列特征数值减去每列特征的均值,再除以每列特征 的标准差。
步骤S4中,所述弱分类器,包括决策树、线性判别分析、K邻近等。
步骤S4中,所述弱分类器数量,通常为100到1000。
步骤S4中,所述弱分类器集成方式,包括Bagging、Boosting、Stack等。
步骤S4中,所述的性能评价中,评价指标包括ROC(Receiver OperatingCharacteristic)曲线、AUC(Area Under ROC Curve)、预测准确率、特异性和 敏感性。
结合本发明实施例的第二方面,提供了一种基于集成学习辅助激光诱导击 穿光谱的新型冠状病毒识别系统,该系统包括:
样本准备模块:用于制备或采集含有新型冠状病毒的样本和空白对照。
光谱采集模块:用于采用激光诱导击穿光谱仪对含有新型冠状病毒的样本 和空白对照进行检测,获得光谱数据集,该数据集为一(A+B)×P的矩阵,A为 含有新型冠状病毒样本的光谱数量,B为空白对照的光谱数量,(A+B)不少于 100,P为波长采样点数量,通常为2千到2万;
光谱预处理模块:用于所述光谱数据集进行预处理,包括异常光谱剔除、 去噪、背景扣除、强度归一化、降维、特征标准化;
训练模块:用于将预处理后的光谱数据集随机分为两组,分别为训练集和 测试集。选择合适的集成学习模型的弱分类器种类、弱分类器数量和集成方式。 选取所述训练集对选定的集成学习模型进行参数优化,选取所述测试集对训练 后的模型进行性能评价,最终得到训练好的集成学习模型;
判别模块:获取待测样本的激光诱导击穿光谱数据,将预处理后的光谱数 据输入到训练好的集成学习模型,获得待测样本中是否存在新型冠状病毒的判 别结果。
在一个具体的实施例中,如图2所示,本发明实施例中基于激光诱导击穿 光谱和机器学习的新型冠状病毒检测方法一个实施例包括:
实施例1
步骤S1、对新型冠状病毒感染者的血液和健康人的血液分别进行静置凝固 后离心(离心机转速为3000rpm,离心时间为10分钟),得到的上清液即为 血清,用滴管吸出血清滴加于滤纸上,即制样完成。其中,制备的样本即为新 型冠状病毒感染者的血清和健康人的血清。
步骤S2、利用激光诱导击穿光谱仪对含有新型冠状病毒的血清样本和空白 对照(健康人的血清样本)进行检测,获得光谱数据集;
所述激光诱导击穿光谱为高能脉冲激光聚焦烧蚀待测样本产生的等离子体 的发射光谱,可通过发射光谱中特征谱线的波长和强度推算出样品的组分信息。
所述光谱数据集为一(A+B)×P的矩阵,A为含有新型冠状病毒样本的光谱 数量,B为空白对照的光谱数量,P为波长采样点数量。
可选的,其中(A+B)不少于100,一般(A+B)值越大,后续集成学习模型训 练结果越好。P值通常为2千到2万。所述波长一般为200到900nm,也可根 据所使用仪器的性能参数和检测需求,选择不同的波长范围,例如可选择190 到1100nm。
步骤S3、对所述光谱数据集即(A+B)×P矩阵进行预处理,包括异常光谱 剔除、去噪、背景扣除、强度归一化、降维、特征标准化;
其中,所述异常光谱剔除,是将光谱数据集中未检测到特征谱线或信噪比 较差的光谱剔除。
其中,所述去噪,是对光谱数据集中每一幅光谱进行噪声去除,噪声通常 由仪器产生,可根据实际噪声情况选择最优去噪方法。
优选的,去噪方法采用小波阈值去噪。
其中,所述背景扣除,是对光谱数据集中每一幅光谱进行背景扣除,激光 诱导击穿光谱背景通常由韧致辐射产生,可根据实际背景情况选择最优的背景 扣除方法。
优选的,背景扣除采用小波变换拟合出背景,然后从光谱中减去背景。
其中,所述强度归一化,是将每幅光谱的强度变换到0与1之间。
优选的,所述归一化方法采用最大最小归一化,公式如下:
Figure BDA0002581888000000091
公式中,X表示一幅原始光谱,Xnorm为归一化处理后的光谱,Xmin表示原 始光谱的最小值,Xmax表示原始光谱的最大值。
其中,所述降维包括两种方法,一是将每幅光谱与发射谱线数据库进行比 对,提取光谱中所含有原子、离子、分子发射谱线的强度值,将各发射谱线强 度值重新组合形成新的数据集,该数据集为一(A+B)×Q矩阵(Q<<P),Q为发 射谱线强度值数量;二是通过主成分分析等统计方法对光谱进行降维,形成新 的数据集,该数据集为一(A+B)×Q矩阵(Q<<P),Q为数据集降维后的特征数 量。Q值通常不超过20。
其中,所述特征标准化,是将所述(A+B)×Q矩阵中的Q列特征进行Z-score 标准化。
所述预处理能够有效减少激光诱导击穿光谱数据特征数量,解决各特征尺 度不一致的问题,有利于后续的集成学习模型训练。
步骤S4、将预处理后的光谱数据集即(A+B)×Q矩阵随机分为两组,分别为 训练集和测试集,训练集和测试集的光谱数量之比为6:4,训练集和测试集中含 有新型冠状病毒样本和空白对照的光谱数量之比均为A:B。选取所述训练集对 集成学习模型进行参数优化,选取所述测试集对训练后的模型进行性能评价, 最终得到训练好的集成学习模型;
可选的,以上步骤S4具体为:
步骤S4-1、将光谱数据集即(A+B)×Q矩阵随机分为训练集和测试集,训练 集为X×Q矩阵,训练集为Y×Q矩阵,X等于(3/5)×(A+B),Y等于(2/5)×(A+B), 训练集和测试集中含有新型冠状病毒样本和空白对照的光谱数量之比均为A:B;
步骤S4-2、选择合适的集成学习模型的弱分类器种类、弱分类器数量和集 成方式。
所述弱分类器种类,包括决策树、线性判别分析、K邻近等。
所述弱分类器数量,通常为100到1000。
所述弱分类器集成方式,包括Bagging、Boosting、Stack等。
优选的,弱分类器种类为分类树,弱分类器数量为500,弱分类器集成方式 为Bagging。
步骤S4-3,使用训练集即X×Q矩阵对选定的集成学习模型进行参数优化。 根据所选定的集成学习模型,需优化的参数为随机抽取特征数mtry。在mtry的 可能取值范围内,利用bagging抽样从训练集中获取子训练集并建立模型,然后 用未被抽样的数据来评估模型的预测准确度,当预测准确度最高时判定参数达 到最优。
优选的,集成学习模型可采用MATLAB软件实现。
步骤S4-4、使用测试集即Y×Q矩阵对参数优化后的模型进行性能评价,得 到训练好的集成学习模型。
所述性能评价中,评价指标包括ROC(Receiver Operating Characteristic) 曲线、AUC(Area Under ROC Curve)、预测准确率、特异性和敏感性。
优选的,当参数优化后的模型对测试集的预测准确率达到最高时,判定模 型达到最优。
步骤S5、获取待测样本的激光诱导击穿光谱数据,将预处理后的光谱数据 输入到所述训练好的集成学习模型,获得待测样本中是否存在新型冠状病毒的 判别结果。训练后的集成学习模型,能够通过预处理后的待测样本激光诱导击 穿光谱数据,准确判断出待测样本中是否存在新型冠状病毒。
可选的,所述步骤S5还包括:
步骤S5-1、使用激光诱导击穿光谱仪对待测样本进行检测,获得待测样本 光谱数据;
步骤S5-2、对所述待测样本光谱数据进行预处理;
步骤S5-3、将所述预处理后的待测样本光谱数据输入训练好的集成学习模 型,集成学习模型即可输出判别结果。
实施例2:
步骤S1、制备含有新型冠状病毒的气溶胶和空白气溶胶,将含有新型冠状 病毒的气溶胶和空白气溶胶通入测试液中,待测试液充分吸收气溶胶后,投入 免疫磁珠吸附新型冠状病毒,经过过滤后便获得含有新型冠状病毒的样本和空 白对照。后续步骤与实施例1相同。
在本发明实施例提供的方法中通过对激光诱导击穿光谱数据集进行预处理, 用所述预处理后的光谱数据集对集成学习模型进行训练和测试,可以借助训练 好的集成学习模型对待测样本是否含有新型冠状病毒进行准确判别。
应理解,上述实施例中各步骤的序号大小并不意味着执行顺序的先后,各 过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过 程构成任何限定。
上面主要描述了一种基于集成学习辅助激光诱导击穿光谱的新型冠状病毒 识别方法,下面将对一种基于集成学习辅助激光诱导击穿光谱的新型冠状病毒 识别系统进行详细描述。
请参阅图3,本发明实施例中基于激光诱导击穿光谱和机器学习的新型冠状 病毒检测系统一个实施例包括:
样本准备模块310:用于COVID-19患者血清和空白对照的制备采集和样本 前处理;
光谱采集模块320:用于利用激光诱导击穿光谱仪对含有新型冠状病毒的样 本和空白对照进行检测,获得光谱数据集;
所述光谱数据集为一(A+B)×P的矩阵,A为含有新型冠状病毒样本的光谱 数量,B为空白对照的光谱数量,P为波长采样点数量。
优选的,其中(A+B)不少于100,一般(A+B)值越大,后续集成学习模型训 练结果越好。P值通常为2千到2万。所述波长一般为200到900nm,也可根据所 使用仪器的性能参数和检测需求,选择不同的波长范围,例如可选择190到 1100nm。
光谱预处理模块330:用于对所述光谱数据集即(A+B)×P矩阵进行预处理, 包括异常光谱剔除、去噪、背景扣除、强度归一化、降维、特征标准化;
优选的,所述光谱预处理模块包括:
异常光谱剔除单元,用于剔除光谱数据集中未检测到特征谱线或信噪比差 的光谱;
去噪单元,用于对光谱数据集中每一幅光谱进行噪声去除;
背景扣除单元,用于对光谱数据集中每一幅光谱进行背景扣除;
强度归一化单元,用于将每幅光谱的强度变换到0与1之间。
优选的,所述归一化方法采用最大最小归一化,公式如下:
Figure BDA0002581888000000121
公式中,X表示一幅原始光谱,Xnorm为归一化处理后的光谱,Xmin表示原 始光谱的最小值,Xmax表示原始光谱的最大值。
降维单元,用于对光谱数据集进行降维;
其中,所述降维包括两种方法,一是将每幅光谱与发射谱线数据库进行比 对,提取光谱中所含有原子、离子、分子发射谱线的强度值,将各发射谱线强 度值重新组合形成新的数据集,该数据集为一(A+B)×Q矩阵(Q<<P),Q为发 射谱线强度值数量;二是通过主成分分析等统计方法对光谱进行降维,形成新 的数据集,该数据集为一(A+B)×Q矩阵(Q<<P),Q为数据集降维后的特征数 量。Q值通常不超过20。
特征标准化单元用于是将光谱数据集中的每列特征进行Z-score标准化。
训练模块340:用于将预处理后的光谱数据集即(A+B)×Q矩阵随机分为两 组,分别为训练集和测试集,选取所述训练集对集成学习模型进行参数优化, 选取所述测试集对训练后的模型进行性能评价,最终得到训练好的集成学习模 型;
优选的,所述训练模块包括:
分组单元,用于将预处理后的光谱数据集即(A+B)×Q矩阵随机分为两组, 分别为训练集和测试集;
训练单元,选择合适的集成学习模型的弱分类器种类、弱分类器数量和集 成方式。选取所述训练集对选定的集成学习模型进行参数优化,选取所述测试 集对训练后的模型进行性能评价,最终得到训练好的集成学习模型。
优选的,弱分类器种类为分类树,弱分类器数量为500,弱分类器集成方式 为Bagging。
根据所选定的集成学习模型,需优化的参数为随机抽取特征数mtry。在mtry 的可能取值范围内,利用bagging抽样从训练集中获取子训练集并建立模型,然 后用未被抽样的数据来评估模型的预测准确度,当预测准确度最高时判定参数 达到最优。
优选的,当参数优化后的模型对测试集的预测准确率达到最高时,判定模 型达到最优。
判别模块350:获取待测样本的激光诱导击穿光谱数据,将预处理后的光谱 数据输入到所述训练好的集成学习模型,获得待测样本中是否存在新型冠状病 毒的判别结果。
可选的,所述判别模块包括:
采集单元,用于使用激光诱导击穿光谱仪获取待测样本的光谱数据;
预处理单元,用于对待测光谱的光谱数据进行预处理;
判别单元,用于将预处理后的待测样本光谱数据输入训练好的集成学习模 型,得到判别结果。
图4为本发明提供的新型冠状病毒的检测系统架构图,如图4所示,包括:
样本确定单元410,用于确定待检测样本;所述待检测样本可能含有新型 冠状病毒;
光谱获取单元420,用于对待检测样本进行激光聚焦烧蚀,获取待检测样 本的激光诱导击穿光谱;
病毒检测单元430,用于将待检测样本的激光诱导击穿光谱输入到训练好 的集成学习模型,以判断待检测样本中是否含有新型冠状病毒;所述训练好的 集成学习模型通过对含有新型冠状病毒样本的激光诱导击穿光谱和不含有新型 冠状病毒样本的激光诱导击穿光谱训练学习得到,用于通过样本激光诱导击穿 光谱检测对应的样本是否含有新型冠状病毒。
需要说明的是,图4中各个单元的详细功能参见前述方法实施例中的介绍, 在此不做赘述。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并 不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换 和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种新型冠状病毒的检测方法,其特征在于,包括以下步骤:
确定待检测样本;所述待检测样本可能含有新型冠状病毒;
对待检测样本进行激光聚焦烧蚀,获取待检测样本的激光诱导击穿光谱;
将待检测样本的激光诱导击穿光谱输入到训练好的集成学习模型,以判断待检测样本中是否含有新型冠状病毒;所述训练好的集成学习模型通过对含有新型冠状病毒样本的激光诱导击穿光谱和不含有新型冠状病毒样本的激光诱导击穿光谱训练学习得到,用于通过样本激光诱导击穿光谱检测对应的样本是否含有新型冠状病毒。
2.根据权利要求1所述的新型冠状病毒的检测方法,其特征在于,所述集成学习模型通过如下步骤训练得到:
确定训练样本;所述训练样本包括含有新型冠状病毒的第一样本和不含有新型冠状病毒的第二样本;
将训练样本随机分为两组,分别为训练集和测试集;所述训练集和测试集中第一样本和第二样本的比例相同;
将多个弱分类器集成得到集成学习模型;
通过训练集对集成学习模型训练以进行参数优化;
通过测试集对训练好的集成学习模型进行性能评价,以使得训练好的集成学习模型性能达到最优。
3.根据权利要求2所述的新型冠状病毒的检测方法,其特征在于,所述训练样本中第一样本和第二样本的比例可调。
4.根据权利要求2所述的新型冠状病毒的检测方法,其特征在于,将所述训练样本随机分为两组,具体包括:
对训练样本进行预处理,所述预处理包括:异常光谱剔除、去噪、背景扣除、强度归一化、降维以及特征标准化;
将预处理后的训练样本随机分为两组。
5.根据权利要求1至4任一项所述的新型冠状病毒的检测方法,其特征在于,所述样本为固体、液体或气溶胶。
6.一种新型冠状病毒的检测系统,其特征在于,包括:
样本确定单元,用于确定待检测样本;所述待检测样本可能含有新型冠状病毒;
光谱获取单元,用于对待检测样本进行激光聚焦烧蚀,获取待检测样本的激光诱导击穿光谱;
病毒检测单元,用于将待检测样本的激光诱导击穿光谱输入到训练好的集成学习模型,以判断待检测样本中是否含有新型冠状病毒;所述训练好的集成学习模型通过对含有新型冠状病毒样本的激光诱导击穿光谱和不含有新型冠状病毒样本的激光诱导击穿光谱训练学习得到,用于通过样本激光诱导击穿光谱检测对应的样本是否含有新型冠状病毒。
7.根据权利要求6所述的新型冠状病毒的检测系统,其特征在于,所述集成学习模型通过如下步骤训练得到:确定训练样本;所述训练样本包括含有新型冠状病毒的第一样本和不含有新型冠状病毒的第二样本;将训练样本随机分为两组,分别为训练集和测试集;所述训练集和测试集中第一样本和第二样本的比例相同;将多个弱分类器集成得到集成学习模型;通过训练集对集成学习模型训练以进行参数优化;通过测试集对训练好的集成学习模型进行性能评价,以使得训练好的集成学习模型性能达到最优。
8.根据权利要求7所述的新型冠状病毒的检测系统,其特征在于,所述训练样本中第一样本和第二样本的比例可调。
9.根据权利要求7所述的新型冠状病毒的检测系统,其特征在于,将所述训练样本随机分为两组,具体包括:对训练样本进行预处理,所述预处理包括:异常光谱剔除、去噪、背景扣除、强度归一化、降维以及特征标准化;将预处理后的训练样本随机分为两组。
10.根据权利要求6至9任一项所述的新型冠状病毒的检测系统,其特征在于,所述样本为固体、液体或气溶胶。
CN202010669899.1A 2020-07-13 2020-07-13 一种新型冠状病毒的检测方法及系统 Pending CN111832477A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010669899.1A CN111832477A (zh) 2020-07-13 2020-07-13 一种新型冠状病毒的检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010669899.1A CN111832477A (zh) 2020-07-13 2020-07-13 一种新型冠状病毒的检测方法及系统

Publications (1)

Publication Number Publication Date
CN111832477A true CN111832477A (zh) 2020-10-27

Family

ID=72922705

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010669899.1A Pending CN111832477A (zh) 2020-07-13 2020-07-13 一种新型冠状病毒的检测方法及系统

Country Status (1)

Country Link
CN (1) CN111832477A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112560597A (zh) * 2020-12-02 2021-03-26 吉林大学 一种基于显微高光谱的covid-19检测识别方法
CN112798529A (zh) * 2021-01-04 2021-05-14 中国工程物理研究院激光聚变研究中心 一种基于增强拉曼光谱和神经网络的新型冠状病毒检测方法及系统
CN114280033A (zh) * 2021-12-31 2022-04-05 中国医学科学院血液病医院(中国医学科学院血液学研究所) 一种基于激光诱导击穿光谱技术的血清快速检测装置
EP4083852A1 (en) * 2021-04-30 2022-11-02 Universidad de Sevilla Virus detection and quantification method in fluid samples by digital processing diffuse optical reflectance hyperspectral images obtained in the visible and near infrared ranges

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104697964A (zh) * 2015-03-10 2015-06-10 西北大学 一种随机森林算法结合激光诱导击穿光谱定量分析钢铁中硫磷的方法
CN106770189A (zh) * 2016-11-24 2017-05-31 浙江大学 一种基于激光诱导击穿光谱的烟叶铜元素快速检测方法
CN110763660A (zh) * 2019-10-22 2020-02-07 华南理工大学 基于集成学习的libs定量分析方法
CN111307782A (zh) * 2020-03-31 2020-06-19 吉林大学 一种基于激光诱导击穿光谱的细菌快速检测方法
CN111398250A (zh) * 2020-03-02 2020-07-10 北京理工大学 一种基于光与物质相互作用所产生的分子碎片谱的肿瘤诊断方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104697964A (zh) * 2015-03-10 2015-06-10 西北大学 一种随机森林算法结合激光诱导击穿光谱定量分析钢铁中硫磷的方法
CN106770189A (zh) * 2016-11-24 2017-05-31 浙江大学 一种基于激光诱导击穿光谱的烟叶铜元素快速检测方法
CN110763660A (zh) * 2019-10-22 2020-02-07 华南理工大学 基于集成学习的libs定量分析方法
CN111398250A (zh) * 2020-03-02 2020-07-10 北京理工大学 一种基于光与物质相互作用所产生的分子碎片谱的肿瘤诊断方法
CN111307782A (zh) * 2020-03-31 2020-06-19 吉林大学 一种基于激光诱导击穿光谱的细菌快速检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YANWU CHU等: "Discrimination of nasopharyngeal carcinoma serum using laser-induced breakdown spectroscopy combined with an extreme learning machine and random forest method", 《JOURNAL OF ANALYTICAL ATOMIC SPECTROMETRY》 *
朱毅宁: "动物组织激光诱导击穿光谱分类方法及核心算法研究", 《中国优秀硕士学位论文全文数据库》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112560597A (zh) * 2020-12-02 2021-03-26 吉林大学 一种基于显微高光谱的covid-19检测识别方法
CN112798529A (zh) * 2021-01-04 2021-05-14 中国工程物理研究院激光聚变研究中心 一种基于增强拉曼光谱和神经网络的新型冠状病毒检测方法及系统
CN112798529B (zh) * 2021-01-04 2022-05-10 中国工程物理研究院激光聚变研究中心 一种基于增强拉曼光谱和神经网络的新型冠状病毒检测方法及系统
EP4083852A1 (en) * 2021-04-30 2022-11-02 Universidad de Sevilla Virus detection and quantification method in fluid samples by digital processing diffuse optical reflectance hyperspectral images obtained in the visible and near infrared ranges
WO2022229413A1 (en) * 2021-04-30 2022-11-03 Universidad De Sevilla Method for detecting and quantifying viruses in fluid samples by means of digital processing of hyperspectral images of diffuse optical reflectance obtained in the visible and near infrared ranges
CN114280033A (zh) * 2021-12-31 2022-04-05 中国医学科学院血液病医院(中国医学科学院血液学研究所) 一种基于激光诱导击穿光谱技术的血清快速检测装置

Similar Documents

Publication Publication Date Title
CN111832477A (zh) 一种新型冠状病毒的检测方法及系统
US20190187048A1 (en) Spectroscopic systems and methods for the identification and quantification of pathogens
US10337975B2 (en) Method and system for characterizing particles using a flow cytometer
WO2018121122A1 (zh) 用于物品查验的拉曼光谱检测方法和电子设备
CN104807787A (zh) 一种基于激光诱导击穿光谱技术的茶叶分类鉴别方法
CN111707656B (zh) 一种基于拉曼散射光谱的脑脊液细胞检测方法及系统
CN108088834B (zh) 基于优化反向传播神经网络的包虫病血清拉曼光谱诊断仪
WO2021068545A1 (zh) 一种基于改进主成分分析的拉曼特征谱峰提取方法
CN108169213A (zh) 一种激光诱导击穿光谱谱峰元素自动识别方法
JP3248905B2 (ja) 水分含量を有する生物学的物質の分析方法
Chen et al. A novel diagnostic method: FT-IR, Raman and derivative spectroscopy fusion technology for the rapid diagnosis of renal cell carcinoma serum
WO2014201264A9 (en) Methods for detecting parasites, viruses, bacteria and drugs in human and animal blood and cerebral spinal fluid, using laser-induced breakdown spectroscopy
CN116030310A (zh) 一种基于激光诱导击穿光谱技术的样品分类方法及系统
Purandare et al. Infrared spectroscopy with multivariate analysis segregates low-grade cervical cytology based on likelihood to regress, remain static or progress
CN116858822A (zh) 一种基于机器学习和拉曼光谱的水体中磺胺嘧啶定量分析方法
CN111912823A (zh) 一种多成分农药残留荧光检测分析方法
CN116008245A (zh) 桑叶拉曼光谱指纹图谱的建立结合机器学习算法在桑叶属地来源鉴定中的应用
CN115420726A (zh) 一种利用重构sers光谱快速识别目标物的方法
EP3244191A1 (en) Method and system for characterizing particles using a flow cytometer
CN114781484A (zh) 基于卷积神经网络的癌症血清sers光谱分类方法
CN110108661B (zh) 一种模糊极大熵聚类的茶叶近红外光谱分类方法
KR102522202B1 (ko) Nir 분광학 데이터를 이용하여 혈당 레벨을 예측하는 장치 및 방법
CN106918571B (zh) 基于血清判别哺乳动物性别的近红外光谱分析方法
Manheim Differentiation of human, animal and synthetic hair by atr ftir spectroscopy
CN106841099B (zh) 基于毛发判别哺乳动物性别的近红外光谱分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20201027

RJ01 Rejection of invention patent application after publication