CN113393902A - 基于免疫表征技术对样本分类的方法、装置及存储介质 - Google Patents

基于免疫表征技术对样本分类的方法、装置及存储介质 Download PDF

Info

Publication number
CN113393902A
CN113393902A CN202010923587.9A CN202010923587A CN113393902A CN 113393902 A CN113393902 A CN 113393902A CN 202010923587 A CN202010923587 A CN 202010923587A CN 113393902 A CN113393902 A CN 113393902A
Authority
CN
China
Prior art keywords
category
infected
target
sample
coronavirus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010923587.9A
Other languages
English (en)
Inventor
王俊
李英睿
王健
郑汉城
刘兵行
沈凌浩
陶一敏
燕鸣琛
李振宇
罗瀚
宋捷
胡晓莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuhai Carbon Cloud Intelligent Technology Co ltd
Original Assignee
Zhuhai Carbon Cloud Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuhai Carbon Cloud Intelligent Technology Co ltd filed Critical Zhuhai Carbon Cloud Intelligent Technology Co ltd
Priority to PCT/CN2021/080279 priority Critical patent/WO2021180182A1/zh
Publication of CN113393902A publication Critical patent/CN113393902A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Biotechnology (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明实施例提供了一种基于免疫表征技术对样本分类的方法、装置、存储介质及电子装置,其中,该方法包括:利用免疫表征技术,检测差异肽段在目标待测样本与对照样本中相应的差异响应信号,以得到第二差异响应信号;使用目标模型对所述第二差异响应信号进行分析,确定所述目标待测样本所属的类别;输出所述目标待测样本所属的类别。通过本发明,解决了相关技术中存在的没有明确的针对肽段对样本是否被感染进行检测的技术的问题,进而达到了实现针对肽段对样本是否被感染进行检测的技术,提高样本所属类别的检测准确率的效果。

Description

基于免疫表征技术对样本分类的方法、装置及存储介质
技术领域
本发明实施例涉及通信领域,具体而言,涉及一种基于免疫表征技术 对样本分类的方法、装置、存储介质及电子装置。
背景技术
由于新冠肺炎患者以发热、干咳、乏力等症状为主要表现,单从临床 表现、胸部影像学难以将其与其他获得性肺炎区分。随后,国内多家检测 机构开发了针对新型冠状病毒的核酸检测试剂盒,利用核酸检测手段对我 国的感染患者进行了快速有效的确诊。核酸检测原理是根据病毒的基因序 列设计引物,通过PCR扩增以及在扩增过程中加入荧光探针标记的方法, 对扩增后产生的荧光信号进行检测,从而指示样本中是否存在病毒核酸。 核酸检测具有通量高、易开发、可定量等特点。核酸检测虽然是目前新冠 肺炎的确诊指标,但随着核酸检测开展,多项结果表明核酸检测具有较高 的假阴性率,检出率仅为30%-50%,这与核酸检测对采样部位要求较高有 关。同时,核酸检测的采样过程对医护人员的风险较高,而且只能检测病 毒核酸的存在但不能确定是否是活病毒。因此,开发一种对采样要求不高 (比如普适性的,只要采集到血就能检测)更具特异性,灵敏度更高,对 采样要求更低的检测手段尤为重要。在相关技术中没有明确的针对肽段对 样本是否含有新冠病毒进行检测的技术。
发明内容
本发明实施例提供了一种基于免疫表征技术对样本分类的方法、装置、 存储介质及电子装置,以至少解决相关技术中存在的没有明确的针对肽段 对样本是否被感染进行检测的技术的问题。
根据本发明的一个实施例,提供了一种基于免疫表征技术对样本分类 的方法,所述检测方法包括:利用免疫表征技术,检测差异肽段在目标待 测样本与对照样本中相应的差异响应信号,以得到第二差异响应信号,其 中,所述差异肽段为预先利用所述免疫表征技术筛选出的目的冠状病毒感 染的阳性样本与所述对照样本存在第一差异响应信号的肽段,所述对照样 本包括阴性对照样本和/或其他状态下的样本,所述其他状态下的样本包括 由除所述目的冠状病毒之外的其他病原体感染的样本,所述样本为血清样 本或血浆样本;使用目标模型对所述第二差异响应信号进行分析,确定所 述目标待测样本所属的类别,其中,所述目标模型为使用多组数据通过机 器学习训练出的,所述多组数据中的每组数据均包括:差异响应信号和差 异响应信号对应的待测样本所属的类别;输出所述目标待测样本所属的类 别。
可选地,在利用免疫表征技术,检测差异肽段在目标待测样本与对照 样本中相应的差异响应信号,以得到第二差异响应信号之前,所述方法还 包括:利用所述免疫表征技术筛选出对所述目的冠状病毒感染的阳性样本 与所述对照样本存在所述第一差异响应信号的肽段,并将筛选出的所述肽 段确定为所述差异肽段。
可选地,在使用目标模型对所述第二差异响应信号进行分析,确定所 述目标待测样本所属的症状类别之前,所述方法还包括:使用所述多组数 据通过机器学习对初始模型进行训练,以得到所述目标模型,其中,所述 目标模型包括第一模型或者第二模型;所述第一模型用于针对输入的信号 输出用于标识以下结果之一的标签:未被所述目的冠状病毒感染、已被所 述目的冠状病毒感染;所述第二模型用于针对输入的信号输出用于标识以下结果之一的标签:未被所述目的冠状病毒感染且未被感染的类别为第一 类别、未被所述目的冠状病毒感染且未被感染的类别为第二类别、已被所 述目的冠状病毒感染且感染的类别为第三类别、已被所述目的冠状病毒感 染且感染的类别为第四类别、已被所述目的冠状病毒感染且感染的类别为 第五类别、已被所述目的冠状病毒感染且感染的类别为第六类别,其中, 所述第三类别、所述第四类别、所述第五类别和所述第六类别所对应的感 染程度依次加重。
可选地,在所述目标模型包括所述第一模型的情况下,在输出所述目 标待测样本所属的类别之后,所述方法还包括:在确定输出的所述目标待 测样本所属的类别为未被所述目的冠状病毒感染的情况下,使用第三模型 对所述第二差异响应信号进行分析,确定所述目标待测样本所属的未被所 述目的冠状病毒感染的类别,其中,所述第三模型为使用多组数据通过机 器学习训练出的,所述多组数据中的每组数据均包括:差异响应信号和差异响应信号对应的待测样本所属的未被所述目的冠状病毒感染的类别,所 述未被所述目的冠状病毒感染的类别包括以下之一:未被所述目的冠状病 毒感染且未被感染的类别为第一类别、未被所述目的冠状病毒感染且未被 感染的类别为第二类别;输出所述目标待测样本所属的未被所述目的冠状 病毒感染的类别。
可选地,在所述目标模型包括所述第二模型的情况下,在输出所述目 标待测样本所属的症状类别之后,所述方法还包括:在确定输出的所述目 标待测样本所属的症状类别为已被所述目的冠状病毒感染的情况下,使用 第四模型对所述第二差异响应信号进行分析,确定所述目标待测样本所属 的已被所述目的冠状病毒感染的类别,其中,所述第四模型为使用多组数 据通过机器学习训练出的,所述多组数据中的每组数据均包括:差异响应信号和差异响应信号对应的待测样本所属的已被所述目的冠状病毒感染 的类别,所述已被所述目的冠状病毒感染的类别包括以下之一:已被所述 目的冠状病毒感染且感染的类别为第三类别、已被所述目的冠状病毒感染 且感染的类别为第四类别、已被所述目的冠状病毒感染且感染的类别为第 五类别、已被所述目的冠状病毒感染且感染的类别为第六类别;输出所述 目标待测样本所属的已被所述目的冠状病毒感染的类别。
可选地,所述目标模型包括第一线性核支持向量机SVM。
可选地,所述第三模型包括第二线性核支持向量机SVM。
可选地,所述第四模型包括第三线性核支持向量机SVM。
根据本发明的一个实施例,还提供了一种基于免疫表征技术对样本分 类的装置,所述装置包括:检测模块,用于利用免疫表征技术,检测差异 肽段在目标待测样本与对照样本中相应的差异响应信号,以得到第二差异 响应信号,其中,所述差异肽段为预先利用所述免疫表征技术筛选出的目 的冠状病毒感染的阳性样本与所述对照样本存在第一差异响应信号的肽 段,所述对照样本包括阴性对照样本和/或其他状态下的样本,所述其他状态下的样本包括由除所述目的冠状病毒之外的其他病原体感染的样本,所 述样本为血清样本或血浆样本;第一分析模块,用于使用目标模型对所述 第二差异响应信号进行分析,确定所述目标待测样本所属的类别,其中, 所述目标模型为使用多组数据通过机器学习训练出的,所述多组数据中的 每组数据均包括:差异响应信号和差异响应信号对应的待测样本所属的类 别;第一输出模块,用于输出所述目标待测样本所属的类别。
可选地,所述装置还包括:筛选模块,用于在利用免疫表征技术,检 测差异肽段在目标待测样本与对照样本中相应的差异响应信号,以得到第 二差异响应信号之前,利用所述免疫表征技术筛选出对所述目的冠状病毒 感染的阳性样本与所述对照样本存在所述第一差异响应信号的肽段,并将 筛选出的所述肽段确定为所述差异肽段。
可选地,所述装置还包括:训练模块,用于在使用目标模型对所述第 二差异响应信号进行分析,确定所述目标待测样本所属的症状类别之前, 使用所述多组数据通过机器学习对初始模型进行训练,以得到所述目标模 型,其中,所述目标模型包括第一模型或者第二模型;所述第一模型用于 针对输入的信号输出用于标识以下结果之一的标签:未被所述目的冠状病 毒感染、已被所述目的冠状病毒感染;所述第二模型用于针对输入的信号输出用于标识以下结果之一的标签:未被所述目的冠状病毒感染且未被感 染的类别为第一类别、未被所述目的冠状病毒感染且未被感染的类别为第 二类别、已被所述目的冠状病毒感染且感染的类别为第三类别、已被所述 目的冠状病毒感染且感染的类别为第四类别、已被所述目的冠状病毒感染 且感染的类别为第五类别、已被所述目的冠状病毒感染且感染的类别为第 六类别,其中,所述第三类别、所述第四类别、所述第五类别和所述第六 类别所对应的感染程度依次加重。
可选地,所述装置还包括:第二分析模块,用于在所述目标模型包括 所述第一模型的情况下,在输出所述目标待测样本所属的类别之后,且在 确定输出的所述目标待测样本所属的类别为未被所述目的冠状病毒感染 的情况下,使用第三模型对所述第二差异响应信号进行分析,确定所述目 标待测样本所属的未被所述目的冠状病毒感染的类别,其中,所述第三模 型为使用多组数据通过机器学习训练出的,所述多组数据中的每组数据均包括:差异响应信号和差异响应信号对应的待测样本所属的未被所述目的 冠状病毒感染的类别,所述未被所述目的冠状病毒感染的类别包括以下之 一:未被所述目的冠状病毒感染且未被感染的类别为第一类别、未被所述 目的冠状病毒感染且未被感染的类别为第二类别;第二输出模块,用于输 出所述目标待测样本所属的未被所述目的冠状病毒感染的类别。
可选地,所述装置还包括:第三分析模块,用于在所述目标模型包括 所述第二模型的情况下,在输出所述目标待测样本所属的症状类别之后, 且在确定输出的所述目标待测样本所属的症状类别为已被所述目的冠状 病毒感染的情况下,使用第四模型对所述第二差异响应信号进行分析,确 定所述目标待测样本所属的已被所述目的冠状病毒感染的类别,其中,所 述第四模型为使用多组数据通过机器学习训练出的,所述多组数据中的每组数据均包括:差异响应信号和差异响应信号对应的待测样本所属的已被 所述目的冠状病毒感染的类别,所述已被所述目的冠状病毒感染的类别包 括以下之一:已被所述目的冠状病毒感染且感染的类别为第三类别、已被 所述目的冠状病毒感染且感染的类别为第四类别、已被所述目的冠状病毒 感染且感染的类别为第五类别、已被所述目的冠状病毒感染且感染的类别 为第六类别;第三输出模块,用于输出所述目标待测样本所属的已被所述目的冠状病毒感染的类别。
根据本发明的又一个实施例,还提供了一种冠状病毒感染的检测方法, 所述检测方法包括:利用免疫表征技术筛选出对目的冠状病毒感染的阳性 样本与对照样本存在第一差异响应信号的肽段,记为差异肽段,所述样本 为血清样本或血浆样本;以所述差异肽段的所述第一差异响应信号为特征, 采用支持向量机的方法对所述阳性样本和所述对照样本进行分类模型构 建,得到样本分类模型;利用所述免疫表征技术,检测所述差异肽段在待 测样本与所述对照样本中相应的差异响应信号,记为第二差异响应信号; 将所述第二差异响应信号输入所述样本分类模型进行分类,从而获得所述 待测样本的所属症状类别;其中,所述对照样本包括阴性对照样本和其他 肺部疾病对照样本,所述其他肺部疾病指非所述目的冠状病毒感染引起的 肺部疾病,优选所述目的冠状病毒为SARS-CoV-2。
根据本发明的又一个实施例,还提供了一种冠状病毒感染的检测装置, 所述检测装置包括:差异肽段筛选模块,用于利用免疫表征技术筛选出对 目的冠状病毒感染的阳性样本与对照样本存在第一差异响应信号的肽段, 记为差异肽段,所述样本为血清样本或血浆样本;模型建立模块,用于以 所述差异肽段的所述第一差异响应信号为特征,采用支持向量机的方法对 所述阳性样本和所述对照样本进行分类模型构建,得到样本分类模型;响应信号检测模块,用于利用所述免疫表征技术,检测所述差异肽段在待测 样本与所述对照样本中相应的差异响应信号,记为第二差异响应信号;分 类检测模块,用于将所述第二差异响应信号输入所述样本分类模型进行分 类,从而获得所述待测样本的所属症状类别;其中,所述对照样本包括阴 性对照样本和其他肺部疾病对照样本,所述其他肺部疾病指非所述目的冠 状病毒感染引起的肺部疾病,优选所述目的冠状病毒为SARS-CoV-2。
根据本发明的又一个实施例,还提供了一种计算机可读存储介质,所 述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设 置为运行时执行上述任一项方法实施例中的步骤。
根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和 处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述 计算机程序以执行上述任一项方法实施例中的步骤。
通过本发明,可以基于神经网络来对差异肽段在目标待测样本与对照 样本中相应的差异响应信号进行检测,进而确定出样本所属的类别,因此, 可以解决相关技术中存在的没有明确的针对肽段对样本是否被感染进行 检测的技术的问题,达到了实现针对肽段对样本是否被感染进行检测的技 术,提高样本所属类别的检测准确率的效果。
附图说明
图1是本发明实施例的一种基于免疫表征技术对样本分类的方法的移 动终端的硬件结构框图;
图2是根据本发明实施例的基于免疫表征技术对样本分类的方法的流 程图;
图3是根据本发明实施例的基于留一法(Leave-one-out,LOO)验证分 类模型的分类性能的ROC曲线图;其中,数据集1验证敏感性=0.943, 特异性=0.900;数据集2验证敏感性=0.958,特异性=0.889;
图4是根据本发明实施例的以数据集1和数据集2互为训练集和测试 集,测试分类模型对新的待测数据的分类预测性能的ROC曲线图,其中, 数据集1作为训练集,数据集2作为测试集时,敏感性=0.845,特异性=0.889; 数据集2作为训练集,数据集1作为测试集时,敏感性=0.800,特异性=0.900;
图5是根据本发明实施例的验证结果图一;
图6是根据本发明实施例的验证结果图二;
图7是根据本发明实施例的验证结果图三;
图8是根据本发明实施例的基于免疫表征技术对样本分类的装置图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明的实施例。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语 “第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序 或先后次序。
术语解释:
ImmuneSignatuer技术:免疫表征技术,采用高密度随机多肽(比如, 130,000条多肽)芯片与血液中的抗体结合,通过与荧光标记的二抗孵育 后,在酶标仪中检测荧光值来反映血液中的抗体。该方法能够鉴定不同个 体之间差异表达的抗体。
多肽:本申请中指预测的或者筛选的能够与抗体特异性结合的任意一 条肽段。
抗原:指所有能够诱导机体发生免疫应答的物质。即能够被T/B淋巴 细胞表面的抗原受体(TCR/BCR)特异性结合,活化T/B细胞,使之增殖 分化,产生免疫应答产物(致敏淋巴细胞或抗体)并能与相应产物在体内 外发生特异性结合的物质。因此,抗原具备两方面的重要特性:免疫原性 和免疫反应性。本申请中的抗原指多肽半抗原与载体蛋白偶联之后形成的 具有免疫原性的完全抗原,可以为单一氨基酸序列的多肽与载体蛋白偶联 形成的多肽-载体蛋白偶联物;也可以为具有多种不同氨基酸序列的多肽 与载体蛋白偶联形成的多肽-载体蛋白偶联物的组合物。
ROC曲线:反应敏感性与特异性之间关系的曲线。横坐标X轴为1- 特异性,也称为假阳性率,X轴越接近零准确率越高;纵坐标Y轴称为敏 感度,也称为真阳性率,Y轴越大代表敏感度越好。根据曲线位置,把整 个图划分为两部分,曲线下方部分的面积被称为AUC(Area Under Curve), 用来表示预测准确性,AUC值越高,表明预测准确率越高。曲线越接近 左上角(X越小,Y越大),预测准确率越高。
下面结合实施例对本发明进行说明:
本申请实施例中所提供的方法实施例可以在移动终端、计算机终端或 者类似的运算装置中执行。以运行在移动终端上为例,图1是本发明实施 例的一种基于免疫表征技术对样本分类的方法的移动终端的硬件结构框 图。如图1所示,移动终端可以包括一个或多个(图1中仅示出一个)处 理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器 件FPGA等的处理装置)和用于存储数据的存储器104,其中,上述移动 终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本 领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移 动终端的结构造成限定。例如,移动终端还可包括比图1中所示更多或者 更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及 模块,如本发明实施例中的基于免疫表征技术对样本分类的方法对应的计 算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而 执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括 高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装 置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可 进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通 过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部 网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体 实例可包括移动终端的通信供应商提供的无线网络。在一个实例中,传输 装置106包括一个网络适配器(Network Interface Controller,简称为NIC), 其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例 中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其 用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种基于免疫表征技术对样本分类的方法,该实 施例是通过大量的健康人、其他肺部疾病及新冠肺炎患者的样本(血清样 本或者血浆样本)中差异表达的抗体特征数据,基于人工智能的方法对用 于确定样本的类别建立了分类模型。然后通过已知样本检测和验证了该分 类模型的灵敏度和特异性。表明该分类模型具有较高的分类准确性,利用 该分类模型对待测对象进行分类的灵敏度和特异性数据表明,利用该方法 能够有效地准确地确定样本的类别。下面对本实施例进行具体描述:
图2是根据本发明实施例的基于免疫表征技术对样本分类的方法的流 程图,如图2所示,该流程包括如下步骤:
S202,利用免疫表征技术,检测差异肽段在目标待测样本与对照样本 中相应的差异响应信号,以得到第二差异响应信号,其中,所述差异肽段 为预先利用所述免疫表征技术筛选出的目的冠状病毒感染的阳性样本与 所述对照样本存在第一差异响应信号的肽段,所述对照样本包括阴性对照 样本和/或其他状态下的样本,所述其他状态下的样本包括由除所述目的冠 状病毒之外的其他病原体感染的样本,所述样本为血清样本或血浆样本;
S204,使用目标模型对所述第二差异响应信号进行分析,确定所述目 标待测样本所属的类别,其中,所述目标模型为使用多组数据通过机器学 习训练出的,所述多组数据中的每组数据均包括:差异响应信号和差异响 应信号对应的待测样本所属的类别;
S206,输出所述目标待测样本所属的类别。
通过上述方法可以获得待测样本所属的类别,其中,不同的类别可以 用于指示待测样本是否被目的冠状病毒感染,和/或具体的未被感染的程度, 和/或具体的已被感染的程度。
可选地,上述其他病原体包括用于引起其他肺部疾病的病毒或细菌, 其他肺部疾病指非目的冠状病毒感染引起的肺部疾病。其中,当上述的目 标待测样本的类型为血清样本的情况下,上述对照样本的类型也为血清样 本,当上述的目标待测样本的类型为血浆样本的情况下,上述对照样本的 类型也为血浆样本,即,目标待测样本的类型和对照样本的类型是一一对 应的,后续实施例也是如此,后续不再赘述。
通过本发明,可以基于机器学习模型来对差异肽段在目标待测样本与 对照样本中相应的差异响应信号进行检测,进而确定出样本所属的类别, 因此,可以解决相关技术中存在的没有明确的针对肽段对样本是否被感染 进行检测的技术的问题,达到了实现针对肽段对样本是否被感染进行检测 的技术,提高样本所属类别的检测准确率的效果。
下面结合具体实施例对上述方法进行描述:
在本实施例中,可以根据样本所属的类别,分别筛选相应的差异表达 的抗体特征后进行训练,就可以获得不同类别的分类筛选模型。从而准确 地对不同类别的样本进行类别的有效确认。
(一)临床设计:
样本包含3组,分别是健康(记为H)的血浆样本,其他肺部疾病(记 为T,肺结核为主)的血浆样本,新冠肺炎(记为F)的血浆样本。第一 批数据共80个样本,H:T:F=5:5:70,记为数据集1;第二批数据共79个 样本,H:T:F=5:4:70,记为数据集2,需要说明的是,上述样本的数量仅 是一个示例性说明,在实际应用还可以采用其他数量的样本数据,例如,200个样本、500个样本等,并且样本数据个数越多,所得到的最终确认 结果实际上是越准确的。
(二)差异肽段筛选:
可选地,在利用免疫表征技术,检测差异肽段在目标待测样本与对照 样本中相应的差异响应信号,以得到第二差异响应信号之前,所述方法还 包括:利用所述免疫表征技术筛选出对所述目的冠状病毒感染的阳性样本 与所述对照样本存在所述第一差异响应信号的肽段,并将筛选出的所述肽 段确定为所述差异肽段。下面结合具体操作对如何确定差异肽段进行描述:
设计的思路是,第一步,通过F与H的对比,可以筛选出被能够导致 肺部疾病的病原体所感染的血浆样本中显著上升的HT多肽特征,此类特 征对应着血浆样本在被病原体感染后所带来的抗体浓度上升,但是找出的 抗体不一定是新冠病毒(对应于上述的目的冠状病毒)特异的抗体,也可 能是由其他导致肺部疾病感染的病原体或者其他因素引起的抗体提高;第 二步,通过对比F与T,可以找出新冠病毒相比其他肺部疾病特异性的抗 体,但是由于疾病状态下抗体表达比较复杂,且受T的样本数量限制,新 冠病毒感染与其他肺部疾病的比较可能会容易错误的找到一些非特异性 的HT多肽;因此,为了进一步精准地获得新冠特异性肽段,最后我们将 第一步与第二步中找出的特征肽段取交集,从而得到具有高准确性的新冠 特异肽段。
具体筛选方法:将原始数据做log10转换之后,不进行数据校正(筛 选肽段如果是基于测得数据的,则未做数据校正;如果基于先验知识、比 对结果等的,则本身也无需校正)。假设新冠病毒会造成特定抗体信号的 升高,因此,我们通过单尾的T检验(T检验是一个词,跟肺部疾病的T 不是同一个T),需要说明的是,在其他实施方式中,任何可以用来检验 组间均值显著差异的统计检验均可以代替这里的单尾T检验。计算每个特 征F相比于T升高的p值,并进行多重假设校正,记为p_FT_BH;同时, 计算每个特征F相比于H升高的p值,并进行多重假设校正,记为 p_FH_BH;筛选所有同时满足p_FT_BH<0.05且p_FH_BH<0.05的特 征肽段,作为目标肽段。基于数据集1,筛选特征肽段864个。该方法相 比于数据校正后筛选,能得到更稳定的信号肽段。
(三)分类模型的构建:
可选地,在使用目标模型对所述第二差异响应信号进行分析,确定所 述目标待测样本所属的症状类别之前,所述方法还包括:使用所述多组数 据通过机器学习对初始模型进行训练,以得到所述目标模型,其中,所述 目标模型包括第一模型或者第二模型;所述第一模型用于针对输入的信号 输出用于标识以下结果之一的标签:未被所述目的冠状病毒感染、已被所 述目的冠状病毒感染;所述第二模型用于针对输入的信号输出用于标识以下结果之一的标签:未被所述目的冠状病毒感染且未被感染的类别为第一 类别、未被所述目的冠状病毒感染且未被感染的类别为第二类别、已被所 述目的冠状病毒感染且感染的类别为第三类别、已被所述目的冠状病毒感 染且感染的类别为第四类别、已被所述目的冠状病毒感染且感染的类别为 第五类别、已被所述目的冠状病毒感染且感染的类别为第六类别,其中, 所述第三类别、所述第四类别、所述第五类别和所述第六类别所对应的感 染程度依次加重。下面结合具体操作对如何构建目标模型进行描述:
可选地,利用新冠病毒导致的差异肽段的数据进行建模,该数据包含 3个类别:未被感染的血浆样本的数据(记为H),其他肺部疾病的血浆样 本的数据(肺结核为主,记为T),新冠病毒感染的血浆样本的数据(记 为F)。第一批数据共80个样本,H:T:F=5:5:70,用作训练数据,记为数 据集1;第二批数据供79个样本,H:T:F=5:4:70,可用于测试,记为数据 集2。将数据的差异肽段作为特征(具体以差异肽段的信号值作为特征), 进行数据校正后(数据校正包含的步骤有异常值去除、芯片中位数校正、 批次均值校正、分位数校正),采用支持向量机分类器进行分类模型构建, 模型核函数使用线性核,损失函数的类别权重为训练集类别数量的反比, 区分目标血浆样本是否属于新冠病毒感染的血浆样本(即F为类别1,非 F为类别0)。需要说明的是,本实施例的样本来自深圳市第三人民医院。
为了能更好的应用所有差异特征肽段的信息,较优的方式是通过构建 一个模型(即,上述的目标模型),通过输入的数据特征来预测样本是否 被新冠病毒感染。考虑到模型的预测性能、鲁棒性与可解释性,我们选择 使用线性核的支持向量机(当然,选择其他的神经网络模型也是可行的, 本发明是以线性核SVM为例来进行说明的)来进行分类,使用的错误惩 罚权重为1.0,损失函数的类别权重为训练集类别数量的反比。
需要说明的是,上述训练的模型的分类粒度是可调的,一个具体实施 方式中,可以将上述训练的模型的分类粒度调整为仅判断样本是未被所述 目的冠状病毒感染的样本还是已被所述目的冠状病毒感染的样本,一个更 优选的实施方式中,还可以将上述训练的模型的分类粒度调整的更细,例 如,可以将上述训练的模型的分类粒度进一步调整为可以判断如下分类: 未被所述目的冠状病毒感染且未被感染的类别为第一类别、未被所述目的冠状病毒感染且未被感染的类别为第二类别、已被所述目的冠状病毒感染 且感染的类别为第三类别、已被所述目的冠状病毒感染且感染的类别为第 四类别、已被所述目的冠状病毒感染且感染的类别为第五类别、已被所述 目的冠状病毒感染且感染的类别为第六类别,其中,所述第三类别、所述 第四类别、所述第五类别和所述第六类别所对应的感染程度依次加重(需 要说明的是,上述第三类别、第四类别、第五类别和第六类别的划分仅是 一种可选的划分方式,在实际应用中还可以基于感染的程度做更少类的划 分,或者更多类的划分)。上述的第一类别可以是当前未被新冠病毒感染, 但是存在新冠病毒的抗体的类别(即,对应的样本之前被新冠病毒感染过 的样本),上述第二类别可以是从未被新冠病毒感染的类别。
在上述训练的模型的分类粒度为仅判断样本是未被所述目的冠状病 毒感染的样本还是已被所述目的冠状病毒感染的样本的情况下,若需要进 一步判断更细化的类别,可以引入其他的模型来进行判别,例如,
在所述目标模型包括所述第一模型的情况下,在输出所述目标待测样 本所属的类别之后,所述方法还包括:在确定输出的所述目标待测样本所 属的类别为未被所述目的冠状病毒感染的情况下,使用第三模型对所述第 二差异响应信号进行分析,确定所述目标待测样本所属的未被所述目的冠 状病毒感染的类别,其中,所述第三模型为使用多组数据通过机器学习训 练出的,所述多组数据中的每组数据均包括:差异响应信号和差异响应信号对应的待测样本所属的未被所述目的冠状病毒感染的类别,所述未被所 述目的冠状病毒感染的类别包括以下之一:未被所述目的冠状病毒感染且 未被感染的类别为第一类别、未被所述目的冠状病毒感染且未被感染的类 别为第二类别;输出所述目标待测样本所属的未被所述目的冠状病毒感染 的类别。
在所述目标模型包括所述第二模型的情况下,在输出所述目标待测样 本所属的症状类别之后,所述方法还包括:在确定输出的所述目标待测样 本所属的症状类别为已被所述目的冠状病毒感染的情况下,使用第四模型 对所述第二差异响应信号进行分析,确定所述目标待测样本所属的已被所 述目的冠状病毒感染的类别,其中,所述第四模型为使用多组数据通过机 器学习训练出的,所述多组数据中的每组数据均包括:差异响应信号和差异响应信号对应的待测样本所属的已被所述目的冠状病毒感染的类别,所 述已被所述目的冠状病毒感染的类别包括以下之一:已被所述目的冠状病 毒感染且感染的类别为第三类别、已被所述目的冠状病毒感染且感染的类 别为第四类别、已被所述目的冠状病毒感染且感染的类别为第五类别、已 被所述目的冠状病毒感染且感染的类别为第六类别;输出所述目标待测样 本所属的已被所述目的冠状病毒感染的类别。
可选地,上述的第三模型也可以是一种线性核SVM,上述的第四模 型也可以是一种线性核SVM,但是上述模型类型仅是一种示例性说明, 在实际应用中,还可以对其他类型的模型做训练,以得到上述的第三模型 和/或第四模型。
(四)模型分类性能的验证:
为了验证该分类模型(即,上述的目标模型)对于上述864个差异肽 段的特征数据的建模能力,在单一数据集上,即分别对数据集1与数据集 2,基于留一法(Leave-one-out,LOO)验证分类模型的分类性能,验证的 ROC曲线见图3。其中,数据集1验证敏感性=0.943,特异性=0.900;数 据集2验证敏感性=0.958,特异性=0.889。
为了测试上述分类模型在新数据方面的预测性能,分别将数据集1和 数据集2中之一作为训练集,另一个数据集作为测试集,进行性能测试, 测试的ROC曲线见图4。其中,数据集1作为训练集,数据集2作为测 试集时,敏感性=0.845,特异性=0.889;数据集2作为训练集,数据集1 作为测试集时,敏感性=0.800,特异性=0.900)。
从上述两方面的测试结果可以看出,采用该分类模型对新冠肺炎的样 本进行检测分类的敏感性和特异性都比较高(ROC曲线的AUC(Area Under The Curve,曲线下面积)>0.9)。
(五)模型在对待测样本进行分类中的应用
模型在上述864个差异肽段的特征数据上训练完成后,可用于预测新 的差异肽段的特征数据是否对应于新冠病毒感染的样本,具体的使用方法 为:对新的样本进行相同的864个差异肽段的响应信号值的检测,进行必 要的预处理校正后,将筛选出的864个肽段特征数据输入模型,并根据模 型输出的预测结果判断该样本是否为被新冠病毒感染的样本。
此外,为了验证上述分类模型的分类检测的准确度,还综合了特定地 区的样本数据对上述模型进行了验证,具体如下:
在此次验证过程中,主要采集了来自合肥和武汉的样本数据,其中, 按照样本被新冠病毒感染的严重程度分成了四类,分别为疑似(suspected) 类型、轻型(Mild)类型、普通(Regular)类型和重型(Severe)类型, 具体见表1(其中,武汉的数据由于可能包含大量假阳的诊断,后续进行 了N蛋白的测试,此处21*为去除了N蛋白阳性的数据):
表1
Type 合肥数据 武汉数据
Suspected 15 21*
Mild 18 -
Regular 38 40
Severe 23 32
需要说明的是,武汉的样本来自人民医院东院和中国人民解放军中部 战区总医院,合肥的数据来自安徽省立医院感染病院,合肥和武汉的样本 类型均为血清样本。
在需要对感染程度进行分类的情况下,利用ANOVA挑选多类别的差 异肽段,利用Benjamini&Hochberg方法(BH法)计算P值的校正结果, 记为p_BH。其中,基于合肥数据,以p_BH<0.005挑选出3171条显著 差异性的肽段。武汉数据由于效果不佳,未进行此项分析。
在仅需要确定是否被感染的情况下,利用t-test单尾检验挑选新冠特 征特异性表达(显著上升)的肽段,利用Benjamini&Hochberg方法(BH 法)计算P值的校正结果,记为p_BH。其中,基于合肥数据,以p_BH< 0.005挑选出2730条显著特异性的肽段,基于武汉数据,以p_BH<0.005 挑选出101条显著特异性的肽段。
由于数据批次效应较强,且深圳、武汉、合肥的样本不同级别的比例 都不一致,导致最终肽段数量不一样,通过该验证方法可以在不同的数据 与级别的比例情况下验证建模方法的可靠性与普适性。
本次使用的模型为利用svm来构建的分类模型(其中主要参数可以与 经过深圳的样本训练数据所训练的模型参数保持一致(kernel=linear; class_weight=balanced等)),此外,本次验证操作是利用留一法来进行模 型性能验证,基于AUC来评价模型表现。
在仅需要确定是否被感染的情况下,针对合肥和武汉的样本数据分别 利用模型进行检测,得到的结果如图5和图6所示,其中,在合肥的数据 中,采用本方法构建的检测模型,模型预测阈值为0.5。
如图5和图6所示,两个模型都有AUC>0.9,说明模型效果较好, 其中:
敏感性=TP/(TP+FN);特异性=TN/(TN+FP)
合肥:敏感性=TP/(TP+FN)=76/(76+3)=0.962
特异性=TN/(TN+FP)=15/(15+0)=1.000
武汉:敏感性=TP/(TP+FN)=68/72=0.944
特异性=TN/(TN+FP)=20/21=0.952
可见,取模型预测0.5为阈值时,敏感性,特异性都>0.8。
在需要对感染程度进行分类的情况下,利用模型对合肥的数据进行检 测,得到的结果如图7所示,在多分类情况下,AUC>0.9,说明模型效 果较好。
从混淆矩阵可以看出,大部分的分类错误出现在相邻类别(如4个 mild预测成了regular,仅有2个预测成severe;或者5个severe预测成了 regular,仅有2个预测为mild)说明模型能比较准确的判断各个新冠的级 别。可以看到在不同的数据集,不同的新冠级别的分类上,模型都是比较 有效的,所以建模的方法也是比较有效的。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都 表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受 所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序 或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实 施例均属于优选实施例,所涉及的动作并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根 据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当 然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理 解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软 件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如 ROM/RAM、磁碟、光盘)中,包括若干指令用以使得计算设备执行本发 明各个实施例所述的方法,或者是使得处理器来执行本发明各个实施例所 述的方法。
本实施例中还提供了一种基于免疫表征技术对样本分类的装置,如图 8所示,该装置包括:
检测模块82,用于利用免疫表征技术,检测差异肽段在目标待测样本 与对照样本中相应的差异响应信号,以得到第二差异响应信号,其中,所 述差异肽段为预先利用所述免疫表征技术筛选出的目的冠状病毒感染的 阳性样本与所述对照样本存在第一差异响应信号的肽段,所述对照样本包 括阴性对照样本和/或其他状态下的样本,所述其他状态下的样本包括由除 所述目的冠状病毒之外的其他病原体感染的样本,所述样本为血清样本或 血浆样本;
第一分析模块84,用于使用目标模型对所述第二差异响应信号进行分 析,确定所述目标待测样本所属的类别,其中,所述目标模型为使用多组 数据通过机器学习训练出的,所述多组数据中的每组数据均包括:差异响 应信号和差异响应信号对应的待测样本所属的类别;
第一输出模块86,用于输出所述目标待测样本所属的类别。
可选地,所述装置还包括:筛选模块,用于在利用免疫表征技术,检 测差异肽段在目标待测样本与对照样本中相应的差异响应信号,以得到第 二差异响应信号之前,利用所述免疫表征技术筛选出对所述目的冠状病毒 感染的阳性样本与所述对照样本存在所述第一差异响应信号的肽段,并将 筛选出的所述肽段确定为所述差异肽段。
可选地,所述装置还包括:训练模块,用于在使用目标模型对所述第 二差异响应信号进行分析,确定所述目标待测样本所属的症状类别之前, 使用所述多组数据通过机器学习对初始模型进行训练,以得到所述目标模 型,其中,所述目标模型包括第一模型或者第二模型;所述第一模型用于 针对输入的信号输出用于标识以下结果之一的标签:未被所述目的冠状病 毒感染、已被所述目的冠状病毒感染;所述第二模型用于针对输入的信号输出用于标识以下结果之一的标签:未被所述目的冠状病毒感染且未被感 染的类别为第一类别、未被所述目的冠状病毒感染且未被感染的类别为第 二类别、已被所述目的冠状病毒感染且感染的类别为第三类别、已被所述 目的冠状病毒感染且感染的类别为第四类别、已被所述目的冠状病毒感染 且感染的类别为第五类别、已被所述目的冠状病毒感染且感染的类别为第 六类别,其中,所述第三类别、所述第四类别、所述第五类别和所述第六 类别所对应的感染程度依次加重。
可选地,所述装置还包括:第二分析模块,用于在所述目标模型包括 所述第一模型的情况下,在输出所述目标待测样本所属的类别之后,且在 确定输出的所述目标待测样本所属的类别为未被所述目的冠状病毒感染 的情况下,使用第三模型对所述第二差异响应信号进行分析,确定所述目 标待测样本所属的未被所述目的冠状病毒感染的类别,其中,所述第三模 型为使用多组数据通过机器学习训练出的,所述多组数据中的每组数据均包括:差异响应信号和差异响应信号对应的待测样本所属的未被所述目的 冠状病毒感染的类别,所述未被所述目的冠状病毒感染的类别包括以下之 一:未被所述目的冠状病毒感染且未被感染的类别为第一类别、未被所述 目的冠状病毒感染且未被感染的类别为第二类别;第二输出模块,用于输 出所述目标待测样本所属的未被所述目的冠状病毒感染的类别。
可选地,所述装置还包括:第三分析模块,用于在所述目标模型包括 所述第二模型的情况下,在输出所述目标待测样本所属的症状类别之后, 且在确定输出的所述目标待测样本所属的症状类别为已被所述目的冠状 病毒感染的情况下,使用第四模型对所述第二差异响应信号进行分析,确 定所述目标待测样本所属的已被所述目的冠状病毒感染的类别,其中,所 述第四模型为使用多组数据通过机器学习训练出的,所述多组数据中的每组数据均包括:差异响应信号和差异响应信号对应的待测样本所属的已被 所述目的冠状病毒感染的类别,所述已被所述目的冠状病毒感染的类别包 括以下之一:已被所述目的冠状病毒感染且感染的类别为第三类别、已被 所述目的冠状病毒感染且感染的类别为第四类别、已被所述目的冠状病毒 感染且感染的类别为第五类别、已被所述目的冠状病毒感染且感染的类别 为第六类别;第三输出模块,用于输出所述目标待测样本所属的已被所述目的冠状病毒感染的类别。
可选地,所述目标模型包括第一线性核支持向量机SVM。
可选地,所述第三模型包括第二线性核支持向量机SVM。
可选地,所述第四模型包括第三线性核支持向量机SVM。
根据本发明的一个实施例,还提供了一种冠状病毒感染的检测方法, 检测方法包括:利用免疫表征技术筛选出对目的冠状病毒感染的阳性样本 与对照样本存在第一差异响应信号的肽段,记为差异肽段,所述样本为血 清样本或血浆样本;以差异肽段的第一差异响应信号为特征,采用支持向 量机的方法对阳性样本和对照样本进行分类模型构建,得到样本分类模型; 利用免疫表征技术,检测差异肽段在待测样本与对照样本中相应的差异响 应信号,记为第二差异响应信号;将第二差异响应信号输入样本分类模型 进行分类,从而获得待测样本的所属症状类别;其中,对照样本包括阴性 对照样本和其他肺部疾病的样本,其他肺部疾病指非目的冠状病毒感染引 起的肺部疾病,优选目的冠状病毒为SARS-CoV-2。
优选地,利用免疫表征技术筛选出对目的冠状病毒感染的阳性样本与 对照样本存在第一差异响应信号的肽段,记为差异肽段包括:选取目的冠 状病毒感染的阳性样本、阴性对照样本和其他肺部疾病对照样本,其他肺 部疾病指目的冠状病毒之外的病毒感染引起的肺部疾病;采用免疫表征技 术,将阳性样本、阴性对照样本和其他肺部疾病对照样本与多肽阵列芯片 结合,获得结合肽段响应的信号值;针对每个结合肽段,计算阳性样本的 信号值与阴性对照样本的信号值之间存在差异时的p值,记为第一p值, 同时计算阳性样本的信号值与其他肺部疾病对照样本的信号值存在差异 时的p值,记为第二p值;保留所有符合第一p值和第二p值同时满足第 三阈值的结合肽段,从而得到差异肽段;优选第三阈值为<0.05。
优选地,对结合肽段的信号值进行log10转换,以转换后的log值为 特征,通过单尾T检验,计算各特征在阳性样本与阴性对照样本之间存在 差异时的p值,并对p值进行多重假设检验校正,得到第一p值;同时计 算相应的特征在阳性样本与其他肺部疾病对照样本之间存在差异时的p值, 并对p值进行多重假设检验校正,记为第二p值;筛选同时满足第一p值 小于第三阈值且第二p值小于第三阈值的结合肽段,从而得到差异肽段。
根据本发明另一个实施例,还提供了一种冠状病毒感染的检测装置, 该检测装置包括:差异肽段筛选模块,用于利用免疫表征技术筛选出对目 的冠状病毒感染的阳性样本与对照样本存在第一差异响应信号的肽段,记 为差异肽段,所述样本为血清样本或血浆样本;模型建立模块,用于以差 异肽段的第一差异响应信号为特征,采用支持向量机的方法对阳性样本和 对照样本进行分类模型构建,得到样本分类模型;响应信号检测模块,用 于利用免疫表征技术,检测差异肽段在待测样本与对照样本中相应的差异 响应信号,记为第二差异响应信号;分类检测模块,用于将第二差异响应 信号输入样本分类模型进行分类,从而获得待测样本的所属症状类别;其 中,对照样本包括阴性对照样本和其他肺部疾病的样本,其他肺部疾病指 非目的冠状病毒感染引起的肺部疾病,优选目的冠状病毒为SARS-CoV-2。
优选地,差异肽段筛选模块包括:样本选择单元,用于选取目的冠状 病毒感染的阳性样本、阴性对照样本和其他肺部疾病对照样本,其他肺部 疾病指目的冠状病毒之外的病毒感染引起的肺部疾病;信号获取单元,用 于采用免疫表征技术,将阳性样本、阴性对照样本和其他肺部疾病对照样 本与多肽阵列芯片结合,获得结合肽段响应的信号值;差异肽段筛选单元, 用于针对每个结合肽段,计算阳性样本的信号值与阴性对照样本的信号值之间存在差异时的p值,记为第一p值,同时计算阳性样本的信号值与其 他肺部疾病对照样本的信号值存在差异时的p值,记为第二p值;保留所 有符合第一p值和第二p值同时满足第三阈值的结合肽段,从而得到差异 肽段;优选第三阈值为<0.05。
优选地,差异肽段筛选单元包括:信号转换子单元,用于对结合肽段 的信号值进行log10转换;差异肽段筛选子单元,用于以转换后的log值 为特征,通过单尾T检验,计算各特征在阳性样本与阴性对照样本之间存 在差异时的p值,并对p值进行多重假设检验校正,得到第一p值;同时 计算相应的特征在阳性样本与其他肺部疾病对照样本之间存在差异时的p 值,并对p值进行多重假设检验校正,记为第二p值;筛选同时满足第一 p值小于第三阈值且第二p值小于第三阈值的结合肽段,从而得到差异肽 段。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解 到本申请可借助软件加必需的检测仪器等硬件设备的方式来实现。基于这 样的理解,本申请的技术方案中数据处理的部分可以以软件产品的形式体 现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、 光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服 务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分的 方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相 同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的 不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例, 所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请可用于众多通用或专用的计算系统环境或配置中。例如:个人 计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器 系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、 小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等 等。
本发明的实施例还提供了一种计算机可读存储介质,该计算机可读存 储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上 述任一项方法实施例中的步骤。
在一个示例性实施例中,上述计算机可读存储介质可以包括但不限于: U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器 (Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各 种可以存储计算机程序的介质。
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存 储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述 任一项方法实施例中的步骤。
在一个示例性实施例中,上述电子装置还可以包括传输设备以及输入 输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述 处理器连接。
本实施例中的具体示例可以参考上述实施例及示例性实施方式中所 描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤 可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者 分布在多个计算装置所组成的网络上,它们可以用计算装置可执行的程序 代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并 且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或 者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件 和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于 本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原 则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护 范围之内。

Claims (12)

1.一种基于免疫表征技术对样本分类的方法,其特征在于,所述方法包括:
利用免疫表征技术,检测差异肽段在目标待测样本与对照样本中相应的差异响应信号,以得到第二差异响应信号,其中,所述差异肽段为预先利用所述免疫表征技术筛选出的目的冠状病毒感染的阳性样本与所述对照样本存在第一差异响应信号的肽段,所述对照样本包括阴性对照样本和/或其他状态下的样本,所述其他状态下的样本包括由除所述目的冠状病毒之外的其他病原体感染的样本,所述样本为血清样本或血浆样本;
使用目标模型对所述第二差异响应信号进行分析,确定所述目标待测样本所属的类别,其中,所述目标模型为使用多组数据通过机器学习训练出的,所述多组数据中的每组数据均包括:差异响应信号和差异响应信号对应的待测样本所属的类别;
输出所述目标待测样本所属的类别。
2.根据权利要求1所述的方法,其特征在于,在利用免疫表征技术,检测差异肽段在目标待测样本与对照样本中相应的差异响应信号,以得到第二差异响应信号之前,所述方法还包括:
利用所述免疫表征技术筛选出对所述目的冠状病毒感染的阳性样本与所述对照样本存在所述第一差异响应信号的肽段,并将筛选出的所述肽段确定为所述差异肽段。
3.根据权利要求1所述的方法,其特征在于,在使用目标模型对所述第二差异响应信号进行分析,确定所述目标待测样本所属的症状类别之前,所述方法还包括:
使用所述多组数据通过机器学习对初始模型进行训练,以得到所述目标模型,其中,所述目标模型包括第一模型或者第二模型;
所述第一模型用于针对输入的信号输出用于标识以下结果之一的标签:未被所述目的冠状病毒感染、已被所述目的冠状病毒感染;
所述第二模型用于针对输入的信号输出用于标识以下结果之一的标签:未被所述目的冠状病毒感染且未被感染的类别为第一类别、未被所述目的冠状病毒感染且未被感染的类别为第二类别、已被所述目的冠状病毒感染且感染的类别为第三类别、已被所述目的冠状病毒感染且感染的类别为第四类别、已被所述目的冠状病毒感染且感染的类别为第五类别、已被所述目的冠状病毒感染且感染的类别为第六类别,其中,所述第三类别、所述第四类别、所述第五类别和所述第六类别所对应的感染程度依次加重。
4.根据权利要求3所述的方法,其特征在于,
在所述目标模型包括所述第一模型的情况下,在输出所述目标待测样本所属的类别之后,所述方法还包括:在确定输出的所述目标待测样本所属的类别为未被所述目的冠状病毒感染的情况下,使用第三模型对所述第二差异响应信号进行分析,确定所述目标待测样本所属的未被所述目的冠状病毒感染的类别,其中,所述第三模型为使用多组数据通过机器学习训练出的,所述多组数据中的每组数据均包括:差异响应信号和差异响应信号对应的待测样本所属的未被所述目的冠状病毒感染的类别,所述未被所述目的冠状病毒感染的类别包括以下之一:未被所述目的冠状病毒感染且未被感染的类别为第一类别、未被所述目的冠状病毒感染且未被感染的类别为第二类别;输出所述目标待测样本所属的未被所述目的冠状病毒感染的类别;
在所述目标模型包括所述第二模型的情况下,在输出所述目标待测样本所属的症状类别之后,所述方法还包括:在确定输出的所述目标待测样本所属的症状类别为已被所述目的冠状病毒感染的情况下,使用第四模型对所述第二差异响应信号进行分析,确定所述目标待测样本所属的已被所述目的冠状病毒感染的类别,其中,所述第四模型为使用多组数据通过机器学习训练出的,所述多组数据中的每组数据均包括:差异响应信号和差异响应信号对应的待测样本所属的已被所述目的冠状病毒感染的类别,所述已被所述目的冠状病毒感染的类别包括以下之一:已被所述目的冠状病毒感染且感染的类别为第三类别、已被所述目的冠状病毒感染且感染的类别为第四类别、已被所述目的冠状病毒感染且感染的类别为第五类别、已被所述目的冠状病毒感染且感染的类别为第六类别;输出所述目标待测样本所属的已被所述目的冠状病毒感染的类别。
5.一种基于免疫表征技术对样本分类的装置,其特征在于,所述装置包括:
检测模块,用于利用免疫表征技术,检测差异肽段在目标待测样本与对照样本中相应的差异响应信号,以得到第二差异响应信号,其中,所述差异肽段为预先利用所述免疫表征技术筛选出的目的冠状病毒感染的阳性样本与所述对照样本存在第一差异响应信号的肽段,所述对照样本包括阴性对照样本和/或其他状态下的样本,所述其他状态下的样本包括由除所述目的冠状病毒之外的其他病原体感染的样本,所述样本为血清样本或血浆样本;
第一分析模块,用于使用目标模型对所述第二差异响应信号进行分析,确定所述目标待测样本所属的类别,其中,所述目标模型为使用多组数据通过机器学习训练出的,所述多组数据中的每组数据均包括:差异响应信号和差异响应信号对应的待测样本所属的类别;
第一输出模块,用于输出所述目标待测样本所属的类别。
6.根据权利要求5所述的装置,其特征在于,所述装置还包括:
筛选模块,用于在利用免疫表征技术,检测差异肽段在目标待测样本与对照样本中相应的差异响应信号,以得到第二差异响应信号之前,利用所述免疫表征技术筛选出对所述目的冠状病毒感染的阳性样本与所述对照样本存在所述第一差异响应信号的肽段,并将筛选出的所述肽段确定为所述差异肽段。
7.根据权利要求5所述的装置,其特征在于,所述装置还包括:
训练模块,用于在使用目标模型对所述第二差异响应信号进行分析,确定所述目标待测样本所属的症状类别之前,使用所述多组数据通过机器学习对初始模型进行训练,以得到所述目标模型,其中,所述目标模型包括第一模型或者第二模型;
所述第一模型用于针对输入的信号输出用于标识以下结果之一的标签:未被所述目的冠状病毒感染、已被所述目的冠状病毒感染;
所述第二模型用于针对输入的信号输出用于标识以下结果之一的标签:未被所述目的冠状病毒感染且未被感染的类别为第一类别、未被所述目的冠状病毒感染且未被感染的类别为第二类别、已被所述目的冠状病毒感染且感染的类别为第三类别、已被所述目的冠状病毒感染且感染的类别为第四类别、已被所述目的冠状病毒感染且感染的类别为第五类别、已被所述目的冠状病毒感染且感染的类别为第六类别,其中,所述第三类别、所述第四类别、所述第五类别和所述第六类别所对应的感染程度依次加重。
8.根据权利要求7所述的装置,其特征在于,
所述装置还包括:第二分析模块,用于在所述目标模型包括所述第一模型的情况下,在输出所述目标待测样本所属的类别之后,且在确定输出的所述目标待测样本所属的类别为未被所述目的冠状病毒感染的情况下,使用第三模型对所述第二差异响应信号进行分析,确定所述目标待测样本所属的未被所述目的冠状病毒感染的类别,其中,所述第三模型为使用多组数据通过机器学习训练出的,所述多组数据中的每组数据均包括:差异响应信号和差异响应信号对应的待测样本所属的未被所述目的冠状病毒感染的类别,所述未被所述目的冠状病毒感染的类别包括以下之一:未被所述目的冠状病毒感染且未被感染的类别为第一类别、未被所述目的冠状病毒感染且未被感染的类别为第二类别;第二输出模块,用于输出所述目标待测样本所属的未被所述目的冠状病毒感染的类别;
或者,
所述装置还包括:第三分析模块,用于在所述目标模型包括所述第二模型的情况下,在输出所述目标待测样本所属的症状类别之后,且在确定输出的所述目标待测样本所属的症状类别为已被所述目的冠状病毒感染的情况下,使用第四模型对所述第二差异响应信号进行分析,确定所述目标待测样本所属的已被所述目的冠状病毒感染的类别,其中,所述第四模型为使用多组数据通过机器学习训练出的,所述多组数据中的每组数据均包括:差异响应信号和差异响应信号对应的待测样本所属的已被所述目的冠状病毒感染的类别,所述已被所述目的冠状病毒感染的类别包括以下之一:已被所述目的冠状病毒感染且感染的类别为第三类别、已被所述目的冠状病毒感染且感染的类别为第四类别、已被所述目的冠状病毒感染且感染的类别为第五类别、已被所述目的冠状病毒感染且感染的类别为第六类别;第三输出模块,用于输出所述目标待测样本所属的已被所述目的冠状病毒感染的类别。
9.一种冠状病毒感染的检测方法,其特征在于,所述检测方法包括:
利用免疫表征技术筛选出对目的冠状病毒感染的阳性样本与对照样本存在第一差异响应信号的肽段,记为差异肽段,所述样本为血清样本或血浆样本;
以所述差异肽段的所述第一差异响应信号为特征,采用支持向量机的方法对所述阳性样本和所述对照样本进行分类模型构建,得到样本分类模型;
利用所述免疫表征技术,检测所述差异肽段在待测样本与所述对照样本中相应的差异响应信号,记为第二差异响应信号;
将所述第二差异响应信号输入所述样本分类模型进行分类,从而获得所述待测样本的所属症状类别;
其中,所述对照样本包括阴性对照样本和其他肺部疾病对照样本,所述其他肺部疾病指非所述目的冠状病毒感染引起的肺部疾病,优选所述目的冠状病毒为SARS-CoV-2。
10.一种冠状病毒感染的检测装置,其特征在于,所述检测装置包括:
差异肽段筛选模块,用于利用免疫表征技术筛选出对目的冠状病毒感染的阳性样本与对照样本存在第一差异响应信号的肽段,记为差异肽段,所述样本为血清样本或血浆样本;
模型建立模块,用于以所述差异肽段的所述第一差异响应信号为特征,采用支持向量机的方法对所述阳性样本和所述对照样本进行分类模型构建,得到样本分类模型;
响应信号检测模块,用于利用所述免疫表征技术,检测所述差异肽段在待测样本与所述对照样本中相应的差异响应信号,记为第二差异响应信号;
分类检测模块,用于将所述第二差异响应信号输入所述样本分类模型进行分类,从而获得所述待测样本的所属症状类别;
其中,所述对照样本包括阴性对照样本和其他肺部疾病对照样本,所述其他肺部疾病指非所述目的冠状病毒感染引起的肺部疾病,优选所述目的冠状病毒为SARS-CoV-2。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被处理器执行时实现所述权利要求1至4任一项中所述的方法的步骤,或者实现权利要求9中所述的方法的步骤。
12.一种电子装置,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现所述权利要求1至4任一项中所述的方法的步骤,或者实现权利要求9中所述的方法的步骤。
CN202010923587.9A 2020-03-13 2020-09-04 基于免疫表征技术对样本分类的方法、装置及存储介质 Pending CN113393902A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/CN2021/080279 WO2021180182A1 (zh) 2020-03-13 2021-03-11 基于免疫表征技术对样本分类的方法、装置及存储介质

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010176984 2020-03-13
CN2020101769844 2020-03-13

Publications (1)

Publication Number Publication Date
CN113393902A true CN113393902A (zh) 2021-09-14

Family

ID=77616460

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010923587.9A Pending CN113393902A (zh) 2020-03-13 2020-09-04 基于免疫表征技术对样本分类的方法、装置及存储介质

Country Status (2)

Country Link
CN (1) CN113393902A (zh)
WO (1) WO2021180182A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113888636B (zh) * 2021-09-29 2024-06-14 山东大学 基于多尺度深度特征的蛋白质亚细胞定位方法
CN116564416B (zh) * 2023-07-12 2023-09-15 中国农业科学院蜜蜂研究所 一种基于分段融合的ace抑制小肽筛选方法及其应用

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060177837A1 (en) * 2004-08-13 2006-08-10 Ivan Borozan Systems and methods for identifying diagnostic indicators
US20090104602A1 (en) * 2005-05-23 2009-04-23 Delmiro Fernandez-Reyes Diagnosis of Tuberculosis
CN103336915A (zh) * 2013-05-31 2013-10-02 中国人民解放军国防科学技术大学 基于质谱数据获取生物标志物的方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10443103B2 (en) * 2015-09-16 2019-10-15 Innomedicine, LLC Chemotherapy regimen selection
CN108491690B (zh) * 2018-03-16 2020-06-05 中国科学院数学与系统科学研究院 一种蛋白质组学中肽段的肽段定量效率预测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060177837A1 (en) * 2004-08-13 2006-08-10 Ivan Borozan Systems and methods for identifying diagnostic indicators
US20090104602A1 (en) * 2005-05-23 2009-04-23 Delmiro Fernandez-Reyes Diagnosis of Tuberculosis
CN103336915A (zh) * 2013-05-31 2013-10-02 中国人民解放军国防科学技术大学 基于质谱数据获取生物标志物的方法及装置

Also Published As

Publication number Publication date
WO2021180182A1 (zh) 2021-09-16

Similar Documents

Publication Publication Date Title
CN110444248B (zh) 基于网络拓扑参数的癌症生物分子标志物筛选方法及系统
US20240087754A1 (en) Plasma based protein profiling for early stage lung cancer diagnosis
CN102209968B (zh) 肺癌生物标记蛋白的捕获剂在制备试剂盒中的用途
Cybulski et al. From voids to Coma: the prevalence of pre-processing in the local Universe
CA3064363C (en) Non-small cell lung cancer biomarkers and uses thereof
JP2021501332A (ja) タンパク質同定のための方法およびシステム
WO2013063139A1 (en) Selection of preferred sample handling and processing protocol for identification of disease biomarkers and sample quality assessment
CN113393902A (zh) 基于免疫表征技术对样本分类的方法、装置及存储介质
JP2022512890A (ja) 試料の品質評価方法
WO2024082581A1 (zh) 一种m蛋白检测的方法
US10126300B2 (en) Immunosignature based diagnosis and characterization of canine lymphoma
CN115144599A (zh) 蛋白组合在制备对儿童甲状腺癌进行预后分层的试剂盒中的用途及其试剂盒、系统
CN108646034B (zh) 细胞群中的稀有细胞判读方法
CN112798678A (zh) 基于血清的新型冠状病毒感染快速检测方法
CN115128285B (zh) 一种蛋白质组合对甲状腺滤泡性肿瘤鉴别评估的试剂盒、系统
CN104292322A (zh) 原发性胆汁性肝硬化特异性自身抗原及其应用
CN114550921A (zh) 一种基于li-rads分级的患病风险预测建模方法
Troelnikov et al. The choice of anti-LEDGF/DFS70 assay matters: a comparative study of six assays
CN109804234B (zh) 血液单元测试试剂盒
Frederiksen et al. Net FCM: A semi‐automated web‐based method for flow cytometry data analysis
US20140297194A1 (en) Gene signatures for detection of potential human diseases
CN116598005B (zh) 基于宿主序列信息的下呼吸道感染概率预测系统及装置
Carobene et al. Machine learning and laboratory values in the diagnosis, prognosis and vaccination strategy of COVID-19
Cui et al. Assessment of machine learning methods for classification in single cell ATAC-seq
Ma et al. Serology Assays Used in SARS-CoV-2 Seroprevalence Surveys Worldwide: A Systematic Review and Meta-Analysis of Assay Features, Testing Algorithms, and Performance. Vaccines 2022, 10, 2000

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210914