CN113270191A - 一种数据校正及分类方法及存储介质 - Google Patents

一种数据校正及分类方法及存储介质 Download PDF

Info

Publication number
CN113270191A
CN113270191A CN202110681235.1A CN202110681235A CN113270191A CN 113270191 A CN113270191 A CN 113270191A CN 202110681235 A CN202110681235 A CN 202110681235A CN 113270191 A CN113270191 A CN 113270191A
Authority
CN
China
Prior art keywords
batch
data
matrix
loss function
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110681235.1A
Other languages
English (en)
Inventor
王乾
牛京阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202110681235.1A priority Critical patent/CN113270191A/zh
Publication of CN113270191A publication Critical patent/CN113270191A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Public Health (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

本申请公开了一种数据校正及分类方法及存储介质。该数据校正及分类方法包括:获取序列数据步骤,数据校准步骤,数据重建步骤,分类步骤,鉴别器训练步骤,以及推测目标批次标签向量步骤。实现了批次效应的校正,解决两个批次数据分布高度不匹配的问题。我们提出了一个端到端的联合深度学习框架在数据校正的基础上对序列数据进行分类,在流式细胞仪和激光解析电离质谱的数据上验证了上述框架,特别是对于后者而言诊断精确度大幅度提升,与当前最先进的主流方法相比平均值提高了约5.5〜7.9%。实验证明我们开发的方法其性能明显优于传统方法,克服了批次效应的影响。

Description

一种数据校正及分类方法及存储介质
技术领域
本发明涉及基于人工智能方法实现代谢组学数据进行分类领域,尤其涉及一种数据校正及分类方法及存储介质。
背景技术
代谢组学是五大组学分析的一个重要分支,在临床应用和代谢生物标志物的基础研究中均占有重要地位。然而,该领域的相关研究经常被由于诸多外部因素导致的批次效应所影响。
在过去的二十年间,批次效应带来的瓶颈已经引起了许多业内学者的广泛关注,开发了许多用于消除批次效应的算法。这些传统技术按照其工作原理可分为基于位置尺度(LS)的方法和基于矩阵因式分解(MF)的方法两大类。第一大类包括经验贝叶斯方法(ComBat)、距离加权判别(DWD)、单向方差分析(PAMR)和基于比率的方法(Ratio_G)等,这些方法通常仅关注于调整不同批次的分布,其试图将复杂的批次效应过分简化为线性的加乘叠加。第二大类则假设由批次效应引起的数据变化与目标标签无关,并通过这种假设将原始数据分解成批次效应部分和剩余部分两大块。替代变量分析(SVA)是一种典型的MF方法。然而事实上这种假设在代谢组学的实际应用场景下通常是不成立的,并且矩阵分解的代价有时会减少疾病组与对照组之间的差异,从而降低后续分析中的分类准确性。
通常在代谢组学领域需要使用一批现有样本(源数据)构建判别模型,并将其应用于预测未来样本(目标数据)的标签。基于比率的方法(Ratio_G)和冻结替代变量分析(fSVA)都是为预测模型而开发的。在预测模型下分类的能力对于代谢生物标志物的诊断、预后和鉴定至关重要。不幸的是,在对校准器进行建模时许多现有的工具都不了解随后的分类或诊断任务,它们仅通过减少不同批次间的不匹配去除批次效应,最终诊断效力不一定会提高。
高通量组学技术产生的大量测量结果(对应于高维特征)以及通常很少的样本量显然是对传统机器学习方法的又一大挑战。近几年深度学习的兴起为克服这些障碍提供了前所未有的契机,已经证明它在筛选潜在药物、识别DNA突变、分析癌症预后以及揭示隐藏的细胞亚型等方面均优于传统的机器学习技术,并且这些分析都可能帮助医生提供精确的诊断和个性化治疗。一种典型的基于深度学习的批次效应处理算法残差网络法(ResNet)应运而生。它利用了非线性映射的强大功能,却忽视了疾病标记样本承载的分类信息,因此其本质还是无监督的。实验证明其并不能始终提供良好的诊断精确度。
在过去的几年中,虽然深度学习技术已成为数据科学界的领头羊,比如我们可以训练一个已知批次的诊断网络,然后将其推广到一个新批次。但是批次效应的存在会阻碍这项工作,因为这两个批次的分布可能会高度不匹配。
因此,将机器学习模型推广到实际代谢组学数据的主要挑战来自于批次效应,即由于实验环境的不同而导致的与所关注的目标标记无关的测量结果。它的来源很广泛,包括不同的平台、同一样品的不同试剂以及获取数据的不同时间点等等,几乎是不可避免的。例如在我们的质谱实验中,如果在不同的靶板上重复处理患者的血清样本而板间差异又不曾矫正的话,可能会导致诊断结果不一致。因此,有必要在进行代谢组学的下游数据分析之前抑制批次效应,只有这样,随后基于机器学习的分类和诊断才能受益。
发明内容
发明的目的在于,提供一种方法,用于解决目前将机器学习模型推广到实际代谢组学数据时由于批次效应的影响,无法避免不同的平台、同一样品的不同试剂以及获取数据的不同时间点在不同的靶板上重复处理患者的血清样本导致诊断结果不一致,严重阻碍其应用于机器学习的分类和诊断中的技术问题。
为了实现上述目的,本发明其中一实施例中提供一种数据校正及分类方法,包括步骤:
获取序列数据步骤,获取至少两个批次的序列数据,分别为附带标签向量y的原批次矩阵X1和未标记的目标批次矩阵X2
数据校准步骤,将所述原批次矩阵X1和所述目标批次矩阵X2输入至校准器C,将其映射到同一空间内消除域的差异,以获取在潜在特征空间中的分布Z1=C(X1)和Z2=C(X2);
数据重建步骤,将在潜在特征空间中的分布Z1=C(X1)输入重建器R,以获取与所述原批次矩阵X1相同表示方式的原批次重建矩阵X1’;
分类步骤,将在潜在特征空间中的分布Z1=C(X1)输入至鉴别器D,以获取训练标签向量y1’;
鉴别器D训练步骤,根据在潜在特征空间中的分布Z1=C(X1)和Z2=C(X2)计算校准损失函数Lc,根据原批次矩阵X1和原批次重建矩阵X1’计算重建损失函数,根据标签向量y和训练标签向量y1’计算分类损失函数LD,将校准损失函数Lc、重建损失函数LR、分类损失函数LD加权求和形成总损失函数L后通过根据梯度更新参数获取权重以训练所述鉴别器D;以及
推测目标批次标签向量步骤,将在潜在特征空间中的Z2=C(X2)输入至训练后的所述鉴别器D,以获取对应所述目标批次矩阵X2的预测标签向量y2’,所述预测标签向量y2’为所述目标批次矩阵X2的每个样本的诊断结果。
进一步地,在鉴别器训练步骤之后还包括:测试验证步骤,将在潜在特征空间中的分布Z2=C(X2)分别输入至重建器R,以获取与所述目标批次矩阵X2相同表示方式的目标批次重建矩阵X2’;通过对比所述目标批次矩阵X2与所述目标批次重建矩阵X2’以验证所述数据校准步骤保留了原始生物信息。
进一步地,在所述数据校准步骤中,所述校准器C包括归一化(BN)层、第一激活层、第一全连接(FC)层、第二激活层、第二全连接(FC)层,用以将所述序列数据正则化后进行特征提取和分类形成位于同一引空间的分布Z1=C(X1)和Z2=C(X2)。
进一步地,在所述鉴别器训练步骤中,所述校准损失函数Lc为引空间上分布Z1=C(X1)和Z2=C(X2)距离的绝对值,
Figure BDA0003122627370000051
Figure BDA0003122627370000052
其中
Figure BDA0003122627370000053
Figure BDA0003122627370000054
分别表示源批次矩阵X1中的第i个样本和目标批次矩阵X2中的第j个样本,而||·||1是L1范数运算符。
进一步地,在所述鉴别器训练步骤中,所述重建损失函数LR为所述原批次矩阵X1和所述原批次重建矩阵X1’距离的平方,
Figure BDA0003122627370000055
Figure BDA0003122627370000056
其中
Figure BDA0003122627370000057
表示源批次矩阵X1中的第i个样本,C是校准器,R是重建器,R(C(x))=R(Z)=X’。
进一步地,在所述鉴别器训练步骤中,所述分类损失函数LD为标签向量y和训练标签向量y1’的二元交叉熵,
Figure BDA0003122627370000058
Figure BDA0003122627370000059
其中
Figure BDA00031226273700000510
表示源批次矩阵X1中的第i个样本,其中
Figure BDA00031226273700000511
表示训练标签向量y1中的第i个样本的值为0(对于阴性训练样本)或1(对于阳性),C是校准器,D是分类器,D(C(x))=D(Z)=y’。
进一步地,在所述鉴别器训练步骤中,所述总损失函数L为
Figure BDA00031226273700000512
Figure BDA00031226273700000513
其中α、β、γ分别为校准损失函数Lc、重建损失函数LR、分类损失函数LD的权重系数。
进一步地,在所述鉴别器训练步骤中,训练方式采用批量梯度下降(mini-batch),在训练数据中随机选择小批量数据,反复学习直到找到合适权重值α、β、γ。
进一步地,所述鉴别器D的训练方法具体包括步骤:每次从源批次矩阵X1和目标批次矩阵X2中挑选多个样本;计算梯度;根据梯度更新参数;重复以上步骤,通过梯度对参数更新epoch次。
本发明还提供一种存储介质,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行前文任一项所述的数据校正及分类方法中的步骤。
本发明的有益效果在于,提供一种数据校正及分类方法及存储介质,通过引入了一个包括校准器、重建器和鉴别器三个子网的联合深度学习框架,实现了所有批次序列数据在整个自学习过程中都能很好地保留其固有生物信息,且充分利用了源批次矩阵X1提供的监督信息,经过校准器后潜在空间生成的数据分布已不存在批次效应,可用于分类和其它下游数据分析,而重构器和鉴别器正是为了更好地实现这些分析才牵制校准器使其输出最大限度保留生物信息的引空间结果。实现了批次效应的校正,解决两个批次数据分布高度不匹配的问题。我们提出了一个端到端的联合深度学习框架在数据校正的基础上对序列数据进行分类,在流式细胞仪和激光解析电离质谱的数据上验证了上述框架。特别是对于后者而言诊断精确度大幅度提升,与当前最先进的主流方法相比平均值提高了约5.5~7.9%。实验证明我们开发的方法其性能明显优于传统方法,克服了批次效应的影响。
附图说明
下面结合附图,通过对本申请的具体实施方式详细描述,将使本申请的技术方案及其它有益效果显而易见。
图1为本申请实施例提供的联合深度学习框架的结构示意图;
图2为本申请实施例提供的数据校正及分类方法的流程图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
下文的公开提供了许多不同的实施方式或例子用来实现本申请的不同结构。为了简化本申请的公开,下文中对特定例子的部件和设置进行描述。当然,它们仅仅为示例,并且目的不在于限制本申请。
具体的,请参阅图1所示,本申请实施例提供一种数据校正及分类方法,所述数据校正及分类方法。
代谢组学具有编码复杂生物样品的能力,但通常必须使用复杂的数据解释技术来促进临床应用。许多新的代谢组学技术应运而生,可以有效地分析大量数据。例如,基质辅助激光解吸/电离质谱(MALDIMS)提供了快速的秒级处理速度和毫升级的低样品消耗量。之前的许多常规研究都建立在人口水平上统计差异,然而,为了进行个性化的诊断和治疗,需要采用智能工具从代谢组学数据中搜索生物标志物,然后建立适用于各个患者的数据驱动的疾病模型。
将机器学习模型推广到实际代谢组学数据的主要挑战来自于批次效应,即由于实验环境的不同而导致的与所关注的目标标记无关的测量结果。它的来源很广泛,包括不同的平台、同一样品的不同试剂以及获取数据的不同时间点等等,几乎是不可避免的。例如在我们的质谱实验中,如果在不同的靶板上重复处理患者的血清样本而板间差异又不曾矫正的话,可能会导致诊断结果不一致。因此,有必要在进行代谢组学的下游数据分析之前抑制批次效应,只有这样,随后基于机器学习的分类和诊断才能受益。
为了解决上述问题,如图1所示,我们提出了一个联合深度学习框架,应用场景是利用已知标签的源批次训练模型并矫正批次效应,然后针对目标批次中的样本进行分类来推断其标签,以得出疾病诊断结果。该联合深度学习框架包括校准器C、重建器R和鉴别器D。为了方便一一对应理解,在图1中重建器R包括完全相同的重建器R1和R2
基于该联合深度学习框架,如图2所示,本发明提供一种数据校正及分类方法,包括步骤:
S1、获取序列数据步骤,获取至少两个批次的代谢组学的序列数据,分别为附带标签向量y的原批次矩阵X1和未标记的目标批次矩阵X2
S2、数据校准步骤,将所述原批次矩阵X1和所述目标批次矩阵X2输入至校准器C,将其映射到同一空间内消除域的差异,以获取在潜在特征空间中的分布Z1=C(X1)和Z2=C(X2);
S3、数据重建步骤,将在潜在特征空间中的分布Z1=C(X1)输入重建器R,以获取与所述原批次矩阵X1相同表示方式的原批次重建矩阵X1’;
S4、分类步骤,将在潜在特征空间中的分布Z1=C(X1)输入至鉴别器D,以获取训练标签向量y1’;
S5、鉴别器训练步骤,根据在潜在特征空间中的分布Z1=C(X1和Z2=C(X2)计算校准损失函数Lc,根据原批次矩阵X1和原批次重建矩阵X1’计算重建损失函数,根据标签向量y和训练标签向量y1’计算分类损失函数LD,将校准损失函数Lc、重建损失函数LR、分类损失函数LD加权求和形成总损失函数L后通过根据梯度更新参数获取权重以训练所述鉴别器D;以及
S6、推测目标批次标签向量步骤,将在潜在特征空间中的Z2=C(X2)输入至训练后的所述鉴别器D,以获取对应所述目标批次矩阵X2的预测标签向量y2’,所述预测标签向量y2’为所述目标批次矩阵X2的每个样本的诊断结果。
进一步地,在鉴别器训练步骤S5之后还包括:S7、测试验证步骤,将在潜在特征空间中的分布Z2=C(X2)分别输入至重建器R,以获取与所述目标批次矩阵X2相同表示方式的目标批次重建矩阵X2’;通过对比所述目标批次矩阵X2与所述目标批次重建矩阵X2’以验证所述数据校准步骤保留了原始生物信息。
在深度学习框架中,校准器C的作用为:令原始的两个输入批次映射到同一潜在空间后其分布Z1=C(X1)和Z2=C(X2)趋于一致;重建器R1和R2的作用为:确保潜在空间编码功能强大且在整个网络中都能很好地保留用户真正关注的生物信息;鉴别器D的作用为:训练阶段训练其中已知标签的批次,测试阶段完成对校准后的未知标签批次的样本作分类。
本实施例中,在所述数据校准步骤中,所述校准器C包括归一化(BN)层、第一激活层、第一全连接(FC)层、第二激活层、第二全连接(FC)层,用以将所述序列数据正则化后进行特征提取和分类形成位于同一引空间的分布Z1=C(X1)和Z2=C(X2)。具体地,校准器C负责通过将两批数据映射到一个共同的潜在空间来减少源和目标之间的差异。第一层为归一化(BN)层,随后交叉着两个全连接(FC)层和两个泄露修正线性单元(Leaky ReLU)激活层。每个隐藏层中的节点数量始终与输入特征的维度保持一致。校准器C和重构器R总体上承袭了用于自学习的编码器-解码器的骨架。每个批次都有其对应的重建器R,每个重建器R中交叉着3个FC层和2个Leaky ReLU激活层,所有FC层共享相同的初始化参数。
本实施例中,在所述鉴别器训练步骤中,所述校准损失函数Lc为引空间上分布Z1=C(X1)和Z2=C(X2)距离的绝对值,亦即所述校准损失函数Lc测量的是源和目标分布之间的最大均值差异(MMD);
Figure BDA0003122627370000101
其中
Figure BDA0003122627370000102
Figure BDA0003122627370000103
分别表示源批次矩阵X1中的第i个样本和目标批次矩阵X2中的第j个样本,而||·||1是L1范数运算符。
本实施例中,在所述鉴别器训练步骤中,所述重建损失函数LR为所述原批次矩阵X1和所述原批次重建矩阵X1’距离的平方,亦即所述重建损失函数LR计算输出和输入之间的均方误差(MSE);
Figure BDA0003122627370000104
Figure BDA0003122627370000105
其中
Figure BDA0003122627370000106
表示源批次矩阵X1中的第i个样本,C是校准器,R是重建器,R(C(x))=R(Z)=X’。
本实施例中,在所述鉴别器训练步骤中,所述分类损失函数LD为标签向量y和训练标签向量y1’的二元交叉熵,
Figure BDA0003122627370000111
Figure BDA0003122627370000112
其中
Figure BDA0003122627370000113
表示源批次矩阵X1中的第i个样本,其中
Figure BDA0003122627370000114
表示训练标签向量y1中的第i个样本的值为0(对于阴性训练样本)或1(对于阳性),C是校准器,D是分类器,D(C(x))=D(Z)=y’。在引空间中每个编码的源样本z1和目标样本z2将传入标签分类器D以期望在源批次真实类别标签的监督下对目标批次的待预测标签具有较高的区分能力。鉴别器的网络交叉着5个FC层和4个Leaky ReLU激活层,其中5个FC层的节点数分别为128、64、32、16和1。由于只关注二分类,最后一层利用Sigmoid激活功能来实现。所述分类损失函数LD计算预测标签和真实标签之间的二进制交叉熵(BCE)。
本实施例中,在所述鉴别器训练步骤中,所述总损失函数L为
Figure BDA0003122627370000115
Figure BDA0003122627370000116
其中α、β、γ分别为校准损失函数Lc、重建损失函数LR、分类损失函数LD的权重系数。
本实施例中,在所述鉴别器训练步骤中,训练方式采用批量梯度下降(mini-batch),在训练数据中随机选择小批量数据,反复学习直到找到合适权重值α、β、γ。
本实施例中,所述鉴别器D的训练方法具体包括步骤:每次从源批次矩阵X1和目标批次矩阵X2中挑选多个样本;计算梯度;根据梯度更新参数;重复以上步骤,通过梯度对参数更新epoch次。其中Epoch是指“当一个完整的数据集通过了神经网络一次并且返回了一次,这个过程称为一个epoch”。一个epoch指代所有的数据送入网络中完成一次前向计算及反向传播的过程。由于一个epoch常常太大,计算机无法负荷,我们会将它分成几个较小的batches。在训练时,将所有数据迭代训练一次是不够的,需要反复多次才能拟合收敛。在实际训练时,我们将所有数据分成几个batch,每次送入一部分数据,梯度下降本身就是一个迭代过程,所以单个epoch更新权重是不够的。该训练过程的优化器一律以ADAM的默认设置(例如第一/第二矩估计的指数衰减率)为准。
本发明还提供一种存储介质,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行前文任一项所述的数据校正及分类方法中的步骤。
本发明的有益效果在于,提供一种数据校正及分类方法及存储介质,通过引入了一个包括校准器、重建器和鉴别器三个子网的联合深度学习框架,实现了所有批次序列数据在整个自学习过程中都能很好地保留其固有生物信息,且充分利用了源批次矩阵X1提供的监督信息,经过校准器后潜在空间生成的数据分布已不存在批次效应,可用于分类和其它下游数据分析,而重构器和鉴别器正是为了更好地实现这些分析才牵制校准器使其输出最大限度保留生物信息的引空间结果。实现了批次效应的校正,解决两个批次数据分布高度不匹配的问题。我们提出了一个端到端的联合深度学习框架在数据校正的基础上对序列数据进行分类,在流式细胞仪和激光解析电离质谱的数据上验证了上述框架。特别是对于后者而言诊断精确度大幅度提升,与当前最先进的主流方法相比平均值提高了约5.5~7.9%。实验证明我们开发的方法其性能明显优于传统方法,克服了批次效应的影响。
为了验证我们的框架,我们使用两种高通量技术(即公开的CyTOF和私有的MALDIMS)的数据报告实验结果,并将其与文献中的几种代表性方法进行了比较。我们的评估将从批次效应的消除和分类性能两个角度展开。对于批次效应消除,我们采用MMD作为定量指标,并通过流行降维工具可视化高维数据的分布。对于分类性能,我们在测试集上采用准确度(ACC),F分数,曲线下面积(AUC)和马修斯相关系数(MCC)四个指标。其中,
Figure BDA0003122627370000131
TP、FP表示真/假阳性,TN、FN表示真/假阴性。关于软硬件设备,我们使用PyTorch(1.3.1版)和Sklearn(0.21.3版)框架来实现所提出的方案,下游分析使用Python(3.6.8版)和R(3.6.3版)进行可视化。所有实验均在具有16GB内存和Nvidia RTX 2080Ti GPU的同一主机上运行。
我们先在公开的CyTOF数据上验证了我们方法的效果。CyTOF是一种可以同时测量样本每个细胞中的多种生物标志物的质谱分析技术。这组实验来自两名硬化症患者的外周血单核细胞,分类标签被指定为是否带有某种细胞计数抗体的荧光标记,批次干扰则源于不同的实验日期。将每名患者的两次抽血日期视为两个批次,每个批次均包含25个特征。我们指定第一天作为源批次,第二天作为目标批次,首先计算了校准前和校准后源批次和目标批次之间的MMD来进行定量评估。我们从所有可用样本中随机抽取500个样本的子集进行计算,然后重复10次取平均值。批次内的MMD也以相同的方式计算以表征矫正结果的下限。如表1所示,按照我们的方法处理后患者1的MMD值为0.067±0.005,患者2为0.092±0.005,二者均低于原始数据和通过其他方法校准的结果,并且最接近批次内的值(最后两列)。
表1.每种方法校准前后在CyTOF数据上的MMD值
Figure BDA0003122627370000141
非靶向代谢组学研究是人类生理机制以及表型疾病研究的重要组成部分,因此我们将在MALDI MS数据集上验证该方法的疾病诊断能力。我们从上海交通大学医学院附属仁济医院采集了598位受试者的血清样品,其中包括306位系统性红斑狼疮(SLE)患者和292位健康对照(HC)。我们将所有受试者的血清点在三个质谱靶板上,任务是根据处理后的数据区分SLE患者和健康人。对于每位受试者我们重复进行了五次LDI MS检测,并在随后的质量控制中丢弃了部分样本,指示个别受试者的样本个数少于5个。最终这三块靶板(对应三个批次)的样本个数分别为1005、1053和925。所有数据在经过了平滑滤波、基线校正、谱峰提取、谱峰联配和归一化等预处理步骤后,每个样本均获得814个特征(m/z)。
然后我们以跨批次预测的定量方式评估其分类性能。给定一个用于训练的源批次和另一个用于测试的目标批次,在采用我们的框架去除了批次效应之后分类性能大幅度提升。从表2中可以看出,当批次1作训练、批次2用于测试时,ACC、F_score、AUC和MCC四项指标分别提高了13.6%,9.7%,15.3%和26.9%。当源和目标ID相同时执行的是板内10折交叉验证,无批次效应的板内结果被视为矫正的上限,可见经我们的方法矫正后已十分接近上限。值得一提的是,最终的诊断结果都必须落实到受试者水平上,我们的做法是先推断每个样本的分类标签,再对每名受试者取中位数得出个人诊断结果。表2的左右两部分则分别针对样本水平和个体水平进行,我们发现样本水平可以有效反映受试者的真实诊断结果,因此以下与其他方法的比较均在样本水平进行。
表2.MALDI MS数据的分类结果
Figure BDA0003122627370000151
我们选择了当前最流行的最具代表性的方法ComBat、Ratio_G、fSVA和ResNet进行比较,在样本水平上评估它们跨批次预测的诊断精确度。如表3所示,就平均值而言,我们算法的精确度比其他方法高出5.5~7.9%。与第二名方法相比的最大提升来自板1为源、板2为目标(Ratio_G),我们的方法涨幅高达9.1%。这些结果总体表明,我们的方法不仅比其他方法更有效地消除了批次效应,而且还可以更准确地进行分类和诊断。
表3.与其他方法在跨批次预测的诊断精确度上的比较
Figure BDA0003122627370000161
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
以上对本申请实施例所提供的一种数据校正及分类方法及存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的技术方案及其核心思想;本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例的技术方案的范围。

Claims (10)

1.一种数据校正及分类方法,其特征在于,包括步骤:
获取序列数据步骤,获取至少两个批次的序列数据,分别为附带标签向量y的原批次矩阵X1和未标记的目标批次矩阵X2
数据校准步骤,将所述原批次矩阵X1和所述目标批次矩阵X2输入至校准器C,将其映射到同一空间内消除域的差异,以获取在潜在特征空间中的分布Z1=C(X1)和Z2=C(X2);
数据重建步骤,将在潜在特征空间中的分布Z1=C(X1)输入重建器R,以获取与所述原批次矩阵X1相同表示方式的原批次重建矩阵X1’;
分类步骤,将在潜在特征空间中的分布Z1=C(X1)输入至鉴别器D,以获取训练标签向量y1’;
鉴别器训练步骤,根据在潜在特征空间中的分布Z1=C(X1)和Z2=C(X2)计算校准损失函数Lc,根据原批次矩阵X1和原批次重建矩阵X1’计算重建损失函数,根据标签向量y和训练标签向量y1’计算分类损失函数LD,将校准损失函数Lc、重建损失函数LR、分类损失函数LD加权求和形成总损失函数L后通过根据梯度更新参数获取权重以训练所述鉴别器D;以及
推测目标批次标签向量步骤,将在潜在特征空间中的Z2=C(X2)输入至训练后的所述鉴别器D,以获取对应所述目标批次矩阵X2的预测标签向量y2’,所述预测标签向量y2’为所述目标批次矩阵X2的每个样本的诊断结果。
2.根据权利要求1所述的数据校正及分类方法,其特征在于,在鉴别器训练步骤之后还包括:
测试验证步骤,将在潜在特征空间中的分布Z2=C(X2)分别输入至重建器R,以获取与所述目标批次矩阵X2相同表示方式的目标批次重建矩阵X2’;通过对比所述目标批次矩阵X2与所述目标批次重建矩阵X2’以验证所述数据校准步骤保留了原始生物信息。
3.根据权利要求1所述的数据校正及分类方法,其特征在于,在所述数据校准步骤中,所述校准器C包括归一化(BN)层、第一激活层、第一全连接(FC)层、第二激活层、第二全连接(FC)层,用以将所述序列数据正则化后进行特征提取和分类形成位于同一引空间的分布Z1=C(X1)和Z2=C(X2)。
4.根据权利要求1所述的数据校正及分类方法,其特征在于,在所述鉴别器训练步骤中,所述校准损失函数Lc为引空间上分布Z1=C(X1)和Z2=C(X2)距离的绝对值,
Figure FDA0003122627360000021
其中
Figure FDA0003122627360000022
Figure FDA0003122627360000023
分别表示源批次矩阵X1中的第i个样本和目标批次矩阵X2中的第j个样本,而||·||1是L1范数运算符。
5.根据权利要求1所述的数据校正及分类方法,其特征在于,在所述鉴别器训练步骤中,所述重建损失函数LR为所述原批次矩阵X1和所述原批次重建矩阵X1’距离的平方,
Figure FDA0003122627360000024
其中
Figure FDA0003122627360000025
表示源批次矩阵X1中的第i个样本,C是校准器,R是重建器,R(C(x))=R(Z)=X’。
6.根据权利要求1所述的数据校正及分类方法,其特征在于,在所述鉴别器训练步骤中,所述分类损失函数LD为标签向量y和训练标签向量y1’的二元交叉熵,
Figure FDA0003122627360000026
其中
Figure FDA0003122627360000031
表示源批次矩阵X1中的第i个样本,其中
Figure FDA0003122627360000032
表示训练标签向量y1中的第i个样本的值为0或1,C是校准器,D是分类器,D(C(x))=D(Z)=y’。
7.根据权利要求1所述的数据校正及分类方法,其特征在于,在所述鉴别器训练步骤中,所述总损失函数L为
Figure FDA0003122627360000033
Figure FDA0003122627360000034
其中α、β、γ分别为校准损失函数Lc、重建损失函数LR、分类损失函数LD的权重系数。
8.根据权利要求7所述的数据校正及分类方法,其特征在于,在所述鉴别器训练步骤中,训练方式采用批量梯度下降,在训练数据中随机选择小批量数据,反复学习直到找到合适权重值α、β、γ。
9.根据权利要求8所述的数据校正及分类方法,其特征在于,所述鉴别器D的训练方法具体包括步骤:
每次从源批次矩阵X1和目标批次矩阵X2中挑选多个样本;
计算梯度;
根据梯度更新参数;
重复以上步骤,通过梯度对参数更新epoch次。
10.一种存储介质,其特征在于,所述存储介质存储有至少一条指令,所述指令适于处理器进行加载,以执行权利要求1至9中任一项所述的数据校正及分类方法中的步骤。
CN202110681235.1A 2021-06-18 2021-06-18 一种数据校正及分类方法及存储介质 Pending CN113270191A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110681235.1A CN113270191A (zh) 2021-06-18 2021-06-18 一种数据校正及分类方法及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110681235.1A CN113270191A (zh) 2021-06-18 2021-06-18 一种数据校正及分类方法及存储介质

Publications (1)

Publication Number Publication Date
CN113270191A true CN113270191A (zh) 2021-08-17

Family

ID=77235458

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110681235.1A Pending CN113270191A (zh) 2021-06-18 2021-06-18 一种数据校正及分类方法及存储介质

Country Status (1)

Country Link
CN (1) CN113270191A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113326652A (zh) * 2021-05-11 2021-08-31 广汽本田汽车有限公司 基于经验贝叶斯的数据批次效应处理方法、装置及介质
WO2023216517A1 (zh) * 2022-05-12 2023-11-16 深圳市陆为生物技术有限公司 计算样品的IgA免疫活动性指数的方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113326652A (zh) * 2021-05-11 2021-08-31 广汽本田汽车有限公司 基于经验贝叶斯的数据批次效应处理方法、装置及介质
WO2023216517A1 (zh) * 2022-05-12 2023-11-16 深圳市陆为生物技术有限公司 计算样品的IgA免疫活动性指数的方法及装置

Similar Documents

Publication Publication Date Title
Novaković et al. Evaluation of classification models in machine learning
Ramezani et al. A novel hybrid intelligent system with missing value imputation for diabetes diagnosis
Saerens et al. Adjusting the outputs of a classifier to new a priori probabilities: a simple procedure
Duggal et al. Prediction of thyroid disorders using advanced machine learning techniques
US20020095260A1 (en) Methods for efficiently mining broad data sets for biological markers
CN111128380A (zh) 模拟医生诊断和精准干预策略的慢性病健康管理模型的构建方法及系统
US20060218109A1 (en) System and method for automatic molecular diagnosis of ALS based on boosting classification
CN113270191A (zh) 一种数据校正及分类方法及存储介质
CN111105877A (zh) 基于深度置信网络的慢性病精确干预方法及系统
US7707134B2 (en) System and method for molecular diagnosis of depression based on boosting classification
Kumar et al. COV-DLS: prediction of COVID-19 from X-rays using enhanced deep transfer learning techniques
Chen et al. Classifying microscopic images as acute lymphoblastic leukemia by Resnet ensemble model and Taguchi method
Klami Inferring task-relevant image regions from gaze data
Ragab et al. Intelligent Firefly Algorithm Deep Transfer Learning Based COVID-19 Monitoring System.
New et al. A precision environment-wide association study of hypertension via supervised cadre models
Liu et al. Beyond COVID-19 diagnosis: prognosis with hierarchical graph representation learning
Bin Hashim et al. Multi-classify hybrid multilayered perceptron (HMLP) network for pattern recognition applications
Andersson et al. Inference for cluster point processes with over-or under-dispersed cluster sizes
Yellin et al. Multi-cell detection and classification using a generative convolutional model
Akter et al. Breast cancer risk prediction using different clustering techniques
Setiawan The Effect of Image Dimension and Exposure Fusion Framework Enhancement in Pneumonia Detection Using Residual Neural Network
Stark et al. Deep Learning Investigation of Mass Spectrometry Analysis from Melanoma Samples
Cao et al. Alzheimer’s Disease Stage Detection Method Based on Convolutional Neural Network
CN117496279B (zh) 影像分类模型建立方法及装置、分类方法、装置及系统
Ahmed et al. Expected Risk Minimization and Robust Preventive Inference of Transfer Learning for COVID-19 Diagnosis within Chest X-Rays

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210817

WD01 Invention patent application deemed withdrawn after publication