CN113903394A

CN113903394A - 基于卷积神经网络的代谢分析中不同队列的校准方法及系统

Info

Publication number: CN113903394A
Application number: CN202111076069.9A
Authority: CN
Inventors: 阮宏强; 张鹏; 张惠萍
Original assignee: Shanghai Applied Protein Technology Co Ltd
Current assignee: Shanghai Applied Protein Technology Co Ltd
Priority date: 2021-09-14
Filing date: 2021-09-14
Publication date: 2022-01-07
Anticipated expiration: 2041-09-14
Also published as: CN113903394B

Abstract

本发明提供一种基于卷积神经网络的代谢分析中不同队列的校准方法及系统，包括获取多个不同批次的样本集，每个批次的样本集中包含有至少一个样本；对所有样本进行特征提取，并进行三轴关联；对提取的特征数据进行降维处理；对降维后的特征数据进行分类和预测以得到不具有分类准确性和批次效应最小的特征数据；对特征数据进行整合升维深度网络学习以获得最佳的编码校准结果。通过卷积神经网络进行特征构建和深度网络学习，使得有效进行前后样本的信息提取分析，并且通过卷积神经网络在编码层进行分类及回归预测，将批次效应的特征最小化，从而得到最佳分类的结果。解决了如何降低在代谢分析中因批次不同而带来的系统偏差的问题。

Description

基于卷积神经网络的代谢分析中不同队列的校准方法及系统

技术领域

本发明涉及代谢组学技术领域，特别涉及一种基于卷积神经网络的代谢分析中不同队列的校准方法及系统。

背景技术

代谢组学(metabonomics/metabolomics)是效仿基因组学和蛋白质组学的研究思想，对生物体内所有代谢物进行定量分析，并寻找代谢物与生理病理变化的相对关系的研究方式，是系统生物学的组成部分，其研究对象大都是相对分子质量1000以内的小分子物质。先进分析检测技术结合模式识别和专家系统等计算分析方法是代谢组学研究的基本方法。

代谢组学在分析过程中，实现全面覆盖的策略之一是非靶向代谢组学。非靶向代谢组学是由一种无偏的方法驱动的，在这种方法中，尽可能多的代谢物被测量出来，并与样本进行比较。由于非靶向代谢组学提供了生物样品中代谢物的全局信息，它对生物学相关研究很重要，例如，探索功能化合物和发现生物标志物。目前，液相色谱质谱(LC-MS)已成为最常用的非靶向代谢组学工具，因为它可以在最少的样品预处理条件下获得丰富的代谢组信息。

然而，使用LC-MS测量的非靶向代谢组学研究受到批量效应的影响。批量效应指样品在不同批次处理和测量时产生的系统技术差异，与任何生物变异无关。在代谢组学研究中，批量效应通常通过在一批样品的测量过程中逐渐改变仪器的反应，因污染物的累积而被观察到。

此外，当必须批量进行大规模研究时，可能会发生批间效应，这是LC-MS实验中柱替换和仪器校准的结果。这些系统效应是非线性的，并与真实的生物效应都具有相关性，从而导致统计功率的降低和随之而来的不可再现性。这些不期望存在的系统偏差是目前非靶向代谢组学研究的关键障碍。

以及，如何将不同样本的定量结果统一在相同水平进行比较也是代谢组学研究的热点。

发明内容

本发明的目的在于提供一种基于卷积神经网络的代谢分析中不同队列的校准方法及系统，以至少解决如何降低在代谢分析中因批次不同而带来的系统偏差的问题。

为解决上述技术问题，本发明提供一种基于卷积神经网络的代谢分析中不同队列的校准方法，所述校准方法包括：

样本数据准备：获取多个不同批次的样本集，每个批次的样本集中包含有至少一个样本；

特征构建：利用卷积神经网络对所有样本进行特征提取，并将不同批次的样本集通过Z轴构建关联，将同一批次的样本集中的所有样本通过X轴构建关联，将每一样本中分析的不同化合物通过Y轴进行关联；

数据深度网络降维：利用深度网络的编码-解码的压缩数据模式对所有所述样本提取的特征数据进行数据降维，以获得降维后的特征数据；

构建预测模型：利用卷积神经网络对降维后的特征数据进行分类和预测，以得到不具有分类准确性和批次效应最小的特征数据；

深度网络学习：对不具有分类准确性和批次效应最小的特征数据进行整合和深度网络学习，以获得最佳的编码校准结果。

可选的，在所述的基于卷积神经网络的代谢分析中不同队列的校准方法中，所述特征构建的方法包括：

统计每个批次的样本集中的样本个数，记为a_i，获得所有样本集的样本个数a₁，a₂……a_n；

设定N＝Max(a₁，a₂……a_n)，将样本个数低于N的样本集进行数据维度补充，以使所有批次的样本集的样本个数均为N；

对数据维度补充后的所有批次的样本集进行特征融合，以获得Z轴为n的特征数据。

可选的，在所述的基于卷积神经网络的代谢分析中不同队列的校准方法中，将样本个数低于N的样本集进行数据维度补充的方法包括：

将样本集按照样本个数a_i从小到大依次排列，以使a_n＝N；

计算样本个数为a_i的样本集缺失的样本个数：a_-i＝N-a_i；

从样本个数为a_i+1的样本集中任意选取a_-i个样本补充至样本个数为a_i的样本集中，以使原样本个数为a_i的样本集的样本个数为N。

可选的，在所述的基于卷积神经网络的代谢分析中不同队列的校准方法中，从样本个数为a_i+1的样本集中选取最前的a_-i个样本补充至样本个数为a_i的样本集中。

可选的，在所述的基于卷积神经网络的代谢分析中不同队列的校准方法中，所述数据降维的方法包括：

将所有样本的特征数据进行合并，获得特征矩阵；

利用卷积层和数据标准化层对所述特征矩阵进行数据分布统一处理，以得到分布统一特征矩阵；

利用池化层对所述分布统一特征矩阵进行降维处理，得到降维特征矩阵；

利用卷积层和数据标准化层对所述分布统一特征矩阵进行采样分布统一处理，以得到采样统一特征矩阵；

利用采样层对所述采样统一特征矩阵进行上采样处理，以得到采样特征矩阵；

将所述降维特征矩阵和所述采样特征矩阵进行融合，以得到降维后的特征数据。

可选的，在所述的基于卷积神经网络的代谢分析中不同队列的校准方法中，得到所述分布统一特征矩阵、所述降维特征矩阵、所述采样统一特征矩阵和所述采样特征矩阵的过程重复进行5次，将5次获得的所有所述降维特征矩阵和所述采样特征矩阵进行融合，以得到降维后的特征数据。

可选的，在所述的基于卷积神经网络的代谢分析中不同队列的校准方法中，所述数据降维的方法还包括：

将深度网络学习后的特征数据与特征构建获得的特征数据进行作差，其结果作为降维后的特征数据进行校准的效果指标。

可选的，在所述的基于卷积神经网络的代谢分析中不同队列的校准方法中，所述构建预测模型的方法包括：

构建分类模型：利用卷积神经网络对降维后的特征数据进行多分类预测，以得到特征融合后的分组数据；

构建排序模型：利用卷积神经网络对特征融合后的分组数据进行回归预测，以得到不具有分类准确性和批次效应最小的特征数据。

可选的，在所述的基于卷积神经网络的代谢分析中不同队列的校准方法中，所述样本中包括有批次数、样本类型、样本进入的时间次序和样本名称。

为解决上述技术问题，本发明还提供一种基于卷积神经网络的代谢分析中不同队列的校准系统，用于进行如上任一项所述的一种基于卷积神经网络的代谢分析中不同队列的校准方法，所述校准系统包括样本获取模块、特征构建模块、数据深度网络降维、预测模块、深度网络学习模块和结果输出模块；所述样本获取模块用于获取多个不同批次的样本集，每个批次的样本集中包含有至少一个样本；所述特征构建模块用于对所有样本进行特征提取，并进行三轴关联；所述数据降维模块用于对所述特征构建模块提取的特征数据进行降维处理；所述预测模块用于对所述数据降维模块降维后的特征数据进行分类和预测，以得到不具有分类准确性和批次效应最小的特征数据；所述深度网络学习模块用于对所述预测模块输出的特征数据进行整合和深度网络学习，以获得最佳的编码校准结果；所述结果输出模块用于输出所述深度网络学习模块获得的最佳的编码校准结果。

本发明提供的基于卷积神经网络的代谢分析中不同队列的校准方法及系统，包括样本获取模块、特征构建模块、数据深度学习降维模块、预测模块、深度网络学习模块和结果输出模块；所述样本获取模块用于获取多个不同批次的样本集，每个批次的样本集中包含有至少一个样本；所述特征构建模块用于对所有样本进行特征提取，并进行三轴关联；所述数据降维模块用于对所述特征构建模块提取的特征数据进行降维处理；所述预测模块用于对所述数据降维模块降维后的特征数据进行分类和预测，以得到不具有分类准确性和批次效应最小的特征数据；所述深度网络学习模块用于对所述预测模块输出的特征数据进行整合和深度网络学习，以获得最佳的编码校准结果；所述结果输出模块用于输出所述深度网络学习模块获得的最佳的编码校准结果。通过卷积神经网络进行特征构建和深度网络学习，使得有效进行前后样本的信息提取分析，并且通过卷积神经网络在编码层进行分类及回归预测，将批次效应的特征最小化，从而得到最佳分类的结果。解决了如何降低在代谢分析中因批次不同而带来的系统偏差的问题。

附图说明

图1为本实施例提供的基于卷积神经网络的代谢分析中不同队列的校准方法流程图；

图2为本实施例提供的基于卷积神经网络的代谢分析中不同队列的校准系统的结构示意图；

图3为本实施例提供的样本的示例图；

图4为本实施例提供的数据维度补充的示意图；

图5为本实施例提供的Z轴为2的特征数据的示意图；

图6为本实施例提供的不同批次的样本进行合并的过程示意图；

图7为本实施例提供的数据降维的结构示意图；

图8为本实施例提供的分类模型的结构示意图；

图9为本实施例提供的排序模型的结构示意图；

图10为本实施例提供的深度网络学习的结构示意图。

具体实施方式

以下结合附图和具体实施例对本发明提出的基于卷积神经网络的代谢分析中不同队列的校准方法及系统作进一步详细说明。需说明的是，附图均采用非常简化的形式且均使用非精准的比例，仅用以方便、明晰地辅助说明本发明实施例的目的。此外，附图所展示的结构往往是实际结构的一部分。特别的，各附图需要展示的侧重点不同，有时会采用不同的比例。

需要说明的是，本发明的说明书和权利要求书及附图说明中的“第一”、“第二”等是用于区别类似的对象，以便描述本发明的实施例，而不用于描述特定的顺序或先后次序，应该理解这样使用的结构在适当情况下可以互换。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

现有常用的代谢分析使用的校准方法包括位置尺度校准法和矩阵奇异值分解校准法。位置尺度校准法是通过中位数、分位数等对标准样本的QC值进行相互校准。矩阵奇异值分解校准法是通过矩阵的奇异值分解，选择有价值的特征值进行矩阵分解估计，然后移除与批处理标签相关的特征组，从而获得一个没有批处理的数据集合。这两种方法都存在一个关键问题：需要数据的偏移是线性的。然而实际情况是样本的数据的偏移是非线性的，如此便导致校准的结果不理想。

有基于此，本实施例提供一种基于卷积神经网络的代谢分析中不同队列的校准方法，如图1所示，所述校准方法包括：

本实施例提供的基于卷积神经网络的代谢分析中不同队列的校准方法，通过卷积神经网络进行特征构建和深度网络学习，使得有效进行前后样本的信息提取分析，并且通过卷积神经网络在编码层进行分类及回归预测，将批次效应的特征最小化，从而得到最佳分类的结果。相较于传统使用线性或者函数模型校准的方法，本实施例提供的基于卷积神经网络的代谢分析中不同队列的校准方法通过深度模型生成的方法使得非现役的偏移和批次间的影响被最小化。解决了如何降低在代谢分析中因批次不同而带来的系统偏差的问题。

通常，所述样本中包括但不限于有批次数、样本类型、样本进入的时间次序和样本名称等。

具体的，在本实施例中，所述特征构建的方法包括：

进一步的，在本实施例中，将样本个数低于N的样本集进行数据维度补充的方法包括：

将样本集按照样本个数a_i从小到大依次排列，以使a_n＝N；

计算样本个数为a_i的样本集缺失的样本个数：a_-i＝N-a_i；

较佳的，从样本个数为a_i+1的样本集中选取最前的a_-i个样本补充至样本个数为a_i的样本集中。

在本实施例中，所述数据降维的方法包括：

将所有样本的特征数据进行合并，获得特征矩阵；

通过降维处理，使得特征数据对批次间的特征和同一批次内时间顺次的特征不敏感，同时还保证了数据的稳定性，防止数据在压缩降维过程中出现较大偏移。

较佳的，在本实施例中，上述得到所述分布统一特征矩阵、所述降维特征矩阵、所述采样统一特征矩阵和所述采样特征矩阵的过程重复进行5次，将5次获得的所有所述降维特征矩阵和所述采样特征矩阵进行融合，以得到降维后的特征数据。如此，能够将特征数据对批次间的特征和同一批次内时间顺次的特征的敏感度降低至最低，从而消除批量效应和批间效应。

进一步的，为确认数据降维后与降维前的偏差，在本实施例中，所述数据降维的方法还包括：

将降维后的特征数据与特征构建获得的特征数据进行作差，其结果作为降维后的特征数据进行维度恢复时的指标，从而保证数据在维度恢复后与原始数据差异在可控范围内。

在本实施例中，所述构建预测模型的方法包括：

在具体应用过程中，期望分类模型的结果越大越好，保证数据间的批次效应最低；同时期望排序模型的结果越大越好，保证数据间的批间效应最低。如此，使得代谢分析中不同队列的校准受系统偏差的影响最低。

本实施例还提供一种基于卷积神经网络的代谢分析中不同队列的校准系统，如图2所示，所述校准系统包括样本获取模块、特征构建模块、数据深度学习降维模块、预测模块、深度网络学习模块和结果输出模块；所述样本获取模块用于获取多个不同批次的样本集，每个批次的样本集中包含有至少一个样本；所述特征构建模块用于对所有样本进行特征提取，并进行三轴关联；所述数据降维模块用于对所述特征构建模块提取的特征数据进行降维处理；所述预测模块用于对所述数据降维模块降维后的特征数据进行分类和预测，以得到不具有分类准确性和批次效应最小的特征数据；所述深度网络学习模块用于对所述预测模块输出的特征数据进行整合和深度网络学习，以获得最佳的编码校准结果；所述结果输出模块用于输出所述深度网络学习模块获得的最佳的编码校准结果。

以下，以一具体实施例说明本发明提供的基于卷积神经网络的代谢分析中不同队列的校准方法及系统。

首先，样本数据准备：样本的分析信息包括特征化合物计算出来的分度值，如果该物质在这个样本中没有检测到则计数为0；样本信息具体可以如图3所示，包括：

1.batch：表示该样本的批次数，相同批次样本(即同一样本集的样本)使用相同字符表示；

2.sampleType：表示该样本属于的样本类型，其中样本类型包括QC样本(qc)和普通测试样本(sample)；

3.time：表示该样本进入试验的次序，该次序不受批次影响，在一个样本集中time可以按存入顺序递增；

4.label：表示该样本具体试验使用的样本名称，具体可以自定义名称内容。

接着，进行特征构建：

第一步，过滤出不同批次的试验样本的数据，分别统计每一批次试验样本的样本数，记录为a₁、a₂、……、a_n；

第二步，统计选择这些样本数数字最大的一个记为N；

第三步，对样本数低于N的样本集进行数据维度补充。这里分为最后一批次样本集的方法及非最后一批次样本集的方法，具体如下：

对于最后一批次样本集，由于其样本集中的样本数为N，因此无需进行维度补充；

对于非最后一批次样本集，假设该次样本数为a_i个，会根据差额N-a_i用下一批次的样本集的前N-a_i个作为补充，类似图4中，A的批次有4个，而整体数据的N为5个，那么就将B批次的第一个进行补充，最终构建出N＝5的样本。再将B批次的样本结合，构建出Z轴为2的特征。

将维度补充后的特征数据调整为两个维度的数据，如图5所示。最后对所有的样本特征数据进行上述处理，获得新的特征数据。

然后，数据深度网络降维：

将上一步获得的所有的新的特征数据进行合并，获得特征矩阵作为数据降维的输入量，样本合并的过程示意如图6所示。

在数据深度网络降维中，本实施例构建了特征提取单元(图7中左侧部分)和上采样单元(图7中右侧部分)，并结合特征融合将不同特征提取的过程中信息进行补充。

具体的，特征提取单元包括卷积层、数据标准化层和池化层。第一步主要提取数据特征，第二步对数据分布统一；第三步将数据降维降低。左侧特征提取一共进行5次，并且每一次在池化层前将结果保留传递给右侧上采样单元，在池化前传递数据主要保证数据的稳定性，防止数据压缩出现太大偏移。上采样单元与特征提取单元类似，也包括卷积层和数据标准化层，但最后一层为采样层。

从前面的分析过程中获得卷积之后的结果(输入值)作为对应，然后融合数据降维后的输出值，最终获得编码后的数据表格。再将输出的数据表格与真实的结果做差记录为loss_ed,就是Encode和Decode之后两种结果的差异求和，作为特征数据校准效果的指标。

再然后，构建预测模型：此部分包括构建分类模型和构建排序模型。

参见图8，分类模型是通过卷积神经网络进行多分类预测(返回一个分组状态)，当预测结果与真实结果的差异作为loss_classific，这部分数值我们希望越大越好，保证模型对于批次效应最低。

参见图9，排序模型是通过卷积神经网络进行回归预测(返回一个数值)，当预测结果与真实结果的差异作为loss_regression这部分数值我们希望越大越好，保证模型对于组内排序最低。

最后，进行深度网络学习：如图10所示，对不具有分类准确性和批次效应最小的特征数据进行整合深度网络学习，以获得最佳的编码校准结果。

需要说明的是，本发明所提的卷积、深度网络学习等具体的方法为本领域技术人员所熟知的，此处不再赘述。

综上所述，本实施例提供的基于卷积神经网络的代谢分析中不同队列的校准方法及系统，包括样本获取模块、特征构建模块、数据降维模块、预测模块、深度网络学习模块和结果输出模块；所述样本获取模块用于获取多个不同批次的样本集，每个批次的样本集中包含有至少一个样本；所述特征构建模块用于对所有样本进行特征提取，并进行三轴关联；所述数据数据网络降维模块用于对所述特征构建模块提取的特征数据进行降维处理；所述预测模块用于对所述数据深度网络降维模块降维后的特征数据进行分类和预测，以得到不具有分类准确性和批次效应最小的特征数据；所述深度网络学习模块用于对所述预测模块输出的特征数据进行整合和深度网络学习，以获得最佳的编码校准结果；所述结果输出模块用于输出所述深度网络学习模块获得的最佳的编码校准结果。通过卷积神经网络进行特征构建和深度网络学习，使得有效进行前后样本的信息提取分析，并且通过卷积神经网络在编码层进行分类及回归预测，将批次效应的特征最小化，从而得到最佳分类的结果。解决了如何降低在代谢分析中因批次不同而带来的系统偏差的问题。

上述描述仅是对本发明较佳实施例的描述，并非对本发明范围的任何限定，本发明领域的普通技术人员根据上述揭示内容做的任何变更、修饰，均属于权利要求书的保护范围。

Claims

1.一种基于卷积神经网络的代谢分析中不同队列的校准方法，其特征在于，所述校准方法包括：

深度网络学习：对不具有分类准确性和批次效应最小的特征数据进行整合和深度网络学习，将特征数据恢复到原始数据，并且保持特征构建后的结果与学习后的结果差异最小，以获得最佳的编码校准结果。

2.根据权利要求1所述的基于卷积神经网络的代谢分析中不同队列的校准方法，其特征在于，所述特征构建的方法包括：

3.根据权利要求2所述的基于卷积神经网络的代谢分析中不同队列的校准方法，其特征在于，将样本个数低于N的样本集进行数据维度补充的方法包括：

将样本集按照样本个数a_i从小到大依次排列，以使a_n＝N；

计算样本个数为a_i的样本集缺失的样本个数：a_-i＝N-a_i；

4.根据权利要求3所述的基于卷积神经网络的代谢分析中不同队列的校准方法，其特征在于，从样本个数为a_i+1的样本集中选取最前的a_-i个样本补充至样本个数为a_i的样本集中。

5.根据权利要求1所述的基于卷积神经网络的代谢分析中不同队列的校准方法，其特征在于，所述数据降维的方法包括：

将所有样本的特征数据进行合并，获得特征矩阵；

6.根据权利要求5所述的基于卷积神经网络的代谢分析中不同队列的校准方法，其特征在于，得到所述分布统一特征矩阵、所述降维特征矩阵、所述采样统一特征矩阵和所述采样特征矩阵的过程重复进行5次，将5次获得的所有所述降维特征矩阵和所述采样特征矩阵进行融合，以得到降维后的特征数据。

7.根据权利要求5所述的基于卷积神经网络的代谢分析中不同队列的校准方法，其特征在于，所述数据深度网络降维的方法还包括：

将深度网络学习后的特征数据与特征构建获得的特征数据进行作差，其结果作为降维后的特征数据进行校准效果的指标。

8.根据权利要求1所述的基于卷积神经网络的代谢分析中不同队列的校准方法，其特征在于，所述构建预测模型的方法包括：

9.根据权利要求1所述的基于卷积神经网络的代谢分析中不同队列的校准方法，其特征在于，所述样本中包括有批次数、样本类型、样本进入的时间次序和样本名称。

10.一种基于卷积神经网络的代谢分析中不同队列的校准系统，用于进行如权利要求1～9任一项所述的一种基于卷积神经网络的代谢分析中不同队列的校准方法，其特征在于，所述校准系统包括样本获取模块、特征构建模块、数据深度网络降维模块、预测模块、深度网络学习模块和结果输出模块；所述样本获取模块用于获取多个不同批次的样本集，每个批次的样本集中包含有至少一个样本；所述特征构建模块用于对所有样本进行特征提取，并进行三轴关联；所述数据深度网络降维模块用于对所述特征构建模块提取的特征数据进行降维处理；所述预测模块用于对所述数据深度网络降维模块降维后的特征数据进行分类和预测，以得到不具有分类准确性和批次效应最小的特征数据；所述深度网络学习模块用于对所述预测模块输出的特征数据进行整合和深度网络学习，以获得最佳的编码校准结果；所述结果输出模块用于输出所述深度网络学习模块获得的最佳的编码校准结果。