CN113903394A - 基于卷积神经网络的代谢分析中不同队列的校准方法及系统 - Google Patents
基于卷积神经网络的代谢分析中不同队列的校准方法及系统 Download PDFInfo
- Publication number
- CN113903394A CN113903394A CN202111076069.9A CN202111076069A CN113903394A CN 113903394 A CN113903394 A CN 113903394A CN 202111076069 A CN202111076069 A CN 202111076069A CN 113903394 A CN113903394 A CN 113903394A
- Authority
- CN
- China
- Prior art keywords
- data
- feature
- sample
- samples
- convolutional neural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 75
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 58
- 238000004458 analytical method Methods 0.000 title claims abstract description 51
- 230000002503 metabolic effect Effects 0.000 title claims abstract description 43
- 230000000694 effects Effects 0.000 claims abstract description 31
- 238000010276 construction Methods 0.000 claims abstract description 27
- 238000000605 extraction Methods 0.000 claims abstract description 11
- 239000011159 matrix material Substances 0.000 claims description 50
- 238000005070 sampling Methods 0.000 claims description 30
- 238000012545 processing Methods 0.000 claims description 19
- 238000009826 distribution Methods 0.000 claims description 13
- 239000013589 supplement Substances 0.000 claims description 9
- 238000013145 classification model Methods 0.000 claims description 7
- 230000004927 fusion Effects 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 6
- 150000001875 compounds Chemical class 0.000 claims description 5
- 238000002360 preparation method Methods 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 230000009469 supplementation Effects 0.000 claims description 4
- 238000009827 uniform distribution Methods 0.000 claims description 3
- 230000009897 systematic effect Effects 0.000 abstract description 7
- 230000001174 ascending effect Effects 0.000 abstract 1
- 239000000523 sample Substances 0.000 description 104
- 238000010586 diagram Methods 0.000 description 8
- 238000002705 metabolomic analysis Methods 0.000 description 8
- 230000001431 metabolomic effect Effects 0.000 description 8
- 238000011160 research Methods 0.000 description 6
- 238000000354 decomposition reaction Methods 0.000 description 4
- 239000002207 metabolite Substances 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000004895 liquid chromatography mass spectrometry Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000004164 analytical calibration Methods 0.000 description 1
- 230000004071 biological effect Effects 0.000 description 1
- 239000012472 biological sample Substances 0.000 description 1
- 239000000090 biomarker Substances 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000010205 computational analysis Methods 0.000 description 1
- 239000000356 contaminant Substances 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012812 general test Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 231100000915 pathological change Toxicity 0.000 description 1
- 230000036285 pathological change Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 230000009885 systemic effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Biomedical Technology (AREA)
- Physiology (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于卷积神经网络的代谢分析中不同队列的校准方法及系统,包括获取多个不同批次的样本集,每个批次的样本集中包含有至少一个样本;对所有样本进行特征提取,并进行三轴关联;对提取的特征数据进行降维处理;对降维后的特征数据进行分类和预测以得到不具有分类准确性和批次效应最小的特征数据;对特征数据进行整合升维深度网络学习以获得最佳的编码校准结果。通过卷积神经网络进行特征构建和深度网络学习,使得有效进行前后样本的信息提取分析,并且通过卷积神经网络在编码层进行分类及回归预测,将批次效应的特征最小化,从而得到最佳分类的结果。解决了如何降低在代谢分析中因批次不同而带来的系统偏差的问题。
Description
技术领域
本发明涉及代谢组学技术领域,特别涉及一种基于卷积神经网络的代谢分析中不同队列的校准方法及系统。
背景技术
代谢组学(metabonomics/metabolomics)是效仿基因组学和蛋白质组学的研究思想,对生物体内所有代谢物进行定量分析,并寻找代谢物与生理病理变化的相对关系的研究方式,是系统生物学的组成部分,其研究对象大都是相对分子质量1000以内的小分子物质。先进分析检测技术结合模式识别和专家系统等计算分析方法是代谢组学研究的基本方法。
代谢组学在分析过程中,实现全面覆盖的策略之一是非靶向代谢组学。非靶向代谢组学是由一种无偏的方法驱动的,在这种方法中,尽可能多的代谢物被测量出来,并与样本进行比较。由于非靶向代谢组学提供了生物样品中代谢物的全局信息,它对生物学相关研究很重要,例如,探索功能化合物和发现生物标志物。目前,液相色谱质谱(LC-MS)已成为最常用的非靶向代谢组学工具,因为它可以在最少的样品预处理条件下获得丰富的代谢组信息。
然而,使用LC-MS测量的非靶向代谢组学研究受到批量效应的影响。批量效应指样品在不同批次处理和测量时产生的系统技术差异,与任何生物变异无关。在代谢组学研究中,批量效应通常通过在一批样品的测量过程中逐渐改变仪器的反应,因污染物的累积而被观察到。
此外,当必须批量进行大规模研究时,可能会发生批间效应,这是LC-MS实验中柱替换和仪器校准的结果。这些系统效应是非线性的,并与真实的生物效应都具有相关性,从而导致统计功率的降低和随之而来的不可再现性。这些不期望存在的系统偏差是目前非靶向代谢组学研究的关键障碍。
以及,如何将不同样本的定量结果统一在相同水平进行比较也是代谢组学研究的热点。
发明内容
本发明的目的在于提供一种基于卷积神经网络的代谢分析中不同队列的校准方法及系统,以至少解决如何降低在代谢分析中因批次不同而带来的系统偏差的问题。
为解决上述技术问题,本发明提供一种基于卷积神经网络的代谢分析中不同队列的校准方法,所述校准方法包括:
样本数据准备:获取多个不同批次的样本集,每个批次的样本集中包含有至少一个样本;
特征构建:利用卷积神经网络对所有样本进行特征提取,并将不同批次的样本集通过Z轴构建关联,将同一批次的样本集中的所有样本通过X轴构建关联,将每一样本中分析的不同化合物通过Y轴进行关联;
数据深度网络降维:利用深度网络的编码-解码的压缩数据模式对所有所述样本提取的特征数据进行数据降维,以获得降维后的特征数据;
构建预测模型:利用卷积神经网络对降维后的特征数据进行分类和预测,以得到不具有分类准确性和批次效应最小的特征数据;
深度网络学习:对不具有分类准确性和批次效应最小的特征数据进行整合和深度网络学习,以获得最佳的编码校准结果。
可选的,在所述的基于卷积神经网络的代谢分析中不同队列的校准方法中,所述特征构建的方法包括:
统计每个批次的样本集中的样本个数,记为ai,获得所有样本集的样本个数a1,a2……an;
设定N=Max(a1,a2……an),将样本个数低于N的样本集进行数据维度补充,以使所有批次的样本集的样本个数均为N;
对数据维度补充后的所有批次的样本集进行特征融合,以获得Z轴为n的特征数据。
可选的,在所述的基于卷积神经网络的代谢分析中不同队列的校准方法中,将样本个数低于N的样本集进行数据维度补充的方法包括:
将样本集按照样本个数ai从小到大依次排列,以使an=N;
计算样本个数为ai的样本集缺失的样本个数:a-i=N-ai;
从样本个数为ai+1的样本集中任意选取a-i个样本补充至样本个数为ai的样本集中,以使原样本个数为ai的样本集的样本个数为N。
可选的,在所述的基于卷积神经网络的代谢分析中不同队列的校准方法中,从样本个数为ai+1的样本集中选取最前的a-i个样本补充至样本个数为ai的样本集中。
可选的,在所述的基于卷积神经网络的代谢分析中不同队列的校准方法中,所述数据降维的方法包括:
将所有样本的特征数据进行合并,获得特征矩阵;
利用卷积层和数据标准化层对所述特征矩阵进行数据分布统一处理,以得到分布统一特征矩阵;
利用池化层对所述分布统一特征矩阵进行降维处理,得到降维特征矩阵;
利用卷积层和数据标准化层对所述分布统一特征矩阵进行采样分布统一处理,以得到采样统一特征矩阵;
利用采样层对所述采样统一特征矩阵进行上采样处理,以得到采样特征矩阵;
将所述降维特征矩阵和所述采样特征矩阵进行融合,以得到降维后的特征数据。
可选的,在所述的基于卷积神经网络的代谢分析中不同队列的校准方法中,得到所述分布统一特征矩阵、所述降维特征矩阵、所述采样统一特征矩阵和所述采样特征矩阵的过程重复进行5次,将5次获得的所有所述降维特征矩阵和所述采样特征矩阵进行融合,以得到降维后的特征数据。
可选的,在所述的基于卷积神经网络的代谢分析中不同队列的校准方法中,所述数据降维的方法还包括:
将深度网络学习后的特征数据与特征构建获得的特征数据进行作差,其结果作为降维后的特征数据进行校准的效果指标。
可选的,在所述的基于卷积神经网络的代谢分析中不同队列的校准方法中,所述构建预测模型的方法包括:
构建分类模型:利用卷积神经网络对降维后的特征数据进行多分类预测,以得到特征融合后的分组数据;
构建排序模型:利用卷积神经网络对特征融合后的分组数据进行回归预测,以得到不具有分类准确性和批次效应最小的特征数据。
可选的,在所述的基于卷积神经网络的代谢分析中不同队列的校准方法中,所述样本中包括有批次数、样本类型、样本进入的时间次序和样本名称。
为解决上述技术问题,本发明还提供一种基于卷积神经网络的代谢分析中不同队列的校准系统,用于进行如上任一项所述的一种基于卷积神经网络的代谢分析中不同队列的校准方法,所述校准系统包括样本获取模块、特征构建模块、数据深度网络降维、预测模块、深度网络学习模块和结果输出模块;所述样本获取模块用于获取多个不同批次的样本集,每个批次的样本集中包含有至少一个样本;所述特征构建模块用于对所有样本进行特征提取,并进行三轴关联;所述数据降维模块用于对所述特征构建模块提取的特征数据进行降维处理;所述预测模块用于对所述数据降维模块降维后的特征数据进行分类和预测,以得到不具有分类准确性和批次效应最小的特征数据;所述深度网络学习模块用于对所述预测模块输出的特征数据进行整合和深度网络学习,以获得最佳的编码校准结果;所述结果输出模块用于输出所述深度网络学习模块获得的最佳的编码校准结果。
本发明提供的基于卷积神经网络的代谢分析中不同队列的校准方法及系统,包括样本获取模块、特征构建模块、数据深度学习降维模块、预测模块、深度网络学习模块和结果输出模块;所述样本获取模块用于获取多个不同批次的样本集,每个批次的样本集中包含有至少一个样本;所述特征构建模块用于对所有样本进行特征提取,并进行三轴关联;所述数据降维模块用于对所述特征构建模块提取的特征数据进行降维处理;所述预测模块用于对所述数据降维模块降维后的特征数据进行分类和预测,以得到不具有分类准确性和批次效应最小的特征数据;所述深度网络学习模块用于对所述预测模块输出的特征数据进行整合和深度网络学习,以获得最佳的编码校准结果;所述结果输出模块用于输出所述深度网络学习模块获得的最佳的编码校准结果。通过卷积神经网络进行特征构建和深度网络学习,使得有效进行前后样本的信息提取分析,并且通过卷积神经网络在编码层进行分类及回归预测,将批次效应的特征最小化,从而得到最佳分类的结果。解决了如何降低在代谢分析中因批次不同而带来的系统偏差的问题。
附图说明
图1为本实施例提供的基于卷积神经网络的代谢分析中不同队列的校准方法流程图;
图2为本实施例提供的基于卷积神经网络的代谢分析中不同队列的校准系统的结构示意图;
图3为本实施例提供的样本的示例图;
图4为本实施例提供的数据维度补充的示意图;
图5为本实施例提供的Z轴为2的特征数据的示意图;
图6为本实施例提供的不同批次的样本进行合并的过程示意图;
图7为本实施例提供的数据降维的结构示意图;
图8为本实施例提供的分类模型的结构示意图;
图9为本实施例提供的排序模型的结构示意图;
图10为本实施例提供的深度网络学习的结构示意图。
具体实施方式
以下结合附图和具体实施例对本发明提出的基于卷积神经网络的代谢分析中不同队列的校准方法及系统作进一步详细说明。需说明的是,附图均采用非常简化的形式且均使用非精准的比例,仅用以方便、明晰地辅助说明本发明实施例的目的。此外,附图所展示的结构往往是实际结构的一部分。特别的,各附图需要展示的侧重点不同,有时会采用不同的比例。
需要说明的是,本发明的说明书和权利要求书及附图说明中的“第一”、“第二”等是用于区别类似的对象,以便描述本发明的实施例,而不用于描述特定的顺序或先后次序,应该理解这样使用的结构在适当情况下可以互换。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
现有常用的代谢分析使用的校准方法包括位置尺度校准法和矩阵奇异值分解校准法。位置尺度校准法是通过中位数、分位数等对标准样本的QC值进行相互校准。矩阵奇异值分解校准法是通过矩阵的奇异值分解,选择有价值的特征值进行矩阵分解估计,然后移除与批处理标签相关的特征组,从而获得一个没有批处理的数据集合。这两种方法都存在一个关键问题:需要数据的偏移是线性的。然而实际情况是样本的数据的偏移是非线性的,如此便导致校准的结果不理想。
有基于此,本实施例提供一种基于卷积神经网络的代谢分析中不同队列的校准方法,如图1所示,所述校准方法包括:
样本数据准备:获取多个不同批次的样本集,每个批次的样本集中包含有至少一个样本;
特征构建:利用卷积神经网络对所有样本进行特征提取,并将不同批次的样本集通过Z轴构建关联,将同一批次的样本集中的所有样本通过X轴构建关联,将每一样本中分析的不同化合物通过Y轴进行关联;
数据深度网络降维:利用深度网络的编码-解码的压缩数据模式对所有所述样本提取的特征数据进行数据降维,以获得降维后的特征数据;
构建预测模型:利用卷积神经网络对降维后的特征数据进行分类和预测,以得到不具有分类准确性和批次效应最小的特征数据;
深度网络学习:对不具有分类准确性和批次效应最小的特征数据进行整合和深度网络学习,以获得最佳的编码校准结果。
本实施例提供的基于卷积神经网络的代谢分析中不同队列的校准方法,通过卷积神经网络进行特征构建和深度网络学习,使得有效进行前后样本的信息提取分析,并且通过卷积神经网络在编码层进行分类及回归预测,将批次效应的特征最小化,从而得到最佳分类的结果。相较于传统使用线性或者函数模型校准的方法,本实施例提供的基于卷积神经网络的代谢分析中不同队列的校准方法通过深度模型生成的方法使得非现役的偏移和批次间的影响被最小化。解决了如何降低在代谢分析中因批次不同而带来的系统偏差的问题。
通常,所述样本中包括但不限于有批次数、样本类型、样本进入的时间次序和样本名称等。
具体的,在本实施例中,所述特征构建的方法包括:
统计每个批次的样本集中的样本个数,记为ai,获得所有样本集的样本个数a1,a2……an;
设定N=Max(a1,a2……an),将样本个数低于N的样本集进行数据维度补充,以使所有批次的样本集的样本个数均为N;
对数据维度补充后的所有批次的样本集进行特征融合,以获得Z轴为n的特征数据。
进一步的,在本实施例中,将样本个数低于N的样本集进行数据维度补充的方法包括:
将样本集按照样本个数ai从小到大依次排列,以使an=N;
计算样本个数为ai的样本集缺失的样本个数:a-i=N-ai;
从样本个数为ai+1的样本集中任意选取a-i个样本补充至样本个数为ai的样本集中,以使原样本个数为ai的样本集的样本个数为N。
较佳的,从样本个数为ai+1的样本集中选取最前的a-i个样本补充至样本个数为ai的样本集中。
在本实施例中,所述数据降维的方法包括:
将所有样本的特征数据进行合并,获得特征矩阵;
利用卷积层和数据标准化层对所述特征矩阵进行数据分布统一处理,以得到分布统一特征矩阵;
利用池化层对所述分布统一特征矩阵进行降维处理,得到降维特征矩阵;
利用卷积层和数据标准化层对所述分布统一特征矩阵进行采样分布统一处理,以得到采样统一特征矩阵;
利用采样层对所述采样统一特征矩阵进行上采样处理,以得到采样特征矩阵;
将所述降维特征矩阵和所述采样特征矩阵进行融合,以得到降维后的特征数据。
通过降维处理,使得特征数据对批次间的特征和同一批次内时间顺次的特征不敏感,同时还保证了数据的稳定性,防止数据在压缩降维过程中出现较大偏移。
较佳的,在本实施例中,上述得到所述分布统一特征矩阵、所述降维特征矩阵、所述采样统一特征矩阵和所述采样特征矩阵的过程重复进行5次,将5次获得的所有所述降维特征矩阵和所述采样特征矩阵进行融合,以得到降维后的特征数据。如此,能够将特征数据对批次间的特征和同一批次内时间顺次的特征的敏感度降低至最低,从而消除批量效应和批间效应。
进一步的,为确认数据降维后与降维前的偏差,在本实施例中,所述数据降维的方法还包括:
将降维后的特征数据与特征构建获得的特征数据进行作差,其结果作为降维后的特征数据进行维度恢复时的指标,从而保证数据在维度恢复后与原始数据差异在可控范围内。
在本实施例中,所述构建预测模型的方法包括:
构建分类模型:利用卷积神经网络对降维后的特征数据进行多分类预测,以得到特征融合后的分组数据;
构建排序模型:利用卷积神经网络对特征融合后的分组数据进行回归预测,以得到不具有分类准确性和批次效应最小的特征数据。
在具体应用过程中,期望分类模型的结果越大越好,保证数据间的批次效应最低;同时期望排序模型的结果越大越好,保证数据间的批间效应最低。如此,使得代谢分析中不同队列的校准受系统偏差的影响最低。
本实施例还提供一种基于卷积神经网络的代谢分析中不同队列的校准系统,如图2所示,所述校准系统包括样本获取模块、特征构建模块、数据深度学习降维模块、预测模块、深度网络学习模块和结果输出模块;所述样本获取模块用于获取多个不同批次的样本集,每个批次的样本集中包含有至少一个样本;所述特征构建模块用于对所有样本进行特征提取,并进行三轴关联;所述数据降维模块用于对所述特征构建模块提取的特征数据进行降维处理;所述预测模块用于对所述数据降维模块降维后的特征数据进行分类和预测,以得到不具有分类准确性和批次效应最小的特征数据;所述深度网络学习模块用于对所述预测模块输出的特征数据进行整合和深度网络学习,以获得最佳的编码校准结果;所述结果输出模块用于输出所述深度网络学习模块获得的最佳的编码校准结果。
以下,以一具体实施例说明本发明提供的基于卷积神经网络的代谢分析中不同队列的校准方法及系统。
首先,样本数据准备:样本的分析信息包括特征化合物计算出来的分度值,如果该物质在这个样本中没有检测到则计数为0;样本信息具体可以如图3所示,包括:
1.batch:表示该样本的批次数,相同批次样本(即同一样本集的样本)使用相同字符表示;
2.sampleType:表示该样本属于的样本类型,其中样本类型包括QC样本(qc)和普通测试样本(sample);
3.time:表示该样本进入试验的次序,该次序不受批次影响,在一个样本集中time可以按存入顺序递增;
4.label:表示该样本具体试验使用的样本名称,具体可以自定义名称内容。
接着,进行特征构建:
第一步,过滤出不同批次的试验样本的数据,分别统计每一批次试验样本的样本数,记录为a1、a2、……、an;
第二步,统计选择这些样本数数字最大的一个记为N;
第三步,对样本数低于N的样本集进行数据维度补充。这里分为最后一批次样本集的方法及非最后一批次样本集的方法,具体如下:
对于最后一批次样本集,由于其样本集中的样本数为N,因此无需进行维度补充;
对于非最后一批次样本集,假设该次样本数为ai个,会根据差额N-ai用下一批次的样本集的前N-ai个作为补充,类似图4中,A的批次有4个,而整体数据的N为5个,那么就将B批次的第一个进行补充,最终构建出N=5的样本。再将B批次的样本结合,构建出Z轴为2的特征。
将维度补充后的特征数据调整为两个维度的数据,如图5所示。最后对所有的样本特征数据进行上述处理,获得新的特征数据。
然后,数据深度网络降维:
将上一步获得的所有的新的特征数据进行合并,获得特征矩阵作为数据降维的输入量,样本合并的过程示意如图6所示。
在数据深度网络降维中,本实施例构建了特征提取单元(图7中左侧部分)和上采样单元(图7中右侧部分),并结合特征融合将不同特征提取的过程中信息进行补充。
具体的,特征提取单元包括卷积层、数据标准化层和池化层。第一步主要提取数据特征,第二步对数据分布统一;第三步将数据降维降低。左侧特征提取一共进行5次,并且每一次在池化层前将结果保留传递给右侧上采样单元,在池化前传递数据主要保证数据的稳定性,防止数据压缩出现太大偏移。上采样单元与特征提取单元类似,也包括卷积层和数据标准化层,但最后一层为采样层。
从前面的分析过程中获得卷积之后的结果(输入值)作为对应,然后融合数据降维后的输出值,最终获得编码后的数据表格。再将输出的数据表格与真实的结果做差记录为loss_ed,就是Encode和Decode之后两种结果的差异求和,作为特征数据校准效果的指标。
再然后,构建预测模型:此部分包括构建分类模型和构建排序模型。
参见图8,分类模型是通过卷积神经网络进行多分类预测(返回一个分组状态),当预测结果与真实结果的差异作为loss_classific,这部分数值我们希望越大越好,保证模型对于批次效应最低。
参见图9,排序模型是通过卷积神经网络进行回归预测(返回一个数值),当预测结果与真实结果的差异作为loss_regression这部分数值我们希望越大越好,保证模型对于组内排序最低。
最后,进行深度网络学习:如图10所示,对不具有分类准确性和批次效应最小的特征数据进行整合深度网络学习,以获得最佳的编码校准结果。
需要说明的是,本发明所提的卷积、深度网络学习等具体的方法为本领域技术人员所熟知的,此处不再赘述。
综上所述,本实施例提供的基于卷积神经网络的代谢分析中不同队列的校准方法及系统,包括样本获取模块、特征构建模块、数据降维模块、预测模块、深度网络学习模块和结果输出模块;所述样本获取模块用于获取多个不同批次的样本集,每个批次的样本集中包含有至少一个样本;所述特征构建模块用于对所有样本进行特征提取,并进行三轴关联;所述数据数据网络降维模块用于对所述特征构建模块提取的特征数据进行降维处理;所述预测模块用于对所述数据深度网络降维模块降维后的特征数据进行分类和预测,以得到不具有分类准确性和批次效应最小的特征数据;所述深度网络学习模块用于对所述预测模块输出的特征数据进行整合和深度网络学习,以获得最佳的编码校准结果;所述结果输出模块用于输出所述深度网络学习模块获得的最佳的编码校准结果。通过卷积神经网络进行特征构建和深度网络学习,使得有效进行前后样本的信息提取分析,并且通过卷积神经网络在编码层进行分类及回归预测,将批次效应的特征最小化,从而得到最佳分类的结果。解决了如何降低在代谢分析中因批次不同而带来的系统偏差的问题。
上述描述仅是对本发明较佳实施例的描述,并非对本发明范围的任何限定,本发明领域的普通技术人员根据上述揭示内容做的任何变更、修饰,均属于权利要求书的保护范围。
Claims (10)
1.一种基于卷积神经网络的代谢分析中不同队列的校准方法,其特征在于,所述校准方法包括:
样本数据准备:获取多个不同批次的样本集,每个批次的样本集中包含有至少一个样本;
特征构建:利用卷积神经网络对所有样本进行特征提取,并将不同批次的样本集通过Z轴构建关联,将同一批次的样本集中的所有样本通过X轴构建关联,将每一样本中分析的不同化合物通过Y轴进行关联;
数据深度网络降维:利用深度网络的编码-解码的压缩数据模式对所有所述样本提取的特征数据进行数据降维,以获得降维后的特征数据;
构建预测模型:利用卷积神经网络对降维后的特征数据进行分类和预测,以得到不具有分类准确性和批次效应最小的特征数据;
深度网络学习:对不具有分类准确性和批次效应最小的特征数据进行整合和深度网络学习,将特征数据恢复到原始数据,并且保持特征构建后的结果与学习后的结果差异最小,以获得最佳的编码校准结果。
2.根据权利要求1所述的基于卷积神经网络的代谢分析中不同队列的校准方法,其特征在于,所述特征构建的方法包括:
统计每个批次的样本集中的样本个数,记为ai,获得所有样本集的样本个数a1,a2……an;
设定N=Max(a1,a2……an),将样本个数低于N的样本集进行数据维度补充,以使所有批次的样本集的样本个数均为N;
对数据维度补充后的所有批次的样本集进行特征融合,以获得Z轴为n的特征数据。
3.根据权利要求2所述的基于卷积神经网络的代谢分析中不同队列的校准方法,其特征在于,将样本个数低于N的样本集进行数据维度补充的方法包括:
将样本集按照样本个数ai从小到大依次排列,以使an=N;
计算样本个数为ai的样本集缺失的样本个数:a-i=N-ai;
从样本个数为ai+1的样本集中任意选取a-i个样本补充至样本个数为ai的样本集中,以使原样本个数为ai的样本集的样本个数为N。
4.根据权利要求3所述的基于卷积神经网络的代谢分析中不同队列的校准方法,其特征在于,从样本个数为ai+1的样本集中选取最前的a-i个样本补充至样本个数为ai的样本集中。
5.根据权利要求1所述的基于卷积神经网络的代谢分析中不同队列的校准方法,其特征在于,所述数据降维的方法包括:
将所有样本的特征数据进行合并,获得特征矩阵;
利用卷积层和数据标准化层对所述特征矩阵进行数据分布统一处理,以得到分布统一特征矩阵;
利用池化层对所述分布统一特征矩阵进行降维处理,得到降维特征矩阵;
利用卷积层和数据标准化层对所述分布统一特征矩阵进行采样分布统一处理,以得到采样统一特征矩阵;
利用采样层对所述采样统一特征矩阵进行上采样处理,以得到采样特征矩阵;
将所述降维特征矩阵和所述采样特征矩阵进行融合,以得到降维后的特征数据。
6.根据权利要求5所述的基于卷积神经网络的代谢分析中不同队列的校准方法,其特征在于,得到所述分布统一特征矩阵、所述降维特征矩阵、所述采样统一特征矩阵和所述采样特征矩阵的过程重复进行5次,将5次获得的所有所述降维特征矩阵和所述采样特征矩阵进行融合,以得到降维后的特征数据。
7.根据权利要求5所述的基于卷积神经网络的代谢分析中不同队列的校准方法,其特征在于,所述数据深度网络降维的方法还包括:
将深度网络学习后的特征数据与特征构建获得的特征数据进行作差,其结果作为降维后的特征数据进行校准效果的指标。
8.根据权利要求1所述的基于卷积神经网络的代谢分析中不同队列的校准方法,其特征在于,所述构建预测模型的方法包括:
构建分类模型:利用卷积神经网络对降维后的特征数据进行多分类预测,以得到特征融合后的分组数据;
构建排序模型:利用卷积神经网络对特征融合后的分组数据进行回归预测,以得到不具有分类准确性和批次效应最小的特征数据。
9.根据权利要求1所述的基于卷积神经网络的代谢分析中不同队列的校准方法,其特征在于,所述样本中包括有批次数、样本类型、样本进入的时间次序和样本名称。
10.一种基于卷积神经网络的代谢分析中不同队列的校准系统,用于进行如权利要求1~9任一项所述的一种基于卷积神经网络的代谢分析中不同队列的校准方法,其特征在于,所述校准系统包括样本获取模块、特征构建模块、数据深度网络降维模块、预测模块、深度网络学习模块和结果输出模块;所述样本获取模块用于获取多个不同批次的样本集,每个批次的样本集中包含有至少一个样本;所述特征构建模块用于对所有样本进行特征提取,并进行三轴关联;所述数据深度网络降维模块用于对所述特征构建模块提取的特征数据进行降维处理;所述预测模块用于对所述数据深度网络降维模块降维后的特征数据进行分类和预测,以得到不具有分类准确性和批次效应最小的特征数据;所述深度网络学习模块用于对所述预测模块输出的特征数据进行整合和深度网络学习,以获得最佳的编码校准结果;所述结果输出模块用于输出所述深度网络学习模块获得的最佳的编码校准结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111076069.9A CN113903394B (zh) | 2021-09-14 | 2021-09-14 | 基于卷积神经网络的代谢分析中不同队列的校准方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111076069.9A CN113903394B (zh) | 2021-09-14 | 2021-09-14 | 基于卷积神经网络的代谢分析中不同队列的校准方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113903394A true CN113903394A (zh) | 2022-01-07 |
CN113903394B CN113903394B (zh) | 2024-08-02 |
Family
ID=79028246
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111076069.9A Active CN113903394B (zh) | 2021-09-14 | 2021-09-14 | 基于卷积神经网络的代谢分析中不同队列的校准方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113903394B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117214108A (zh) * | 2023-11-06 | 2023-12-12 | 安徽猫头鹰科技有限公司 | 一种基于光谱检测设备的批量自动校准方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108931590A (zh) * | 2018-05-17 | 2018-12-04 | 北京和合医学诊断技术股份有限公司 | 多批次靶向代谢组学数据的校正方法 |
CN111191735A (zh) * | 2020-01-04 | 2020-05-22 | 西安电子科技大学 | 基于数据差异和多尺度特征的卷积神经网络影像分类方法 |
CN111579665A (zh) * | 2020-05-20 | 2020-08-25 | 苏州帕诺米克生物医药科技有限公司 | 一种基于uplc/hrms的代谢组学相对定量分析方法 |
-
2021
- 2021-09-14 CN CN202111076069.9A patent/CN113903394B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108931590A (zh) * | 2018-05-17 | 2018-12-04 | 北京和合医学诊断技术股份有限公司 | 多批次靶向代谢组学数据的校正方法 |
CN111191735A (zh) * | 2020-01-04 | 2020-05-22 | 西安电子科技大学 | 基于数据差异和多尺度特征的卷积神经网络影像分类方法 |
CN111579665A (zh) * | 2020-05-20 | 2020-08-25 | 苏州帕诺米克生物医药科技有限公司 | 一种基于uplc/hrms的代谢组学相对定量分析方法 |
Non-Patent Citations (1)
Title |
---|
QIN LIU等: "Addressing the batch effect issue for LC/MS metabolomics data in data preprocessing", 《SCIENTIFIC REPORTS》, vol. 10, no. 1, 17 August 2020 (2020-08-17) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117214108A (zh) * | 2023-11-06 | 2023-12-12 | 安徽猫头鹰科技有限公司 | 一种基于光谱检测设备的批量自动校准方法 |
CN117214108B (zh) * | 2023-11-06 | 2024-02-06 | 安徽猫头鹰科技有限公司 | 一种基于光谱检测设备的批量自动校准方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113903394B (zh) | 2024-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Böcker et al. | SIRIUS: decomposing isotope patterns for metabolite identification | |
CN111370067B (zh) | 一种面向lc/gc-ms的代谢组学数据质量控制方法及系统 | |
Hutchinson et al. | Models and machines: how deep learning will take clinical pharmacology to the next level | |
CN104170052A (zh) | 用于改进的质谱分析法定量作用的方法和装置 | |
CN106034264B (zh) | 基于协同模型的获取视频摘要的方法 | |
Blanchet et al. | Data fusion in metabolomics and proteomics for biomarker discovery | |
CN114755357A (zh) | 一种色谱质谱自动积分方法、系统、设备、介质 | |
KR20190005034A (ko) | 액체 크로마토그래프 질량 분석을 이용한 시료의 정량 분석 장치 및 방법 | |
CN113807004A (zh) | 基于数据挖掘的刀具寿命预测方法、装置及系统 | |
CN113903394A (zh) | 基于卷积神经网络的代谢分析中不同队列的校准方法及系统 | |
CN117461087A (zh) | 用于鉴别质谱中的分子种类的方法和装置 | |
CN114154029A (zh) | 一种基于人工智能和色谱分析的样品查询方法及服务器 | |
CN111859275B (zh) | 一种基于非负矩阵分解的质谱数据缺失值填补方法及系统 | |
Alvarez et al. | The Rasch model. Measuring the impact of scientific journals: Analytical Chemistry | |
CN112634997A (zh) | 一种甾醇数据库建立及甾醇分析方法 | |
CN114858958B (zh) | 质谱数据在质量评估中的分析方法、装置和存储介质 | |
CN115795225A (zh) | 一种近红外光谱校正集的筛选方法及装置 | |
Nesrstová et al. | Principal balances of compositional data for regression and classification using partial least squares | |
CN115171790A (zh) | 质谱的数据序列在质量评估中的分析方法、装置和存储介质 | |
Fox et al. | Parallel deterministic annealing clustering and its application to LC-MS data analysis | |
CN113822564A (zh) | 一种空域仿真分析的飞行计划最小样本量确认方法及装置 | |
CN113035360A (zh) | 一种细胞分类模型学习方法 | |
Rockwood et al. | Isotopic distributions | |
CN113720952A (zh) | 用于储层解释评价的图版生成方法、装置、设备及介质 | |
CN104778479A (zh) | 一种基于稀疏编码提取子的图像分类方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |