CN117761225A - 用于代谢组学的数据处理方法、装置和介质 - Google Patents
用于代谢组学的数据处理方法、装置和介质 Download PDFInfo
- Publication number
- CN117761225A CN117761225A CN202311526824.8A CN202311526824A CN117761225A CN 117761225 A CN117761225 A CN 117761225A CN 202311526824 A CN202311526824 A CN 202311526824A CN 117761225 A CN117761225 A CN 117761225A
- Authority
- CN
- China
- Prior art keywords
- fatty acid
- acid methyl
- retention time
- data processing
- metabolites
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 25
- 239000012472 biological sample Substances 0.000 claims abstract description 26
- 238000000034 method Methods 0.000 claims abstract description 25
- 238000002290 gas chromatography-mass spectrometry Methods 0.000 claims abstract description 19
- 238000012545 processing Methods 0.000 claims abstract description 12
- 230000014759 maintenance of location Effects 0.000 claims description 71
- 235000019387 fatty acid methyl ester Nutrition 0.000 claims description 61
- 239000002207 metabolite Substances 0.000 claims description 58
- 239000000523 sample Substances 0.000 claims description 29
- 238000004590 computer program Methods 0.000 claims description 22
- 238000002705 metabolomic analysis Methods 0.000 claims description 8
- 230000001431 metabolomic effect Effects 0.000 claims description 8
- 238000012937 correction Methods 0.000 claims description 7
- 239000012496 blank sample Substances 0.000 claims description 4
- 230000036961 partial effect Effects 0.000 claims description 3
- 230000006978 adaptation Effects 0.000 abstract description 2
- 238000004949 mass spectrometry Methods 0.000 description 11
- 238000002474 experimental method Methods 0.000 description 9
- 238000001514 detection method Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000004817 gas chromatography Methods 0.000 description 5
- 230000010354 integration Effects 0.000 description 5
- 239000000126 substance Substances 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000015556 catabolic process Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 239000000356 contaminant Substances 0.000 description 3
- 238000006731 degradation reaction Methods 0.000 description 3
- 150000002500 ions Chemical class 0.000 description 3
- 230000002503 metabolic effect Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000035945 sensitivity Effects 0.000 description 3
- 238000000926 separation method Methods 0.000 description 3
- 238000004611 spectroscopical analysis Methods 0.000 description 3
- 230000005526 G1 to G0 transition Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 2
- 238000000738 capillary electrophoresis-mass spectrometry Methods 0.000 description 2
- 239000012159 carrier gas Substances 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000007789 gas Substances 0.000 description 2
- 150000008282 halocarbons Chemical class 0.000 description 2
- 150000002430 hydrocarbons Chemical class 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 238000004895 liquid chromatography mass spectrometry Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 229910052760 oxygen Inorganic materials 0.000 description 2
- 239000001301 oxygen Substances 0.000 description 2
- 150000003384 small molecules Chemical class 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 210000002700 urine Anatomy 0.000 description 2
- 238000001644 13C nuclear magnetic resonance spectroscopy Methods 0.000 description 1
- 238000005160 1H NMR spectroscopy Methods 0.000 description 1
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical group [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 238000005033 Fourier transform infrared spectroscopy Methods 0.000 description 1
- 238000012351 Integrated analysis Methods 0.000 description 1
- 108010026552 Proteome Proteins 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000012863 analytical testing Methods 0.000 description 1
- 238000006065 biodegradation reaction Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000010205 computational analysis Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000005684 electric field Effects 0.000 description 1
- 230000002962 histologic effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 150000002632 lipids Chemical class 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 102000039446 nucleic acids Human genes 0.000 description 1
- 108020004707 nucleic acids Proteins 0.000 description 1
- 150000007523 nucleic acids Chemical class 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 231100000915 pathological change Toxicity 0.000 description 1
- 230000036285 pathological change Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Landscapes
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
Abstract
本申请公开了一种用于代谢组学的数据处理方法、装置和介质。一种示例性的用于代谢组学的数据处理方法,包括将多个生物样本的气相色谱‑质谱数据进行整合的步骤。从而,实现了代谢组学数据处理中大批量、高效率、易适应等实际应用场景需求。本申请还公开了示例性的用于代谢组学的数据处理装置和介质。
Description
技术领域
本申请涉及代谢组学技术领域,具体地,涉及一种用于代谢组学的数据处理方法、装置和介质。
背景技术
代谢组学(metabonomics/metabolomics)是效仿基因组学和蛋白质组学的研究思想,对生物体内所有代谢物进行定量分析,并寻找代谢物与生理病理变化的相对关系的研究方式,是系统生物学的组成部分。其研究对象大都是相对分子质量1000以内的小分子物质。代谢组学研究的基本方法是,以先进分析检测技术结合模式识别和专家系统等计算分析方法来进行。
随着相关学科技术不断发展进步,当下代谢组学的分析研究已经越来越依赖于质谱和色谱分析平台,以生成高通量组学规模的数据。这些分析平台包括但不限于,液相色谱-质谱(LC-MS)、气相色谱-质谱(GC-MS)、毛细管电泳-质谱(CE-MS)和光谱方法,如1H–NMR、13C-NMR,FTIR等。不论是液相色谱-质谱(LC-MS)分析方法,还是气相色谱-质谱(GC-MS)分析方法,在检测样本数目的增加的情况下,都产生了一系列问题,例如:大规模样本的检测时间较长,机器在长时间的运行过程中,会出现灵敏度下降、保留时间漂移等情况。除此之外,在整合不同样本和不同批次的代谢组数据时,也存在一些问题和局限性。常见的处理方式是,需要将所有的样本数据放在一起进行整合,不能分批次或单个样本单独进行整合。对于样本数规模固定的,它可以进行处理,且因样本数的大小,处理时间长短不一。这种处理方式的弊端是,数据处理时间和难度会随样本数增加而增加,当样本数非常巨大或不断有新样本需要进行数据整合的时候,这种方式可能就不太适用了,且不利于商业化应用。此外,上述方法还存在一些问题和不足,例如:不能有效利用不同批次间样本信息互补,不同批次样本都有各自的特点,信息很难进行比较,也很难互补,会丢失一些信息,导致代谢物检测重复性和覆盖度会降低。又有,GC-MS技术的高通量,加上对大型实验的需求,导致数据预处理,即跨样本的代谢物量化,也成为一个主要技术瓶颈。有时,甚至出现生成的数据需要大量的手工整理,带有很强的主观性且耗时巨大,可能需要几天到几周的时间。由此,如何大批量、高效率地处理代谢组数据,成为了亟待解决的问题。
发明内容
基于此,本申请提供了一种用于代谢组学的数据处理方法、装置和介质,以适应代谢组学数据处理中大批量、高效率、易适应等实际应用场景需求。
为了实现上述目的,根据本发明的第一方面,提供了一种用于代谢组学的数据处理方法,包括:
根据多个生物样本的气相色谱-质谱数据,获取所述多个生物样本的特征数据,并对所述特征数据进行基线矫正;
依据所述生物样本中脂肪酸甲酯(FAME)保留时间的预定阈值范围,获得所述脂肪酸甲酯保留时间的真值分布数据;
在所述脂肪酸甲酯的保留时间真值超出所述预定阈值范围或者出现断层的情况下,将所述特征数据分组;
利用分组后的所述特征数据,用样本类型数据库进行注释,以获得类型预注释结果;
从所述多个生物样本中选取部分样本,利用公共数据库进行注释,以获得公共预注释结果;以及
比较所述类型预注释结果与所述公共预注释结果,确定待回捞代谢物。
在一些实施例中,在所述脂肪酸甲酯的保留时间真值超出所述预定阈值范围的情况下,还包括:调整所述脂肪酸甲酯保留时间的预定阈值范围,使得所述脂肪酸甲酯的保留时间真值全部落入调整后的预定阈值范围之内。
在一些实施例中,在所述脂肪酸甲酯的保留时间真值出现断层的情况下,还包括:
以所述断层对所述脂肪酸甲酯的保留时间真值分组,生成各自的预定阈值范围,使得所述脂肪酸甲酯的保留时间真值全部落入调整后的预定阈值范围之内。
在一些实施例中,比较所述类型预注释结果与所述公共预注释结果,确定待回捞代谢物包括:将所述类型预注释结果与所述公共预注释结果对比,所述类型预注释结果中多出、缺失的代谢物,以及所述类型预注释结果与所述公共预注释结果的保留时间差大于1秒的代谢物,确定为所述待回捞代谢物。
在一些实施例中,根据所确定的待回捞代谢物,依次构建气相色谱质谱法数据库,并对所述待回捞代谢物再一次进行注释,以获得数据校对后的回捞结果。
在一些实施例中,通过以下方法对所述部分代谢物进行注释:将所述类型预注释结果与回捞结果整合,去除样本平均强度小于2倍空白样本的代谢物,作为调整后的注释结果。
在一些实施例中,将所述调整后的注释结果更新至对应的所述类型预注释结果;以及将所述公共预注释结果中未在所述样本类型数据库记录的代谢物更新至对应的样本类型数据库。
在一些实施例中,所述脂肪酸甲酯保留时间的预定阈值范围是在预定值的基础上,通过附加容忍值范围而设置的。
第二方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现上述用于代谢组学的数据处理方法的步骤。
第三方面,本申请还提供了一种电子设备,包括:存储器,用于存储计算机程序产品;处理器,用于执行所述存储器中存储的计算机程序产品,且所述计算机程序产品被执行时,实现上述用于代谢组学的数据处理方法的步骤。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图,而并不超出本申请要求保护的范围。
图1示出了本申请示例性实施例的用于代谢组学的数据处理方法流程图;
图2示出了本申请示例性实施例的所有样本选定的脂肪酸甲酯保留时间真值;
图3示出了本申请示例性实施例的终端设备示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本发明中涉及的缩写及术语解释如下:
代谢组:指生物体内代谢物质的动态整体,传统的代谢概念既包括生物合成,也包括生物分解,因此理论上代谢物应包括核酸、蛋白质、脂类生物大分子以及其他小分子代谢物质。但为了有别于基因组、转录组和蛋白质组,通常所指的代谢组只涉及相对分子质量约小于1000Da(Da:道尔顿)的小分子代谢物质的总称。
质谱:又称质谱法(Mass Spectrometry,MS),是一种与光谱并列的谱学方法,通常意义上是指广泛应用于各个学科领域中通过制备、分离、检测气相离子来鉴定化合物的一种专门技术。质谱法在一次分析中可提供丰富的结构信息,将分离技术与质谱法相结合是分离科学方法中的一项突破性进展。在众多的分析测试方法中,质谱学方法被认为是一种同时具备高特异性和高灵敏度且得到了广泛应用的普适性方法。简言之,其是将被测物质离子化,用电场和磁场将运动的离子,按它们的质荷比分离后进行检测的方法。
气相色谱质谱法(GC-MS):由两种截然不同的分析技术组成,即,气相色谱法(GC)与质谱法(MS)。通常情况下,分析仪器由气相色谱仪组成,通过加热的传输线连接到质谱仪。
气相色谱:指的是一种分离科学技术,用于分离样品混合物中的化学成分,然后检测它们以确定其存在或不存在和/或存在多少。气相色谱检测器所提供的信息是有限的;这通常是二维的,即分析柱上的保留时间和检测器的反应。
注释,即对代谢物鉴定,以及对代谢物定性;并且,使用数据库与GC-MS检测到的复杂信号进行匹配的过程。根据GC-MS原理,混合未知代谢物在GC中被分离,未知代谢物依次进入MS,在MS中未知代谢物被电离形成特异的电信号并被检测,将这些电信号与数据库匹配,匹配成功则认为该未知代谢物是数据库记录的已知代谢物。
基于气相色谱质谱法(GC-MS),目前大规模样本的代谢组检测都是依次检测和分批次进行的,存在样本之间和批次间的偏差,需要对同一批次和不同批次的样本数据进行整合后才能进行下一步比较分析。针对大规模代谢组学数据的整合分析,现有的一些技术存在着弊端,它们需要将所有的样本数据放在一起进行整合,不能分批次或单个样本单独进行整合,同时在长期检测过程中,脂肪酸甲酯的保留时间偏移程度较大,导致其保留时间矫正效果较差,从而使代谢物定性错误率较高。
针对现有技术中的这些不足,本发明提出了一种新的代谢组数据整合思路,可以适用于大规模的代谢组数据分析,可实现分批次或单个样本的数据校正与数据整合,且不受检测批次的影响,同时在代谢物覆盖度以及定性、定量和准确性上也有所提高。
根据本发明一种典型的实施方式,图1示出了本申请示例性实施例的用于代谢组学的数据处理方法100流程图。其提供了一种用于代谢组学的数据处理方法。其包括将多个生物样本的气相色谱-质谱数据进行整合的步骤:
根据多个生物样本的气相色谱-质谱数据,获取所述多个生物样本的特征数据,并对所述特征数据进行基线矫正。
依据所述生物样本中脂肪酸甲酯(FAME)保留时间的预定阈值范围,获得所述脂肪酸甲酯保留时间真值的分布数据。一般地,在代谢组学中,使用者对于气相色谱质谱法(GC-MS)的脂肪酸甲酯的保留时间是明确的,预定值可以采用经典理论值,也可以采用经验值。在本申请的具体实施方式中,脂肪酸甲酯(FAME)保留时间的阈值,可以在选定的脂肪酸甲酯(FAME)保留时间的预定值基础上,附加容忍值范围,比如:±1秒,±2秒,±3秒等。典型地,例如根据实验记录获得的经验值作为预定值,判断某个脂肪酸甲酯的保留时间为420秒,则可以附加±1秒的容忍值范围,即,设置脂肪酸甲酯保留时间的阈值为419秒~421秒,随后以此阈值在样本中寻找真值。特别说明的是,GC-MS中使用脂肪酸甲酯时,是由13种不同碳链长度的脂肪酸甲酯构成的脂肪酸甲酯体系,其保留时间是均匀分布的。
在所述脂肪酸甲酯的保留时间真值超出所述预定阈值范围或者出现断层的情况下,将所述特征数据分组。本实施例中,在对已经选定的多个生物样本依次进行实验的过程中,受实验条件变化的影响,多个生物样本的脂肪酸甲酯保留时间会随之发生变化。在同一实验中的临近样本间,脂肪酸甲酯保留时间的变化非常小。与此不同的是,在不同批次实验中,或者实验条件不够稳定发生显著变化的情况下,脂肪酸甲酯保留时间的变化将会发生较为明显的变化。在所述脂肪酸甲酯的保留时间真值超出所述预定阈值范围的情况下,可以调整所述脂肪酸甲酯保留时间的预定阈值范围,使得所述脂肪酸甲酯的保留时间真值全部落入调整后的预定阈值范围之内。在所述脂肪酸甲酯的保留时间真值出现断层的情况下,以所述断层对所述脂肪酸甲酯的保留时间真值分组,生成各自的预定阈值范围,使得所述脂肪酸甲酯的保留时间真值全部落入调整后的预定阈值范围之内。
如图2所示,该图示出了实验中,所有样本选定的脂肪酸甲酯保留时间真值。纵坐标为脂肪酸甲酯保留时间(单位:秒),横坐标为依次进行的生物样本数(单位:个)。根据图中的描点统计,在大约第1000个被统计的生物样本试验结果描点处,脂肪酸甲酯保留时间的真值统计结果发生明显断层,即,从420s跳跃至424s。这种变化可能会导致样本脂肪酸甲酯保留时间的真值超出选定的阈值范围。对于这种情况,就需要对生物样本进行分组。以图2示出的生物样本为例,在第1000个样本前后,脂肪酸甲酯保留时间从420s跳跃至424s,已经超出预定阈值范围。故,对被统计的生物样本试验结果进行分组,即1-1000生物样本使用419s-421s作为预定阈值范围;1000-3500样本使用423s-425s作为预定阈值范围。分组后相互独立,各自分别进行后续处理。
利用分组后的所述特征数据,用样本类型数据库进行注释,以获得类型预注释结果。在一些实施例中,脂肪酸甲酯的保留时间在不同实验中是变化的,但其保留指数固定不变。脂肪酸甲酯的保留时间与保留指数的对应关系可以映射到样本中的具体代谢物,此时不稳定的保留时间转化为了稳定的保留指数。数据库中会记录各种代谢物的保留指数,后续数据处理则需要将代谢物的数据库保留指数与检测的保留指数进行匹配。虽然,在代谢组学领域中已存在数个公共数据库,并且记录了大量代谢物的保留指数信息;但是,因为代谢物的复杂多样性,代谢物在不同样本中的保留指数也可能存在不同。例如:某一特定代谢物,在血浆样本和尿液样本中分别进行实验,其保留指数可能有差异,公共数据库却不考虑此差异。为了提高代谢物鉴定的准确性,在本申请公开的方法中建立专门的样本类型数据库,如血浆数据库、尿液数据库等。特别地,样本类型数据库应当包含于此样本类型中应当出现的所有代谢物,以及对应的保留指数。
从所述多个生物样本中选取部分样本,利用公共数据库进行注释,以获得公共预注释结果。在本申请公开的实施例中,公共数据库指的是由业界研究人员共同努力形成的公开、共用的数据库。常见公共数据库包括HMDB、KEGG等,特点是样本类型多、来源广泛、代谢物数量丰富、信息齐全、业界认可度高、可信度高。在一些实施例中,所选取的部分样本,可以是随机的,也可以是具有代表性的。特别地,代表性的样本可以包括:随机抽取的生物样本、空白样本、混合生物样本、标准样本类型样本(如:标准血浆样本)。
比较所述类型预注释结果与所述公共预注释结果,确定待回捞代谢物。在本申请公开的实施例中,将类型预注释结果与公共预注释结果相比较,既可以避免业界的数据处理方法处理大量样本且追求效率的情况下,所有样本一次性进行代谢物鉴定,导致错误率较高;又可以避免过分追求准确率,每一次实验均单独进行代谢物鉴定,导致耗时过长,无法接受。
在一些实施例中,获取任意选取的多个生物样本的特征数据,可以按照GC-MS导出原始数据文件,并且进行基线矫正,以排除色谱柱和载气对基线的影响,例如,载气中的常见的污染物有水分,氧气,烃类化合物和卤代烃,其对色谱柱的寿命及被分析物的检测有很大影响,不良的影响包括:水分是色谱柱固定相降解的常见原因,可以损坏仪器。氧气也是GC-MS方法中最常见的污染物,是色谱柱固定相降解和进样口衬管性能下降的常见原因,可引起不稳定被分析物的分解。烃类化合物和卤代烃:通过增加检测器背景噪音而降低检测器灵敏度;还可引起基线漂移或波动、污染物色谱峰、噪音或高的基线补偿。
在一些实施例中,使用理论值或经验值设置所述脂肪酸甲酯的保留时间的所述预定阈值范围。具体地,可以设置脂肪酸甲酯(FAME)保留时间的阈值范围的上限和下限;其中,阈值上限和阈值下限可以使用理论值,也可以根据实验经验值设置。
在本申请的一些具体实施方式中,还可以包括:调整脂肪酸甲酯(FAME)保留时间的预定阈值范围,使得所述脂肪酸甲酯的保留时间真值全部落入预定阈值范围之内,并尽可能居中,避免出现断层。在一些实施例中,调整预定阈值范围的方式,依赖于实验获得的生物样本真值的情况来确定,例如,为了选取的脂肪酸甲酯保留时间应尽量具有代表性,能够反应所有样本的情况,可以用真值的均值或中值作为预定阈值范围的依据;也可以在真值波动范围较大的情况下,适当增大预定阈值范围。
在本申请的一些具体实施方式中,进一步包括:将类型预注释结果与所述公共预注释结果对比,所述类型预注释结果中多出、缺失的代谢物,以及所述类型预注释结果与所述公共预注释结果的保留时间差大于1秒(即,|类型预注释结果的保留时间-公共预注释结果的保留时间|>1秒)的代谢物,确定为待回捞代谢物。具体地,样本的类型预注释结果与公共预注释结果会出现差异,以公共预注释结果作为参照物的情况下,类型预注释结果可能会出现不同的异常情况,例如:类型预注释结果可能会多出、缺失或者与公共预注释结果相比差值大于1秒,在本申请公开的具体实施方式中,将出现上述异常情况的代谢物,称之为待回捞代谢物。
在一些实施例中,根据所确定的待回捞代谢物,依次构建气相色谱质谱法(GC-MS)数据库,需要强调的是,该数据库是仅含当前待回捞代谢物的数据库,并对所述待回捞代谢物进行注释,以获得数据校对后的回捞结果。进一步地,通过以下方法对待回捞代谢物再一次进行注释,可以将类型预注释结果与回捞结果整合,去除样本平均强度小于2倍空白样本的代谢物,作为调整后的注释结果。
可选择地,可以将调整后的注释结果更新至对应的类型预注释结果;以及,将所述公共预注释结果中未在样本类型数据库记录的代谢物更新至对应样本类型数据库。
在一些实施例中,若有多个分组,分别数据处理后,将注释结果直接合并。
图3示出了本申请示例性实施例的终端设备300示意图。通信终端设备300可以包括:至少一个处理器302;以及至少一个存储器304,其包括计算机程序代码,至少一个存储器304和计算机程序代码306被配置为利用至少一个处理器302,使得通信终端设备300执行:该终端设备可以实现本申请上述实施例中用于代谢组学的数据处理方法的步骤。
本申请还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,该计算机程序可以实现本申请上述实施例中用于代谢组学的数据处理方法的步骤。
本申请还公开了一种电子设备,包括:存储器,用于存储计算机程序产品;处理器,用于执行所述存储器中存储的计算机程序产品,且所述计算机程序产品被执行时,该电子设备可以实现本申请上述实施例中用于代谢组学的数据处理方法的步骤。
处理器可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备中的其他组件以执行期望的功能。
存储器可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器可以运行所述程序指令,以实现上文所述的本申请的各个实施例的任务生成方法以及/或者其他期望的功能。
在一个示例中,电子设备还可以包括:输入装置和输出装置,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
此外,该输入设备还可以包括例如键盘、鼠标等等。
该输出装置可以向外部输出各种信息,包括确定出的距离信息、方向信息等。该输出设备可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,本申请仅示出了该电子设备中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备还可以包括任何其他适当的组件。
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述部分中描述的根据本申请各种实施例的任务生成方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述部分中描述的根据本申请各种实施例的任务生成方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种用于代谢组学的数据处理方法,其特征在于,包括:
根据多个生物样本的气相色谱-质谱数据,获取所述多个生物样本的特征数据,并对所述特征数据进行基线矫正;
依据所述生物样本中脂肪酸甲酯保留时间的预定阈值范围,获得所述脂肪酸甲酯保留时间真值的分布数据;
在所述脂肪酸甲酯的保留时间真值超出所述预定阈值范围或者出现断层的情况下,将所述特征数据分组;
利用分组后的所述特征数据,用样本类型数据库进行注释,以获得类型预注释结果;
从所述多个生物样本中选取部分样本,利用公共数据库进行注释,以获得公共预注释结果;以及
比较所述类型预注释结果与所述公共预注释结果,确定待回捞代谢物。
2.根据权利要求1所述的用于代谢组学的数据处理方法,其特征在于,在所述脂肪酸甲酯的保留时间真值超出所述预定阈值范围的情况下,还包括:
调整所述脂肪酸甲酯保留时间的预定阈值范围,使得所述脂肪酸甲酯的保留时间真值全部落入调整后的预定阈值范围之内。
3.根据权利要求1所述的用于代谢组学的数据处理方法,其特征在于,在所述脂肪酸甲酯的保留时间真值出现断层的情况下,还包括:
以所述断层对所述脂肪酸甲酯的保留时间真值分组,生成各自的预定阈值范围,使得所述脂肪酸甲酯的保留时间真值全部落入调整后的预定阈值范围之内。
4.根据权利要求1所述的用于代谢组学的数据处理方法,其特征在于,比较所述类型预注释结果与所述公共预注释结果,确定待回捞代谢物包括:
将所述类型预注释结果与所述公共预注释结果对比,所述类型预注释结果中多出、缺失的代谢物,以及所述类型预注释结果与所述公共预注释结果的保留时间差大于1秒的代谢物,确定为所述待回捞代谢物。
5.根据权利要求4所述的用于代谢组学的数据处理方法,其特征在于,还包括:
根据所确定的待回捞代谢物,依次构建气相色谱质谱法数据库,并对所述待回捞代谢物再一次进行注释,以获得数据校对后的回捞结果。
6.根据权利要求5所述的用于代谢组学的数据处理方法,其特征在于,还包括:
将所述类型预注释结果与所述回捞结果整合,去除样本平均强度小于2倍空白样本的代谢物,作为调整后的注释结果。
7.根据权利要求5所述的用于代谢组学的数据处理方法,其特征在于,还包括:
将所述调整后的注释结果更新至对应的所述类型预注释结果;以及
将所述公共预注释结果中未在所述样本类型数据库记录的代谢物更新至对应的样本类型数据库。
8.根据权利要求1~7中任一项所述用于代谢组学的数据处理方法,其特征在于,
所述脂肪酸甲酯保留时间的预定阈值范围是在预定值的基础上,通过附加容忍值范围而设置的。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1至8中任一项所述用于代谢组学的数据处理方法。
10.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序产品;以及
处理器,用于执行所述存储器中存储的计算机程序产品,且所述计算机程序产品被执行时,实现上述权利要求1至8任一项所述用于代谢组学的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311526824.8A CN117761225A (zh) | 2023-11-15 | 2023-11-15 | 用于代谢组学的数据处理方法、装置和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311526824.8A CN117761225A (zh) | 2023-11-15 | 2023-11-15 | 用于代谢组学的数据处理方法、装置和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117761225A true CN117761225A (zh) | 2024-03-26 |
Family
ID=90313441
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311526824.8A Pending CN117761225A (zh) | 2023-11-15 | 2023-11-15 | 用于代谢组学的数据处理方法、装置和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117761225A (zh) |
-
2023
- 2023-11-15 CN CN202311526824.8A patent/CN117761225A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Domingo-Almenara et al. | Metabolomics data processing using XCMS | |
Perez de Souza et al. | Mass spectrometry‐based untargeted plant metabolomics | |
Van den Berg et al. | Centering, scaling, and transformations: improving the biological information content of metabolomics data | |
Du et al. | Spectral deconvolution for gas chromatography mass spectrometry-based metabolomics: current status and future perspectives | |
Castillo et al. | Algorithms and tools for the preprocessing of LC–MS metabolomics data | |
Wenger et al. | COMPASS: A suite of pre‐and post‐search proteomics software tools for OMSSA | |
Want et al. | Processing and analysis of GC/LC-MS-based metabolomics data | |
Beckmann et al. | High-throughput, nontargeted metabolite fingerprinting using nominal mass flow injection electrospray mass spectrometry | |
Stancliffe et al. | DecoID improves identification rates in metabolomics through database-assisted MS/MS deconvolution | |
US7418352B2 (en) | Method of using data binning in the analysis of chromatography/spectrometry data | |
US20060151688A1 (en) | System and method for metabonomics directed processing of LC-MS or LC-MS/MS data | |
O’Connor et al. | LipidFinder: a computational workflow for discovery of lipids identifies eicosanoid-phosphoinositides in platelets | |
Köcher et al. | Quality control in LC‐MS/MS | |
US20140088885A1 (en) | Method, an apparatus, and a computer program product for identifying metabolites from liquid chromatography-mass spectrometry measurements | |
LaMarche et al. | MultiAlign: a multiple LC-MS analysis tool for targeted omics analysis | |
Neumann et al. | Nearline acquisition and processing of liquid chromatography-tandem mass spectrometry data | |
Morgenthal et al. | Integrative profiling of metabolites and proteins: improving pattern recognition and biomarker selection for systems level approaches | |
Villanueva et al. | Data analysis of assorted serum peptidome profiles | |
Varghese et al. | Ion annotation-assisted analysis of LC-MS based metabolomic experiment | |
Naumann et al. | Augmented region of interest for untargeted metabolomics mass spectrometry (AriumMS) of multi-platform-based CE-MS and LC-MS data | |
CN117761225A (zh) | 用于代谢组学的数据处理方法、装置和介质 | |
Frederick et al. | SWATH-MS: Data Acquisition and Analysis | |
Hnatyshyn et al. | Automated and unbiased analysis of LC–MS metabolomic data | |
Kalogeropoulou | Pre-processing and analysis of high-dimensional plant metabolomics data | |
Peralbo-Molina et al. | Data Processing and Analysis in Mass Spectrometry-Based Metabolomics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |