CN113643768A - 植物代谢物数据库的构建方法、装置、介质及终端 - Google Patents
植物代谢物数据库的构建方法、装置、介质及终端 Download PDFInfo
- Publication number
- CN113643768A CN113643768A CN202110925951.XA CN202110925951A CN113643768A CN 113643768 A CN113643768 A CN 113643768A CN 202110925951 A CN202110925951 A CN 202110925951A CN 113643768 A CN113643768 A CN 113643768A
- Authority
- CN
- China
- Prior art keywords
- plant
- data
- metabolite
- database
- plant metabolite
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000002207 metabolite Substances 0.000 title claims abstract description 142
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000012216 screening Methods 0.000 claims abstract description 46
- 238000011208 chromatographic data Methods 0.000 claims abstract description 22
- 238000012545 processing Methods 0.000 claims abstract description 21
- 230000014759 maintenance of location Effects 0.000 claims abstract description 19
- 241000196324 Embryophyta Species 0.000 claims description 156
- 238000013507 mapping Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 12
- 230000000875 corresponding effect Effects 0.000 claims description 11
- 239000012634 fragment Substances 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 9
- 125000004437 phosphorous atom Chemical group 0.000 claims description 8
- 238000004895 liquid chromatography mass spectrometry Methods 0.000 claims description 7
- 238000002414 normal-phase solid-phase extraction Methods 0.000 claims description 6
- 125000004433 nitrogen atom Chemical group N* 0.000 claims description 5
- 239000002243 precursor Substances 0.000 claims description 5
- 238000006073 displacement reaction Methods 0.000 claims description 4
- 235000013399 edible fruits Nutrition 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 125000004434 sulfur atom Chemical group 0.000 claims description 4
- 239000000470 constituent Substances 0.000 claims description 3
- 230000002596 correlated effect Effects 0.000 claims description 3
- 230000005764 inhibitory process Effects 0.000 claims description 3
- 238000001819 mass spectrum Methods 0.000 claims description 3
- 230000010412 perfusion Effects 0.000 claims description 3
- 238000000108 ultra-filtration Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 3
- 230000001915 proofreading effect Effects 0.000 abstract description 3
- 150000001875 compounds Chemical class 0.000 description 38
- 238000010586 diagram Methods 0.000 description 16
- 150000002500 ions Chemical class 0.000 description 16
- 239000006228 supernatant Substances 0.000 description 8
- 239000000126 substance Substances 0.000 description 7
- 240000000851 Vaccinium corymbosum Species 0.000 description 6
- 235000003095 Vaccinium corymbosum Nutrition 0.000 description 6
- 235000017537 Vaccinium myrtillus Nutrition 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 6
- 235000021014 blueberries Nutrition 0.000 description 6
- 229930014626 natural product Natural products 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 4
- 125000004430 oxygen atom Chemical group O* 0.000 description 4
- OKKJLVBELUTLKV-UHFFFAOYSA-N Methanol Chemical compound OC OKKJLVBELUTLKV-UHFFFAOYSA-N 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- SYSQUGFVNFXIIT-UHFFFAOYSA-N n-[4-(1,3-benzoxazol-2-yl)phenyl]-4-nitrobenzenesulfonamide Chemical class C1=CC([N+](=O)[O-])=CC=C1S(=O)(=O)NC1=CC=C(C=2OC3=CC=CC=C3N=2)C=C1 SYSQUGFVNFXIIT-UHFFFAOYSA-N 0.000 description 3
- 241000894007 species Species 0.000 description 3
- 239000003643 water by type Substances 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000002290 gas chromatography-mass spectrometry Methods 0.000 description 2
- 239000005457 ice water Substances 0.000 description 2
- 239000012528 membrane Substances 0.000 description 2
- GBMDVOWEEQVZKZ-UHFFFAOYSA-N methanol;hydrate Chemical compound O.OC GBMDVOWEEQVZKZ-UHFFFAOYSA-N 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 239000000419 plant extract Substances 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- CVZZNRXMDCOHBG-QMMMGPOBSA-N 2-Chloro-L-phenylalanine Chemical compound OC(=O)[C@@H](N)CC1=CC=CC=C1Cl CVZZNRXMDCOHBG-QMMMGPOBSA-N 0.000 description 1
- 241000208818 Helianthus Species 0.000 description 1
- 235000003222 Helianthus annuus Nutrition 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 244000088401 Pyrus pyrifolia Species 0.000 description 1
- 235000001630 Pyrus pyrifolia var culta Nutrition 0.000 description 1
- 235000011572 Pyrus ussuriensis Nutrition 0.000 description 1
- 229910000831 Steel Inorganic materials 0.000 description 1
- 241000209140 Triticum Species 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 125000004432 carbon atom Chemical group C* 0.000 description 1
- 238000005119 centrifugation Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003344 environmental pollutant Substances 0.000 description 1
- 230000037353 metabolic pathway Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 229910052698 phosphorus Inorganic materials 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 239000010959 steel Substances 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/90—Programming languages; Computing architectures; Database systems; Data warehousing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Chemical & Material Sciences (AREA)
- Crystallography & Structural Chemistry (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Quality & Reliability (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
Abstract
本发明提供一种植物代谢物数据库的构建方法、装置、介质及终端,所述方法包括:导出公共数据库中全部的植物代谢物数据;基于预设筛选条件筛选所导出的数据以获取植物代谢物数据集;收集植物组织样本并处理以提取出与所述植物代谢物数据集匹配的质谱图数据;基于标准品和所述植物组织样本的保留时间,获取与所述植物代谢物数据集匹配的色谱数据;基于所述植物代谢物数据集、质谱图数据和色谱数据构建植物代谢物数据库。本发明结合公共数据库、文献、标准品、人工校对和生物信息等多维度方式构建了一种覆盖面广、准确度高的数据库,去除了公共数据库中的冗余部分,标注了生物来源信息,降低了注释过程中的假阳性;通过保留时间提高注释精准度。
Description
技术领域
本发明涉及生物数据库领域,特别是涉及植物代谢物数据库的构建方法、装置、介质及终端。
背景技术
LC-MS技术(液相色谱-质谱联用技术)是检测植物内源性代谢物最为常用的分析手段,相比于GC-MS(气相色谱-质谱联用仪),其不受样品热稳定性和挥发性限制、检测范围宽泛、前处理简单、易于操作且适用性广。目前LC-MS分析的难点与重点在于代谢物的注释,精准地鉴定需要高质量的代谢物数据库。
现如今,与植物有关的公共数据库已有不下百种,其中常用的公共数据库有Metlin、HMDB(Human Metabolome Database,人类代谢组数据库)、MassBank等,如Metlin中包含有上万种代谢物质谱图信息和10万余种预测化合物信息,可以通过精确质量数检索,进行快速匹配注释化合物。然而,上述公共数据库由于容量庞大且信息繁杂,实际应用于植物代谢组分析中存在着诸多局限。
首先,近90%的天然化合物在上述数据库中没有标准质谱图,面对天然化合物产物丰富、异构体多样、缺少保留时间的情况,难以准确注释;其次,公共数据库中代谢物信息冗杂,包含了诸多预测化合物,而预测化合物的实际存在与物质含量并没有经过验证,真实性成疑,导致公共库注释结果的可靠性低。因此,许多研究人员选择采用购买标样的方式,建立本地数据库,但检测标样成本高,且部分物质标样难以获得,这种方式最终构建的代谢物数据库库容量小,注释的代谢物少,往往只有100-200种化合物,易损失相关代谢物的信息,也存在着一定局限性。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种植物代谢物数据库的构建方法、装置、介质及终端,用于解决现有公共数据库由于容量庞大且信息繁杂,实际应用于植物代谢组分析中存在着诸多局限的问题。
为实现上述目的及其它相关目的,本发明的第一方面提供一种植物代谢物数据库的构建方法,包括:导出公共数据库中全部的植物代谢物数据;基于预设筛选条件筛选所导出的数据以获取植物代谢物数据集;收集植物组织样本并处理以提取出与所述植物代谢物数据集匹配的质谱图数据;基于标准品和所述植物组织样本的保留时间,获取与所述植物代谢物数据集匹配的色谱数据;基于所述植物代谢物数据集、质谱图数据和色谱数据构建植物代谢物数据库。
于本发明的第一方面的一些实施例中,所述基于预设筛选条件筛选所导出的数据,其包括:基于所述代谢物的组成元素、分子量、状态、氮原子数、硫原子数和/或磷原子数对所导出的数据进行筛选。
于本发明的第一方面的一些实施例中,所述收集植物组织样本并进行处理,其包括:收集预选的植物根、茎、叶、花和/或果实的组织样本并进行前处理;所述前处理的方式包括固相萃取、阻定性进入介质、灌注固相萃取、超滤或免疫亲和萃取;基于前处理后的植物组织样本使用液相色谱-质谱联用技术对其进行数据采集以获取样本质谱图数据和样本色谱数据。
于本发明的第一方面的一些实施例中,所述与所述植物代谢物数据集匹配的质谱图数据的提取方式包括:将所述样本质谱图数据对所述植物代谢物数据集进行映射以获取与所述植物代谢物数据集匹配的质谱图数据;其中,通过设置正离子候选加合形式、负离子候选加合形式、前体离子质量偏差范围、碎片离子质量偏差范围、映射匹配总分范围和/或碎片匹配分范围进行映射。
于本发明的第一方面的一些实施例中,所述将所述样本质谱图数据对所述植物代谢物数据集进行映射,还包括:将所述植物代谢物数据集与所述植物组织样本的生物源数据进行匹配,其匹配结果与所述映射匹配总分值正相关。
于本发明的第一方面的一些实施例中,所述方法还包括:将所构建的数据库中的生物来源数据对应每个代谢物进行整合以形成单独的数据表格以供后续调用。
于本发明的第一方面的一些实施例中,所述导出公共数据库中全部的植物代谢物数据,其包括:使用Python将HMDB网站上所有代谢物的各层信息导出;利用Python找到每个代谢物对应的Disposition层的信息,在这层信息中通过Biological栏确认代谢物是否带有plant信息;导出并集合带有plant信息的所有代谢物对应的所有信息以获取所述植物代谢物数据。
为实现上述目的及其它相关目的,本发明的第二方面提供一种植物代谢物数据库的构建装置,包括:导出模块,用于导出公共数据库中全部的植物代谢物数据;筛选模块,用于基于预设筛选条件筛选所导出的数据以获取植物代谢物数据集;谱图数据获取模块,用于收集植物组织样本并处理以提取出与所述植物代谢物数据集匹配的质谱图数据;色谱数据获取模块,用于基于标准品和所述植物组织样本的保留时间,获取与所述植物代谢物数据集匹配的色谱数据;构建模块,用于基于所述植物代谢物数据集、质谱图数据和色谱数据构建植物代谢物数据库。
为实现上述目的及其它相关目的,本发明的第三方面提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述植物代谢物数据库的构建方法。
为实现上述目的及其它相关目的,本发明的第四方面提供一种电子终端,包括:处理器及存储器;所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行所述植物代谢物数据库的构建方法。
如上所述,本发明提供了一种植物代谢物数据库的构建方法、装置、介质及终端,具有以下有益效果:以不同植物组织样本为数据来源,在保证代谢物丰富的基础上,结合公共数据库、文献、标准品、人工校对和生物信息等多维度方式构建了一种覆盖面广、准确度高的自建数据库,满足植物及植物提取物样本检索需要;所构建的植物代谢物数据库在建库初期从列表上去除了公共数据库中的冗余部分,保证收录化合物均为植物天然产物,同时标注了生物来源信息,从而大幅度降低了注释过程中产生的假阳性,提升了注释的准确性;所构建的植物代谢物数据库含有色谱维度上的信息收录,通过保留时间维度比对,对于部分同分异构体具有良好的区分,这也提高了注释的精准度;此外,所构建的植物代谢物数据库中代谢物数据信息丰富,如谱图信息、化合物加合形式信息、Inchikey信息、分类信息、组织样本来源信息等,对于每个化合物都有详细的生物学信息注释,使用方便,更便于查证与引用。
附图说明
图1显示为本发明一实施例中一种植物代谢物数据库的构建方法的流程示意图。
图2A显示为本发明一实施例中一植物组织样本在公共库的溯源结果示意图。
图2B显示为本发明一实施例中一植物组织样本在自建库的溯源结果示意图。
图3A显示为本发明一实施例中一植物组织样本在公共库的谱图匹配结果示意图。
图3B显示为本发明一实施例中一植物组织样本在自建库的谱图匹配结果示意图。
图4A显示为本发明一实施例中同分异构体在公共库的搜索结果示意图。
图4B显示为本发明一实施例中同分异构体在自建库的搜索结果示意图。
图5A显示为本发明一实施例中一公共库的文件内容示意图。
图5B显示为本发明一实施例中一自建库的文件内容示意图。
图6显示为本发明一实施例中一种植物代谢物数据库的构建装置的结构示意图。
图7显示为本发明一实施例中一种电子终端的结构示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其它优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,在下述描述中,参考附图,附图描述了本发明的若干实施例。应当理解,还可使用其它实施例,并且可以在不背离本发明的精神和范围的情况下进行操作上的改变。下面的详细描述不应该被认为是限制性的,并且本发明的实施例的范围仅由公布的专利的权利要求书所限定。这里使用的术语仅是为了描述特定实施例,而并非旨在限制本发明。
再者,如同在本文中所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文中有相反的指示。应当进一步理解,术语“包含”、“包括”表明存在所述的特征、操作、元件、组件、项目、种类、和/或组,但不排除一个或多个其它特征、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的,或意味着任一个或任何组合。因此,“A、B或C”或者“A、B和/或C”意味着“以下任一个:A;B;C;A和B;A和C;B和C;A、B和C”。仅当元件、功能或操作的组合在某些方式下内在地互相排斥时,才会出现该定义的例外。
本发明提供一种植物代谢物数据库的构建方法、装置、介质及终端,用于解决现有公共数据库由于容量庞大且信息繁杂,实际应用于植物代谢组分析中存在着诸多局限的问题。
为了使本发明的目的、技术方案及优点更加清楚明白,通过下述实施例并结合附图,对本发明实施例中的技术方案进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例一
如图1所示,本发明实施例提出一种植物代谢物数据库的构建方法的流程示意图,其包括:
步骤S11.导出公共数据库中全部的植物代谢物数据。可选的,所述公共数据库可选用Metlin、HMDB、MassBank等。以HMDB为例,使用Python将HMDB网站上所有代谢物的各层信息导出;利用Python找到每个代谢物对应的Disposition这层信息,在这层信息中找到Biological一栏,确认化合物是否带有plant信息,若有,则导出该化合物对应的所有信息,集合满足上述条件的化合物信息,形成列表。
步骤S12.基于预设筛选条件筛选所导出的数据以获取植物代谢物数据集。具体的,基于所述代谢物的组成元素、分子量、状态、氮原子数、硫原子数和/或磷原子数对所导出的数据进行筛选。
在本实施例较佳的实施方式中,所述预设筛选条件包括:第一筛选条件,化合物应为非单质,去除所有单质元素。在本实施例较佳的实施方式中,所述预设筛选条件包括:第二筛选条件,化合物分子量应小于1500。在本实施例较佳的实施方式中,所述预设筛选条件包括:第三筛选条件,化合物在Status这层信息中的记录应为:Detected,或Quantified,或Detected and Quantified。在本实施例较佳的实施方式中,所述预设筛选条件包括:第四筛选条件,化合物氮原子数目应小于等于7。在本实施例较佳的实施方式中,所述预设筛选条件包括:第五筛选条件,化合物中硫原子数目应小于等于2。在本实施例较佳的实施方式中,所述预设筛选条件包括:第六筛选条件,化合物中磷原子数目应小于等于3。在本实施例较佳的实施方式中,所述预设筛选条件包括:第七筛选条件,化合物中磷原子存在时,且数目为1时,氧原子数目应大于等于4。在本实施例较佳的实施方式中,所述预设筛选条件包括:第八筛选条件,化合物中磷原子存在时,且数目为2时,氧原子数目应大于等于7。在本实施例较佳的实施方式中,所述预设筛选条件包括:第九筛选条件,化合物中磷原子存在时,且数目为3时,氧原子数目应大于等于9。在本实施例较佳的实施方式中,所述预设筛选条件包括:第十筛选条件,化合物中不存在磷原子时,氮原子与氧原子的数目之和应小于等于碳原子数目。
进一步地,上述筛选完成后,导出目标植物化合物的信息列表以及化合物的SDF结构文件,合并所有SDF文件,形成包含6000+植物代谢物的数据集。
步骤S13.收集植物组织样本并处理以提取出与所述植物代谢物数据集匹配的质谱图数据。具体的,收集预选的植物根、茎、叶、花和/或果实的组织样本并进行前处理;所述前处理的方式包括固相萃取、阻定性进入介质、灌注固相萃取、超滤或免疫亲和萃取;基于前处理后的植物组织样本使用液相色谱-质谱联用技术对其进行数据采集以获取样本质谱图数据和样本色谱数据;将所述样本质谱图数据对所述植物代谢物数据集进行映射以获取与所述植物代谢物数据集匹配的质谱图数据;其中,通过设置正离子候选加合形式、负离子候选加合形式、前体离子质量偏差范围、碎片离子质量偏差范围、映射匹配总分范围和/或碎片匹配分范围进行映射,最终提取出与所述植物代谢物数据集匹配的质谱图数据。
在一些示例中,收集小麦、砂梨、向日葵、油菜、蓝莓等23种常见植物的根、茎、叶、花或果实等组织样本,前处理按以下方式分步萃取:
A.称取80mg样本,加入内标(L-2-氯苯丙氨酸,0.3mg/mL;Lyso PC17:0,0.01mg/mL;均为甲醇配置)各20μL,600mL的甲醇-水(V1:V2=7:3)。
B.加入两个小钢珠,在-20℃放置2min预冷,加入研磨机(60Hz,2min)。
C.冰水浴超声提取30min,-20℃静置20min。
D.离心10min(13000rpm,4℃),取全部上清液装入1.5mL的EP管中。
E.在残渣中再次加入400μL甲醇-水(V3:V4=7:3)。
F.冰水浴超声提取20min,-20℃静置20min。
G.离心10min(13000rpm,4℃),取全部上清液与步骤D中上清液混合,合计约1mL上清液。
H.取300uL上清,过滤膜过滤,装瓶。
I.再取300uL上清,挥干,用300uL纯水复溶,离心,取上清,过滤膜,装瓶。
J.剩余400uL上清液保存至-80度冰箱。
进一步地,使用液相色谱-质谱联用技术(如AB 6600plus与Thermo QE仪器),分别对上述组织样本进行数据采集,获取植物组织样本的质谱图数据和色谱数据。分析所述植物组织样本的质谱图数据(例如,采用Waters公司的Progenesis QI分析软件),设置正离子候选加合形式:[M+H]+,M+,[2M+H]+,[M+K]+,[M+Na]+,[M+NH4]+,[M-H2O+H]+;设置负离子候选加合形式:[2M-H]+,[M-H2O-H]-,[M+Fa-H]-,[M+Cl]-,[M-H]-;设置前体离子质量偏差≤5ppm;设置碎片离子质量偏差≤10ppm;设置映射匹配总分Score≥40;碎片匹配分≥10;对6000+植物代谢物的数据集进行映射。
在本实施例较佳的实施方式中,将所述植物代谢物数据集与所述植物组织样本的生物源数据进行匹配,其匹配结果与所述映射匹配总分值正相关。例如,将候选化合物的生物源信息与谱图数据的样本组织来源情况进行匹配,候选化合物与组织样本来源于相同科或属或种的植物时,映射匹配总分+5。
进一步地,将匹配成功的代谢物对应的谱图信息以数据矩阵的形式导出,集合汇总,以msp文件形式保存,以储存6000+植物代谢物的质谱图信息。
步骤S14.基于标准品和所述植物组织样本的保留时间,获取与所述植物代谢物数据集匹配的色谱数据。具体的,基于上述匹配成功的代谢物对应的植物组织样本的原始数据矩阵进行分析(可选用Waters公司的Progenesis QI分析软件),将匹配成功的代谢物与其保留时间一一对应形成CSV保留时间数据列表导出;同理,对标准品的原始数据矩阵进行分析,形成标准品的代谢物及其保留时间的CSV保留时间数据列表;整合上述两个保留时间列表,以获取6000+植物代谢物的完整色谱数据。
步骤S15.基于所述植物代谢物数据集、质谱图数据和色谱数据构建植物代谢物数据库。在一些示例中,使用Waters公司的Progenesis QI分析软件,调用6000+植物代谢物的SDF文件、谱图信息的msp文件和色谱信息的CSV文件,整合形成完整植物代谢物数据库。优选的,数据库中的生物来源信息对应每个化合物进行整合,形成单独的excel表格,方便调用。使用数据库时,借助QI分析软件调用上述整合完成后的数据库,同时设置保留时间偏差≤0.1min,前体离子质量偏差≤5ppm,碎片离子质量偏差≤10ppm,即可正常使用。
为进一步说明本发明实施例所构建的植物代谢物数据库(自建库)相较于现有公共数据库(公共库)的优势,按照上述植物组织样本的处理方式得到蓝莓幼苗原始数据,在QI软件上,对蓝莓幼苗原始数据分别使用公共库与自建库进行搜库。
图2A和图2B分别为蓝莓幼苗在公共库和自建库的溯源结果示意图。图2A为公共库溯源结果,其中,黑色标记出的代谢物部分为预测化合物,从未有报道在植物中检出;部分代谢物源于动物特有的代谢途径;部分代谢物非天然产物,来源自环境污染物或者工厂合成的药物。图2B为自建库的溯源结果,与公共库形成明显对比,其注释到的化合物均为植物天然代谢产物,可通过HMDB网页记录或文献报道溯源。
图3A和图3B分别为蓝莓幼苗在公共库和自建库的谱图匹配结果示意图,比较可知,蓝莓幼苗在图3B自建库中的谱图匹配度更高,获得的谱图信息与色谱信息更加丰富,可获得完全匹配的碎片离子信息、精确到小数点后四位的母离子质量数、误差不超过0.1min的保留时间。
图4A和图4B分别为一示例中的同分异构体在公共库和自建库的搜库结果示意图。图4A中公共库的注释结果显示,存在得分基本一致的候选化合物,难以对其进行区分。图4B中通过保留时间维度比对,可以很容易区分注释的各目标化合物。
图5A和图5B分别为公共库和自建库的文件内容示意图。图5A中某公共库用Notepad打开,其内容较为单一,除谱图矩阵信息外,只有化合物分子式、Inchikey、分类等基础信息。图B中自建库用Notepad或Excel打开,除谱图信息、化合物分子式、化合物加合形式、Inchikey、分类等基础信息外,还包括化合物的组织样本来源信息和生物学信息,将这些信息以超链接的形式进行了收录与归纳,方便查找。
表1为不同植物组织样本在公共库和自建库的注释结果对比。通过分析不同植物组织样本在公共数据库与植物自建库的搜库结果可知,虽然相比于公共库,自建库注释到的化合物有所减少,但是公共库中注释到的植物代谢物数量占比只有35%左右,结果假阳性过高。与之相比,自建库则很好地规避了这个问题,保证注释结果均为植物源代谢物。
表1不同植物组织样本在公共库和自建库的注释结果对比
在一些实施方式中,所述方法可应用于控制器,所述电控单元例如为ARM(Advanced RISC Machines)控制器、FPGA(Field Programmable Gate Array)控制器、SoC(System on Chip)控制器、DSP(Digital Signal Processing)控制器、或者MCU(Microcontroller Unit)控制器等等。在一些实施方式中,所述方法也可应用于包括存储器、存储控制器、一个或多个处理单元(CPU)、外设接口、RF电路、音频电路、扬声器、麦克风、输入/输出(I/O)子系统、显示屏、其它输出或控制设备,以及外部端口等组件的计算机;所述计算机包括但不限于如台式电脑、笔记本电脑、平板电脑、智能手机、智能电视、个人数字助理(Personal Digital Assistant,简称PDA)等个人电脑。在另一些实施方式中,所述方法还可应用于服务器,所述服务器可以根据功能、负载等多种因素布置在一个或多个实体服务器上,也可以由分布的或集中的服务器集群构成。
实施例二
如图6所示,本发明实施例提出一种植物代谢物数据库的构建装置的结构示意图。本实施例提供的植物代谢物数据库的构建装置包括:导出模块61,用于导出公共数据库中全部的植物代谢物数据;筛选模块62,用于基于预设筛选条件筛选所导出的数据以获取植物代谢物数据集;谱图数据获取模块63,用于收集植物组织样本并处理以提取出与所述植物代谢物数据集匹配的质谱图数据;色谱数据获取模块64,用于基于标准品和所述植物组织样本的保留时间,获取与所述植物代谢物数据集匹配的色谱数据;构建模块65,用于基于所述植物代谢物数据集、质谱图数据和色谱数据构建植物代谢物数据库。
需要说明的是,本实施例提供的模块与上文中提供的方法、实施方式类似,故不再赘述。另外需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,筛选模块可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上筛选模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(digital signal processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(Central Processing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
实施例三
本发明实施例提出一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述植物代谢物数据库的构建方法。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
实施例四
如图7所示,本发明实施例提供一种电子终端的结构示意图。本实施例提供的电子终端,包括:处理器71、存储器72、通信器73;存储器72通过系统总线与处理器71和通信器73连接并完成相互间的通信,存储器72用于存储计算机程序,通信器73用于和其它设备进行通信,处理器71用于运行计算机程序,使电子终端执行如上所述植物代谢物数据库的构建方法的各个步骤。
上述提到的系统总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其它设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(Random Access Memory,简称RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
综上所述,本发明提供一种植物代谢物数据库的构建方法、装置、介质及终端,以数十种不同植物组织样本为数据来源,在保证代谢物丰富的基础上,结合公共数据库、文献、标准品、人工校对和生物信息等多维度方式构建了一种覆盖面广、准确度高的自建数据库,从而满足植物及植物提取物样本检索需要;所构建的植物代谢物数据库与公共数据库相比,在建库初期从列表上去除了公共数据库中的冗余部分,保证收录化合物均为植物天然产物,同时标注了生物来源信息,从而大幅度降低了注释过程中产生的假阳性,提升了注释的准确性;所构建的植物代谢物数据库含有色谱维度上的信息收录,通过保留时间维度比对,对于部分同分异构体具有良好的区分,这也提高了注释的精准度;此外,所构建的植物代谢物数据库中代谢物数据信息丰富,如谱图信息、化合物加合形式信息、Inchikey信息、分类信息、组织样本来源信息等,对于每个化合物都有详细的生物学信息注释,使用方便,更便于查证与引用。因此,本发明有效克服了现有技术中的种种缺点而具有高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (10)
1.一种植物代谢物数据库的构建方法,其特征在于,包括:
导出公共数据库中全部的植物代谢物数据;
基于预设筛选条件筛选所导出的数据以获取植物代谢物数据集;
收集植物组织样本并处理以提取出与所述植物代谢物数据集匹配的质谱图数据;
基于标准品和所述植物组织样本的保留时间,获取与所述植物代谢物数据集匹配的色谱数据;
基于所述植物代谢物数据集、质谱图数据和色谱数据构建植物代谢物数据库。
2.根据权利要求1所述的植物代谢物数据库的构建方法,其特征在于,所述基于预设筛选条件筛选所导出的数据,其包括:
基于所述代谢物的组成元素、分子量、状态、氮原子数、硫原子数和/或磷原子数对所导出的数据进行筛选。
3.根据权利要求1所述的植物代谢物数据库的构建方法,其特征在于,所述收集植物组织样本并进行处理,其包括:
收集预选的植物根、茎、叶、花和/或果实的组织样本并进行前处理;所述前处理的方式包括固相萃取、阻定性进入介质、灌注固相萃取、超滤或免疫亲和萃取;
基于前处理后的植物组织样本使用液相色谱-质谱联用技术对其进行数据采集以获取样本质谱图数据和样本色谱数据。
4.根据权利要求3所述的植物代谢物数据库的构建方法,其特征在于,所述与所述植物代谢物数据集匹配的质谱图数据的提取方式包括:
将所述样本质谱图数据对所述植物代谢物数据集进行映射以获取与所述植物代谢物数据集匹配的质谱图数据;
其中,通过设置正离子候选加合形式、负离子候选加合形式、前体离子质量偏差范围、碎片离子质量偏差范围、映射匹配总分范围和/或碎片匹配分范围进行映射。
5.根据权利要求4所述的植物代谢物数据库的构建方法,其特征在于,所述将所述样本质谱图数据对所述植物代谢物数据集进行映射,还包括:
将所述植物代谢物数据集与所述植物组织样本的生物源数据进行匹配,其匹配结果与所述映射匹配总分值正相关。
6.根据权利要求1所述的植物代谢物数据库的构建方法,其特征在于,包括:
将所构建的数据库中的生物来源数据对应每个代谢物进行整合以形成单独的数据表格以供后续调用。
7.根据权利要求1所述的植物代谢物数据库的构建方法,其特征在于,所述导出公共数据库中全部的植物代谢物数据,其包括:
使用Python将HMDB网站上所有代谢物的各层信息导出;
利用Python找到每个代谢物对应的Disposition层的信息,在这层信息中通过Biological栏确认代谢物是否带有plant信息;
导出并集合带有plant信息的所有代谢物对应的所有信息以获取所述植物代谢物数据。
8.一种植物代谢物数据库的构建装置,其特征在于,包括:
导出模块,用于导出公共数据库中全部的植物代谢物数据;
筛选模块,用于基于预设筛选条件筛选所导出的数据以获取植物代谢物数据集;
谱图数据获取模块,用于收集植物组织样本并处理以提取出与所述植物代谢物数据集匹配的质谱图数据;
色谱数据获取模块,用于基于标准品和所述植物组织样本的保留时间,获取与所述植物代谢物数据集匹配的色谱数据;
构建模块,用于基于所述植物代谢物数据集、质谱图数据和色谱数据构建植物代谢物数据库。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述植物代谢物数据库的构建方法。
10.一种电子终端,其特征在于,包括:处理器及存储器;
所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行如权利要求1至7中任一项所述植物代谢物数据库的构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110925951.XA CN113643768B (zh) | 2021-08-12 | 2021-08-12 | 植物代谢物数据库的构建方法、装置、介质及终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110925951.XA CN113643768B (zh) | 2021-08-12 | 2021-08-12 | 植物代谢物数据库的构建方法、装置、介质及终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113643768A true CN113643768A (zh) | 2021-11-12 |
CN113643768B CN113643768B (zh) | 2023-12-15 |
Family
ID=78421318
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110925951.XA Active CN113643768B (zh) | 2021-08-12 | 2021-08-12 | 植物代谢物数据库的构建方法、装置、介质及终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113643768B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114295766A (zh) * | 2021-12-24 | 2022-04-08 | 中国科学院上海有机化学研究所 | 基于稳定同位素标记的代谢组学数据的处理方法和装置 |
CN115083528A (zh) * | 2022-08-23 | 2022-09-20 | 南京品生医疗科技有限公司 | 一种肠道微生物相关代谢物质谱数据库的构建方法及其应用 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103725747A (zh) * | 2014-01-26 | 2014-04-16 | 佟雪梅 | 一种细菌对抗生素敏感性的鉴定方法及其设备 |
WO2015181261A1 (en) * | 2014-05-28 | 2015-12-03 | Dupont Nutrition Biosciences Aps | Antifungal lactobacillus paracasei strain |
CN109870515A (zh) * | 2017-12-01 | 2019-06-11 | 中国科学院大连化学物理研究所 | 一种基于中药色谱-质谱高维图像数据库的中药识别方法 |
CN109920473A (zh) * | 2019-04-02 | 2019-06-21 | 中国科学院城市环境研究所 | 一种代谢组学标志物权重分析通用方法 |
CN110907575A (zh) * | 2018-09-14 | 2020-03-24 | 中国科学院大连化学物理研究所 | 一种植物中羟基肉桂酸酰胺的深度注释方法 |
US20200194126A1 (en) * | 2018-12-17 | 2020-06-18 | The Regents Of The University Of California | Systems and methods for profiling and classifying health-related features |
CN111402961A (zh) * | 2020-02-28 | 2020-07-10 | 上海鹿明生物科技有限公司 | 一种多物种gc-ms内源性代谢物数据库及其建立方法 |
CN112509702A (zh) * | 2020-11-30 | 2021-03-16 | 质美(北京)生物科技有限公司 | 基于医疗大数据的疾病预测方法及系统 |
CN112505199A (zh) * | 2021-02-05 | 2021-03-16 | 中国医学科学院阜外医院 | 基于代谢组学数据的稳定型冠心病预警方法及装置 |
CN112881567A (zh) * | 2020-12-31 | 2021-06-01 | 上海鹿明生物科技有限公司 | 一种细胞中高丰度和低丰度分类的磷脂化合物的检测方法和应用 |
-
2021
- 2021-08-12 CN CN202110925951.XA patent/CN113643768B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103725747A (zh) * | 2014-01-26 | 2014-04-16 | 佟雪梅 | 一种细菌对抗生素敏感性的鉴定方法及其设备 |
WO2015181261A1 (en) * | 2014-05-28 | 2015-12-03 | Dupont Nutrition Biosciences Aps | Antifungal lactobacillus paracasei strain |
CN109870515A (zh) * | 2017-12-01 | 2019-06-11 | 中国科学院大连化学物理研究所 | 一种基于中药色谱-质谱高维图像数据库的中药识别方法 |
CN110907575A (zh) * | 2018-09-14 | 2020-03-24 | 中国科学院大连化学物理研究所 | 一种植物中羟基肉桂酸酰胺的深度注释方法 |
US20200194126A1 (en) * | 2018-12-17 | 2020-06-18 | The Regents Of The University Of California | Systems and methods for profiling and classifying health-related features |
CN109920473A (zh) * | 2019-04-02 | 2019-06-21 | 中国科学院城市环境研究所 | 一种代谢组学标志物权重分析通用方法 |
CN111402961A (zh) * | 2020-02-28 | 2020-07-10 | 上海鹿明生物科技有限公司 | 一种多物种gc-ms内源性代谢物数据库及其建立方法 |
CN112509702A (zh) * | 2020-11-30 | 2021-03-16 | 质美(北京)生物科技有限公司 | 基于医疗大数据的疾病预测方法及系统 |
CN112881567A (zh) * | 2020-12-31 | 2021-06-01 | 上海鹿明生物科技有限公司 | 一种细胞中高丰度和低丰度分类的磷脂化合物的检测方法和应用 |
CN112505199A (zh) * | 2021-02-05 | 2021-03-16 | 中国医学科学院阜外医院 | 基于代谢组学数据的稳定型冠心病预警方法及装置 |
Non-Patent Citations (1)
Title |
---|
李在芳等: ""植物中羟基肉桂酸酰胺的液相色谱-高分辨质谱深度注释方法研究"", 《2018年中国质谱学术大会论文集》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114295766A (zh) * | 2021-12-24 | 2022-04-08 | 中国科学院上海有机化学研究所 | 基于稳定同位素标记的代谢组学数据的处理方法和装置 |
CN114295766B (zh) * | 2021-12-24 | 2022-12-02 | 中国科学院上海有机化学研究所 | 基于稳定同位素标记的代谢组学数据的处理方法和装置 |
CN115083528A (zh) * | 2022-08-23 | 2022-09-20 | 南京品生医疗科技有限公司 | 一种肠道微生物相关代谢物质谱数据库的构建方法及其应用 |
Also Published As
Publication number | Publication date |
---|---|
CN113643768B (zh) | 2023-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kachman et al. | Deep annotation of untargeted LC-MS metabolomics data with Binner | |
Yang et al. | pNovo 3: precise de novo peptide sequencing using a learning-to-rank framework | |
Katajamaa et al. | Data processing for mass spectrometry-based metabolomics | |
Brown et al. | Automated workflows for accurate mass-based putative metabolite identification in LC/MS-derived metabolomic datasets | |
CN113643768A (zh) | 植物代谢物数据库的构建方法、装置、介质及终端 | |
Mohamed et al. | Current status and prospects of computational resources for natural product dereplication: a review | |
Cuadros-Inostroza et al. | TargetSearch-a Bioconductor package for the efficient preprocessing of GC-MS metabolite profiling data | |
CN106202207B (zh) | 一种基于HBase-ORM的索引及检索系统 | |
Markley et al. | New bioinformatics resources for metabolomics | |
KR102363811B1 (ko) | 이미지 검색 방법, 장치, 기기 및 판독 가능 저장 매체 | |
Olivon et al. | Optimized experimental workflow for tandem mass spectrometry molecular networking in metabolomics | |
Kiebel et al. | PRISM: a data management system for high‐throughput proteomics | |
Milman et al. | Big data in modern chemical analysis | |
Ipsen | Efficient calculation of exact fine structure isotope patterns via the multidimensional Fourier transform | |
Quiros-Guerrero et al. | Inventa: A computational tool to discover structural novelty in natural extracts libraries | |
Gaudry et al. | MEMO: mass spectrometry-based sample vectorization to explore chemodiverse datasets | |
Bremer et al. | The BinDiscover database: a biology-focused meta-analysis tool for 156,000 GC–TOF MS metabolome samples | |
CN117235582B (zh) | 基于电子病历的多粒度信息处理方法及装置 | |
Olivier-Jimenez et al. | From mass spectral features to molecules in molecular networks: a novel workflow for untargeted metabolomics | |
Gaquerel et al. | Computational annotation of plant metabolomics profiles via a novel network-assisted approach | |
US10353932B2 (en) | Text processing method, system and computer program | |
Wang et al. | Fast pure ion chromatograms extraction method for LC-MS | |
Fan et al. | Metabolite identification using artificial neural network | |
CN115391015A (zh) | 基于测试框架的跑批处理方法、装置、电子设备及介质 | |
Nash et al. | Characterization of Electrospray Ionization Complexity in Untargeted Metabolomic Studies |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |