CN113643768B

CN113643768B - 植物代谢物数据库的构建方法、装置、介质及终端

Info

Publication number: CN113643768B
Application number: CN202110925951.XA
Authority: CN
Inventors: 周鹏飞; 胡哲; 陆嘉伟; 曾英龙; 付艳蕾; 舒烈波
Original assignee: Shanghai Deer Biotechnology Co ltd
Current assignee: Shanghai Deer Biotechnology Co ltd
Priority date: 2021-08-12
Filing date: 2021-08-12
Publication date: 2023-12-15
Anticipated expiration: 2041-08-12
Also published as: CN113643768A

Abstract

本发明提供一种植物代谢物数据库的构建方法、装置、介质及终端，所述方法包括：导出公共数据库中全部的植物代谢物数据；基于预设筛选条件筛选所导出的数据以获取植物代谢物数据集；收集植物组织样本并处理以提取出与所述植物代谢物数据集匹配的质谱图数据；基于标准品和所述植物组织样本的保留时间，获取与所述植物代谢物数据集匹配的色谱数据；基于所述植物代谢物数据集、质谱图数据和色谱数据构建植物代谢物数据库。本发明结合公共数据库、文献、标准品、人工校对和生物信息等多维度方式构建了一种覆盖面广、准确度高的数据库，去除了公共数据库中的冗余部分，标注了生物来源信息，降低了注释过程中的假阳性；通过保留时间提高注释精准度。

Description

植物代谢物数据库的构建方法、装置、介质及终端

技术领域

本发明涉及生物数据库领域，特别是涉及植物代谢物数据库的构建方法、装置、介质及终端。

背景技术

LC-MS技术(液相色谱-质谱联用技术)是检测植物内源性代谢物最为常用的分析手段，相比于GC-MS(气相色谱-质谱联用仪)，其不受样品热稳定性和挥发性限制、检测范围宽泛、前处理简单、易于操作且适用性广。目前LC-MS分析的难点与重点在于代谢物的注释，精准地鉴定需要高质量的代谢物数据库。

现如今，与植物有关的公共数据库已有不下百种，其中常用的公共数据库有Metlin、HMDB(Human Metabolome Database，人类代谢组数据库)、MassBank等，如Metlin中包含有上万种代谢物质谱图信息和10万余种预测化合物信息，可以通过精确质量数检索，进行快速匹配注释化合物。然而，上述公共数据库由于容量庞大且信息繁杂，实际应用于植物代谢组分析中存在着诸多局限。

首先，近90％的天然化合物在上述数据库中没有标准质谱图，面对天然化合物产物丰富、异构体多样、缺少保留时间的情况，难以准确注释；其次，公共数据库中代谢物信息冗杂，包含了诸多预测化合物，而预测化合物的实际存在与物质含量并没有经过验证，真实性成疑，导致公共库注释结果的可靠性低。因此，许多研究人员选择采用购买标样的方式，建立本地数据库，但检测标样成本高，且部分物质标样难以获得，这种方式最终构建的代谢物数据库库容量小，注释的代谢物少，往往只有100-200种化合物，易损失相关代谢物的信息，也存在着一定局限性。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种植物代谢物数据库的构建方法、装置、介质及终端，用于解决现有公共数据库由于容量庞大且信息繁杂，实际应用于植物代谢组分析中存在着诸多局限的问题。

为实现上述目的及其它相关目的，本发明的第一方面提供一种植物代谢物数据库的构建方法，包括：导出公共数据库中全部的植物代谢物数据；基于预设筛选条件筛选所导出的数据以获取植物代谢物数据集；收集植物组织样本并处理以提取出与所述植物代谢物数据集匹配的质谱图数据；基于标准品和所述植物组织样本的保留时间，获取与所述植物代谢物数据集匹配的色谱数据；基于所述植物代谢物数据集、质谱图数据和色谱数据构建植物代谢物数据库。

于本发明的第一方面的一些实施例中，所述基于预设筛选条件筛选所导出的数据，其包括：基于所述代谢物的组成元素、分子量、状态、氮原子数、硫原子数和/或磷原子数对所导出的数据进行筛选。

于本发明的第一方面的一些实施例中，所述收集植物组织样本并进行处理，其包括：收集预选的植物根、茎、叶、花和/或果实的组织样本并进行前处理；所述前处理的方式包括固相萃取、阻定性进入介质、灌注固相萃取、超滤或免疫亲和萃取；基于前处理后的植物组织样本使用液相色谱-质谱联用技术对其进行数据采集以获取样本质谱图数据和样本色谱数据。

于本发明的第一方面的一些实施例中，所述与所述植物代谢物数据集匹配的质谱图数据的提取方式包括：将所述样本质谱图数据对所述植物代谢物数据集进行映射以获取与所述植物代谢物数据集匹配的质谱图数据；其中，通过设置正离子候选加合形式、负离子候选加合形式、前体离子质量偏差范围、碎片离子质量偏差范围、映射匹配总分范围和/或碎片匹配分范围进行映射。

于本发明的第一方面的一些实施例中，所述将所述样本质谱图数据对所述植物代谢物数据集进行映射，还包括：将所述植物代谢物数据集与所述植物组织样本的生物源数据进行匹配，其匹配结果与所述映射匹配总分值正相关。

于本发明的第一方面的一些实施例中，所述方法还包括：将所构建的数据库中的生物来源数据对应每个代谢物进行整合以形成单独的数据表格以供后续调用。

于本发明的第一方面的一些实施例中，所述导出公共数据库中全部的植物代谢物数据，其包括：使用Python将HMDB网站上所有代谢物的各层信息导出；利用Python找到每个代谢物对应的Disposition层的信息，在这层信息中通过Biological栏确认代谢物是否带有plant信息；导出并集合带有plant信息的所有代谢物对应的所有信息以获取所述植物代谢物数据。

为实现上述目的及其它相关目的，本发明的第二方面提供一种植物代谢物数据库的构建装置，包括：导出模块，用于导出公共数据库中全部的植物代谢物数据；筛选模块，用于基于预设筛选条件筛选所导出的数据以获取植物代谢物数据集；谱图数据获取模块，用于收集植物组织样本并处理以提取出与所述植物代谢物数据集匹配的质谱图数据；色谱数据获取模块，用于基于标准品和所述植物组织样本的保留时间，获取与所述植物代谢物数据集匹配的色谱数据；构建模块，用于基于所述植物代谢物数据集、质谱图数据和色谱数据构建植物代谢物数据库。

为实现上述目的及其它相关目的，本发明的第三方面提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述植物代谢物数据库的构建方法。

为实现上述目的及其它相关目的，本发明的第四方面提供一种电子终端，包括：处理器及存储器；所述存储器用于存储计算机程序，所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行所述植物代谢物数据库的构建方法。

如上所述，本发明提供了一种植物代谢物数据库的构建方法、装置、介质及终端，具有以下有益效果：以不同植物组织样本为数据来源，在保证代谢物丰富的基础上，结合公共数据库、文献、标准品、人工校对和生物信息等多维度方式构建了一种覆盖面广、准确度高的自建数据库，满足植物及植物提取物样本检索需要；所构建的植物代谢物数据库在建库初期从列表上去除了公共数据库中的冗余部分，保证收录化合物均为植物天然产物，同时标注了生物来源信息，从而大幅度降低了注释过程中产生的假阳性，提升了注释的准确性；所构建的植物代谢物数据库含有色谱维度上的信息收录，通过保留时间维度比对，对于部分同分异构体具有良好的区分，这也提高了注释的精准度；此外，所构建的植物代谢物数据库中代谢物数据信息丰富，如谱图信息、化合物加合形式信息、Inchikey信息、分类信息、组织样本来源信息等，对于每个化合物都有详细的生物学信息注释，使用方便，更便于查证与引用。

附图说明

图1显示为本发明一实施例中一种植物代谢物数据库的构建方法的流程示意图。

图2A显示为本发明一实施例中一植物组织样本在公共库的溯源结果示意图。

图2B显示为本发明一实施例中一植物组织样本在自建库的溯源结果示意图。

图3A显示为本发明一实施例中一植物组织样本在公共库的谱图匹配结果示意图。

图3B显示为本发明一实施例中一植物组织样本在自建库的谱图匹配结果示意图。

图4A显示为本发明一实施例中同分异构体在公共库的搜索结果示意图。

图4B显示为本发明一实施例中同分异构体在自建库的搜索结果示意图。

图5A显示为本发明一实施例中一公共库的文件内容示意图。

图5B显示为本发明一实施例中一自建库的文件内容示意图。

图6显示为本发明一实施例中一种植物代谢物数据库的构建装置的结构示意图。

图7显示为本发明一实施例中一种电子终端的结构示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其它优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，在下述描述中，参考附图，附图描述了本发明的若干实施例。应当理解，还可使用其它实施例，并且可以在不背离本发明的精神和范围的情况下进行操作上的改变。下面的详细描述不应该被认为是限制性的，并且本发明的实施例的范围仅由公布的专利的权利要求书所限定。这里使用的术语仅是为了描述特定实施例，而并非旨在限制本发明。

再者，如同在本文中所使用的，单数形式“一”、“一个”和“该”旨在也包括复数形式，除非上下文中有相反的指示。应当进一步理解，术语“包含”、“包括”表明存在所述的特征、操作、元件、组件、项目、种类、和/或组，但不排除一个或多个其它特征、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的，或意味着任一个或任何组合。因此，“A、B或C”或者“A、B和/或C”意味着“以下任一个：A；B；C；A和B；A和C；B和C；A、B和C”。仅当元件、功能或操作的组合在某些方式下内在地互相排斥时，才会出现该定义的例外。

本发明提供一种植物代谢物数据库的构建方法、装置、介质及终端，用于解决现有公共数据库由于容量庞大且信息繁杂，实际应用于植物代谢组分析中存在着诸多局限的问题。

为了使本发明的目的、技术方案及优点更加清楚明白，通过下述实施例并结合附图，对本发明实施例中的技术方案进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例一

如图1所示，本发明实施例提出一种植物代谢物数据库的构建方法的流程示意图，其包括：

步骤S11.导出公共数据库中全部的植物代谢物数据。可选的，所述公共数据库可选用Metlin、HMDB、MassBank等。以HMDB为例，使用Python将HMDB网站上所有代谢物的各层信息导出；利用Python找到每个代谢物对应的Disposition这层信息，在这层信息中找到Biological一栏，确认化合物是否带有plant信息，若有，则导出该化合物对应的所有信息，集合满足上述条件的化合物信息，形成列表。

步骤S12.基于预设筛选条件筛选所导出的数据以获取植物代谢物数据集。具体的，基于所述代谢物的组成元素、分子量、状态、氮原子数、硫原子数和/或磷原子数对所导出的数据进行筛选。

在本实施例较佳的实施方式中，所述预设筛选条件包括：第一筛选条件，化合物应为非单质，去除所有单质元素。在本实施例较佳的实施方式中，所述预设筛选条件包括：第二筛选条件，化合物分子量应小于1500。在本实施例较佳的实施方式中，所述预设筛选条件包括：第三筛选条件，化合物在Status这层信息中的记录应为：Detected，或Quantified，或Detected and Quantified。在本实施例较佳的实施方式中，所述预设筛选条件包括：第四筛选条件，化合物氮原子数目应小于等于7。在本实施例较佳的实施方式中，所述预设筛选条件包括：第五筛选条件，化合物中硫原子数目应小于等于2。在本实施例较佳的实施方式中，所述预设筛选条件包括：第六筛选条件，化合物中磷原子数目应小于等于3。在本实施例较佳的实施方式中，所述预设筛选条件包括：第七筛选条件，化合物中磷原子存在时，且数目为1时，氧原子数目应大于等于4。在本实施例较佳的实施方式中，所述预设筛选条件包括：第八筛选条件，化合物中磷原子存在时，且数目为2时，氧原子数目应大于等于7。在本实施例较佳的实施方式中，所述预设筛选条件包括：第九筛选条件，化合物中磷原子存在时，且数目为3时，氧原子数目应大于等于9。在本实施例较佳的实施方式中，所述预设筛选条件包括：第十筛选条件，化合物中不存在磷原子时，氮原子与氧原子的数目之和应小于等于碳原子数目。

进一步地，上述筛选完成后，导出目标植物化合物的信息列表以及化合物的SDF结构文件，合并所有SDF文件，形成包含6000+植物代谢物的数据集。

步骤S13.收集植物组织样本并处理以提取出与所述植物代谢物数据集匹配的质谱图数据。具体的，收集预选的植物根、茎、叶、花和/或果实的组织样本并进行前处理；所述前处理的方式包括固相萃取、阻定性进入介质、灌注固相萃取、超滤或免疫亲和萃取；基于前处理后的植物组织样本使用液相色谱-质谱联用技术对其进行数据采集以获取样本质谱图数据和样本色谱数据；将所述样本质谱图数据对所述植物代谢物数据集进行映射以获取与所述植物代谢物数据集匹配的质谱图数据；其中，通过设置正离子候选加合形式、负离子候选加合形式、前体离子质量偏差范围、碎片离子质量偏差范围、映射匹配总分范围和/或碎片匹配分范围进行映射，最终提取出与所述植物代谢物数据集匹配的质谱图数据。

在一些示例中，收集小麦、砂梨、向日葵、油菜、蓝莓等23种常见植物的根、茎、叶、花或果实等组织样本，前处理按以下方式分步萃取：

A.称取80mg样本，加入内标(L-2-氯苯丙氨酸，0.3mg/mL；Lyso PC17:0，0.01mg/mL；均为甲醇配置)各20μL，600mL的甲醇-水(V1:V2＝7:3)。

B.加入两个小钢珠，在-20℃放置2min预冷，加入研磨机(60Hz，2min)。

C.冰水浴超声提取30min，-20℃静置20min。

D.离心10min(13000rpm，4℃)，取全部上清液装入1.5mL的EP管中。

E.在残渣中再次加入400μL甲醇-水(V3:V4＝7:3)。

F.冰水浴超声提取20min，-20℃静置20min。

G.离心10min(13000rpm，4℃)，取全部上清液与步骤D中上清液混合，合计约1mL上清液。

H.取300uL上清，过滤膜过滤，装瓶。

I.再取300uL上清，挥干，用300uL纯水复溶，离心，取上清，过滤膜，装瓶。

J.剩余400uL上清液保存至-80度冰箱。

进一步地，使用液相色谱-质谱联用技术(如AB 6600plus与Thermo QE仪器)，分别对上述组织样本进行数据采集，获取植物组织样本的质谱图数据和色谱数据。分析所述植物组织样本的质谱图数据(例如，采用Waters公司的Progenesis QI分析软件)，设置正离子候选加合形式：[M+H]+，M+，[2M+H]+，[M+K]+，[M+Na]+，[M+NH4]+，[M-H2O+H]+；设置负离子候选加合形式：[2M-H]+，[M-H2O-H]-，[M+Fa-H]-，[M+Cl]-，[M-H]-；设置前体离子质量偏差≤5ppm；设置碎片离子质量偏差≤10ppm；设置映射匹配总分Score≥40；碎片匹配分≥10；对6000+植物代谢物的数据集进行映射。

在本实施例较佳的实施方式中，将所述植物代谢物数据集与所述植物组织样本的生物源数据进行匹配，其匹配结果与所述映射匹配总分值正相关。例如，将候选化合物的生物源信息与谱图数据的样本组织来源情况进行匹配，候选化合物与组织样本来源于相同科或属或种的植物时，映射匹配总分+5。

进一步地，将匹配成功的代谢物对应的谱图信息以数据矩阵的形式导出，集合汇总，以msp文件形式保存，以储存6000+植物代谢物的质谱图信息。

步骤S14.基于标准品和所述植物组织样本的保留时间，获取与所述植物代谢物数据集匹配的色谱数据。具体的，基于上述匹配成功的代谢物对应的植物组织样本的原始数据矩阵进行分析(可选用Waters公司的Progenesis QI分析软件)，将匹配成功的代谢物与其保留时间一一对应形成CSV保留时间数据列表导出；同理，对标准品的原始数据矩阵进行分析，形成标准品的代谢物及其保留时间的CSV保留时间数据列表；整合上述两个保留时间列表，以获取6000+植物代谢物的完整色谱数据。

步骤S15.基于所述植物代谢物数据集、质谱图数据和色谱数据构建植物代谢物数据库。在一些示例中，使用Waters公司的Progenesis QI分析软件，调用6000+植物代谢物的SDF文件、谱图信息的msp文件和色谱信息的CSV文件，整合形成完整植物代谢物数据库。优选的，数据库中的生物来源信息对应每个化合物进行整合，形成单独的excel表格，方便调用。使用数据库时，借助QI分析软件调用上述整合完成后的数据库，同时设置保留时间偏差≤0.1min，前体离子质量偏差≤5ppm，碎片离子质量偏差≤10ppm，即可正常使用。

为进一步说明本发明实施例所构建的植物代谢物数据库(自建库)相较于现有公共数据库(公共库)的优势，按照上述植物组织样本的处理方式得到蓝莓幼苗原始数据，在QI软件上，对蓝莓幼苗原始数据分别使用公共库与自建库进行搜库。

图2A和图2B分别为蓝莓幼苗在公共库和自建库的溯源结果示意图。图2A为公共库溯源结果，其中，黑色标记出的代谢物部分为预测化合物，从未有报道在植物中检出；部分代谢物源于动物特有的代谢途径；部分代谢物非天然产物，来源自环境污染物或者工厂合成的药物。图2B为自建库的溯源结果，与公共库形成明显对比，其注释到的化合物均为植物天然代谢产物，可通过HMDB网页记录或文献报道溯源。

图3A和图3B分别为蓝莓幼苗在公共库和自建库的谱图匹配结果示意图，比较可知，蓝莓幼苗在图3B自建库中的谱图匹配度更高，获得的谱图信息与色谱信息更加丰富，可获得完全匹配的碎片离子信息、精确到小数点后四位的母离子质量数、误差不超过0.1min的保留时间。

图4A和图4B分别为一示例中的同分异构体在公共库和自建库的搜库结果示意图。图4A中公共库的注释结果显示，存在得分基本一致的候选化合物，难以对其进行区分。图4B中通过保留时间维度比对，可以很容易区分注释的各目标化合物。

图5A和图5B分别为公共库和自建库的文件内容示意图。图5A中某公共库用Notepad打开，其内容较为单一，除谱图矩阵信息外，只有化合物分子式、Inchikey、分类等基础信息。图B中自建库用Notepad或Excel打开，除谱图信息、化合物分子式、化合物加合形式、Inchikey、分类等基础信息外，还包括化合物的组织样本来源信息和生物学信息，将这些信息以超链接的形式进行了收录与归纳，方便查找。

表1为不同植物组织样本在公共库和自建库的注释结果对比。通过分析不同植物组织样本在公共数据库与植物自建库的搜库结果可知，虽然相比于公共库，自建库注释到的化合物有所减少，但是公共库中注释到的植物代谢物数量占比只有35％左右，结果假阳性过高。与之相比，自建库则很好地规避了这个问题，保证注释结果均为植物源代谢物。

表1不同植物组织样本在公共库和自建库的注释结果对比

在一些实施方式中，所述方法可应用于控制器，所述电控单元例如为ARM(Advanced RISC Machines)控制器、FPGA(Field Programmable Gate Array)控制器、SoC(System on Chip)控制器、DSP(Digital Signal Processing)控制器、或者MCU(Microcontroller Unit)控制器等等。在一些实施方式中，所述方法也可应用于包括存储器、存储控制器、一个或多个处理单元(CPU)、外设接口、RF电路、音频电路、扬声器、麦克风、输入/输出(I/O)子系统、显示屏、其它输出或控制设备，以及外部端口等组件的计算机；所述计算机包括但不限于如台式电脑、笔记本电脑、平板电脑、智能手机、智能电视、个人数字助理(Personal Digital Assistant，简称PDA)等个人电脑。在另一些实施方式中，所述方法还可应用于服务器，所述服务器可以根据功能、负载等多种因素布置在一个或多个实体服务器上，也可以由分布的或集中的服务器集群构成。

实施例二

如图6所示，本发明实施例提出一种植物代谢物数据库的构建装置的结构示意图。本实施例提供的植物代谢物数据库的构建装置包括：导出模块61，用于导出公共数据库中全部的植物代谢物数据；筛选模块62，用于基于预设筛选条件筛选所导出的数据以获取植物代谢物数据集；谱图数据获取模块63，用于收集植物组织样本并处理以提取出与所述植物代谢物数据集匹配的质谱图数据；色谱数据获取模块64，用于基于标准品和所述植物组织样本的保留时间，获取与所述植物代谢物数据集匹配的色谱数据；构建模块65，用于基于所述植物代谢物数据集、质谱图数据和色谱数据构建植物代谢物数据库。

需要说明的是，本实施例提供的模块与上文中提供的方法、实施方式类似，故不再赘述。另外需要说明的是，应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，筛选模块可以为单独设立的处理元件，也可以集成在上述装置的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述装置的存储器中，由上述装置的某一个处理元件调用并执行以上筛选模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个微处理器(digital signal processor，简称DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(Central Processing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称SOC)的形式实现。

实施例三

本发明实施例提出一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述植物代谢物数据库的构建方法。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

实施例四

如图7所示，本发明实施例提供一种电子终端的结构示意图。本实施例提供的电子终端，包括：处理器71、存储器72、通信器73；存储器72通过系统总线与处理器71和通信器73连接并完成相互间的通信，存储器72用于存储计算机程序，通信器73用于和其它设备进行通信，处理器71用于运行计算机程序，使电子终端执行如上所述植物代谢物数据库的构建方法的各个步骤。

上述提到的系统总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其它设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(Random Access Memory，简称RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

综上所述，本发明提供一种植物代谢物数据库的构建方法、装置、介质及终端，以数十种不同植物组织样本为数据来源，在保证代谢物丰富的基础上，结合公共数据库、文献、标准品、人工校对和生物信息等多维度方式构建了一种覆盖面广、准确度高的自建数据库，从而满足植物及植物提取物样本检索需要；所构建的植物代谢物数据库与公共数据库相比，在建库初期从列表上去除了公共数据库中的冗余部分，保证收录化合物均为植物天然产物，同时标注了生物来源信息，从而大幅度降低了注释过程中产生的假阳性，提升了注释的准确性；所构建的植物代谢物数据库含有色谱维度上的信息收录，通过保留时间维度比对，对于部分同分异构体具有良好的区分，这也提高了注释的精准度；此外，所构建的植物代谢物数据库中代谢物数据信息丰富，如谱图信息、化合物加合形式信息、Inchikey信息、分类信息、组织样本来源信息等，对于每个化合物都有详细的生物学信息注释，使用方便，更便于查证与引用。因此，本发明有效克服了现有技术中的种种缺点而具有高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种植物代谢物数据库的构建方法，其特征在于，包括：

导出公共数据库中全部的植物代谢物数据；

基于预设筛选条件筛选所导出的数据以获取植物代谢物数据集；

收集植物组织样本并处理以提取出与所述植物代谢物数据集匹配的质谱图数据；

基于标准品和所述植物组织样本的保留时间，获取与所述植物代谢物数据集匹配的色谱数据；

基于所述植物代谢物数据集、质谱图数据和色谱数据构建植物代谢物数据库；

所述与所述植物代谢物数据集匹配的质谱图数据的提取方式包括：将所述样本质谱图数据对所述植物代谢物数据集进行映射以获取与所述植物代谢物数据集匹配的质谱图数据，其中，通过设置正离子候选加合形式、负离子候选加合形式、前体离子质量偏差范围、碎片离子质量偏差范围、映射匹配总分范围和/或碎片匹配分范围进行映射；

所述将所述样本质谱图数据对所述植物代谢物数据集进行映射，还包括：将所述植物代谢物数据集与所述植物组织样本的生物源数据进行匹配，其匹配结果与所述映射匹配总分值正相关。

2.根据权利要求1所述的植物代谢物数据库的构建方法，其特征在于，所述基于预设筛选条件筛选所导出的数据，其包括：

基于所述代谢物的组成元素、分子量、状态、氮原子数、硫原子数和/或磷原子数对所导出的数据进行筛选。

3.根据权利要求1所述的植物代谢物数据库的构建方法，其特征在于，所述收集植物组织样本并进行处理，其包括：

收集预选的植物根、茎、叶、花和/或果实的组织样本并进行前处理；所述前处理的方式包括固相萃取、阻定性进入介质、灌注固相萃取、超滤或免疫亲和萃取；

基于前处理后的植物组织样本使用液相色谱-质谱联用技术对其进行数据采集以获取样本质谱图数据和样本色谱数据。

4.根据权利要求1所述的植物代谢物数据库的构建方法，其特征在于，包括：

将所构建的数据库中的生物来源数据对应每个代谢物进行整合以形成单独的数据表格以供后续调用。

5.根据权利要求1所述的植物代谢物数据库的构建方法，其特征在于，所述导出公共数据库中全部的植物代谢物数据，其包括：

使用Python将HMDB网站上所有代谢物的各层信息导出；

利用Python找到每个代谢物对应的Disposition层的信息，在这层信息中通过Biological栏确认代谢物是否带有plant信息；

导出并集合带有plant信息的所有代谢物对应的所有信息以获取所述植物代谢物数据。

6.一种植物代谢物数据库的构建装置，其特征在于，包括：

导出模块，用于导出公共数据库中全部的植物代谢物数据；

筛选模块，用于基于预设筛选条件筛选所导出的数据以获取植物代谢物数据集；

谱图数据获取模块，用于收集植物组织样本并处理以提取出与所述植物代谢物数据集匹配的质谱图数据；

色谱数据获取模块，用于基于标准品和所述植物组织样本的保留时间，获取与所述植物代谢物数据集匹配的色谱数据；

构建模块，用于基于所述植物代谢物数据集、质谱图数据和色谱数据构建植物代谢物数据库；

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述植物代谢物数据库的构建方法。

8.一种电子终端，其特征在于，包括：处理器及存储器；

所述存储器用于存储计算机程序，所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行如权利要求1至5中任一项所述植物代谢物数据库的构建方法。