CN115080561B

CN115080561B - 一种质谱数据分层存储数据库及其管理方法

Info

Publication number: CN115080561B
Application number: CN202210565622.3A
Authority: CN
Inventors: 王鹏飞; 张尚; 赵重阳; 赵兴东; 关灿
Original assignee: Mosaien Technology Suzhou Co ltd
Current assignee: Moseon Technology (Dalian) Co.,Ltd.
Priority date: 2021-05-24
Filing date: 2022-05-23
Publication date: 2023-05-23
Anticipated expiration: 2042-05-23
Also published as: CN115080561A

Abstract

本发明公开了一种质谱数据分层存储数据库及其管理方法，管理方法包括将质谱数据转化到质谱分子空间坐标系内，质谱分子空间坐标系的横坐标为质荷比或质量，纵坐标为保留时间；根据质谱数据在质谱分子空间坐标系内的空间范围确定存储空间，并将存储空间依序划分为M个数据块；获取每个数据块中的质谱数据及质谱数据量统计信息，将其分层存储。本发明为后期数据挖掘提供分子地图数据支持，且质谱数据可为标准化后的质谱数据，标准化后可以实现不同用户在同一空间下积累、搜索、追溯、标注、挖掘信息，为实现网络化协同提供支持。

Description

一种质谱数据分层存储数据库及其管理方法

技术领域

本申请涉及一种质谱数据分层存储数据库及其管理方法，属于数据处理及存储技术领域。

背景技术

质谱仪检测有检测高通量、分子特征多的特点，而生物样品含有成千上万个分子特征，在把分子特征加入数据库的情况下，存储为列表模式，会损失物种和样本的生物学关联信息。

质谱数据库种类多样，包含HMDB(人类代谢组数据库)、KEGG(基因组数据库)、Metlin(Metabolite Link)、MoNA(Metabolite of North America)、mzCloud、NIST质谱库和Wiley质谱库都具有部分二级谱信息、质荷比、质量等信息，目前没有一个基于分子地图(保留时间ⅹ质荷比)的数据库方法和设备的质谱分子数据库，不能进行图像视觉层面的标注、对比、追踪和探索。

因为分子数量多，涉及到大量分子加载非常慢的问题，而且不仅需要处理位置空间信息，还需要处理二级谱、化合物、电荷量等质谱信息，容易导致浏览器卡死崩溃。

发明内容

本申请的目的在于，提供了质谱数据分层存储数据库及其管理方法，以解决上述背景技术中提出的问题。

本发明的第一方面提供了一种质谱数据分层存储数据库的管理方法，包括：

将质谱数据转化到质谱分子空间坐标系内，所述质谱分子空间坐标系的横坐标为质荷比或质量，纵坐标为保留时间；

根据所述质谱数据在所述质谱分子空间坐标系内的空间范围确定存储空间，并将所述存储空间依序划分为M个数据块，每个所述数据块的大小为m×n，所述m为质荷比或质量的区间范围，所述n为保留时间的区间范围；

获取每个数据块中的质谱数据及质谱数据量统计信息，将其分层存储。

优选地，获取每个数据块中的质谱数据及质谱数据量统计信息，将其分层存储，具体包括：

获取每个数据块中的质谱数据量统计信息，将所述质谱数据量统计信息存储于数据库的第一层数据单元；

获取每个数据块中的质谱数据，将所述质谱数据存储于数据库的第二层数据单元；

建立所述第一层数据单元与所述第二层数据单元之间的索引。

优选地，在将质谱数据转化到质谱分子空间坐标系内之前，还包括：

对所述质谱数据进行峰检测；

根据峰检测结果对所有质谱数据进行峰对齐，得到对齐后的质谱数据；

相应的，将质谱数据转化到质谱分子空间坐标系内具体为：

将对齐后的质谱数据转化到质谱分子空间坐标系内。

优选地，所述质谱数据包括质荷比、保留时间、同位素数量、峰强度变化梯度和强度以及二级谱信息。

优选地，所述质谱数据量统计信息为质谱数据数量或锚点的数量；所述锚点是指同类样本、参考样本、标准品或标准样品中的具有特定坐标和明确信号强度的点。

优选地，还包括：

接收通过浏览器传输的展示请求信息；

后端服务器将存储于所述第一层数据单元内的每个数据块的质谱数据量统计信息反馈至所述浏览器；

接收通过所述浏览器传输的所述数据块，将所述数据块对应的存储于所述第二层数据单元内的质谱数据反馈至所述浏览器。

优选地，所述后端服务器将存储于所述第一层数据单元内的每个数据块的质谱数据量统计信息反馈至所述浏览器之后，还包括：

所述浏览器根据每个数据块的质谱数据量统计信息，绘制表征每个所述数据块内分子量数量的热力图并显示。

优选地，还包括：

接收用户发送的分享请求，所述分享请求中包括数据库标识、使用者标识和使用者权限标识；

判断所述使用者标识是否拥有对应的权限，如是，则将所述数据库标识和所述使用者权限标识分享至所述使用者标识。

优选地，所述权限包括新增、修改、删除和查看。

本发明的第二方面提供了一种质谱数据分层存储数据库，该数据库应用上述质谱数据分层存储数据库的管理方法进行管理。

本发明相较于现有技术，具有如下有益效果：

因为不同物种、不同部位、各种植物每类分子在质谱分子地图空间中有独特的形状、密度和位置，基于此，本发明提出一种基于质荷比作横坐标，保留时间作纵坐标建立的质谱分子空间坐标系，基于该空间坐标系，分层存储质谱数据，为后期数据挖掘提供分子地图数据支持。此外，本发明的质谱分子空间坐标系内的质谱数据可为标准化后的质谱数据，标准化后可以实现不同用户在同一空间下积累、搜索、追溯、标注、挖掘信息，为实现网络化协同提供支持。

本发明提出的分层存储数据库的管理方法中，可实现区域分块、信息分层的效果、便于快速查询，提高了查询效率。进一步地，本发明的数据库管理方法中还包括了数据展示方法、数据库的共享共编辑方法，便于不同用户进行数据编辑，提升了数据处理的便捷性及体验感。

附图说明

图1为本申请一种质谱数据分层存储数据库的管理方法的流程图；

图2为本申请实施例1中后端服务器处理后得到的质谱数据图；

图3为本申请实施例1中第二层数据单元中的质谱数据图；

图4为本申请实施例2中标准后的质谱数据图；

图5为本申请实施例3中研究院A存储在中药数据库中的质谱数据图；

图6为本申请实施例3中研究院B存储在中药数据库中的质谱数据图；

图7为本申请实施例3中研究院A与研究院B数据库共享后，数据库中存储的质谱数据图；

图8为本申请实施例4中第一层数据单元中质谱数据的气泡图；

图9至图12为本申请实施例4中第二层数据单元中的展示的质谱数据图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

下面将详述本发明。

图1为本发明实施例提供的一种质谱数据分层存储数据库的管理方法。

本发明的质谱数据分层存储数据库的管理方法，包括：

步骤1、将质谱数据转化到质谱分子空间坐标系内，质谱分子空间坐标系的横坐标为质荷比或质量，纵坐标为保留时间。

本发明实施例中，获取质谱数据的方法为色谱-质谱实验，色谱可以是气相、正相、反相、电泳或其它具有分离功能的方法，在质谱仪上进行操作，得到质谱数据。所得到的质谱数据可以是mzXML格式、mzML格式、mzData格式、d文件、raw文件、wiff格式或MRM格式中的至少一种；

本发明实施例中的质谱数据包括质荷比、保留时间、同位素数量、峰强度变化梯度和强度、二级谱信息、电荷量、被匹配次数、常用化合物等。相应地，将待存储的所有质谱数据全部转化到横坐标为质荷比或质量，纵坐标为保留时间的质谱分子空间坐标系内，则每一个质谱数据点上除包括质荷比或质量、保留时间外，还包括同位素数量、峰强度变化梯度和强度、二级谱信息、电荷量、被匹配次数、常用化合物等。

步骤2、根据质谱数据在质谱分子空间坐标系内的空间范围确定存储空间，并将待存储空间依序划分为M个数据块，每个数据块的大小为m×n，m为质荷比或质量的区间范围，n为保留时间的区间范围；其中的区间范围指的是每个数据块中质荷比、质量或保留时间的最大最小值区间。

本发明实施例中的待存储空间为根据所有质谱数据的最小横、纵坐标及最大横、纵坐标之间的范围确定的。

步骤3、获取每个数据块中的质谱数据及质谱数据量统计信息，将其分层存储，具体包括：

获取每个数据块中的质谱数据量统计信息，将质谱数据量统计信息存储于数据库的第一层数据单元；

获取每个数据块中的质谱数据，将质谱数据存储于数据库的第二层数据单元；

建立第一层数据单元与第二层数据单元之间的索引。

本发明实施例中的质谱数据量统计信息为质谱数据数量或锚点的数量。其中质谱数据数量包括坐标点的数量(即质谱数据的总数量)、新添加坐标点的数量、最常用坐标点的数量(即使用频次大于预设阈值的坐标点的数据)和锚点数量中的至少一种，坐标点为具有质谱数据的坐标点；锚点是指同类样本、参考样本、标准品或标准样品中的具有特定坐标和明确信号强度的点，可通过指定或计算得到锚点数据，锚点数据包含保留时间(RT)、质荷比(m/z)、峰强度、同位素峰信息，有些还包含二级谱信息。

为在后续管理数据库时，实现不同用户在同一空间下积累、搜索、追溯、标注和挖掘信息等，本发明实施例在步骤1之前还包括对质谱数据的标准化，具体为：

对质谱数据进行峰检测；

根据峰检测结果对质谱数据进行峰对齐，得到对齐后的质谱数据；

相应的，将质谱数据转化到质谱分子空间坐标系内具体为：

将对齐后的质谱数据转化到质谱分子空间坐标系内。

本发明质谱数据分层存储数据库的管理方法中还包括有质谱数据展示方法，具体包括：

接收通过浏览器传输的展示请求信息；

后端服务器将存储于第一层数据单元内的每个数据块的质谱数据量统计信息反馈至浏览器；

接收通过浏览器传输的数据块，将数据块对应的存储于第二层数据单元内的质谱数据反馈至所述浏览器。

后端服务器将存储于第一层数据单元内的每个数据块的质谱数据量统计信息反馈至浏览器之后，还包括：

浏览器根据每个数据块的质谱数据量统计信息，绘制表征每个数据块内分子量数量的热力图并显示。从而使用户可以直观了解数据块内的质谱数据的情况。

本发明中逐层加载展示，可降低展示过程的数据量，避免浏览器卡死崩溃。

进一步地，质谱数据分层存储数据库的管理方法中还包括数据库的共享方法，包括：

接收用户发送的分享请求，分享请求中包括数据库标识、使用者标识和使用者权限标识；其中使用者的权限具体包括新增、修改、删除和查看；

判断使用者标识是否拥有对应的权限，如是，则将数据库标识和使用者权限标识分享至使用者标识。其中的标识为id。

本发明实施例的数据库共享方法可以实现多用户对数据库的管理，包括新增、修改、删除和查看质谱数据等。

示例性地，当要进行质谱数据展示时，其过程可以为：

第一步，先通过色谱-质谱实验，色谱可以是气相、正相、反相、电泳或其它具有分离功能的方法，在质谱仪上进行操作，得到质谱数据，质谱数据可以是mzXML格式、mzML格式、mzData格式、d文件、raw文件、wiff格式、MRM格式；

第二步，把得到的质谱数据进行峰检测处理；

第三步，根据峰检测结果进行峰对齐，得到对齐后的质谱数据，包含矫正后的保留时间RT’、质荷比m/z、强度、电荷量、二级谱等信息；

第四步，对对齐后的质谱数据进行定性，把定性后的化合物信息、质谱信息存入数据库，具体参见步骤1至步骤4。

第五步，浏览器请求获得质谱数据。

第六步，服务器可以把存储的质谱数据全部返回浏览器，也可以进行分块展示。

当全部展示时，服务器根据保留时间RT作为纵坐标、质荷比m/z作为横坐标，其他任一信息可以作为z值，生成分子地图空间数据展示在质谱识别界面上。

当分块展示时，包括以下步骤：

第一步，针对请求，服务器解析质谱数据，质谱数据由于数据的特殊性，包含保留时间(RT)、质荷比(m/z)、峰强度、同位素峰信息，有些还包含二级谱信息，可以把保留时间(RT)作为纵坐标，质荷比(m/z)作为横坐标，建立质谱分子空间坐标系，峰强度、电荷量、被匹配次数、匹配度、常用化合物等信息作为z值(相当于每个坐标点的信息不仅包括质荷比和保留时间，还包括峰强度、电荷量、被匹配次数、常用化合物等信息)。以上质谱数据包括非标准化的质谱数据，也可以包含标准化的质谱数据。标准化的质谱数据的获得方法为：

步骤a、将指定样本的质谱数据转化为横坐标为质荷比，纵坐标为保留时间的分子地图数据，将该步骤得到的分子地图数据记为锚点数据；

步骤b、将实验样本的质谱数据转化为横坐标为质荷比，纵坐标为保留时间的分子地图数据，将该步骤得到的分子地图数据记为实验数据；实验样本的质谱数据与指定样本的质谱数据是在同一个实验方法下获得的；

步骤c、确定实验数据与锚点数据之间的映射关系，利用映射关系，矫正实验数据，得到矫正后标准化的数据。

上述步骤c具体为：确定实验数据与锚点数据在相同质荷比下的保留时间之间的映射关系；

利用映射关系，矫正实验数据的保留时间，得到矫正后具有标准化保留时间的数据。

上述步骤中的实验样本包括多个样本单元；相应地，将实验样本的质谱数据转化为横坐标为质荷比，纵坐标为保留时间的分子地图数据，将分子地图数据记为实验数据，具体为：将每一个样本单元的质谱数据转化为横坐标为质荷比，纵坐标为保留时间的分子地图数据，将分子地图数据记为实验数据。也就是说，实验数据是由多个样本数据组成的。

为进一步保证标准化过程的准确性及效率，本申请在步骤b与步骤c之间还设置了如下步骤：

步骤b→c、将多个样本数据的保留时间进行组内对齐，得到具有统一保留时间的多个样本数据，相应地，确定实验数据与锚点数据之间的映射关系，利用映射关系，矫正实验数据，得到矫正后标准化的数据，具体为：

确定具有统一保留时间的多个样本数据中的一个样本数据与锚点数据之间的映射关系，利用映射关系，矫正所有样本数据，得到矫正后标准化的数据。

上述的指定样本为已知化合物的标准品、特征分布均匀的标准样品以及标准品和标准样品的混合品中的一种；实验样本中的至少一个样本单元中加入了指定样本，即该实验样本中可以只有一个样本单元加入指定样本，也可以每一个样本单元都加入指定样本，或者该批实验样本中指定一个为锚点数据，这个需要根据该批样本的保留时间长短是否一致来确定。

第二步，根据请求，返回该实验条件下的保留时间RT的最大最小值和质荷比m/z的最大最小值，得到分子地图的边界，请求信息包含正相、反相或气相等不同实验方法，根据不同的实验条件。然后根据数量阈值对地图进行分数据块处理，得到M个数据块，每个模块的分子数量不会超过数量阈值边界，每个数据块记录了起始m/z、起始RT、终止m/z、终止RT，并建立M个索引，根据每个索引统计该数据块中的分子点数量、最常用分子数量、最近添加分子数量、锚点数量等统计概览信息。作为第一层信息，第二层是每个索引下的分子具体质谱数据信息，通过第一层可以快速找到第二层的质谱数据信息。

第三步，当浏览器请求一次展示或新增分子数据时，后端服务器先把第一层数据返回给浏览器，浏览器根据每个索引下的位置信息和分子点数量信息，绘制根据数据块分子数量多少的热力图，或者增加分子数据信息在该索引下第二层质谱数据信息表中。

第四步，当浏览器第二次或多次滚动、点击时，发送该位置的索引给后端服务器，后端服务器处理得到该索引下的第二层点数据信息返回给前端浏览器，前端浏览器展示在质谱识别数据库界面。

第五步，然后随着鼠标滚轮的缩放、滑动或者框选放大和缩放，逐步展示响应向服务器请求目标范围的第一层或者第二层分子地图数据信息。

下面，将以更为具体的实施例详述本申请。

实施例1(分子地图分块)

步骤一、浏览器发出展示分子地图的质谱数据请求，并把浏览器尺寸和展示尺寸发送给后端服务器，在本次请求中，浏览器尺寸为1920*1080，展示尺寸为1665*1035。

步骤二、后端服务器接收到请求后，处理请求数据，获得57条质谱分子数据，最小质荷比497.3491，最大质荷比554.2859，最小保留时间683s，最大保留时间983s，并根据展示数量阈值50，先按7*7个索引，每个索引下存储第二层分子数据信息，包含起始m/z、终止m/z、起始RT、终止RT、二级谱、化合物数据、同义名、标签数据信息等。后端服务器处理后得到的位于质谱分子空间坐标系中的质谱数据如图2所示。

步骤三、浏览器添加一个质荷比m/z为489.8789Da，保留时间RT为700.67秒的分子数据，后端浏览器查找该坐标下的索引位置信息，然后添加至该索引对应的质谱分子信息表中。

优选地，浏览器获得索引下统计数据，通过热力图展示每个数据块的分子数量多少。当点击或者滚轮放大请求一个索引模块，后端服务器根据该索引查找对应的分子信息表，返回给浏览器。

步骤四、浏览器根据获得的第二层的分子信息表，把质荷比m/z作为横坐标、保留时间RT作为纵坐标，电荷量z值、匹配次数、匹配度作为z值，可以根据值大小转化为气泡或点的大小，如图3所示。

步骤五、浏览器滑动时，浏览器把相邻位置的坐标信息转化为索引信息发送给后端服务器，后端服务器处理对应位置的分子信息表返回给前端浏览器，浏览器解析为空间分子坐标信息。

优选地，浏览器滚轮缩小时，分子数据直接返回第一层数据，展示在质谱识别数据库界面。

实施例2(标准化地图)

步骤一，基于色谱-质谱联用技术获取样本原始数据，采用Agilent 1290超高效液相色谱系统(Agilent,Waldbronn,Germany)串联6520Q-TOF-MS(Agilent Corp,USA)得到样本66个mzXML数据。包括以下步骤：

样本制备方法

中药样本的制备方法包括但不限于溶剂提取，包括使用于一切中药样本制备的方法。本发明中药样本采用来自于中国食品药品研究院的66个品种的对照药材。取每种对照药材粉末各100mg，分别加入体积浓度50％甲醇0.5mL，超声提取10min，15000转/分钟高速离心10min取上清液，滤渣再次加入0.5mL体积浓度50％甲醇超声提取10min，15000转/分钟高速离心10min取上清液。合并两次得到上清的提取液。

色谱采集方法

采用Agilent公司ZORBAX Eclipse Plus C18色谱柱(3.0×150mm,1.8μm)，流动相A相为水(0.5％乙酸)，B相为乙腈，梯度洗脱：0至15分钟，B相5％-100％，15至20分钟，B相保持100％，20至21分钟，B相100％-5％，21至25分钟，B相保持5％，流速为0.3mL/分钟。柱温为60℃，进样量为2μL。

质谱采集方法

质谱采用ESI离子源，负离子模式采集数据。数据采集方位m/z 100-3200，温度为350℃，干燥器流速8L/分钟，雾化器压力40psi，毛细管电压3500V，Fragmentor电压200V，Skimmer电压65V。二级分析采用HCD裂解模式，碰撞能量为20V。

步骤二、把66个中药样本数据进行峰检测处理，得到样本数据的峰检测特征列表。

步骤三、根据其中一个中药样本进行峰对齐，可以采用内标标准化，也可以直接进行标准化处理，得到对齐后的保留时间RT’，此实施例中得到对齐后数据3684个特征，如图4所示。

步骤四、把矫正后的保留时间RT’、保留时间RT、质荷比m/z、峰强度、二级谱、电荷量z信息存储于数据库中。

步骤五、浏览器发送同一个实验方法和质谱数据请求给服务器，服务器返回该实验方法下的所有质谱数据给浏览器。

步骤六、浏览器以保留时间RT’作为纵坐标、质荷比m/z作为横坐标、峰强度作为z值生成空间分子坐标系，展示在质谱识别界面上。

实施例3(标准化地图协作)

步骤一、研究员A基于实施例二中的实验方法处理66个中药样本数据，得到一批质谱空间分子数据3564条质谱信息，存储在中药数据库M中，如图5所示。

步骤二、研究员B基于同样的实验方法处理另外75个中药样本数据，得到另外一批质谱空间分子数据4862条质谱信息，如图6所示。

步骤三、研究员A把该中药数据库M共享给研究员B，浏览器把共享的数据库id、权限id和共享人信息发送给服务器。

步骤四、研究员B添加质谱数据到中药数据库M中，服务器校验共享的数据库id、权限id信息，校验成功后，把该4862条数据同样存储在中药数据库M中，共计有8462条质谱数据，如图7所示。

步骤五，研究员A和研究员B发送浏览请求，服务器把8462质谱数据返回至浏览器，根据保留时间RT作为纵坐标、质荷比m/z作为横坐标，其他峰强度信息可以作为z值，生成分子地图空间数据展示在A和B的质谱识别界面上。

实施例4(分层展示方法)

步骤一，基于实施例三，研究员A共计有8462条质谱数据，点击中药数据库M。

步骤二，服务器把8462条数据分块为30*24个数据块，以及每个块的统计数据量返回给前端浏览器。

步骤三，前端浏览器根据返回的数据量绘制热力图或者气泡图，多的数量气泡大，少数量的数据块气泡小，如图8所示。

步骤四，研究员鼠标在一个位置悬停滚动、点击一个数据块，获取第二层质谱数据信息，包含质荷比、保留时间、强度、电荷量、二级谱、实验方法、化合物信息，显示信息如图9至图12所示。

以上所述，仅是本申请的几个实施例，并非对本申请做任何形式的限制，虽然本申请以较佳实施例揭示如上，然而并非用以限制本申请，任何熟悉本专业的技术人员，在不脱离本申请技术方案的范围内，利用上述揭示的技术内容做出些许的变动或修饰均等同于等效实施案例，均属于技术方案范围内。

Claims

1.一种质谱数据分层存储数据库的管理方法，其特征在于，包括：

2.根据权利要求1所述的质谱数据分层存储数据库的管理方法，其特征在于，在将质谱数据转化到质谱分子空间坐标系内之前，还包括：

对所述质谱数据进行峰检测；

相应的，将质谱数据转化到质谱分子空间坐标系内具体为：

将对齐后的质谱数据转化到质谱分子空间坐标系内。

3.根据权利要求1所述的质谱数据分层存储数据库的管理方法，其特征在于，所述质谱数据包括质荷比、保留时间、同位素数量、峰强度变化梯度和强度以及二级谱信息。

4.根据权利要求1所述的质谱数据分层存储数据库的管理方法，其特征在于，所述质谱数据量统计信息为质谱数据数量或锚点的数量；所述锚点是指同类样本、参考样本、标准品或标准样品中的具有特定坐标和明确信号强度的点。

5.根据权利要求1所述的质谱数据分层存储数据库的管理方法，其特征在于，还包括：

接收通过浏览器传输的展示请求信息；

6.根据权利要求5所述的质谱数据分层存储数据库的管理方法，其特征在于，所述后端服务器将存储于所述第一层数据单元内的每个数据块的质谱数据量统计信息反馈至所述浏览器之后，还包括：

7.根据权利要求1-6任一项所述的质谱数据分层存储数据库的管理方法，其特征在于，还包括：

8.根据权利要求7所述的质谱数据分层存储数据库的管理方法，其特征在于，所述权限包括新增、修改、删除和查看。

9.一种质谱数据分层存储数据库，其特征在于，所述数据库应用如权利要求1-8任一项所述的质谱数据分层存储数据库的管理方法进行管理。