CN111370072B

CN111370072B - 基于数据非依赖采集质谱的分子组学数据结构的实现方法

Info

Publication number: CN111370072B
Application number: CN202010144110.0A
Authority: CN
Inventors: 郭天南; 栾钟治; 李子青; 张芳菲; 禹韶阳; 臧泽林
Original assignee: Westlake University
Current assignee: West Lake OMI (Hangzhou) Biotechnology Co.,Ltd.
Priority date: 2020-03-04
Filing date: 2020-03-04
Publication date: 2020-11-17
Anticipated expiration: 2040-03-04
Also published as: US20220284989A1; WO2021174901A1; CN111370072A

Abstract

本发明涉及生物分子组学质谱数据技术领域，尤其涉及一种基于数据非依赖采集质谱的分子组学数据结构的实现方法，该质谱数据结构是由质谱原始数据生成的DIAT张量数据，具有三个维度的属性，第一维度为循环次数索引，第二维度为碎片离子质荷比，第三维度为碎片离子所对应的前体离子窗口索引。本案所述的DIAT张量数据完整度高，便于读取且读取速度快，DIAT文件大小仅为mzXML文件的几十分之一，通过可视化池化的DIAT文件图像能够对DIA质谱数据直接观察，能够直接使用视觉处理算法对DIAT张量进行分析，避免了需要大计算量抽取离子色谱峰的操作，并且能够直接根据此文件建立临床样品分类的计算机深度学习模型。

Description

基于数据非依赖采集质谱的分子组学数据结构的实现方法

技术领域

本发明涉及生物分子组学质谱数据技术领域，尤其涉及一种基于数据非依赖采集质谱的分子组学数据结构的实现方法。

背景技术

基于质谱(即Mass Spectrum，缩写为MS)的组学已经发展了几十年，并已发展出能够利用其在数小时内对复杂生物样品中成千上万种生物分子,进行谱分析的应用。生物分子经过液相色谱(即liquid chromatography，缩写为LC)分离并通过串联质谱(MS/MS)碎片离子谱鉴定和定量，并以此鉴定和定量生物分子,应用包括蛋白质组学,代谢组学和脂质组学。

基于质谱的组学目前有以下几种采集模式：

1.数据依赖性采集(简称DDA)：数据依赖型采集依赖于样品的一级谱图中前体离子的强度，按前体离子排序进行二级碎裂具有一定随机性,鉴定重现性较低；

2.靶向监测(简称SRM)：目标方法-选定的反应监测虽然可以精确地分析一组预定义分子，但通量只有数百条；

3.数据非依赖性采集(简称DIA)：DIA(即Data independent acquisition)是一项全息式数据非依赖性采集定量技术，它将质谱整个全扫描范围分为若干个窗口，高速、循环地对每个窗口中的所有离子进行选择、碎裂及检测，从而无遗漏、无差异地获得样本中所有离子的全部碎片信息，无需指定目标分子，扫描点数均匀，利用谱图库即可实现定性确证和定量离子筛选，并可实现数据回溯。例如：卫星扫描质谱技术(SWATH)将一级质谱分为一系列相邻的25m/z(即25m/z)或更大尺寸的前体离子选择窗口，在每一个窗口中，每个前体离子与所有其他前体离子同时破碎，并同时记录了源自同一窗口的碎片离子的相应多重谱图，落入相同前体离子窗口的碎片离子可以被系统地无偏差记录，克服了DDA模式下前体离子选择的随机性的同时，也保留了目标方法的高准确性。数据非依赖采集的质谱方法可以重复覆盖低丰度的分子，从而可以产生一个永久的数字图谱来代表所有可测量的分子信号，作为生物分子组学的电子档案。

在实际应用中，大部分质谱仪器制造商都有受于保护的质谱数据格式，例如Thermo Fisher公司的raw格式、Sciex公司的wiff格式、Bruker公司的baf格式等。虽然市场上也有一些开源的转换数据格式，例如：mzXML格式、mzML格式、mz5格式等，但是这些格式普遍存在存储效率低下的问题。例如：基于扩展性标记语言(XML)的文件格式(如mzXML格式和mzML格式)，由于转换成了可读语言而且不可以直接存储二进制数据，导致转换的XML格式文件大小明显增大，并且由于读取XML文件时必须为顺序读取，而进行质谱数据分析时需要非顺序读取数据，进而导致了输入输出(I/O)速率低下的问题。虽然Mz5格式是一种基于High-performance data management and storage5(HDF5)的高效数据管理和存储的格式，但是其依旧保持了mzML文件内容的本体，而这些并不全是所有DIA数据分析时所需要的信息。另外，DIA由于前体离子和碎片离子之间的关系的丧失，共流出的前体离子会在同一窗口中共碎片化，进而产生高度复杂的碎片质谱，因而需要在DDA中获得目标分子的先验信息，包括前体质荷比、其碎片离子的质荷比及相应的相对强度和保留时间等，再进行抽取离子色谱峰(XIC)以推断出属于靶向分子的峰组,耗费大量计算资源和时间,并且常常导致数据的失真。虽然现有的多种DIA分析软件，例如：OpenSWATH软件、Skyline软件、Spectronaut软件、PeakView软件等，都可以实现鉴定和定量生物分子的功能，但是这些程序不易操作且耗时耗计算资源，并且仅将部分二级质谱用于峰组推论，因而会产生不可预测的效果(例如：不可避免的缺失值问题)，进而会影响下游的统计分类分析。

因此，现有的质谱数据结构已不适用于存储并分析新型的非依赖性质谱采集方法所产生的大规模数据。

发明内容

针对现有技术中的问题，本发明提供一种基于数据非依赖性采集质谱的生物分子组学质谱数据结构及其实现方法。

为实现以上技术目的，本发明的技术方案是：

1.一种基于数据非依赖采集质谱的分子组学数据结构，所述质谱数据结构是由质谱原始数据生成的DIAT张量数据，所述DIAT张量数据具有三个维度的属性，第一维度为循环次数索引，第二维度为池化碎片离子质荷比，第三维度为碎片离子所对应的前体离子窗口索引。

2.一种基于数据非依赖采集质谱的分子组学数据结构的实现方法，步骤包括：

步骤A：将质谱原始数据文件转换为mzXML格式文件，并同时对质谱原始数据进行质荷中心化处理，得到的mzXML格式文件包含一级质谱和二级质谱数据的所有必要信息；

步骤B：从步骤A得到的mzXML格式文件中提取需要的质谱数据，所述质谱数据至少包含以下属性：扫描级别、扫描索引、保留时间、前体离子质荷比、碎片离子质荷比和碎片离子强度；

步骤C：对步骤B提取的质谱数据根据扫描级别和扫描索引来统计总循环次数和循环次数索引，同时进行丢失扫描检测，在所有丢失的位置填补0占位符和获取该数据中碎片离子对应的前体离子的窗口、循环次数索引；

步骤D：根据碎片离子质荷比属性，对步骤C获得的质谱数据进行分箱处理，对落在同一个碎片离子质荷比分箱的碎片离子强度数值进行加和处理；

步骤E：对步骤D处理后的质谱数据执行重排序操作，所述重排序是指根据二级质谱对应的前体离子质荷比数据，得到其对应的窗口索引，并将具有相同窗口索引的二级质谱按照循环次数索引的顺序重新排列在一起；

步骤F：对经步骤E处理后的数据，以循环次数索引、碎片离子质荷比、碎片离子所对应的前体离子窗口索引三个维度构成二级质谱碎片离子强度的张量数据。

作为改进，还包括步骤G：通过对不同维度的数据进行池化运算减小张量数据的大小后生成池化后的DIAT张量数据。

作为优选，所述步骤G中池化的方法为：首先在每个二阶窗口中，对前体离子质荷比的非零值进行分布统计，获得一个具有预定义网格的主副交替峰模式，再利用此主副交替峰模式的规律对不同质荷比区域进行池化，使用非零强度分布峰的非线性平方高斯拟合来动态确定需要合并质荷比区域的上下边界，最后舍弃所有无峰网格，并将各个主、副峰区域的多行合并成一行，将质荷比维度的行数减少。

作为改进，还包括以下步骤：在获得池化后的DIAT张量数据后，将DIAT张量数据处理为伪彩色图像以达到可视化。

作为改进，还包括以下步骤：在获得池化后的DIAT张量数据后，将DIAT张量数据中的碎片离子强度灰度化，作为深度学习的输入模型。

从以上描述可以看出，本发明具备以下优点：

本发明所述的DIAT张量数据是依据原始质谱数据结构进行转化的，能够保证DIA质谱数据的有效信息量，并且在进行数据读取时，以三维张量形式读取，读取顺序不受限制，大大提高了数据的读取便捷性和读取速度，将其存储为DIAT格式文件后，文件大小仅为mzXML文件的几十分之一，大大降低了质谱数据文件所需的存储空间。本发明还能够通过可视化池化的DIAT文件图像对DIA质谱数据直接观察，能够直接使用视觉处理的算法对DIAT张量进行分析，避免了需要大计算量的抽取离子色谱峰(XIC)操作，且能够直接根据此格式文件建立临床样品分类的计算机深度学习模型。随着DIA数据质量和数量的增加，可以预见本发明所述技术在临床诊断中的潜力，为提供疾病分型诊断提供了有效解决方案。

附图说明

图1是本发明实现方法的流程图；

图2是本发明原始质谱数据示意图；

图3是本发明原始质谱数据格式转换DIAT张量数据示意图；

图4是本发明DIAT张量数据循环次数索引示意图；

图5是本发明DIAT张量数据示意图；

图6是本发明DIAT文件大小与mzXML文件大小和质谱原始数据文件大小对比图；

图7是本发明池化后的DIAT张量数据示意图；

图8是本发明实验数据主副峰示意图；

图9是本发明高斯分布拟合图；

图10是本发明模拟主峰示意图；

图11是本发明二维图可视化过程示意图；

图12是本发明应用于蛋白质组学的灰度化结果示意图；

图13是本发明应用于代谢组学的灰度化结果示意图；

图14是本发明应用于脂质组学的灰度化结果示意图。

具体实施方式

结合图1-图14，详细说明本发明的实施例，但不对本发明的权利要求做任何限定。

如图1所示，一种基于数据非依赖性采集质谱的生物分子组学质谱数据结构的实现方法，具体步骤包括：

步骤A：利用ProteoWizard软件包中的MSconvert工具，将供应商提供的质谱原始数据文件转换为mzXML格式文件，并同时通过MSconvert工具对质谱原始数据文件进行质荷中心化(centroiding)处理，得到的mzXML格式文件包含一级质谱和二级质谱数据的所有必要信息(如图2所示，为供应商提供的质谱原始数据文件示意图)；

步骤B：编写read_mzxml_body函数，利用pyteomic工具包从步骤A得到的mzXML格式文件中提取需要的质谱数据，所述质谱数据至少包含以下属性：扫描级别(MS level)、扫描索引(scan index)、保留时间(retention time)、前体离子质荷比(peptide precursorm/z)、碎片离子质荷比(fragment m/z)和碎片离子强度(fragment intensity)；

步骤C：利用detect_missing_scan函数对步骤B提取的质谱数据根据扫描级别和扫描索引来统计总循环次数(cycle number)和循环次数索引(cycle index)(如图3所示)，同时进行丢失扫描检测，在所有丢失的位置填补0占位符和获取该数据中碎片离子对应的前体离子的窗口、循环次数索引(如图4所示)；

步骤D：根据碎片离子质荷比属性，使用binning函数对步骤C获得的质谱数据进行分箱处理，对落在同一个碎片离子质荷比分箱的碎片离子强度数值进行加和处理，分箱大小根据不同质谱机器对应的质量精度设置，从而不影响数据整体的完整性；

步骤E：因为数据非依赖性采集质谱的原始数据格式是一个一级质谱加上一系列二级质谱形成的重复循环，而同一个采集循环中的各个二级质谱是相对独立的，不同循环中同一个前体离子质荷比对应的二级质谱是相互关联的，所以使用reorder_by_window函数对步骤D处理后的质谱数据执行重排序操作，所述重排序是指根据二级质谱对应的前体离子质荷比数据，得到其对应的窗口索引，并将具有相同窗口索引的二级质谱按照循环次数索引的顺序重新排列在一起；

步骤F：对经步骤E处理后的数据，以循环次数索引、碎片离子质荷比、碎片离子所对应的前体离子窗口索引三个维度构成二级质谱碎片离子强度的张量数据生成DIAT(Data-Independent Acquisition Tensor)张量数据。

通过上述实现方法，最后得到的是一种基于数据非依赖性采集质谱的生物分子组学质谱数据结构，如图5所示，该质谱数据结构为一DIAT张量数据，具有三个维度的属性，第一维度为循环次数索引，第二维度为碎片离子质荷比，第三维度为碎片离子所对应的前体离子窗口索引。这种DIAT张量数据是依据原始质谱数据结构进行转化的，能够保证DIA质谱数据的有效信息量，并且在进行数据读取时，以三维张量形式读取，读取顺序不受限制，大大提高了数据的读取便捷性和读取速度。将这种DIAT(Data-Independent AcquisitionTensor)张量数据存储为DIAT文件后(存储格式为.diat格式)，文件大小将减小到原有的mzXML文件的几十分之一。如图6所示，给出了由图2的示例生成的DIAT文件大小与mzXML文件大小和质谱原始数据文件大小的对比图，从图6中可以看出，DIAT格式文件大小与质谱原始数据文件相比，文件大小减小了30倍，与mzXML文件相比，减少至mzXML文件大小的1/60，大大降低了质谱数据文件所需的存储空间。

上述实现方法中，需要注意的是，由于同一批质谱原始数据转化的mzXML文件中循环次数可能存在差异，需要对不同文件中的质谱总共循环次数进行统计，并将同一批次中最小循环次数向下取整十数字设定为该批次数据读取的统一循环次数，以保证后续数据处理的扫描次数数量一致性。

在获得上述DIAT张量数据后，为了进一步提高该数据的性能，对上述技术方案做以下改进：

(1)增加步骤G：通过对不同维度的数据进行池化运算减小张量数据的大小，生成的池化后的DIAT张量数据(如图7所示，为包含主副峰示意图的三维DIAT张量数据示意图)，池化的具体方法可以为：首先在每个二阶窗口中，对前体离子质荷比的非零值进行分布统计，获得一个具有预定义网格的主副交替峰模式(如图8所示)，再利用此主副交替峰模式的规律对不同质荷比区域进行池化，使用非零强度分布峰的非线性平方高斯拟合来动态确定需要合并质荷比区域的上下边界(如图9所示)，最后使用pooling_mz_peaks_by_window函数，舍弃所有无峰网格，并将各个主、副峰区域的多行合并成一行，将质荷比维度的行数减少50倍；此步骤中，具有预定义网格的主副交替峰模式之所以可以作为池化规律，是因为通过模拟所有人类蛋白质组的单电荷的碎片离子的分布情况(如图10所示)，发现模拟的结果与真实实验的样本具有相同的主峰分布模式，而副峰可被解释为双电荷碎片离子质荷比。

(2)在获得池化的DIAT张量数据后，利用draw_image函数将DIAT张量数据处理为伪彩色图像以达到可视化，如图11所示，为二维图可视化示意图，通过可视化处理，不仅能够通过可视化DIAT文件图像对DIA质谱数据进行直接观察，而且能够直接使用视觉处理的算法对DIAT张量进行分析，避免了需要大计算量的抽取离子色谱峰(XIC)的操作，还能够直接根据此文件建立临床样品分类的模型。

(3)在获得池化的DIAT张量数据后，利用draw_diat函数，将DIAT张量数据中的碎片离子强度灰度化，作为后续深度学习的输入模型。例如：灰度化采用的方法为：利用百分位数对intensity非零值进行等频离散化划分，并对各划分区间进行着色，将0～100等间距划分为256个值，利用这个256个0～100的浮点数字和百分位数函数计算intensity非零值对应的256个值，这256个值对应的即为255个区间，每个区间一种颜色，区间值从1-255。如图12-14分别给出了以蛋白质组学、代谢组学和脂质组学为应用对象，获得的灰度结果示意图。

综上所述，本发明具有以下优点：

本发明所述的DIAT张量数据是依据原始质谱数据结构进行转化的，能够保证DIA质谱数据的有效信息量，并且在进行数据读取时，以三维张量形式读取，读取顺序不受限制，大大提高了数据的读取便捷性和读取速度，将其存储为DIAT文件后，文件大小仅为mzXML文件的几十分之一，大大降低了质谱数据文件所需的存储空间。本发明还能够通过可视化池化的DIAT文件图像对DIA质谱数据直接观察，能够直接使用视觉处理的算法对DIAT张量进行分析，避免了需要大计算量的抽取离子色谱峰(XIC)操作，且能够直接根据此格式文件建立临床样品分类的计算机深度学习模型。随着DIA数据质量和数量的增加，可以预见本发明所述技术在临床诊断中的潜力，为提供疾病分型诊断提供了有效解决方案。

可以理解的是，以上关于本发明的具体描述，仅用于说明本发明而并非受限于本发明实施例所描述的技术方案。本领域的普通技术人员应当理解，仍然可以对本发明进行修改或等同替换，以达到相同的技术效果；只要满足使用需要，都在本发明的保护范围之内。

Claims

1.一种基于数据非依赖采集质谱的分子组学数据结构的实现方法，步骤包括：

2.根据权利要求1所述的基于数据非依赖采集质谱的分子组学数据结构的实现方法，其特征在于：还包括步骤G：通过对不同维度的数据进行池化运算减小张量数据的大小后生成池化后的DIAT张量数据。

3.根据权利要求2所述的基于数据非依赖采集质谱的分子组学数据结构的实现方法，其特征在于：所述步骤G中池化的方法为：首先在每个二阶窗口中，对前体离子质荷比的非零值进行分布统计，获得一个具有预定义网格的主副交替峰模式，再利用此主副交替峰模式的规律对不同质荷比区域进行池化，使用非零强度分布峰的非线性平方高斯拟合来动态确定需要合并质荷比区域的上下边界，最后舍弃所有无峰网格，并将各个主、副峰区域的多行合并成一行，将质荷比维度的行数减少。

4.根据权利要求2所述的基于数据非依赖采集质谱的分子组学数据结构的实现方法，其特征在于：还包括以下步骤：在获得池化后的DIAT张量数据后，将DIAT张量数据处理为伪彩色图像以达到可视化。

5.根据权利要求2所述的基于数据非依赖采集质谱的分子组学数据结构的实现方法，其特征在于：还包括以下步骤：在获得池化后的DIAT张量数据后，将DIAT张量数据中的碎片离子强度灰度化，作为深度学习的输入模型。