CN113836086A

CN113836086A - 一种数据非依赖采集质谱数据格式的转化方法及应用

Info

Publication number: CN113836086A
Application number: CN202111225265.8A
Authority: CN
Inventors: 郭天南; 栾钟治; 张芳菲; 王群莹
Original assignee: Westlake University
Current assignee: Westlake University
Priority date: 2021-10-21
Filing date: 2021-10-21
Publication date: 2021-12-24

Abstract

本申请提出了一种数据非依赖采集质谱数据格式的转换方法及应用，包括以下步骤：读取质谱张量数据格式文件,其中所述质谱张量数据格式文件为由碎片离子所对应的前体离子索引、碎片离子质荷比和循环次数索引三个维度构成的三维张量数组；解析所述质谱张量数据格式文件得到质荷比数组和对应的强度数组；还原所述质荷比数组内的质荷比索引得到质荷比数值，得到质荷比‑强度数组；填充标准格式文件的缺失信息，所述缺失信息和所述质荷比‑强度数组组合得到标准格式文件，可以实现质谱张量数据格式(DIAT)转换为标准数据格式的效果，且转换得到的标准数据格式的文件大小被缩小的目的。

Description

一种数据非依赖采集质谱数据格式的转化方法及应用

技术领域

本申请涉及质谱数据领域，特别是涉及数据非依赖采集质谱数据格式的转换方法及应用。

背景技术

质谱在组学的研究中起到非常重要的作用，质谱是一种带电原子、分子或分子碎片按质量的大小顺序排列的图像，其是通过首先对被分析的样品进行离子化后利用不同离子在电场或磁场的运动行为的不同，把离子按质荷比分开而得到，基于质谱技术可实现对复杂生物分子的鉴定和定量分析。

目前主流的基于质谱的组学的采集方式有多种：数据依赖性采集(DDA)、靶向监测(SRM)、数据非依赖性采集(DIA)，其中数据非依赖性采集模式通过将质谱整个全扫描范围分为若干个窗口，高速、循环地对每个窗口中的所有离子进行选择、破裂以及检测，从而无遗漏、无差异地获得样本中所有离子的全部碎片信息,其可以产生一个永久的数字图谱来代表所有可测量的分子信号，作为生物分子组学的电子档案。若分析的样本的碎片信息，质谱数据的通量就越大，高通量大规模蛋白质组学数据集的存储对于任何AI建模都是必不可少的，相对应的，如何存储和分析高通量的质谱数据成为十分重要的问题。

为了解决高通量组学质谱数据的存储问题，本发明人针对质谱数据提供了一种新型的质谱张量数据格式(DIAT)，并针对该质谱张量数据格式(DIAT)申请并获取专利号为202010144110.0的有效专利，该新型的质谱张量数据格式(DIAT)是专为大数据独立采集(DIA)组学数据AI分析而设计的，可直接与神经网络接口对接并最大限度地减少数据的存储空间。然而质谱张量数据格式(DIAT)作为一种新型的数据格式，目前还无法和标准格式进行转换，由于无法和标准格式进行转化，导致目前质谱张量数据格式(DIAT)存储的数据缺少桥接于传统肽段、蛋白鉴定搜索的流程来进行传统蛋白质组学的分析，进而限制了质谱张量数据格式(DIAT)的广泛应用，目前亟需提供实现质谱张量数据格式(DIAT)和质谱标准格式的转换方法。

发明内容

本申请实施例提供了一种数据非依赖采集质谱数据格式的转换方法及应用，使用转换流程将数据存储量小的质谱张量数据格式(DIAT)转换为传统的标准数据格式，使得其可传统的质谱分析软件进行分析处理，进而扩大质谱张量数据格式(DIAT)的应用。

第一方面，本申请实施例提供了一种数据非依赖采集质谱数据格式的转换方法，所述方法包括：S1：读取质谱张量数据格式文件,其中所述质谱张量数据格式文件为由碎片离子所对应的前体离子索引、碎片离子质荷比和循环次数索引三个维度构成的三维张量数组；S2：解析所述质谱张量数据格式文件得到质荷比数组和对应的强度数组；S3：还原所述质荷比数组内的质荷比索引得到质荷比数值，得到质荷比-强度数组；S4：填充标准格式文件的缺失信息，所述缺失信息和所述质荷比-强度数组组合得到标准格式文件。

第二方面，本申请实施例提供了一种数据非依赖采集质谱数据格式的转换装置，包括：质谱张量数据读取单元，用于读取质谱张量数据格式文件,其中所述质谱张量数据格式文件为由碎片离子所对应的前体离子索引、碎片离子质荷比和循环次数索引三个维度构成的三维张量数组；质谱张量数据解析单元，用于解析所述质谱张量数据格式文件得到质荷比数组和对应的强度数组质荷比数组处理单元，用于还原所述质荷比数组内的质荷比索引得到质荷比数值，得到质荷比-强度数组；标准格式文件生成单元，用于填充标准格式文件的缺失信息，所述缺失信息和所述质荷比-强度数组组合得到标准格式文件。

第三方面，本申请实施例提供了一种包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行任一所述的数据非依赖采集质谱数据格式的转换方法。

本发明的主要贡献和创新点如下：本方案针对数据非依赖性采集(DIA)独创设计了一种在保证数据有效信息量的同时大大降低存储空间的质谱张量数据格式(DIAT)，而为了使得质谱张量数据格式(DIAT)可被应用于目前大部分传统的质谱分析软件的数据分析，本方案再次针对该独创的质谱张量数据格式(DIAT)提出了一种将其转换为标准数据格式的转换方法，将质谱张量数据格式(DIAT)转换为mzXML/mzML等标准数据格式，且转换得到的标准数据格式的文件大小不到原始同格式文件的30％，大大降低了占用空间，提高了存取效率。且通过该转换方法的应用实现，数据可以质谱张量数据格式(DIAT)的方式存储，以标准数据格式的方式被应用的效果，扩大质谱张量数据格式(DIAT)的应用。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是质谱张量数据格式文件的结构示意图；

图2是根据本申请实施例的数据非依赖采集质谱数据格式的转换方法的流程图；

图3是同一Global.PG.Q.Value水平下protein group鉴定重合情况；

图4是protein group强度相关性比较情况。

图5是根据本申请实施例的数据非依赖采集质谱数据格式的转换装置的结构框图；

图6是根据本申请实施例的电子装置的硬件结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。

需要说明的是：在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中，其方法所包括的步骤可以比本说明书所描述的更多或更少。此外，本说明书中所描述的单个步骤，在其他实施例中可能被分解为多个步骤进行描述；而本说明书中所描述的多个步骤，在其他实施例中也可能被合并为单个步骤进行描述。

实施例一

本申请实施例提供了一种数据非依赖采集质谱数据格式的转换方法，可以实现质谱张量数据格式(DIAT)转换为标准数据格式的效果，且转换得到的标准数据格式的文件大小被缩小的目的，具体地，参考图1，所述方法包括：

S1：读取质谱张量数据格式文件,其中所述质谱张量数据格式文件为由碎片离子所对应的前体离子索引、碎片离子质荷比和循环次数索引三个维度构成的三维张量数组；

S2：解析所述质谱张量数据格式文件得到质荷比数组和对应的强度数组；

S3：还原所述质荷比数组内的质荷比索引得到质荷比数值，得到质荷比-强度数组；

S4：填充标准格式文件的缺失信息，所述缺失信息和所述质荷比-强度数组组合得到标准格式文件。

具体的，在步骤S1中读取的所述质谱张量数据格式文件是由质谱原始数据生成的DIAT张量数据，其具体结构如图1所示。所述质谱张量数据格式文件具有三个维度的属性，第一维度为循环次数索引，第二维度为碎片离子质荷比，第三维度为碎片离子所对应的前体离子窗口索引。这种DIAT张量数据是依据原始质谱数据结构进行转化的，能够保证DIA质谱数据的有效信息量，并且在进行数据读取时，以三维张量形式读取，读取顺序不受限制，大大提高了数据的读取便捷性和读取速度。将这种DIAT(Data-Independent AcquisitionTensor)张量数据存储为DIAT文件后(存储格式为.diat格式)，文件大小将减小到原有的mzXML文件的几十分之一。

所述质谱张量数据格式文件的存储格式为.diat格式，其本质为压缩的Numpy数组.npz格式。系统在读取所述质谱张量数据格式文件后对其进行解压缩即可得到三维Nupmy数组和三个维度的大小，得到的所述三维Nupmy数组和三个维度的大小形成所述三维张量数组。

在步骤S2中，“解析所述质谱张量数据格式文件得到质荷比数组和对应的强度数组”包括步骤：根据所述三维张量数组的三个维度建立三层嵌套式循环，通过所述三层嵌套式循环共同作用解析得到按照扫描顺序排列的质荷比索引和对应强度数值，所述质荷比索引组成所述质荷比数组，所述强度数值组成所述强度数组。

值得说明的是，本方案将所述质谱张量数据格式文件转换为所述标准格式文件，所述标准格式文件为基于XML的质谱格式文件，包括但不限于：mzXML或mzML格式。而基于XML的质谱格式文件的一二级质谱数据应该按照层次顺序存储。也就是说，基于XML的质谱格式文件的每次循环包括一个一级质谱扫描和其对应的碎片离子的若干二级质谱扫描，每个二级质谱扫描对应一个窗口。然而在所述质谱张量数据格式文件中，一级质谱扫描对应循环次数索引，若干二级质谱对应前体离子索引，该步骤将所述质谱张量数据格式文件解析成基于XML的质谱格式文件。

具体的，由于所述质谱张量数据格式文件为三维张量数组，所以需要建立三层嵌套式循环以确保可以访问到所述三维张量数组中的每一个数，通过所述三层嵌套式循环解析出按扫描顺序排列的质荷比索引和对应的强度数值，以分别存储到质荷比数组和强度数组中。

三层嵌套式循环分别包括嵌套的外层循环、中层循环以及内层循环，三者以嵌套的逻辑进行循环。步骤S2进一步包括步骤S21：外层循环按顺序从头至尾遍历循环次数索引；中层循环遍历前体离子索引，每个所述前体离子索引对应一个一维数组，所述一维数组包含该次扫描的质荷比索引和强度数值；内层循环从头到尾依次遍历所述质荷比索引，提取所有不为0的值，形成系列的质荷比索引和对应强度数值。

需要说明的是，所述质荷比索引的大小等于质荷比范围除以分箱大小。以质荷比范围为400-1500，分箱大小为0.01为例，质荷比索引维度大小为110000，而峰数量远远小于该值，故只有很少一部分质荷比索引有对应的非0强度数值，导致了质谱张量数据是一个稀疏张量。为了加快处理速度，本工作使用了NumPy的nonzero等函数来一次性选出所有非0的位置，然后按序提取数据，而不是进行效率低下的大范围的内层循环遍历。

其中所述一维数组中不为0的数值为离子强度，该离子强度对应的索引为质荷比索引。值得一提的是，每个一维数组包含了该次扫描中的峰信息，对应的就是该次扫描的质荷比和强度信息。

在步骤S3中，由于步骤S2得到的质荷比数组为索引形式，而标准格式文件需要将所述质荷比数组还原成质荷比绝对数值。对应的，“还原所述质荷比数组内的质荷比索引得到质荷比数值”包括步骤S31：获取质荷比最小值和分箱大小，获取所述质荷比索引和所述分箱大小的乘积并加上所述质荷比最小值，得到所述质荷比数值。

以公式的形式表示步骤S3,公式如下：

m/z＝m/z_index×α+m/z_min#(1)

其中m/z_index为质荷比索引，α为分箱大小，m/z_min为质荷比最小值。

在该步骤中，对应每个质荷比索引的质荷比最小值和分箱大小通过输入参数输入，通过该步骤的绝对值还原可得到质荷比-强度数组。所述质荷比-强度数组由质荷比绝对数值和对应的强度数值组成。

然而仅获取质荷比-强度数组还是不足以表征标准格式文件，还需要填充标准格式文件的缺失信息，所述缺失信息对于质谱分析十分重要。所述缺失信息包括但不限于保留时间，前体离子的质荷比，前体离子的窗口设置列表，其中所述保留时间按照对应所述质谱张量数据格式文件的原始文件统计回归分析而来，所述保留时间由二级扫描之间的时间差，以及一、二级扫描之间的时间差构成；所述前体离子的质荷比以及前体离子的窗口设置列表从质谱仪参数文件得来。

对应的，步骤S4中，“填充标准格式文件的缺失信息”包括填充保留时间，前体离子的质荷比，前体离子的窗口设置列表。

另外，在生成标准格式文件时还需要获取重要数据以及标准格式文件的格式要求，所述重要数据包括文件格式、是否zlib压缩数据以及数据精度，所述格式要求按输入参数填入，调用pyOpenMS库，创建MSExperiment对象和一系列MSSpectrum对象，将所述重要数据按序填入，按所述目标文件的格式要求设置生成文件的选项条件，最终将MSExperiment对象存入目标文件mzXML或mzML对象中得到所述标准格式文件。

通过以上步骤即可完成质谱张量数据格式(DIAT)转换为标准数据格式，且值得说明的是通过这样步骤得到的标准格式文件的文件大小是原始同格式文件大小的30％左右。

在本方案的示例中，质谱张量数据格式(DIAT)文件由一个大小为545MB的原始mzML得到的，再利用本方案将质谱张量数据格式(DIAT)文件转换得到的mzML文件大小仅为137MB。

如图3所示，图3表征同一Global.PG.Q.Value水平下protein group鉴定重合情况，对应的获取到的protein group的鉴定重合度如下表一：

表一protein group鉴定重合率

图3和表一是对原始文件和转换后的标准格式文件分别使用DIA-NN软件进行鉴定proteingroup的示意图，通过图3可证明转换得到的标准格式文件的蛋白重合率高达90％以上，以证明转换得到的标准格式文件的鉴定效果不受影响。其中图3从下到上分别代表：原始文件特异性鉴定到proteingroup，原始文件和转换文件同时鉴定到proteingroup，转换文件特异性鉴定到proteingroup的数量，图1的表格中的转换文件指的就是被转换得到的标准格式文件。

如图4所示，图4表征protein group强度相关性比较情况。图4为鉴定结果中重合部分的蛋白质组强度的比较，横纵坐标为原始文件和转换文件的对于在同一个文件中搜出相同的蛋白质组的强度，强度的相关系数r为0.958。原始文件和转换文件的protein group的强度相关系数r接近1，反映了强度相关性较高，定量比较效果较好。

实施例二

基于相同的构思，参考图5，本申请还提出了一种数据非依赖采集质谱数据格式的转换装置，包括：

质谱张量数据读取单元，用于读取质谱张量数据格式文件,其中所述质谱张量数据格式文件为由碎片离子所对应的前体离子索引、碎片离子质荷比和循环次数索引三个维度构成的三维张量数组；

质谱张量数据解析单元，用于解析所述质谱张量数据格式文件得到质荷比数组和对应的强度数组；

质荷比数组处理单元，用于还原所述质荷比数组内的质荷比索引得到质荷比数值，得到质荷比-强度数组；

标准格式文件生成单元，用于填充标准格式文件的缺失信息，所述缺失信息和所述质荷比-强度数组组合得到标准格式文件。

该数据非依赖采集质谱数据格式的转换装置的运行内容及逻辑同于实施例一提及的数据非依赖采集质谱数据格式的转换方法，重复内容在此不赘述说明。

实施例三

本实施例还提供了一种电子装置，参考图4，包括存储器404和处理器402，该存储器404中存储有计算机程序，该处理器402被设置为运行计算机程序以执行上述任一项数据非依赖采集质谱数据格式的转换方法的实施例中的步骤。

具体地，上述处理器402可以包括中央处理器(CPU)，或者特定集成电路(ApplicationSpecificIntegratedCircuit，简称为ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中，存储器404可以包括用于数据或指令的大容量存储器404。举例来说而非限制，存储器404可包括硬盘驱动器(HardDiskDrive，简称为HDD)、软盘驱动器、固态驱动器(SolidStateDrive，简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(UniversalSerialBus，简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器404可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器404可在数据处理装置的内部或外部。在特定实施例中，存储器404是非易失性(Non-Volatile)存储器。在特定实施例中，存储器404包括只读存储器(Read-OnlyMemory，简称为ROM)和随机存取存储器(RandomAccessMemory，简称为RAM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(ProgrammableRead-OnlyMemory，简称为PROM)、可擦除PROM(ErasableProgrammableRead-OnlyMemory，简称为EPROM)、电可擦除PROM(ElectricallyErasableProgrammableRead-OnlyMemory，简称为EEPROM)、电可改写ROM(ElectricallyAlterableRead-OnlyMemory，简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器(StaticRandom-AccessMemory，简称为SRAM)或动态随机存取存储器(DynamicRandomAccessMemory，简称为DRAM)，其中，DRAM可以是快速页模式动态随机存取存储器404(FastPageModeDynamicRandomAccessMemory，简称为FPMDRAM)、扩展数据输出动态随机存取存储器(ExtendedDateOutDynamicRandomAccessMemory，简称为EDODRAM)、同步动态随机存取内存(SynchronousDynamicRandom-AccessMemory，简称SDRAM)等。

存储器404可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器402所执行的可能的计算机程序指令。

处理器402通过读取并执行存储器404中存储的计算机程序指令，以实现上述实施例中的任意一种数据非依赖采集质谱数据格式的转换方法。

可选地，上述电子装置还可以包括传输设备406以及输入输出设备408，其中，该传输设备406和上述处理器402连接，该输入输出设备408和上述处理器402连接。

传输设备406可以用来经由一个网络接收或者发送数据。上述的网络具体实例可包括电子装置的通信供应商提供的有线或无线网络。在一个实例中，传输设备包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备406可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

输入输出设备408用于输入或输出信息。在本实施例中，输入的信息可以是质谱张量数据格式文件等，输出的信息可以是标准格式文件等。

可选地，在本实施例中，上述处理器402可以被设置为通过计算机程序执行以下步骤：

S1、读取质谱张量数据格式文件,其中所述质谱张量数据格式文件为由碎片离子所对应的前体离子索引、碎片离子质荷比和循环次数索引三个维度构成的三维张量数组；

需要说明的是，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

通常，各种实施例可以以硬件或专用电路、软件、逻辑或其任何组合来实现。本发明的一些方面可以以硬件来实现，而其他方面可以以可以由控制器、微处理器或其他计算设备执行的固件或软件来实现，但是本发明不限于此。尽管本发明的各个方面可以被示出和描述为框图、流程图或使用一些其他图形表示，但是应当理解，作为非限制性示例，本文中描述的这些框、装置、系统、技术或方法可以以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其某种组合来实现。

本发明的实施例可以由计算机软件来实现，该计算机软件由移动设备的数据处理器诸如在处理器实体中可执行，或者由硬件来实现，或者由软件和硬件的组合来实现。包括软件例程、小程序和/或宏的计算机软件或程序(也称为程序产品)可以存储在任何装置可读数据存储介质中，并且它们包括用于执行特定任务的程序指令。计算机程序产品可以包括当程序运行时被配置为执行实施例的一个或多个计算机可执行组件。一个或多个计算机可执行组件可以是至少一个软件代码或其一部分。另外，在这一点上，应当注意，如图中的逻辑流程的任何框可以表示程序步骤、或者互连的逻辑电路、框和功能、或者程序步骤和逻辑电路、框和功能的组合。软件可以存储在诸如存储器芯片或在处理器内实现的存储块等物理介质、诸如硬盘或软盘等磁性介质、以及诸如例如DVD及其数据变体、CD等光学介质上。物理介质是非瞬态介质。

本领域的技术人员应该明白，以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种数据非依赖采集质谱数据格式的转换方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的数据非依赖采集质谱数据格式的转换方法，其特征在于，步骤S2包括步骤S21:根据所述三维张量数组的三个维度建立三层嵌套式循环，通过所述三层嵌套式循环共同作用解析得到按照扫描顺序排列的质荷比索引和对应强度数值，所述质荷比索引组成所述质荷比数组，所述强度数值组成所述强度数组。

3.根据权利要求1所述的数据非依赖采集质谱数据格式的转换方法，其特征在于，根据所述三维张量数组的三个维度建立三层嵌套式循环，外层循环按顺序从头至尾遍历循环次数索引；中层循环遍历前体离子索引，每个所述前体离子索引对应一个一维数组，所述一维数组包含该次扫描的质荷比索引和强度数值；内层循环从头到尾依次遍历所述质荷比索引，提取所有不为0的值，形成系列的质荷比索引和对应强度数值，所述质荷比索引组成所述质荷比数组，所述强度数值组成所述强度数组。

4.根据权利要求1所述的数据非依赖采集质谱数据格式的转换方法，其特征在于，步骤S3包括步骤S31：获取质荷比最小值和分箱大小，获取所述质荷比索引和所述分箱大小的乘积并加上所述质荷比最小值，得到所述质荷比数值。

5.根据权利要求1所述的数据非依赖采集质谱数据格式的转换方法，其特征在于，在步骤S4中，所述填充时间包括填充保留时间，前体离子的质荷比，前体离子的窗口设置列表。

6.根据权利要求1所述的数据非依赖采集质谱数据格式的转换方法，其特征在于，所述标准格式文件为基于XML的质谱格式文件。

7.根据权利要求1·所述的数据非依赖采集质谱数据格式的转换方法，其特征在于，所述质荷比索引的大小等于质荷比范围除以分箱大小。

8.根据权利要求1所述的数据非依赖采集质谱数据格式的转换方法，其特征在于，获取重要数据以及标准格式文件的格式要求，所述重要数据包括文件格式、是否zlib压缩数据以及数据精度，调用pyOpenMS库，创建MSExperiment对象和一系列MSSpectrum对象，将所述重要数据按序填入，按所述目标文件的格式要求设置生成文件的选项条件，最终将MSExperiment对象存入目标文件mzXML或mzML对象中得到所述标准格式文件。

9.一种数据非依赖采集质谱数据格式的转换装置，其特征在于，包括：

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1到8任一所述的数据非依赖采集质谱数据格式的转换方法。