CN113658645A

CN113658645A - 一种质谱数据压缩方法

Info

Publication number: CN113658645A
Application number: CN202110921939.1A
Authority: CN
Inventors: 陆妙善; 王瑞敏; 安绍维
Original assignee: Carbon Silicon Hangzhou Biotechnology Co ltd
Current assignee: Carbon Silicon Hangzhou Biotechnology Co ltd
Priority date: 2021-08-12
Filing date: 2021-08-12
Publication date: 2021-11-16

Abstract

一种质谱数据压缩方法，包括以下步骤：S1、将原始数据文件进行切分为质谱数据和基础元数据，其中质谱数据包括质核比数组和强度数组，质核比数组与强度数组长度相同并且一一对应；S2、质核比数组和强度数组在ZDPD压缩内核中压缩成为二进制数据；同时质谱的基础元数据信息以JSON格式保存；S3、对步骤S2中使用ZDPD进行压缩内核时产生的二进制数组直接输出为质谱数据Aird格式文件，同时在压缩数据时,将质谱仪在数据依赖模式/数据非依赖模式/PRM模式/传统模式的多策略索引下生成的相关基础索引数据并入到步骤S2中的JSON格式元数据中，形成完整的元数据格式JSON文件。本发明搭建了大型的蛋白质组学数据中心,实现了一套自研的面向计算的高性能数据格式。

Description

一种质谱数据压缩方法

技术领域

本发明属于文件压缩的技术领域，尤其涉及一种质谱数据压缩方法。

背景技术

质谱仪是一种检测带电离子质核比(m/z)的仪器,在科研,医疗,环境等众多领域有着广泛的使用场景。随着高分辨质谱仪的发展,质谱仪产生的原始数据文件也在大幅度的增长。以往数10MB的原始文件变成了10GB甚至更大。目前在开放数据格式领域最广泛使用的格式是2011年发表的mzML格式。由于当时质谱的数据文件并不高,因此mzML更多的是关注了格式的可扩展性和标准化方面的能力,在数据压缩方面,它直接使用zlib的压缩方式进行数据压缩。并没有依据质谱数据的固有特征设计专有的压缩算法。因此压缩率并不高。同时mzML并没有针对采集模式做搜索上的优化,文件的随机读取能力差,读取性能低下。随着质谱文件的不断变大,mzML已经越来越难适应现在的计算要求。

随着各界对于可控词汇表的认可和广泛的使用,对于格式可扩展性的探讨已经不再是质谱格式的主要问题。而对于数据压缩的能力和随机访问的能力成为了目前质谱数据格式的主要问题之一。

近几年也出现了一些其他的数据压缩格式,例如mz5,Toffee,MzDB等数据格式,mz5和MzDB在搜索优化方面使用HDF5进行存储,同时利用了HDF5的固有的压缩引擎对数据进行了压缩展现出了相比于mzML更加优异的读取性能。但是它们在压缩算法上并没有使用到质谱数据固有的一些生物特征,因此压缩率也并没有大幅的提升。Toffee格式使用了TOF类质谱仪的硬件特征进行压缩,但是它只针对TOF类型的质谱仪有效，缺乏数据格式的通用型。

在基于质谱的蛋白质组学领域,使用非数据依赖采集(DIA)的方式获取到的质谱文件往往都是10GB以上.以血浆样本为例,使用Sciex6600仪器进行90分钟梯度的DIA采集后的原始厂商文件为4GB,转化为mzML格式大约为25GB.而一个常规的蛋白质组学的项目一般包含数百个这样的文件,仅原始文件就有TB级别的存储成本,而在分布式环境下进行计算时产生的带宽成本也非常的高昂.市面上其他的质谱数据压缩格式存在着压缩率不高,软件适配性差等问题.虽然短时间内通过购置更高配置的设备可以暂时解决单个项目的计算问题。但是如果需要搭建大型的蛋白质组学数据中心时,一套自研的面向计算的高性能数据格式是非常有必要的。

发明内容

为搭建大型的蛋白质组学数据中心,实现一套自研的面向计算的高性能数据格式，为此，本发明提出了一种质谱数据压缩方法，具体方案如下：

一种质谱数据压缩方法，包括以下步骤；

S1、将原始质谱数据文件进行切分，分成质谱数据和基础元数据，其中质谱数据包括质核比数组和强度数组，质核比数组与强度数组长度相同并且一一对应；

S2、将质核比数组和强度数组在ZDPD压缩内核中压缩并转化为二进制数据；同时质谱的基础元数据信息以JSON格式保存；

S3、对步骤S2中ZDPD压缩后的二进制数据直接输出为质谱数据Aird格式文件，同时在压缩数据时,将质谱仪在数据依赖模式/数据非依赖模式/PRM模式/传统模式的多策略索引下生成的相关索引数据并入到JSON格式元数据中，形成完整的元数据格式JSON文件。

具体地说，在步骤S1结束后还包括删除质谱数据强度信息为0的点。

具体地说，步骤S2中ZDPD的压缩步骤如下：

S21、在质核比数组和强度数组中根据需要的目标精度进行整型转换；

S22、转换后的质核比数据进行FastPfor微损压缩；

S23、进行Zlib压缩。

具体地说，步骤S22中FastPfor微损压缩包括求Delta值和PforDelta压缩差值这两个步骤。

具体地说，求Delta值的步骤为：对于已经完成S21步骤后的质核比数组,仅保存该数组的首位整数,之后的每一位仅保存该位整数与其前一位整数的差值。

具体地说，PforDelta压缩差值的步骤为：在PforDelta算法库对Delta值进行压缩存储，在差值转化为二进制字节以后,删除高位出现的大量的0。

具体地说，Aird格式对应的配套的软件包括AirdPro客户端和Aird-SDK,AirdPro客户端用于读取厂商质谱数据文件并将其转化为Aird数据格式；Aird-SDK用于读取Aird文件中的信息。

本发明的有益效果在于：

(1)多索引策略的引入使得Aird格式具备了分布式计算的前提和快速预览的能力。

(2)存储相同内容的质谱数据，相比于现有的其他格式，Aird格式具有更小的空间、具有更快的读取速度。

(3)本发明的提供了相应的配套工具来实现该格式的压缩功能。

(4)本专利中提及的数据格式Aird是一种面向计算的质谱原始数据格式。Aird通过利用质谱数据的固有仪器特征以及生物特征进行压缩。提出了全新的数据压缩算法ZDPD(Zlib-Diff-PforDelta)以及多策略的索引模式以支持高效的搜索能力。同时将质谱数据分为质谱元数据以及核心质谱数据文件(核心质谱数据文件体积远远大于元数据文件,核心质谱数据主要包括质核比数据及对应的强度数据)。使用JSON格式对元数据进行存储以方便在网络上进行更加高效的数据交换及读取。

(5)本申请使用多个开放数据集进行测试,对其中的核心质谱数据进行压缩,ZDPD算法相比于常用的Zlib压缩算法可以提升一倍的压缩率。而在进行解压缩时,相比于Zlib算法,ZDPD算法只需要1/3左右的时间即可完成解压缩过程。这对于读需求远大于写需求的质谱文件来说变得尤为重要。

(6)本申请通过使用配套的数据压缩软件AirdPro,很方便的将质谱仪产生的原始数据格式转化为Aird格式。用户可以通过我们提供的SDK对文件进行快速的读取。和mzML一样,Aird格式是一种新的质谱数据格式，因此开发者也可以通过数据文件的结构和ZDPD压缩算法的实现逻辑自定义读取方式。

附图说明

图1为Aird数据压缩流程

图2为ZDPD原理示意图。

图3为多索引策略图。

具体实施方式

如图1所示，一种质谱数据压缩方法，包括以下步骤：

S1、将原始质谱数据文件进行切分，其中分成质谱数据和基础元数据，其中质谱数据包括质核比数组和强度数组，质核比数组与强度数组长度相同并且一一对应；

S2、质核比数组和强度数组在ZDPD压缩内核中压缩并转化为二进制数据；同时质谱的基础元数据信息以JSON格式保存；在步骤S1结束后还包括删除质谱数据强度信息为0的点。

如图2所示，ZDPD的算法原理及压缩步骤如下：

S21、在质核比数组和强度数组中根据需要的目标精度进行整型转换；由于质谱仪的精度是有限的,在大分子质谱组学中,质核比在小数点后5位时基本上已经到达了质谱仪的精度极限.之后的数据并没有太大的意义.利用这个质谱仪器的硬件特征,我们对质谱数据做一次微损调整，根据需要的精度先将原有的双浮点类型的数据转换为整型变换，如图2中第一行所示，需要压缩的质谱数组(在实际的质谱文件中,每一个数组的长度大概在5000-50000之间,而一个质谱文件通常包含70000个类似的数组),我们需要的精度为小数点后第4位,因此将所有的数乘以10000产生第二行的数组。

S22、转换后的质核比数据进行FastPfor微损压缩，优化的，还可以同时进行对数函数有损压缩；

具体地说，FastPfor是一个计算库,完成了求Delta值和PforDelta压缩差值这两个步骤。

在求Delta值时，由于质谱仪中产生的是离子碎片质核比,而由于质谱仪的分辨率问题,最终产生的质核比数据在实际上是一组组质核比有序峰组,并且每一个峰组中的数据都极为接近。而在蛋白质组学中,由于肽段碎片的天然特征,在做质谱检测时,关注的肽段碎片范围一般为400道尔顿至5000道尔顿。在精确到小数点后5位时的数据范围为40000000至50000000,这个范围并没有超过整形的最大有效值2147483647.而由于质谱仪器的固有特征,这些相邻数的差值非常小，该步骤通过保存其差值而不是其值本身来进行数据的压缩，在这一步只保留首位整数,而之后的数均只保留该数与前一个数的差值。

在PforDelta算法库对这些差值进行压缩存储，可以在差值转化为二进制字节以后,删除高位出现的大量的0。

S23、进行Zlib压缩。由于质谱仪硬件的特殊性,相邻的两个差值有很大的概率是相同的数。此时使用Zlib进行压缩会带来非常好的效果。

S3、对步骤S2中ZDPD压缩后的二进制数据直接输出为质谱数据Aird格式文件，同时在压缩数据时,将质谱仪在数据依赖模式/数据非依赖模式/PRM模式/传统模式的多策略索引下生成的相关索引数据并入到JSON格式元数据中，形成完整的元数据JSON格式的多策略元数据文件，如图3所示。

图3中A代表传统的mzML的格式排列方式,光谱图按照质谱仪产生的时间作为排列轴进行排列。在文件最后加入的索引为时间-光谱图号这种简单的索引内容数据。

而如图3中C所示，DIA的采集模式中,时间上相邻的两张二级质谱图是没有关联关系的,它只和下一个扫描周期的对应二级质谱图有逻辑上的关联关系。在进行数据分析时也是通过分析逻辑相邻的多张二级质谱进行数据处理。因此使用mzML的索引方式会特别复杂。Aird格式通过重组排列顺序，创建前体质核比--二级质谱组的索引策略对文件进行重组。如图3中B所示，DDA的采集模式下,Aird采用的是一级质谱--二级质谱组的组合方式。这些重新设计的索引策略都是针对该采集模式下的数据特征进行数据的重组,以方便后续计算时需要的高频次随机文件读取。

而对于另外的质谱基础数据，我们在提取了质谱仪不同采集模式下的元数据信息及索引信息以后,最终以JSON的格式文件保留。这种存储方式体积小,解析快。同时使用了不同采集模式下的索引策略,使得质谱文件的读取速度更快更为灵活。Aird格式最终分为Aird格式的二进制文件和以及JSON格式的元数据文件两部分。

对于原始质谱数据文件，将质核比数组和强度数组分开存储，其中允许用户选择多种压缩参数。将索引文件单独存储在JSON文件中，允许用户查看。这样索引和元数据分开存储的方式为数据的存取带来了极大的便利性。

Aird格式配套的软件有两个,一个是AirdPro客户端,用于读取厂商质谱数据文件并将其转化为Aird数据格式。另外一个是Aird-SDK,用于读取Aird文件中的信息。目前Aird-SDK支持C#及Java两种编程语言。

本申请使用了质谱仪厂商数据格式即原始质谱数据文件作为数据基础，对其数据内容进行了面向计算方法的提取和索引建设，从而形成了新的数据格式和配套软件工具。首先利用质谱仪原始数据的特征，选取了适合的压缩内核方法，在已有的压缩算法上针对质谱数据特征开发了一套完整的数据压缩和解压流程，该流程被封装在AirdPro软件内。在压缩率、压缩速度、解压速度方面相对于已有流程和方法产生了巨大的优势。

本申请涉及的技术在实际使用中,可以将上述25GB的mzML格式文件压缩至3GB左右(不同样本文件压缩比例不同,大致在85％-90％之间),大幅降低带宽和运算内存的需求,使得蛋白质组学的数据分析可以在一台普通的台式机上运行。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种质谱数据压缩方法，其特征在于，包括以下步骤；

2.根据权利要求1所述的一种质谱数据压缩方法，其特征在于，在步骤S1结束后还包括删除质谱数据强度信息为0的点。

3.根据权利要求1所述的一种质谱数据压缩方法，其特征在于，步骤S2中ZDPD的压缩步骤如下：

S22、转换后的质核比数据进行FastPfor微损压缩；

S23、进行Zlib压缩。

4.根据权利要求3所述的一种质谱数据压缩方法，其特征在于，步骤S22中FastPfor微损压缩包括求Delta值和PforDelta压缩差值这两个步骤。

5.根据权利要求4所述的一种质谱数据压缩方法，其特征在于，求Delta值的步骤为：对于已经完成S21步骤后的质核比数组,仅保存该数组的首位整数,之后的每一位仅保存该位整数与其前一位整数的差值。

6.根据权利要求4或5所述的一种质谱数据压缩方法，其特征在于，PforDelta压缩差值的步骤为：在PforDelta算法库对Delta值进行压缩存储，在差值转化为二进制字节以后,删除高位出现的大量的0。

7.根据权利要求1-3中任一项所述的一种质谱数据压缩方法，其特征在于，Aird格式对应的配套的软件包括AirdPro客户端和Aird-SDK,AirdPro客户端用于读取厂商质谱数据文件并将其转化为Aird数据格式；Aird-SDK用于读取Aird文件中的信息。