CN108629157B

CN108629157B - 一种用于核酸测序数据压缩和加密的方法

Info

Publication number: CN108629157B
Application number: CN201710173990.2A
Authority: CN
Inventors: 邓天全
Original assignee: BGI Technology Solutions Co Ltd
Current assignee: Huada Qinglan Biotechnology Wuxi Co ltd; BGI Technology Solutions Co Ltd
Priority date: 2017-03-22
Filing date: 2017-03-22
Publication date: 2021-08-31
Anticipated expiration: 2037-03-22
Also published as: CN108629157A

Abstract

本申请公开了一种用于核酸测序数据压缩和加密的方法。本申请的用于核酸测序数据压缩和加密的方法，包括在测序获得的核酸序列中，以4‑7个碱基序列为一个序列单元，每个序列单元对应不同的特异符号，以特异符号的形式进行核酸测序数据的压缩和保存；同时，建立序列单元和所述特异符号对应的解密数据库，实现核酸测序数据的加密。本申请的核酸测序数据压缩和加密方法，采用一个特异符号代表核酸序列中的4‑7个碱基序列，减小了存储空间，方便存储和传输；同时，特异符号与序列单元的自定义对应关系，起到加密作用，增加了核酸测序数据的安全性。

Description

一种用于核酸测序数据压缩和加密的方法

技术领域

本申请涉及核酸测序数据处理领域，特别是涉及一种用于核酸测序数据压缩和加密的方法。

背景技术

随着测序技术的进步，全世界测序产出的DNA数据正在激增中，如何有效降低DNA数据的存储空间已经成为了一个急需解决的难题。目前测序数据压缩格式，如gz、bz2等，只能将DNA的测序数据压缩至原来的30％左右。DNA的测序数据，通常为FASTQ格式，或称fq格式；FASTQ格式或fq格式的数据有着自己固定的格式形式，DNA测序数据也只有4种碱基，由A，C，G，T这四个字母表示，加上测序失败时用来替补的N补位码，FASTQ总共有5种碱基。DNA测序数据量大，不仅耗费存储空间；而且，使用网络传输会需要花费大量的时间和很多带宽。

此外，现有的DNA测序数据压缩格式通常没有考虑加密问题，或者只是简单的对压缩文件进行加密，而对DNA测序数据本身没有加密。随着测序技术的发展和推广，私人定制的基因测序可以对个人或物种个体进行测序，而其测序数据里保含了各种遗传、疾病风险等各种重要信息，基于个人隐私和数据安全，数据进行加密十分必要，而仅仅对压缩文件进行加密很容易被破解，一旦被不法分子获得，可能会造成十分严重的后果。

因此，亟需一种新的核酸测序数据压缩和加密方法，一方面减小测序数据存储空间，便于存储和传输；另一方面提高测序数据安全性，保障个人隐私。

发明内容

本申请的目的是提供一种新的核酸测序数据压缩和加密的方法。

为了实现上述目的，本申请采用了以下技术方案：

本申请公开了一种用于核酸测序数据压缩和加密的方法，包括在测序获得的核酸序列中，以4-7个碱基序列为一个序列单元，每个序列单元对应不同的特异符号，以特异符号的形式进行核酸测序数据的压缩和保存；同时，建立序列单元和特异符号对应的解密数据库，实现核酸测序数据的加密。

需要说明的是，本申请的关键在于，采用一个特异符号代表核酸序列中的4-7个碱基序列，一方面一个特异符号所占的存储空间小于4-7个碱基序列，达到了减小存储空间的目的；另一方面，保存和传输过程使用的都是特异符号，而不是核酸序列本身，因此起到了很好的数据加密作用。

还需要说明的是，以4-7个碱基序列为一个序列单元，主要考虑的是特异符号数量和压缩程度问题，在核酸测序数据中碱基有4个，加上一个补位码，总共有5个，以4-7个碱基序列为一个序列单元，则序列单元的理论个数为5⁴-5⁷个，即需要625至78125个特异符号。可以理解，序列单元中的碱基序列越多，压缩程度越高，但是所需的特异符号也越多；例如以7个碱基序列为一个序列单元，则需要78125个特异符号，而7个碱基序列占用7个字节，一个特异符号只占1-2个字节，核酸序列的存储空间只需要原本的1/7至2/7，压缩程度高。

优选的，特异符号的大小为1-2个字节。

优选的，特异符号为汉字。

需要说明的是，本申请的一种实现方式中，以汉字为特异符号，中国有约10万个汉字，因此，完全可以满足特异符号所需的数量；并且，还可以推广汉字。

优选的，核酸测序数据为FASTQ数据。

本申请的实现方式中主要是针对FASTQ数据进行压缩和加密的，可以理解，本申请的基本发明思路是采用一个特异符号代表核酸序列中的4-7个碱基序列，因此，本申请的方法可以适用于各种测序数据，甚至可以适用于测序输出的最终DNA数据，在此不做具体限定。

优选的，本申请的方法以6个碱基序列为一个序列单元。

需要说明的是，以6个碱基序列为一个序列单元，以汉字为特异符号为例进行说明，6个碱基序列占用6个字节，而一个汉字占用2个字节，因此，核酸序列的存储空间只需要原本的三分之一；6个碱基序列为一个序列单元，需要15625个不重复的汉字，完全可以满足使用需求。

优选的，本申请的方法还包括按照序列单元的整数倍，用A、G、C或T补齐测序获得的核酸序列，并记录补齐核酸序列的碱基个数。其中，记录补齐核酸序列的碱基个数，是为了解压后删除核酸序列末尾的补齐碱基。

需要说明的是，按照序列单元的整数倍补齐核酸序列，主要是为了使整个核酸序列都采用特异符号表示。可以理解，如果不补齐核酸序列，以6个碱基序列为一个序列单元为例进行说明，则最后可能会多余1-5个碱基。对于FASTQ数据来说，核酸测序数据是由若干个FASTQ序列单元组成的，每一个FASTQ序列单元为一个测序长度，每一个FASTQ序列单元有四行，如图1所示，

第一行为序列标识以及相关的描述信息，以‘@’开头，是每一个序列的唯一标识符；

第二行是序列，由A，C，G，T和N构成，以当前高通量测序技术其长度一般在100个字符以上，不同测序仪会有差别，其中A，C，G，T是碱基信息，N为测序失败时用来替补的补位码；

第三行以‘+’开头，后面是序列标示符、描述信息，或者什么也不加；本申请的实施例中所用的数据该行只有‘+’，评估也将以只有‘+’的这类情况评定；

第四行是序列的质量信息，和第二行序列中的碱基一一对应，每一个碱基对应一个质量值，质量值用ASCII码表示，用以衡量该测序碱基的可靠程度，质量值越高越可靠。

本申请的方法采用一个特异符号代表一个序列单元(核酸序列中的4-7个碱基序列)就是针对第二行的序列进行的。然而，在多数情况下第二行的序列不能被分成整数个序列单元，如果不补齐核酸序列，则每一个FASTQ序列单元的第二行都会有多余碱基；会影响整个序列的压缩效率和质量。为避免上述问题，本申请的优选方案中采用A、G、C或T补齐核酸序列，使之能够被分成整数个序列单元。例如，本申请的实施例以6个碱基序列为一个序列单元，测序获得的FASTQ序列单元的第二行序列，其末尾往往会多余1-5个碱基，无法形成序列单元，因此，本申请的实施例采用碱基A补齐，使末尾多余的碱基也能够组成一个完整的序列单元，以便完成整个序列的压缩。

优选的，本申请的方法还包括在解压时，按照记录的补齐核酸序列的碱基个数，删除解压获得的核酸序列的末端碱基。

由于采用以上技术方案，本申请的有益效果在于：

本申请的核酸测序数据压缩和加密方法，采用一个特异符号代表核酸序列中的4-7个碱基序列，减小了存储空间，方便存储和传输；同时，特异符号与序列单元的自定义对应关系，起到加密作用，增加了核酸测序数据的安全性。

附图说明

图1是本申请中FASTQ序列单元格式；

图2是本申请实施例中FASTQ序列单元第二行序列末尾添加碱基的方法框图；

图3是本申请实施例中FASTQ序列单元第二行序列的压缩加密方法框图；

图4是本申请实施例中FASTQ序列单元第二行序列解压时去掉原来压缩时增加的补齐碱基的方法框图。

具体实施方式

本申请的核酸测序数据压缩和加密方法，主要是针对核酸测序获得的FASTQ数据的。在FASTQ数据中，每四行为一段测序长度的序列，其中第二行记录的是每个测序长度的测序数据，即A、G、C、T和N组成的核酸序列；本申请的压缩和加密方法就是针对第二行的核酸序列而提出的，即用一个特异符号代表核酸序列中的4-7个碱基序列，特异符号与4-7个碱基序列的对应关系是自定义的，因此，起到压缩和加密的效果。具体的，本申请的一种实现方式中核酸测序数据压缩和加密方法包括以下步骤：

(1)以x个碱基序列为一个序列单元，按照每个碱基序列可能为A、G、C、T或N排列组合，共获得5^x个序列单元，其中x大于或等于4，小于或等于7；

(2)从汉字中选取5^x个不同的汉字，分别与5^x个序列单元一一对应，建立解密数据库；

(3)调整核酸序列为x的整数倍，如果核酸序列不是x的整数倍，在核酸序列末尾补充碱基A、G、C或T，并记录补充碱基的数量为y；

(4)按照步骤(2)建立的5^x个汉字与5^x个序列单元的对应关系，对核酸序列进行压缩和加密，以此压缩和加密的数据进行存储和传输。

最后，在终端使用时，按照解密数据库，对数据进行解压，还原数据。

下面通过具体实施例和附图对本申请作进一步详细说明。以下实施例仅对本申请进行进一步说明，不应理解为对本申请的限制。

实施例

本例的核酸测序数据压缩和加密方法，以6个碱基序列为一个序列单元，对FASTQ序列单元第二行序列进行压缩和加密。

如表1所示，表1为部分汉字数据库和序列单元的一一对应关系，如表1所示，由于汉字有10多万个，而序列碱基只有A、T、C、G、N共5个，而6个A、T、C、G、N碱基以内的序列最多的组合为5的6次方，即15625个，故每个序列单元可以用唯一的一个汉字表示，即只需挑出15625个不重复的汉字与序列单元建立一一对应的关系数据库，即解密数据库。由于汉字一般在计算机系统中占用2个字节，而A、T、C、G、N字符各占用一个字节，一个序列单元6个碱基占用6个字节，所以本例对FASTQ序列单元的核酸序列存储可以将近节省到原有的三分之一的存储空间。

建立解密数据库后，如图2所示，先统计FASTQ序列单元的第二行核酸序列是否为6的整数倍，步骤202示出本例某条序列碱基信息，步骤204示出统计序列长度是否为6的整数倍，不足的用A补充。

表1汉字和序列单元的一一对应表

汉字	6个碱基序列
		仓	GGTTCC
颉	TACTTC
		发	GGGTCA
明	TAAAGC
		汉	CTAAAT
字	AGCCCA
		邓	CACGTT
天	CCCCTT
		全	AAATAA
推	GACATC
		广	ACGATG
到	GATCAC
		序	AAAAAC
列	AAAAAT
		压	AAAAAG
缩	AAAATA
		加	AAAATC
密	AAAATT
		….	….

补齐核酸序列后，如图3所示，对FASTQ序列单元的第二行核酸序列进行压缩加密；步骤302示出第二行序列压缩加密前的状态，步骤304示出了具体的替换过程，并示出了最终替换的结果。

压缩加密完成后，解压数据，如图4所示，步骤402示出汉字解压后的第二行序列信息，步骤404示出如何去掉原来压缩时增加的碱基。

具体的，本例以一个大小为2.7G的FASTQ数据，按照本例的压缩和加密方法进行处理。FASTQ数据中，FASTQ序列单元的长度为101bp，质量值体系为33。在本例中，实现FASTQ的高效压缩，具体步骤如下：

(1)15625个不重复汉字和15625个不重复6连续A、T、C、G、N碱基序列建立一对一对应关系表

选取15625个不重复的汉字与15625个不重复6连续A、T、C、G、N的组合序列，建立一对一的关系表。

(2)调整第二行序列长度长度为6的整数倍；

将第二行101bp的序列末端添加1个A碱基凑足6的整数倍。

(3)第二行序列进行压缩加密；

以6个碱基对第二行102个碱基序列进行切分成17份，根据步骤(1)建立起的数据库表，用17个汉字进行替换。以此类推，最终将2.7Gb的数据压缩到2.0Gb，实现了压缩和加密。

(4)解压还原压缩加密后的序列。

以每2个字节读取第二行的每个汉字，并根据数据库表1将每个汉字还原成6个碱基。17个汉字共还原成102个碱基，由于第四行质量值的个数和第二行的碱基个数是一一对应的，用第二行的碱基个数102减去第四行的质量值个数101，可计算出第二行之前补充了1个碱基，去掉第二行末端补充的1个碱基。可得到原始的2.7Gb的原始数据。

以上内容是结合具体的实施方式对本申请所作的进一步详细说明，不能认定本申请的具体实施只局限于这些说明。对于本申请所属技术领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本申请的保护范围。

Claims

1.一种用于核酸测序数据压缩和加密的方法，其特征在于：包括在测序获得的核酸序列中，以4-7个碱基序列为一个序列单元，每个序列单元对应不同的特异符号，以特异符号的形式进行核酸测序数据的压缩和保存；同时，建立所述序列单元和所述特异符号对应的解密数据库，实现核酸测序数据的加密；所述特异符号为汉字。

2.根据权利要求1所述的方法，其特征在于：所述特异符号的大小为1-2个字节。

3.根据权利要求1所述的方法，其特征在于：所述核酸测序数据为FASTQ数据。

4.根据权利要求1所述的方法，其特征在于：以6个碱基序列为一个序列单元。

5.根据权利要求1-4任一项所述的方法，其特征在于：还包括按照所述序列单元的整数倍，用A、G、C或T补齐测序获得的核酸序列，并记录补齐核酸序列的碱基个数。

6.根据权利要求1-4任一项所述的方法，其特征在于：还包括按照所述序列单元的整数倍，用A补齐测序获得的核酸序列，并记录补齐核酸序列的碱基个数。

7.根据权利要求1-4任一项所述的方法，其特征在于：还包括在解压时，按照记录的补齐核酸序列的碱基个数，删除解压获得的核酸序列的末端碱基。