CN117153270B

CN117153270B - 一种基因二代测序数据处理方法

Info

Publication number: CN117153270B
Application number: CN202311412526.6A
Authority: CN
Inventors: 刘淑芬; 袁伟; 陈丽娜; 赵英浩; 王骏扬; 李泠彤
Original assignee: Jilin Huarui Gene Technology Co ltd
Current assignee: Jilin Huarui Gene Technology Co ltd
Priority date: 2023-10-30
Filing date: 2023-10-30
Publication date: 2024-02-02
Anticipated expiration: 2043-10-30
Also published as: CN117153270A

Abstract

本发明涉及数据处理技术领域，具体涉及一种基因二代测序数据处理方法，包括：获取基因二代测序数据序列；获取基因二代测序数据的每种扫描序列，根据基因二代测序数据的每种扫描序列的相邻重复程度，获取基因二代测序数据的最优扫描序列；根据基因二代测序数据的最优扫描序列中每种碱基数据的自身连续性，获取基因二代测序数据的二进制数值序列；根据基因二代测序数据的二进制数值序列，对基因二代测序数据序列进行压缩。本发明提高了游程编码对基因二代测序数据的压缩效率。

Description

一种基因二代测序数据处理方法

技术领域

本发明涉及数据处理技术领域，具体涉及一种基因二代测序数据处理方法。

背景技术

基因二代测序数据是一种现代分子生物学技术，用于获取生物体的遗传信息。这种技术通常称为高通量测序，它可以迅速、精确地测定DNA、RNA和蛋白质序列，同时可以生成大量的序列数据。基因二代测序已经在生命科学研究、医学诊断、药物开发和遗传学等领域产生了广泛的应用。通常基因二代测序生成的数据非常庞大，会占用大量的存储空间，也极大降低了传输效率，因此对基因二代测序数据的压缩不仅有助于降低成本和提高效率，还有助于更好地管理、传输和共享宝贵的生物信息数据。

基因二代测序数据中包含大量重复的碱基对数据，对基因二代测序数据进行压缩的传统方法为游程编码压缩，但是由于基因二代测序数据中碱基数据的连续重复性较差，数据整体冗余程度大，但相邻数据的冗余程度小，所以导致使用游程编码进行压缩时，压缩效率差。

发明内容

为了解决上述问题，本发明提供一种基因二代测序数据处理方法，所述方法包括：

获取基因二代测序数据序列，基因二代测序数据序列包含若干个碱基数据；

根据基因二代测序数据序列，获取基因二代测序数据矩阵；根据基因二代测序数据矩阵，获取基因二代测序数据的每种扫描序列；获取每种扫描序列中所有重复碱基数据链；根据每种扫描序列中所有重复碱基数据链，获取基因二代测序数据的每种扫描序列的相邻重复程度；根据每种扫描序列的相邻重复程度，获取基因二代测序数据的最优扫描序列；

获取最优扫描序列中每种碱基数据的自身连续性；根据每种碱基数据的自身连续性，获取每种编码方式；获取每种编码方式下的所有的正向组合；根据每种编码方式下的所有的正向组合，获取基因二代测序数据的二进制数值序列；

根据基因二代测序数据的二进制数值序列，对基因二代测序数据序列进行压缩。

优选的，所述根据基因二代测序数据序列，获取基因二代测序数据矩阵，包括的具体方法为：

将基因二代测序数据序列中每预设参数个碱基数据，依次作为基因二代测序数据矩阵内每一行的元素，进而获得基因二代测序数据矩阵。

优选的，所述根据基因二代测序数据矩阵，获取基因二代测序数据的每种扫描序列，包括的具体方法为：

扫描序列包括横向扫描序列、纵向扫描序列和斜向扫描序列；

对基因二代测序数据矩阵依次进行奇数行从左向右扫描，偶数行从右向左的扫描方式进行扫描，获得基因二代测序数据的横向扫描序列；对基因二代测序数据矩阵依次进行奇数列从上到下扫描，偶数列从下到上的扫描方式进行扫描，获得基因二代测序数据的纵向扫描序列；对基因二代测序数据矩阵进行Z字扫描方式，获得基因二代测序数据的斜向扫描序列。

优选的，所述获取每种扫描序列中所有重复碱基数据链，包括的具体方法为：

若每种扫描序列存在两个或两个以上的相同碱基数据，则将每种扫描序列中所述的两个或两个以上的相同碱基数据，作为每种扫描序列的一个重复碱基数据链，进而获取每种扫描序列的所有重复碱基数据链。

优选的，所述根据每种扫描序列中所有重复碱基数据链，获取基因二代测序数据的每种扫描序列的相邻重复程度，包括的具体方法为：

扫描序列包括横向扫描序列、纵向扫描序列和斜向扫描序列；分别获取横向扫描序列、纵向扫描序列和斜向扫描序列的相邻重复程度；其中横向扫描序列的相邻重复程度的获取方法为：

对于基因二代测序数据的横向扫描序列中任意一个重复碱基数据链，将所述重复碱基数据链中的碱基数据个数，作为所述重复碱基数据链的链长；则基因二代测序数据的横向扫描序列的相邻重复程度的计算表达式为：

式中，表示基因二代测序数据的横向扫描序列的相邻重复程度；/>表示基因二代测序数据的横向扫描序列中所有重复碱基数据链的总数量；/>表示基因二代测序数据的横向扫描序列中第/>个重复碱基数据链的链长。

优选的，所述根据每种扫描序列的相邻重复程度，获取基因二代测序数据的最优扫描序列，包括的具体方法为：

对于基因二代测序数据的每种扫描序列，将相邻重复程度最大的扫描序列，作为基因二代测序数据的最优扫描序列。

优选的，所述获取最优扫描序列中每种碱基数据的自身连续性，包括的具体方法为：

对于基因二代测序数据的最优扫描序列中第种碱基数据，若第/>种碱基数据在最优扫描序列中连续重复出现两次或两次以上，则将最优扫描序列中连续重复出现两次或两次以上的第/>种碱基数据，组成的第/>种重复碱基数据序列，作为最优扫描序列中的一个第/>种重复碱基数据序列，进而获取最优扫描序列中所有的第/>种重复碱基数据序列；则基因二代测序数据的最优扫描序列中第/>种碱基数据的自身连续性的计算表达式：

式中，表示基因二代测序数据的最优扫描序列中第/>种碱基数据的自身连续性；表示基因二代测序数据的最优扫描序列中所有的第/>种重复碱基数据序列的总数量；/>表示基因二代测序数据的最优扫描序列中第/>个第/>种重复碱基数据序列中所有第/>种碱基数据的个数；/>表示基因二代测序数据的最优扫描序列中所有的第/>种重复碱基数据序列之间的间隔方差；/>为预设参数。

优选的，所述根据每种碱基数据的自身连续性，获取每种编码方式，包括的具体方法为：

对于基因二代测序数据的最优扫描序列中每种碱基数据，将自身连续性最大的碱基数据记为碱基数据；将自身连续性第二大的碱基数据记为碱基数据/> ；将自身连续性第三大的碱基数据记为碱基数据/>；将自身连续性最小的碱基数据记为碱基数据/>；用二进制数值00，11，01，10分别作为碱基数据/>，碱基数据/>，碱基数据/>，碱基数据/>的编码方式，并记为第一编码方式；用二进制数值00，11，10，01分别作为碱基数据/>，碱基数据/>，碱基数据/>，碱基数据/>的编码方式，并记为第二编码方式。

优选的，所述根据每种碱基数据的自身连续性，获取每种编码方式；获取每种编码方式下的所有的正向组合，包括的具体方法为：

在最优扫描序列中获取由碱基数据，碱基数据/>，碱基数据/>，碱基数据/>两两组成所有种组合，其中，每种组合至少包含碱基数据/>和碱基数据/>其中一个；用第一编码方式对所有种组合进而二进制编码，对于第一编码方式下任意一个组合，若所述组合的编码结果中连续1的数量或连续0的数量等于3，则将所述组合记为正向组合，进而获取第一编码方式下所有的正向组合；用第二编码方式对所有种组合进而二进制编码，对于第二编码方式下任意一个组合，若所述组合的编码结果中连续1的数量或连续0的数量等于3，则将所述组合记为正向组合，进而获取第二编码方式下所有的正向组合。

优选的，所述据每种编码方式下的所有的正向组合，获取基因二代测序数据的二进制数值序列，包括的具体方法为：

若第一编码方式下所有的正向组合数量大于或等于第二编码方式下所有的正向组合数量，则通过第一编码方式对基因二代测序数据的最优扫描序列进行编码，获得基因二代测序数据的二进制数值序列；反之，则通过第二编码方式对基因二代测序数据的最优扫描序列进行编码，获得基因二代测序数据的二进制数值序列。

本发明的技术方案的有益效果是：针对基因二代测序数据中碱基数据连续重复性较差，数据整体冗余程度大，但相邻数据的冗余程度小，导致使用游程编码进行压缩时压缩效率差的问题；本发明通过基因二代测序数据矩阵，获取基因二代测序数据的每种扫描序列；获取基因二代测序数据的最优扫描序列；获取最优扫描序列中每种碱基数据的自身连续性；根据每种碱基数据的自身连续性，获取每种编码方式；获取每种编码方式下的所有的正向组合；根据每种编码方式下的所有的正向组合，获取基因二代测序数据的二进制数值序列；根据基因二代测序数据的二进制数值序列，对基因二代测序数据序列进行压缩，进而提高了游程编码对基因二代测序数据的压缩效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种基因二代测序数据处理方法的步骤流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种基因二代测序数据处理方法，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的一种基因二代测序数据处理方法的具体方案。

请参阅图1，其示出了本发明一个实施例提供的一种基因二代测序数据处理方法的步骤流程图，该方法包括以下步骤：

步骤S001：获取基因二代测序数据序列。

需要说明的是，基因二代测序数据中包含大量重复的碱基对数据，对基因二代测序数据进行压缩的传统方法为游程编码压缩，但是由于基因二代测序数据中碱基数据连续重复性较差，数据整体冗余程度大，但相邻数据的冗余程度小，所以导致使用游程编码进行压缩时，压缩效率差。

具体的，为了实现本实施例提出的一种基因二代测序数据处理方法，首先需要采集基因二代测序数据序列，具体过程为：

使用二代测序平台，获取基因二代测序数据，基因二代测序数据中包含了正向和反向两个数据文件，以及read序列信息，read序列信息是由无序排列的ATCG四种碱基数据组成的序列；将read序列信息作为基因二代测序数据序列；其中，基因二代测序数据序列包含10000个碱基数据，本实施例以获取的基因二代测序数据序列长度为10000进行叙述。

至此，通过上述方法得到基因二代测序数据序列。

步骤S002：获取基因二代测序数据的每种扫描序列，根据获取基因二代测序数据的每种扫描序列的相邻重复程度，获取基因二代测序数据的最优扫描序列。

需要说明的是，获取基因二代测序数据序列之后，需要在对基因二代测序数据序列中的碱基数据转换为二进制数据之前扩大碱基数据的相邻冗余程度，以使后续二进制转化结果更优，所以将基因二代测序数据序列转换为矩阵，通过不同的扫描方式得到更多种序列的排列组合方式，以得到相邻数据冗余程度更高的碱基数据序列。

1.获取基因二代测序数据的每种扫描序列。

预设一个参数，其中本实施例以/>为例进行叙述，本实施例不进行具体限定，其中/>根据具体实施情况而定。

具体的，将基因二代测序数据序列中每预设参数个碱基数据，依次作为基因二代测序数据矩阵内每一行的元素，进而获得基因二代测序数据矩阵。

至此，获得基因二代测序数据的每种扫描序列。

2.获取基因二代测序数据的最优扫描序列。

需要说明的是，通过存在重复碱基数据链（如AA或GGGG）对基因二代测序数据的每种扫描序列的相邻重复程度进行衡量，因为重复碱基数据链的链长越长，则其重复水平越高，所以以扫描序列中存在重复碱基数据链的数量为基准，用每条重复碱基数据链的长度对其进行加权从而获得整体重复碱基数据链的质量水平。

具体的，对于基因二代测序数据的横向扫描序列，若横向扫描序列中存在两个或两个以上的相同碱基数据，则将横向扫描序列中所述的两个或两个以上的相同碱基数据，作为横向扫描序列的一个重复碱基数据链，进而获取横向扫描序列的所有重复碱基数据链；同理，获取基因二代测序数据的每种扫描序列的所有重复碱基数据链。

进一步，对于基因二代测序数据的横向扫描序列中任意一个重复碱基数据链，将所述重复碱基数据链中的碱基数据个数，作为所述重复碱基数据链的链长；则基因二代测序数据的横向扫描序列的相邻重复程度的计算表达式为：

同理，获取基因二代测序数据的每种扫描序列的相邻重复程度。

至此，通过上述方法得到基因二代测序数据的最优扫描序列。

步骤S003：根据基因二代测序数据的最优扫描序列中每种碱基数据的自身连续性，获取基因二代测序数据的二进制数值序列。

需要说明的是，基因二代测序数据的最优扫描序列提高了基础数据的相邻冗余程度，也为后续转换二进制获得更高的冗余程度作基础铺垫。因此结合二进制编码，通过00,01,10,11表示基因二代测序数据的最优序列中的四个碱基数据，进而提升了相邻数据的相似可能程度，为了在此基础上获得更高的二进制数据重复性，则需对不同的碱基数据分配不同的二进制数据，以获取具有较高的连续性的碱基数据。

1.获取基因二代测序数据的最优扫描序列中每种碱基数据的自身连续性。

需要说明的是，对于基因二代测序数据的最优扫描序列中任意一类型的碱基数据，若该类型的碱基数据连续重复的个数越多，则表示该类型碱基数据在最优扫描序列中存在重复连续数据的整体水平；若该类型的碱基数据在最优扫描序列中分布地越均匀，说明其连续相连的可能程度就越低，那么其对应的间隔方差就越小，而间隔方差越大，则其连续相连的可能程度就越高。

预设两个参数，其中本实施例以/>为例进行叙述，本实施例不进行具体限定，其中/>根据具体实施情况而定。

具体的，对于基因二代测序数据的最优扫描序列中第种碱基数据，若第/>种碱基数据在最优扫描序列中连续重复出现两次或两次以上，则将最优扫描序列中连续重复出现两次或两次以上的第/>种碱基数据，组成的第/>种重复碱基数据序列，作为最优扫描序列中的一个第/>种重复碱基数据序列，进而获取最优扫描序列中所有的第/>种重复碱基数据序列；则基因二代测序数据的最优扫描序列中第/>种碱基数据的自身连续性的计算表达式：

至此，获得基因二代测序数据的最优扫描序列中每种碱基数据的自身连续性。

2.获取基因二代测序数据的二进制数值序列。

具体的，对于基因二代测序数据的最优扫描序列中每种碱基数据，将自身连续性最大的碱基数据记为碱基数据；将自身连续性第二大的碱基数据记为碱基数据/> ；将自身连续性第三大的碱基数据记为碱基数据/>；将自身连续性最小的碱基数据记为碱基数据/>；用二进制数值00，11，01，10分别作为碱基数据/>，碱基数据/>，碱基数据/>，碱基数据/>的编码方式，并记为第一编码方式；用二进制数值00，11，10，01分别作为碱基数据/>，碱基数据/>，碱基数据/>，碱基数据/>的编码方式，并记为第二编码方式。

至此，通过上述方法得到基因二代测序数据的二进制数值序列。

步骤S004：根据基因二代测序数据的二进制数值序列，对基因二代测序数据序列进行压缩。

具体的，将基因二代测序数据的二进制数值序列作为基因二代测序数据序列，通过游程编码对基因二代测序数据序列进行压缩，将压缩后的基因二代测序数据序列存储至服务器中。

至此，本实施例完成。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基因二代测序数据处理方法，其特征在于，该方法包括以下步骤：

根据基因二代测序数据的二进制数值序列，对基因二代测序数据序列进行压缩；

所述根据每种扫描序列中所有重复碱基数据链，获取基因二代测序数据的每种扫描序列的相邻重复程度，包括的具体方法为：

式中，表示基因二代测序数据的横向扫描序列的相邻重复程度；/>表示基因二代测序数据的横向扫描序列中所有重复碱基数据链的总数量；/>表示基因二代测序数据的横向扫描序列中第/>个重复碱基数据链的链长；

所述获取最优扫描序列中每种碱基数据的自身连续性，包括的具体方法为：

式中，表示基因二代测序数据的最优扫描序列中第/>种碱基数据的自身连续性；/>表示基因二代测序数据的最优扫描序列中所有的第/>种重复碱基数据序列的总数量；/>表示基因二代测序数据的最优扫描序列中第/>个第/>种重复碱基数据序列中所有第/>种碱基数据的个数；/>表示基因二代测序数据的最优扫描序列中所有的第/>种重复碱基数据序列之间的间隔方差；/>为预设参数。

2.根据权利要求1所述一种基因二代测序数据处理方法，其特征在于，所述根据基因二代测序数据序列，获取基因二代测序数据矩阵，包括的具体方法为：

3.根据权利要求1所述一种基因二代测序数据处理方法，其特征在于，所述根据基因二代测序数据矩阵，获取基因二代测序数据的每种扫描序列，包括的具体方法为：

4.根据权利要求1所述一种基因二代测序数据处理方法，其特征在于，所述获取每种扫描序列中所有重复碱基数据链，包括的具体方法为：

5.根据权利要求1所述一种基因二代测序数据处理方法，其特征在于，所述根据每种扫描序列的相邻重复程度，获取基因二代测序数据的最优扫描序列，包括的具体方法为：

6.根据权利要求1所述一种基因二代测序数据处理方法，其特征在于，所述根据每种碱基数据的自身连续性，获取每种编码方式，包括的具体方法为：

7.根据权利要求6所述一种基因二代测序数据处理方法，其特征在于，所述根据每种碱基数据的自身连续性，获取每种编码方式；获取每种编码方式下的所有的正向组合，包括的具体方法为：

8.根据权利要求1所述一种基因二代测序数据处理方法，其特征在于，所述据每种编码方式下的所有的正向组合，获取基因二代测序数据的二进制数值序列，包括的具体方法为：