CN117153270B - 一种基因二代测序数据处理方法 - Google Patents

一种基因二代测序数据处理方法 Download PDF

Info

Publication number
CN117153270B
CN117153270B CN202311412526.6A CN202311412526A CN117153270B CN 117153270 B CN117153270 B CN 117153270B CN 202311412526 A CN202311412526 A CN 202311412526A CN 117153270 B CN117153270 B CN 117153270B
Authority
CN
China
Prior art keywords
gene
generation sequencing
data
sequence
sequencing data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311412526.6A
Other languages
English (en)
Other versions
CN117153270A (zh
Inventor
刘淑芬
袁伟
陈丽娜
赵英浩
王骏扬
李泠彤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin Huarui Gene Technology Co ltd
Original Assignee
Jilin Huarui Gene Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin Huarui Gene Technology Co ltd filed Critical Jilin Huarui Gene Technology Co ltd
Priority to CN202311412526.6A priority Critical patent/CN117153270B/zh
Publication of CN117153270A publication Critical patent/CN117153270A/zh
Application granted granted Critical
Publication of CN117153270B publication Critical patent/CN117153270B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/50Compression of genetic data
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/40Conversion to or from variable length codes, e.g. Shannon-Fano code, Huffman code, Morse code
    • H03M7/4006Conversion to or from arithmetic code
    • H03M7/4012Binary arithmetic codes
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/70Type of the data to be coded, other than image and sound

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及数据处理技术领域,具体涉及一种基因二代测序数据处理方法,包括:获取基因二代测序数据序列;获取基因二代测序数据的每种扫描序列,根据基因二代测序数据的每种扫描序列的相邻重复程度,获取基因二代测序数据的最优扫描序列;根据基因二代测序数据的最优扫描序列中每种碱基数据的自身连续性,获取基因二代测序数据的二进制数值序列;根据基因二代测序数据的二进制数值序列,对基因二代测序数据序列进行压缩。本发明提高了游程编码对基因二代测序数据的压缩效率。

Description

一种基因二代测序数据处理方法
技术领域
本发明涉及数据处理技术领域,具体涉及一种基因二代测序数据处理方法。
背景技术
基因二代测序数据是一种现代分子生物学技术,用于获取生物体的遗传信息。这种技术通常称为高通量测序,它可以迅速、精确地测定DNA、RNA和蛋白质序列,同时可以生成大量的序列数据。基因二代测序已经在生命科学研究、医学诊断、药物开发和遗传学等领域产生了广泛的应用。通常基因二代测序生成的数据非常庞大,会占用大量的存储空间,也极大降低了传输效率,因此对基因二代测序数据的压缩不仅有助于降低成本和提高效率,还有助于更好地管理、传输和共享宝贵的生物信息数据。
基因二代测序数据中包含大量重复的碱基对数据,对基因二代测序数据进行压缩的传统方法为游程编码压缩,但是由于基因二代测序数据中碱基数据的连续重复性较差,数据整体冗余程度大,但相邻数据的冗余程度小,所以导致使用游程编码进行压缩时,压缩效率差。
发明内容
为了解决上述问题,本发明提供一种基因二代测序数据处理方法,所述方法包括:
获取基因二代测序数据序列,基因二代测序数据序列包含若干个碱基数据;
根据基因二代测序数据序列,获取基因二代测序数据矩阵;根据基因二代测序数据矩阵,获取基因二代测序数据的每种扫描序列;获取每种扫描序列中所有重复碱基数据链;根据每种扫描序列中所有重复碱基数据链,获取基因二代测序数据的每种扫描序列的相邻重复程度;根据每种扫描序列的相邻重复程度,获取基因二代测序数据的最优扫描序列;
获取最优扫描序列中每种碱基数据的自身连续性;根据每种碱基数据的自身连续性,获取每种编码方式;获取每种编码方式下的所有的正向组合;根据每种编码方式下的所有的正向组合,获取基因二代测序数据的二进制数值序列;
根据基因二代测序数据的二进制数值序列,对基因二代测序数据序列进行压缩。
优选的,所述根据基因二代测序数据序列,获取基因二代测序数据矩阵,包括的具体方法为:
将基因二代测序数据序列中每预设参数个碱基数据,依次作为基因二代测序数据矩阵内每一行的元素,进而获得基因二代测序数据矩阵。
优选的,所述根据基因二代测序数据矩阵,获取基因二代测序数据的每种扫描序列,包括的具体方法为:
扫描序列包括横向扫描序列、纵向扫描序列和斜向扫描序列;
对基因二代测序数据矩阵依次进行奇数行从左向右扫描,偶数行从右向左的扫描方式进行扫描,获得基因二代测序数据的横向扫描序列;对基因二代测序数据矩阵依次进行奇数列从上到下扫描,偶数列从下到上的扫描方式进行扫描,获得基因二代测序数据的纵向扫描序列;对基因二代测序数据矩阵进行Z字扫描方式,获得基因二代测序数据的斜向扫描序列。
优选的,所述获取每种扫描序列中所有重复碱基数据链,包括的具体方法为:
若每种扫描序列存在两个或两个以上的相同碱基数据,则将每种扫描序列中所述的两个或两个以上的相同碱基数据,作为每种扫描序列的一个重复碱基数据链,进而获取每种扫描序列的所有重复碱基数据链。
优选的,所述根据每种扫描序列中所有重复碱基数据链,获取基因二代测序数据的每种扫描序列的相邻重复程度,包括的具体方法为:
扫描序列包括横向扫描序列、纵向扫描序列和斜向扫描序列;分别获取横向扫描序列、纵向扫描序列和斜向扫描序列的相邻重复程度;其中横向扫描序列的相邻重复程度的获取方法为:
对于基因二代测序数据的横向扫描序列中任意一个重复碱基数据链,将所述重复碱基数据链中的碱基数据个数,作为所述重复碱基数据链的链长;则基因二代测序数据的横向扫描序列的相邻重复程度的计算表达式为:
式中,表示基因二代测序数据的横向扫描序列的相邻重复程度;/>表示基因二代测序数据的横向扫描序列中所有重复碱基数据链的总数量;/>表示基因二代测序数据的横向扫描序列中第/>个重复碱基数据链的链长。
优选的,所述根据每种扫描序列的相邻重复程度,获取基因二代测序数据的最优扫描序列,包括的具体方法为:
对于基因二代测序数据的每种扫描序列,将相邻重复程度最大的扫描序列,作为基因二代测序数据的最优扫描序列。
优选的,所述获取最优扫描序列中每种碱基数据的自身连续性,包括的具体方法为:
对于基因二代测序数据的最优扫描序列中第种碱基数据,若第/>种碱基数据在最优扫描序列中连续重复出现两次或两次以上,则将最优扫描序列中连续重复出现两次或两次以上的第/>种碱基数据,组成的第/>种重复碱基数据序列,作为最优扫描序列中的一个第/>种重复碱基数据序列,进而获取最优扫描序列中所有的第/>种重复碱基数据序列;则基因二代测序数据的最优扫描序列中第/>种碱基数据的自身连续性的计算表达式:
式中,表示基因二代测序数据的最优扫描序列中第/>种碱基数据的自身连续性;表示基因二代测序数据的最优扫描序列中所有的第/>种重复碱基数据序列的总数量;/>表示基因二代测序数据的最优扫描序列中第/>个第/>种重复碱基数据序列中所有第/>种碱基数据的个数;/>表示基因二代测序数据的最优扫描序列中所有的第/>种重复碱基数据序列之间的间隔方差;/>为预设参数。
优选的,所述根据每种碱基数据的自身连续性,获取每种编码方式,包括的具体方法为:
对于基因二代测序数据的最优扫描序列中每种碱基数据,将自身连续性最大的碱基数据记为碱基数据;将自身连续性第二大的碱基数据记为碱基数据/> ;将自身连续性第三大的碱基数据记为碱基数据/>;将自身连续性最小的碱基数据记为碱基数据/>;用二进制数值00,11,01,10分别作为碱基数据/>,碱基数据/>,碱基数据/>,碱基数据/>的编码方式,并记为第一编码方式;用二进制数值00,11,10,01分别作为碱基数据/>,碱基数据/>,碱基数据/>,碱基数据/>的编码方式,并记为第二编码方式。
优选的,所述根据每种碱基数据的自身连续性,获取每种编码方式;获取每种编码方式下的所有的正向组合,包括的具体方法为:
在最优扫描序列中获取由碱基数据,碱基数据/>,碱基数据/>,碱基数据/>两两组成所有种组合,其中,每种组合至少包含碱基数据/>和碱基数据/>其中一个;用第一编码方式对所有种组合进而二进制编码,对于第一编码方式下任意一个组合,若所述组合的编码结果中连续1的数量或连续0的数量等于3,则将所述组合记为正向组合,进而获取第一编码方式下所有的正向组合;用第二编码方式对所有种组合进而二进制编码,对于第二编码方式下任意一个组合,若所述组合的编码结果中连续1的数量或连续0的数量等于3,则将所述组合记为正向组合,进而获取第二编码方式下所有的正向组合。
优选的,所述据每种编码方式下的所有的正向组合,获取基因二代测序数据的二进制数值序列,包括的具体方法为:
若第一编码方式下所有的正向组合数量大于或等于第二编码方式下所有的正向组合数量,则通过第一编码方式对基因二代测序数据的最优扫描序列进行编码,获得基因二代测序数据的二进制数值序列;反之,则通过第二编码方式对基因二代测序数据的最优扫描序列进行编码,获得基因二代测序数据的二进制数值序列。
本发明的技术方案的有益效果是:针对基因二代测序数据中碱基数据连续重复性较差,数据整体冗余程度大,但相邻数据的冗余程度小,导致使用游程编码进行压缩时压缩效率差的问题;本发明通过基因二代测序数据矩阵,获取基因二代测序数据的每种扫描序列;获取基因二代测序数据的最优扫描序列;获取最优扫描序列中每种碱基数据的自身连续性;根据每种碱基数据的自身连续性,获取每种编码方式;获取每种编码方式下的所有的正向组合;根据每种编码方式下的所有的正向组合,获取基因二代测序数据的二进制数值序列;根据基因二代测序数据的二进制数值序列,对基因二代测序数据序列进行压缩,进而提高了游程编码对基因二代测序数据的压缩效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种基因二代测序数据处理方法的步骤流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种基因二代测序数据处理方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种基因二代测序数据处理方法的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种基因二代测序数据处理方法的步骤流程图,该方法包括以下步骤:
步骤S001:获取基因二代测序数据序列。
需要说明的是,基因二代测序数据中包含大量重复的碱基对数据,对基因二代测序数据进行压缩的传统方法为游程编码压缩,但是由于基因二代测序数据中碱基数据连续重复性较差,数据整体冗余程度大,但相邻数据的冗余程度小,所以导致使用游程编码进行压缩时,压缩效率差。
具体的,为了实现本实施例提出的一种基因二代测序数据处理方法,首先需要采集基因二代测序数据序列,具体过程为:
使用二代测序平台,获取基因二代测序数据,基因二代测序数据中包含了正向和反向两个数据文件,以及read序列信息,read序列信息是由无序排列的ATCG四种碱基数据组成的序列;将read序列信息作为基因二代测序数据序列;其中,基因二代测序数据序列包含10000个碱基数据,本实施例以获取的基因二代测序数据序列长度为10000进行叙述。
至此,通过上述方法得到基因二代测序数据序列。
步骤S002:获取基因二代测序数据的每种扫描序列,根据获取基因二代测序数据的每种扫描序列的相邻重复程度,获取基因二代测序数据的最优扫描序列。
需要说明的是,获取基因二代测序数据序列之后,需要在对基因二代测序数据序列中的碱基数据转换为二进制数据之前扩大碱基数据的相邻冗余程度,以使后续二进制转化结果更优,所以将基因二代测序数据序列转换为矩阵,通过不同的扫描方式得到更多种序列的排列组合方式,以得到相邻数据冗余程度更高的碱基数据序列。
1.获取基因二代测序数据的每种扫描序列。
预设一个参数,其中本实施例以/>为例进行叙述,本实施例不进行具体限定,其中/>根据具体实施情况而定。
具体的,将基因二代测序数据序列中每预设参数个碱基数据,依次作为基因二代测序数据矩阵内每一行的元素,进而获得基因二代测序数据矩阵。
对基因二代测序数据矩阵依次进行奇数行从左向右扫描,偶数行从右向左的扫描方式进行扫描,获得基因二代测序数据的横向扫描序列;对基因二代测序数据矩阵依次进行奇数列从上到下扫描,偶数列从下到上的扫描方式进行扫描,获得基因二代测序数据的纵向扫描序列;对基因二代测序数据矩阵进行Z字扫描方式,获得基因二代测序数据的斜向扫描序列。
至此,获得基因二代测序数据的每种扫描序列。
2.获取基因二代测序数据的最优扫描序列。
需要说明的是,通过存在重复碱基数据链(如AA或GGGG)对基因二代测序数据的每种扫描序列的相邻重复程度进行衡量,因为重复碱基数据链的链长越长,则其重复水平越高,所以以扫描序列中存在重复碱基数据链的数量为基准,用每条重复碱基数据链的长度对其进行加权从而获得整体重复碱基数据链的质量水平。
具体的,对于基因二代测序数据的横向扫描序列,若横向扫描序列中存在两个或两个以上的相同碱基数据,则将横向扫描序列中所述的两个或两个以上的相同碱基数据,作为横向扫描序列的一个重复碱基数据链,进而获取横向扫描序列的所有重复碱基数据链;同理,获取基因二代测序数据的每种扫描序列的所有重复碱基数据链。
进一步,对于基因二代测序数据的横向扫描序列中任意一个重复碱基数据链,将所述重复碱基数据链中的碱基数据个数,作为所述重复碱基数据链的链长;则基因二代测序数据的横向扫描序列的相邻重复程度的计算表达式为:
式中,表示基因二代测序数据的横向扫描序列的相邻重复程度;/>表示基因二代测序数据的横向扫描序列中所有重复碱基数据链的总数量;/>表示基因二代测序数据的横向扫描序列中第/>个重复碱基数据链的链长。
同理,获取基因二代测序数据的每种扫描序列的相邻重复程度。
对于基因二代测序数据的每种扫描序列,将相邻重复程度最大的扫描序列,作为基因二代测序数据的最优扫描序列。
至此,通过上述方法得到基因二代测序数据的最优扫描序列。
步骤S003:根据基因二代测序数据的最优扫描序列中每种碱基数据的自身连续性,获取基因二代测序数据的二进制数值序列。
需要说明的是,基因二代测序数据的最优扫描序列提高了基础数据的相邻冗余程度,也为后续转换二进制获得更高的冗余程度作基础铺垫。因此结合二进制编码,通过00,01,10,11表示基因二代测序数据的最优序列中的四个碱基数据,进而提升了相邻数据的相似可能程度,为了在此基础上获得更高的二进制数据重复性,则需对不同的碱基数据分配不同的二进制数据,以获取具有较高的连续性的碱基数据。
1.获取基因二代测序数据的最优扫描序列中每种碱基数据的自身连续性。
需要说明的是,对于基因二代测序数据的最优扫描序列中任意一类型的碱基数据,若该类型的碱基数据连续重复的个数越多,则表示该类型碱基数据在最优扫描序列中存在重复连续数据的整体水平;若该类型的碱基数据在最优扫描序列中分布地越均匀,说明其连续相连的可能程度就越低,那么其对应的间隔方差就越小,而间隔方差越大,则其连续相连的可能程度就越高。
预设两个参数,其中本实施例以/>为例进行叙述,本实施例不进行具体限定,其中/>根据具体实施情况而定。
具体的,对于基因二代测序数据的最优扫描序列中第种碱基数据,若第/>种碱基数据在最优扫描序列中连续重复出现两次或两次以上,则将最优扫描序列中连续重复出现两次或两次以上的第/>种碱基数据,组成的第/>种重复碱基数据序列,作为最优扫描序列中的一个第/>种重复碱基数据序列,进而获取最优扫描序列中所有的第/>种重复碱基数据序列;则基因二代测序数据的最优扫描序列中第/>种碱基数据的自身连续性的计算表达式:
式中,表示基因二代测序数据的最优扫描序列中第/>种碱基数据的自身连续性;表示基因二代测序数据的最优扫描序列中所有的第/>种重复碱基数据序列的总数量;/>表示基因二代测序数据的最优扫描序列中第/>个第/>种重复碱基数据序列中所有第/>种碱基数据的个数;/>表示基因二代测序数据的最优扫描序列中所有的第/>种重复碱基数据序列之间的间隔方差;/>为预设参数。
至此,获得基因二代测序数据的最优扫描序列中每种碱基数据的自身连续性。
2.获取基因二代测序数据的二进制数值序列。
具体的,对于基因二代测序数据的最优扫描序列中每种碱基数据,将自身连续性最大的碱基数据记为碱基数据;将自身连续性第二大的碱基数据记为碱基数据/> ;将自身连续性第三大的碱基数据记为碱基数据/>;将自身连续性最小的碱基数据记为碱基数据/>;用二进制数值00,11,01,10分别作为碱基数据/>,碱基数据/>,碱基数据/>,碱基数据/>的编码方式,并记为第一编码方式;用二进制数值00,11,10,01分别作为碱基数据/>,碱基数据/>,碱基数据/>,碱基数据/>的编码方式,并记为第二编码方式。
在最优扫描序列中获取由碱基数据,碱基数据/>,碱基数据/>,碱基数据/>两两组成所有种组合,其中,每种组合至少包含碱基数据/>和碱基数据/>其中一个;用第一编码方式对所有种组合进而二进制编码,对于第一编码方式下任意一个组合,若所述组合的编码结果中连续1的数量或连续0的数量等于3,则将所述组合记为正向组合,进而获取第一编码方式下所有的正向组合;用第二编码方式对所有种组合进而二进制编码,对于第二编码方式下任意一个组合,若所述组合的编码结果中连续1的数量或连续0的数量等于3,则将所述组合记为正向组合,进而获取第二编码方式下所有的正向组合。
若第一编码方式下所有的正向组合数量大于或等于第二编码方式下所有的正向组合数量,则通过第一编码方式对基因二代测序数据的最优扫描序列进行编码,获得基因二代测序数据的二进制数值序列;反之,则通过第二编码方式对基因二代测序数据的最优扫描序列进行编码,获得基因二代测序数据的二进制数值序列。
至此,通过上述方法得到基因二代测序数据的二进制数值序列。
步骤S004:根据基因二代测序数据的二进制数值序列,对基因二代测序数据序列进行压缩。
具体的,将基因二代测序数据的二进制数值序列作为基因二代测序数据序列,通过游程编码对基因二代测序数据序列进行压缩,将压缩后的基因二代测序数据序列存储至服务器中。
至此,本实施例完成。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基因二代测序数据处理方法,其特征在于,该方法包括以下步骤:
获取基因二代测序数据序列,基因二代测序数据序列包含若干个碱基数据;
根据基因二代测序数据序列,获取基因二代测序数据矩阵;根据基因二代测序数据矩阵,获取基因二代测序数据的每种扫描序列;获取每种扫描序列中所有重复碱基数据链;根据每种扫描序列中所有重复碱基数据链,获取基因二代测序数据的每种扫描序列的相邻重复程度;根据每种扫描序列的相邻重复程度,获取基因二代测序数据的最优扫描序列;
获取最优扫描序列中每种碱基数据的自身连续性;根据每种碱基数据的自身连续性,获取每种编码方式;获取每种编码方式下的所有的正向组合;根据每种编码方式下的所有的正向组合,获取基因二代测序数据的二进制数值序列;
根据基因二代测序数据的二进制数值序列,对基因二代测序数据序列进行压缩;
所述根据每种扫描序列中所有重复碱基数据链,获取基因二代测序数据的每种扫描序列的相邻重复程度,包括的具体方法为:
扫描序列包括横向扫描序列、纵向扫描序列和斜向扫描序列;分别获取横向扫描序列、纵向扫描序列和斜向扫描序列的相邻重复程度;其中横向扫描序列的相邻重复程度的获取方法为:
对于基因二代测序数据的横向扫描序列中任意一个重复碱基数据链,将所述重复碱基数据链中的碱基数据个数,作为所述重复碱基数据链的链长;则基因二代测序数据的横向扫描序列的相邻重复程度的计算表达式为:
式中,表示基因二代测序数据的横向扫描序列的相邻重复程度;/>表示基因二代测序数据的横向扫描序列中所有重复碱基数据链的总数量;/>表示基因二代测序数据的横向扫描序列中第/>个重复碱基数据链的链长;
所述获取最优扫描序列中每种碱基数据的自身连续性,包括的具体方法为:
对于基因二代测序数据的最优扫描序列中第种碱基数据,若第/>种碱基数据在最优扫描序列中连续重复出现两次或两次以上,则将最优扫描序列中连续重复出现两次或两次以上的第/>种碱基数据,组成的第/>种重复碱基数据序列,作为最优扫描序列中的一个第/>种重复碱基数据序列,进而获取最优扫描序列中所有的第/>种重复碱基数据序列;则基因二代测序数据的最优扫描序列中第/>种碱基数据的自身连续性的计算表达式:
式中,表示基因二代测序数据的最优扫描序列中第/>种碱基数据的自身连续性;/>表示基因二代测序数据的最优扫描序列中所有的第/>种重复碱基数据序列的总数量;/>表示基因二代测序数据的最优扫描序列中第/>个第/>种重复碱基数据序列中所有第/>种碱基数据的个数;/>表示基因二代测序数据的最优扫描序列中所有的第/>种重复碱基数据序列之间的间隔方差;/>为预设参数。
2.根据权利要求1所述一种基因二代测序数据处理方法,其特征在于,所述根据基因二代测序数据序列,获取基因二代测序数据矩阵,包括的具体方法为:
将基因二代测序数据序列中每预设参数个碱基数据,依次作为基因二代测序数据矩阵内每一行的元素,进而获得基因二代测序数据矩阵。
3.根据权利要求1所述一种基因二代测序数据处理方法,其特征在于,所述根据基因二代测序数据矩阵,获取基因二代测序数据的每种扫描序列,包括的具体方法为:
扫描序列包括横向扫描序列、纵向扫描序列和斜向扫描序列;
对基因二代测序数据矩阵依次进行奇数行从左向右扫描,偶数行从右向左的扫描方式进行扫描,获得基因二代测序数据的横向扫描序列;对基因二代测序数据矩阵依次进行奇数列从上到下扫描,偶数列从下到上的扫描方式进行扫描,获得基因二代测序数据的纵向扫描序列;对基因二代测序数据矩阵进行Z字扫描方式,获得基因二代测序数据的斜向扫描序列。
4.根据权利要求1所述一种基因二代测序数据处理方法,其特征在于,所述获取每种扫描序列中所有重复碱基数据链,包括的具体方法为:
若每种扫描序列存在两个或两个以上的相同碱基数据,则将每种扫描序列中所述的两个或两个以上的相同碱基数据,作为每种扫描序列的一个重复碱基数据链,进而获取每种扫描序列的所有重复碱基数据链。
5.根据权利要求1所述一种基因二代测序数据处理方法,其特征在于,所述根据每种扫描序列的相邻重复程度,获取基因二代测序数据的最优扫描序列,包括的具体方法为:
对于基因二代测序数据的每种扫描序列,将相邻重复程度最大的扫描序列,作为基因二代测序数据的最优扫描序列。
6.根据权利要求1所述一种基因二代测序数据处理方法,其特征在于,所述根据每种碱基数据的自身连续性,获取每种编码方式,包括的具体方法为:
对于基因二代测序数据的最优扫描序列中每种碱基数据,将自身连续性最大的碱基数据记为碱基数据;将自身连续性第二大的碱基数据记为碱基数据/> ;将自身连续性第三大的碱基数据记为碱基数据/>;将自身连续性最小的碱基数据记为碱基数据/>;用二进制数值00,11,01,10分别作为碱基数据/>,碱基数据/>,碱基数据/>,碱基数据/>的编码方式,并记为第一编码方式;用二进制数值00,11,10,01分别作为碱基数据/>,碱基数据/>,碱基数据/>,碱基数据/>的编码方式,并记为第二编码方式。
7.根据权利要求6所述一种基因二代测序数据处理方法,其特征在于,所述根据每种碱基数据的自身连续性,获取每种编码方式;获取每种编码方式下的所有的正向组合,包括的具体方法为:
在最优扫描序列中获取由碱基数据,碱基数据/>,碱基数据/>,碱基数据/>两两组成所有种组合,其中,每种组合至少包含碱基数据/>和碱基数据/>其中一个;用第一编码方式对所有种组合进而二进制编码,对于第一编码方式下任意一个组合,若所述组合的编码结果中连续1的数量或连续0的数量等于3,则将所述组合记为正向组合,进而获取第一编码方式下所有的正向组合;用第二编码方式对所有种组合进而二进制编码,对于第二编码方式下任意一个组合,若所述组合的编码结果中连续1的数量或连续0的数量等于3,则将所述组合记为正向组合,进而获取第二编码方式下所有的正向组合。
8.根据权利要求1所述一种基因二代测序数据处理方法,其特征在于,所述据每种编码方式下的所有的正向组合,获取基因二代测序数据的二进制数值序列,包括的具体方法为:
若第一编码方式下所有的正向组合数量大于或等于第二编码方式下所有的正向组合数量,则通过第一编码方式对基因二代测序数据的最优扫描序列进行编码,获得基因二代测序数据的二进制数值序列;反之,则通过第二编码方式对基因二代测序数据的最优扫描序列进行编码,获得基因二代测序数据的二进制数值序列。
CN202311412526.6A 2023-10-30 2023-10-30 一种基因二代测序数据处理方法 Active CN117153270B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311412526.6A CN117153270B (zh) 2023-10-30 2023-10-30 一种基因二代测序数据处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311412526.6A CN117153270B (zh) 2023-10-30 2023-10-30 一种基因二代测序数据处理方法

Publications (2)

Publication Number Publication Date
CN117153270A CN117153270A (zh) 2023-12-01
CN117153270B true CN117153270B (zh) 2024-02-02

Family

ID=88908432

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311412526.6A Active CN117153270B (zh) 2023-10-30 2023-10-30 一种基因二代测序数据处理方法

Country Status (1)

Country Link
CN (1) CN117153270B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103476425A (zh) * 2007-03-30 2013-12-25 纽约州州立大学研究基金会 用于疫苗的减毒病毒
CN109234267A (zh) * 2018-09-12 2019-01-18 中国科学院遗传与发育生物学研究所 一种基因组组装方法
CN109979537A (zh) * 2019-03-15 2019-07-05 南京邮电大学 一种面向多条序列的基因序列数据压缩方法
CN110678929A (zh) * 2016-10-11 2020-01-10 耶诺姆希斯股份公司 用于高效压缩基因组序列读段的方法和系统
CN111584004A (zh) * 2020-05-12 2020-08-25 西藏自治区农牧科学院水产科学研究所 一种基于三维组学数据的西藏特色鱼类基因组组装方法
CN115622570A (zh) * 2022-12-14 2023-01-17 山东融汇通达网络科技有限公司 一种数据高效存储方法
WO2023092086A2 (en) * 2021-11-18 2023-05-25 Rajant Health Incorporated Fastq/fasta compression systems and methods
CN116415159A (zh) * 2023-06-12 2023-07-11 青岛市城市规划设计研究院 一种海绵城市数据管理方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070269788A1 (en) * 2006-05-04 2007-11-22 James Flowers E learning platform for preparation for standardized achievement tests

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103476425A (zh) * 2007-03-30 2013-12-25 纽约州州立大学研究基金会 用于疫苗的减毒病毒
CN110678929A (zh) * 2016-10-11 2020-01-10 耶诺姆希斯股份公司 用于高效压缩基因组序列读段的方法和系统
CN109234267A (zh) * 2018-09-12 2019-01-18 中国科学院遗传与发育生物学研究所 一种基因组组装方法
CN109979537A (zh) * 2019-03-15 2019-07-05 南京邮电大学 一种面向多条序列的基因序列数据压缩方法
CN111584004A (zh) * 2020-05-12 2020-08-25 西藏自治区农牧科学院水产科学研究所 一种基于三维组学数据的西藏特色鱼类基因组组装方法
WO2023092086A2 (en) * 2021-11-18 2023-05-25 Rajant Health Incorporated Fastq/fasta compression systems and methods
CN115622570A (zh) * 2022-12-14 2023-01-17 山东融汇通达网络科技有限公司 一种数据高效存储方法
CN116415159A (zh) * 2023-06-12 2023-07-11 青岛市城市规划设计研究院 一种海绵城市数据管理方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Compression of genomic seque ncing reads via hash-based reorder ing: algorit hm and analysis;Shubham Chandak;Genome analysis;第558–567页 *
基于高通量测序的羊踯躅叶绿体基因组 及 SSR 序列分析;吴林世 等;经 济 林 研 究;第123-131页 *

Also Published As

Publication number Publication date
CN117153270A (zh) 2023-12-01

Similar Documents

Publication Publication Date Title
US11177019B2 (en) Method for biologically storing and restoring data
Shi et al. A worldwide survey of human male demographic history based on Y-SNP and Y-STR data from the HGDP–CEPH populations
EP3416076A1 (en) Methods of coding and decoding information
CN110428868B (zh) 基因测序质量行数据压缩预处理、解压还原方法及系统
EP2958238A1 (en) Method and apparatus for encoding information units in code word sequences avoiding reverse complementarity
CN115622570A (zh) 一种数据高效存储方法
CN117153270B (zh) 一种基因二代测序数据处理方法
CN116760994B (zh) 一种神经内科医疗影像编码通讯方法
Drmanac et al. [11] cDNA screening by array hybridization
CN111477281A (zh) 基于系统进化树的泛基因组构建方法和构建装置
CN117437310B (zh) 一种类器官培养图像压缩方法
Bohrer et al. Synthetic analysis of chromatin tracing and live-cell imaging indicates pervasive spatial coupling between genes
US6438496B1 (en) Method and apparatus for revealing latent characteristics existing in symbolic sequences
O'Neill et al. Improved processing of microarray data using image reconstruction techniques
Zhidkov et al. MtDNA mutation pattern in tumors and human evolution are shaped by similar selective constraints
CN117012282A (zh) 一种基于图注意力网络的rna-疾病相关性预测方法
CN115083518A (zh) 一种snp双通道编码方法
Hubbell Multiplex sequencing by hybridization
CA3161855A1 (en) Mixseq: mixture sequencing using compressed sensing for in-situ and in-vitro applications
Quah et al. DNA data storage, sequencing data-carrying DNA
KR20170103702A (ko) 하나의 올리고뉴클레오티드를 이용해서 올리고뉴클레오티드 풀을 생산하는 방법
US20240132947A1 (en) Optimized clustering of dna strands
WO2020242603A1 (en) Methods and usage for quantitative evaluation of clonal amplified products and sequencing qualities
Liò et al. Analysis of genomic patchiness ofHaemophilus influenzaeandSaccharomyces cerevisiaechromosomes
CN113449781B (zh) 一种甲状腺结节分类模型的生成方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant