CN109801679A - 一种用于长链分子的数学序列重建方法 - Google Patents

一种用于长链分子的数学序列重建方法 Download PDF

Info

Publication number
CN109801679A
CN109801679A CN201910035037.0A CN201910035037A CN109801679A CN 109801679 A CN109801679 A CN 109801679A CN 201910035037 A CN201910035037 A CN 201910035037A CN 109801679 A CN109801679 A CN 109801679A
Authority
CN
China
Prior art keywords
gene
gene library
sequencing
reconstructing
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910035037.0A
Other languages
English (en)
Other versions
CN109801679B (zh
Inventor
胡洪超
舒绪刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Shibao Biotechnology Co ltd
Zhongkai University of Agriculture and Engineering
Original Assignee
Zhongkai University of Agriculture and Engineering
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongkai University of Agriculture and Engineering filed Critical Zhongkai University of Agriculture and Engineering
Priority to CN201910035037.0A priority Critical patent/CN109801679B/zh
Publication of CN109801679A publication Critical patent/CN109801679A/zh
Priority to PCT/CN2020/071417 priority patent/WO2020147657A1/zh
Application granted granted Critical
Publication of CN109801679B publication Critical patent/CN109801679B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及一种长链分子序列数学重建算法,尤指一种用于基因DNA序列测定、蛋白质氨基酸序列测定或其他长链结构化学物质检测的一种用于长链分子的数学序列重建方法,包括:1)提供至少两个DNA分子链,2)打断成碎片序列形成X个基因文库,3)对基因文库的基因片段进行测序获取文库片段信息,4)对文库片段进行碎片全排列拼接,获取可能性集合,5)求交集,6)判断交集中的元素数量筛选得到正确的基因序列图谱;本发明属于数学算法技术,可实现基因序列的测定重建,以及蛋白质、多糖或其他具有单一结构的聚合物的序列测定重建;从而可提高目前的基因测序中的准确性,且本发明并非概率推测,而是建立在严谨的数学算法上,测定结构准确度高。

Description

一种用于长链分子的数学序列重建方法
技术领域
本发明涉及一种长链分子序列数学重建算法,尤指一种用于基因DNA序列测定、蛋白质氨基酸序列测定或其他长链结构化学物质检测的一种用于长链分子的数学序列重建方法。
背景技术
在生物学和材料学中都涉及到序列的检测,即对某一链的各种基团排列进行测定,如蛋白质的序列测定,DNA的序列测定,多糖的序列测定等等,以DNA测序为例,来阐述序列测定中面对的瓶颈,在分子生物学研究中,DNA的序列分析是进一步研究和改造目的基因的基础。
目前用于测序的技术主要有Sanger等(1977)发明的双脱氧链末端终止法和Maxam和 Gilbert(1977)发明的化学降解法,这二种方法在原理上差异很大,但都是根据核苷酸在某一固定的点开始,随机在某一个特定的碱基处终止,产生 A,T,C,G四组不同长度的一系列核苷酸,然后在尿素变性的PAGE胶上电泳进行检测,从而获得DNA序列;Sanger测序法属第一代测序技术,是测序技术发展的源头,此技术是通过核苷酸在某一固定的点开始,随机在某一个特定的碱基处终止,并且在每个碱基后面进行荧光标记,产生以A、T、C、G结束的四组不同长度的一系列核苷酸,然后在尿素变性的PAGE胶上电泳进行检测,从而获得可见DNA碱基序列的一种方法;第一代测序技术的主要特点是测序读长可达1000bp,准确性高达99.999%,但其测序成本高,通量低等方面的缺点,严重影响了其真正大规模的应用。因而第一代测序技术并不是最理想的测序方法。
经过不断的技术开发和改进,以Roche公司的454技术、illumina公司的Solexa,Hiseq技术和ABI公司的Solid技术为标记的第二代测序技术诞生了;第二代测序技术大大降低了测序成本的同时,还大幅提高了测序速度,并且保持了高准确性,以前完成一个人类基因组的测序需要3年时间,而使用二代测序技术则仅仅需要1周,但在序列读长方面比起第一代测序技术则要短很多;不同公司第二代基因检测技术的共同特点是DNA待测文库的构建,即利用超声波把待测的DNA样本打断成小片段,目前除了组装之外和一些其他的特殊要求之外,主要是打断成200-500bp长的序列片段,并在这些小片段的两端添加上不同的接头,构建出单链DNA文库,然后通过不同的技术将此文库中的不同序列片段进行检测,最后对此文库中的序列片段进行拼接;通过对DNA链的碎片化,实现由Sanger测序法的单链检测转化为多链检测,进而实现多通量,快速测序。
然而测序技术在近两三年中又有新的里程碑,以PacBio公司的SMRT和OxfordNanopore Technologies纳米孔单分子测序技术,被称之为第三代测序技术,与前两代相比,他们最大的特点就是单分子测序,测序过程无需进行PCR扩增;其中PacBio SMRT技术其实也应用了边合成边测序的思想,并以SMRT芯片为测序载体;基本原理是:DNA聚合酶和模板结合,4色荧光标记 4 种碱基(即是dNTP),在碱基配对阶段,不同碱基的加入,会发出不同光,根据光的波长与峰值可判断进入的碱基类型;同时这个 DNA 聚合酶是实现超长读长的关键之一,读长主要跟酶的活性保持有关,它主要受激光对其造成的损伤所影响。PacBioSMRT技术的一个关键是怎样将反应信号与周围游离碱基的强大荧光背景区别出来,他们利用的是ZMW(零模波导孔)原理:如同微波炉壁上可看到的很多密集小孔,小孔直径有考究,如果直径大于微波波长,能量就会在衍射效应的作用下穿透面板而泄露出来,从而与周围小孔相互干扰;如果孔径小于波长,能量不会辐射到周围,而是保持直线状态(光衍射的原理),从而可起保护作用;同理,在一个反应管(SMRTCell:单分子实时反应孔)中有许多这样的圆形纳米小孔, 即 ZMW(零模波导孔),外径 100多纳米,比检测激光波长小(数百纳米),激光从底部打上去后不能穿透小孔进入上方溶液区,能量被限制在一个小范围(体积20X10-21 L)里,正好足够覆盖需要检测的部分,使得信号仅来自这个小反应区域,孔外过多游离核苷酸单体依然留在黑暗中,从而实现将背景降到最低。另外,可以通过检测相邻两个碱基之间的测序时间,来检测一些碱基修饰情况,既如果碱基存在修饰,则通过聚合酶时的速度会减慢,相邻两峰之间的距离增大,可以通过这个来之间检测甲基化等信息,SMRT技术的测序速度很快,每秒约10个dNTP;但是,同时其测序错误率比较高(这几乎是目前单分子测序技术的通病),达到15%,其出错是随机的,并不会像第二代测序技术那样存在测序错误的偏向,因而需要通过多次测序来进行有效的纠错。
发明内容
为解决上述问题,本发明旨在公开一种长链分子序列数学重建算法,尤指一种用于基因DNA序列测定、蛋白质氨基酸序列测定或其他长链结构化学物质检测的一种用于长链分子的数学序列重建方法;通过本发明的数学测序方法,提高第二代基因测序中的准确性,且本发明建立在严谨的数学算法上准确度更高。
为实现上述目的,本发明采用的技术方案是:
一种用于长链分子的数学序列重建方法,其特征在于,所述的测序方法主要包括以下步骤:
1)提供一个个体中至少两个待测DNA分子链,或者对某个体的DNA链用PCR仪进行增殖,设DNA分子数量为X,X为≥2的自然数;
2)将所述X个DNA分子打断成碎片序列,形成X个基因文库;
3)对X个基因文库的基因片段进行测序,获得X个基因文库的片段信息集合;
4)将X个基因文库的碎片进行全排列拼接,获取可能性集合;
5)对可能性集合求交集;
6)判断交集中的元素数量,通过精确的元素数量等式,筛选得到正确的基因序列图谱。
进一步地,当所述步骤5)的交集只有一个时,所得结果为所测试分子的序列结构;否则,重复所述步骤1)-5)进行测试和计算。
进一步地,所述步骤3)中,设X个基因文库分别为基因文库A、基因文库B、…、基因文库X,基因文库A的片段信息为{A1,A2,A3,…,Am},基因文库B的片段信息为{B1,B2,B3,…,Bn },基因文库X的片段信息为{X1,X2,X3,…,Xn }。
进一步地,所述步骤4)中,设可能性集合分别为集合A、集合B、…、集合X,步骤5)的交集为交集G,G=A∩B∩…∩X;当G中元素数量=0,则步骤6)结果判断为X个基因文库中存在错误测序;若G中元素数量=1,则步骤6)结果判断交集G为正确的基因序列图谱;若G中元素数量>1,则需要重复步骤1)-5)的测试和计算,直到G中元素数量=1时,得到正确的基因序列图谱。
进一步地,所述步骤1)的DNA分子链还可以替换为单一蛋白质分子链、单一多糖链,以测定重建蛋白质、多糖序列。
本发明的有益效果体现在:本发明属于数学算法技术,通过本发明的步骤方法可实现基因序列的测定重建,以及蛋白质、多糖或其他具有单一结构的聚合物的序列测定重建;采用本发明的步骤时,自动判断序列的正确性而进行重测,可提高目前的基因测序中的准确性,且本发明并非建立在基因库样本进行概率推测,而是建立在严谨的数学算法上,测定结构准确度高。
附图说明
图1是本发明的操作流程图。
具体实施方式
下面结合附图详细说明本发明的具体实施方式:
一种用于长链分子的数学序列重建方法,所述的测序方法主要包括以下步骤:
1)提供一个个体中至少两个待测DNA分子链,或者对某个体的DNA链用PCR仪进行增殖,设DNA分子数量为X,X为≥2的自然数;DNA分子链还可以替换为单一蛋白质分子链、单一多糖链或其他具有单一结构聚合物分子,以测定重建蛋白质、多糖序列;
2)将所述X个DNA分子打断成碎片序列,形成X个基因文库;
3)对X个基因文库的基因片段进行测序,获得X个基因文库的片段信息集合;设X个基因文库分别为基因文库A、基因文库B、…、基因文库X,基因文库A的片段信息为{A1,A2,A3,…,Am},基因文库B的片段信息为{B1,B2,B3,…,Bn },基因文库X的片段信息为{X1,X2,X3,…,Xn };
4)将X个基因文库的碎片进行全排列拼接,获取可能性集合;设可能性集合分别为集合A、集合B、…、集合X;
5)对可能性集合求交集;交集为交集G,G=A∩B∩…∩X;
6)判断交集中的元素数量,通过精确的元素数量等式,筛选得到正确的基因序列图谱;当所述步骤5)的交集只有一个时,所得结果为所测试分子的序列结构;否则,重复所述步骤1)-5)进行测试和计算;更具体地说,当G中元素数量=0,则步骤6)结果判断为X个基因文库中存在错误测序;若G中元素数量=1,则步骤6)结果判断交集G为正确的基因序列图谱;若G中元素数量>1,则需要重复步骤1)-5)的测试和计算,直到G中元素数量=1时,得到正确的基因序列图谱。
本发明与更新迭代的基因测序技术相比:第一代基因测序技术较其他现有技术较为准确,但速度太慢,第二代基因测试技术在第一代基因测序技术将单链基因打断成碎片,生成基因文库,同时对此碎片进行多通量分析,进而大大提高检测效率,带来的问题是如何将基因碎片进行重新拼接以得到完成基因图谱,目前的技术是BLAST,即利用现有基因库样本进行统计分析,获得最可能的定位,但此项技术存在测序错误的偏向;第三代测序技术采用单分子测序,测序错误率比较高,达到15%,本发明通过一种新型的基因碎片重新定位的技术和算法,从而提高第二代基因测序中的准确性,且本发明不是建立在基因库样本的概率推测,而是建立在严谨的数学算法上,准确度高。本发明把再测序得到的基因组序列在基因组上快速重建,通过BLAST 进行序列比对,BLAST (Basic Local Alignment SearchTool)是一套在蛋白质数据库或DNA数据库中进行相似性比较的分析工具,BLAST程序能迅速与公开数据库进行相似性序列比较。BLAST结果中的得分是对一种对相似性的统计说明,具体地说: 采用本地BLAST (stand-alone BLAST) 把测出的基因组序列和人类基因组作批量比对(mega-blast),提交的序列片段在比对结束之后,可得到的是每一条序列在基因组染色体上的准确定位。
本发明不属于现有的算法逻辑,目前尚未有数学理论获得本发明的方法技术算法的原理,在本发明应用前,没有任何公开方法可达到本发明中准确率高的测定重建结果,因此本发明采用的方案并非显而易见的,对比所有的现有技术中,本发明不仅有效提高检测效率,准确度可达到100%,获得的结果是绝对准确,因此本发明的优点显而易见的,具有明显的进步性。
以人类基因组为例,人体基因组由23对染色体组成,其中包括22对体染色体、1条X染色体和1条Y染色体,人类基因组含有约31.6亿个DNA碱基对,碱基对是以氢键相结合的两个含氮碱基,以胸腺嘧啶(T)、腺嘌呤(A)、胞嘧啶(C)和鸟嘌呤(G)四种碱基排列成碱基序列;以100个碱基对为例,如果随机打断为20个碎片,那么20个碎片可以获得的拼接集合中将包含20!个元素,故不能够以全系列基因组来说明本发明的实施,本发明需要通过超级计算机和大规模存储器实现,通过算法设计可以大大减少本技术的计算量和存储量。
本发明文件以matlab计算来模拟短序列的重建算法,以说明本算法的可行性,详细如下:
例一:
对于需测定某基因序列tctaactg,对此基因序列进行随机打断,获取基因碎片tct、aac、tg,以此为基础建立起碎片文库A{'tct';' aac ';' tg ' };对此基因序列再进行随机打断,获取基因碎片tc、taac、tg,以此为基础建立起碎片文库B{'tc';' taac ';' tg '}。对碎片文库A和碎片文库B分别进行全排列,获取两个集合A和B,求A和B的交集,C=A∩B={tctaactg},恰好是我们需重建的基因序列。
文库A{'tct';' aac ';' tg ' }如下:
{
'tctaactg'
'tcttgaac'
'aactcttg'
'aactgtct'
'tgtctaac'
'tgaactct'
}
文库B{'tc';' taac ';' tg ' }如下:
{
'tctaactg'
'tctgtaac'
'taactctg'
'taactgtc'
'tgtctaac'
'tgtaactc'
}
A和B的交集,C=A∩B={tctaactg}
例二:
对于需测定某基因序列tctaactggcgcctcgctgtggaaaa,对此基因序列进行随机打断,获取基因碎片tctaactgg、cgcctcgctg、tg和gaaaa,以此为基础建立起碎片文库A{'tctaactgg';'cgcctcgctg';'tg';'gaaaa'};对此基因序列再进行随机打断,获取基因碎片tctaact、g、gcg、cctcgc和tgtggaaaa,以此为基础建立起碎片文库B{ 'tctaact';'g' ; 'gcg' ; 'cctcgc';'tgtggaaaa'}。对碎片文库A和碎片文库B分别进行全排列,获取两个集合A和B,求A和B的交集,C=A∩B={ tctaactggcgcctcgctgtggaaaa },恰好是我们需重建的基因序列,详细计算过程如下:
gene='tctaactggcgcctcgctgtggaaaa'; //序列总数为24
//随机打断成1-10的小片段
breaks={'tctaactgg' 'cgcctcgctg' 'tg' 'gaaaa'};
//对此4个小片段全排列,可得24种不同序列
A={ 'gaaaatgcgcctcgctgtctaactgg'
'gaaaatgtctaactggcgcctcgctg'
'gaaaacgcctcgctgtgtctaactgg'
'gaaaacgcctcgctgtctaactggtg'
'gaaaatctaactggcgcctcgctgtg'
'gaaaatctaactggtgcgcctcgctg'
'tggaaaacgcctcgctgtctaactgg'
'tggaaaatctaactggcgcctcgctg'
'tgcgcctcgctggaaaatctaactgg'
'tgcgcctcgctgtctaactgggaaaa'
'tgtctaactggcgcctcgctggaaaa'
'tgtctaactgggaaaacgcctcgctg'
'cgcctcgctgtggaaaatctaactgg'
'cgcctcgctgtgtctaactgggaaaa'
'cgcctcgctggaaaatgtctaactgg'
'cgcctcgctggaaaatctaactggtg'
'cgcctcgctgtctaactgggaaaatg'
'cgcctcgctgtctaactggtggaaaa'
'tctaactggtgcgcctcgctggaaaa'
'tctaactggtggaaaacgcctcgctg'
'tctaactggcgcctcgctgtggaaaa'
'tctaactggcgcctcgctggaaaatg'
'tctaactgggaaaacgcctcgctgtg'
'tctaactgggaaaatgcgcctcgctg'}
//对之前的gene序列随机打断成1-10的小片段
breaks={ 'tctaact' 'g' 'gcg' 'cctcgc' 'tgtggaaaa'};
//对此5个小片段全排列,可得120种不同序列
B={ 'tgtggaaaacctcgcgcggtctaact'
'tgtggaaaacctcgcgcgtctaactg'
'tgtggaaaacctcgcggcgtctaact'
'tgtggaaaacctcgcgtctaactgcg'
'tgtggaaaacctcgctctaactggcg'
'tgtggaaaacctcgctctaactgcgg'
'tgtggaaaagcgcctcgcgtctaact'
'tgtggaaaagcgcctcgctctaactg'
'tgtggaaaagcggcctcgctctaact'
'tgtggaaaagcggtctaactcctcgc'
'tgtggaaaagcgtctaactgcctcgc'
'tgtggaaaagcgtctaactcctcgcg'
'tgtggaaaaggcgcctcgctctaact'
'tgtggaaaaggcgtctaactcctcgc'
'tgtggaaaagcctcgcgcgtctaact'
'tgtggaaaagcctcgctctaactgcg'
'tgtggaaaagtctaactcctcgcgcg'
'tgtggaaaagtctaactgcgcctcgc'
'tgtggaaaatctaactgcggcctcgc'
'tgtggaaaatctaactgcgcctcgcg'
'tgtggaaaatctaactggcgcctcgc'
'tgtggaaaatctaactgcctcgcgcg'
'tgtggaaaatctaactcctcgcggcg'
'tgtggaaaatctaactcctcgcgcgg'
'cctcgctgtggaaaagcggtctaact'
'cctcgctgtggaaaagcgtctaactg'
'cctcgctgtggaaaaggcgtctaact'
'cctcgctgtggaaaagtctaactgcg'
'cctcgctgtggaaaatctaactggcg'
'cctcgctgtggaaaatctaactgcgg'
'cctcgcgcgtgtggaaaagtctaact'
'cctcgcgcgtgtggaaaatctaactg'
'cctcgcgcggtgtggaaaatctaact'
'cctcgcgcggtctaacttgtggaaaa'
'cctcgcgcgtctaactgtgtggaaaa'
'cctcgcgcgtctaacttgtggaaaag'
'cctcgcggcgtgtggaaaatctaact'
'cctcgcggcgtctaacttgtggaaaa'
'cctcgcgtgtggaaaagcgtctaact'
'cctcgcgtgtggaaaatctaactgcg'
'cctcgcgtctaacttgtggaaaagcg'
'cctcgcgtctaactgcgtgtggaaaa'
'cctcgctctaactgcggtgtggaaaa'
'cctcgctctaactgcgtgtggaaaag'
'cctcgctctaactggcgtgtggaaaa'
'cctcgctctaactgtgtggaaaagcg'
'cctcgctctaacttgtggaaaaggcg'
'cctcgctctaacttgtggaaaagcgg'
'gcgcctcgctgtggaaaagtctaact'
'gcgcctcgctgtggaaaatctaactg'
'gcgcctcgcgtgtggaaaatctaact'
'gcgcctcgcgtctaacttgtggaaaa'
'gcgcctcgctctaactgtgtggaaaa'
'gcgcctcgctctaacttgtggaaaag'
'gcgtgtggaaaacctcgcgtctaact'
'gcgtgtggaaaacctcgctctaactg'
'gcgtgtggaaaagcctcgctctaact'
'gcgtgtggaaaagtctaactcctcgc'
'gcgtgtggaaaatctaactgcctcgc'
'gcgtgtggaaaatctaactcctcgcg'
'gcggtgtggaaaacctcgctctaact'
'gcggtgtggaaaatctaactcctcgc'
'gcggcctcgctgtggaaaatctaact'
'gcggcctcgctctaacttgtggaaaa'
'gcggtctaactcctcgctgtggaaaa'
'gcggtctaacttgtggaaaacctcgc'
'gcgtctaacttgtggaaaagcctcgc'
'gcgtctaacttgtggaaaacctcgcg'
'gcgtctaactgtgtggaaaacctcgc'
'gcgtctaactgcctcgctgtggaaaa'
'gcgtctaactcctcgcgtgtggaaaa'
'gcgtctaactcctcgctgtggaaaag'
'gcctcgcgcgtgtggaaaatctaact'
'gcctcgcgcgtctaacttgtggaaaa'
'gcctcgctgtggaaaagcgtctaact'
'gcctcgctgtggaaaatctaactgcg'
'gcctcgctctaacttgtggaaaagcg'
'gcctcgctctaactgcgtgtggaaaa'
'ggcgcctcgctgtggaaaatctaact'
'ggcgcctcgctctaacttgtggaaaa'
'ggcgtgtggaaaacctcgctctaact'
'ggcgtgtggaaaatctaactcctcgc'
'ggcgtctaacttgtggaaaacctcgc'
'ggcgtctaactcctcgctgtggaaaa'
'gtgtggaaaagcgcctcgctctaact'
'gtgtggaaaagcgtctaactcctcgc'
'gtgtggaaaacctcgcgcgtctaact'
'gtgtggaaaacctcgctctaactgcg'
'gtgtggaaaatctaactcctcgcgcg'
'gtgtggaaaatctaactgcgcctcgc'
'gtctaactgcgtgtggaaaacctcgc'
'gtctaactgcgcctcgctgtggaaaa'
'gtctaacttgtggaaaagcgcctcgc'
'gtctaacttgtggaaaacctcgcgcg'
'gtctaactcctcgctgtggaaaagcg'
'gtctaactcctcgcgcgtgtggaaaa'
'tctaactcctcgcgcggtgtggaaaa'
'tctaactcctcgcgcgtgtggaaaag'
'tctaactcctcgcggcgtgtggaaaa'
'tctaactcctcgcgtgtggaaaagcg'
'tctaactcctcgctgtggaaaaggcg'
'tctaactcctcgctgtggaaaagcgg'
'tctaactgcgcctcgcgtgtggaaaa'
'tctaactgcgcctcgctgtggaaaag'
'tctaactgcggcctcgctgtggaaaa'
'tctaactgcggtgtggaaaacctcgc'
'tctaactgcgtgtggaaaagcctcgc'
'tctaactgcgtgtggaaaacctcgcg'
'tctaactggcgcctcgctgtggaaaa'
'tctaactggcgtgtggaaaacctcgc'
'tctaactgcctcgcgcgtgtggaaaa'
'tctaactgcctcgctgtggaaaagcg'
'tctaactgtgtggaaaacctcgcgcg'
'tctaactgtgtggaaaagcgcctcgc'
'tctaacttgtggaaaagcggcctcgc'
'tctaacttgtggaaaagcgcctcgcg'
'tctaacttgtggaaaaggcgcctcgc'
'tctaacttgtggaaaagcctcgcgcg'
'tctaacttgtggaaaacctcgcggcg'
'tctaacttgtggaaaacctcgcgcgg'};
//求A集合和B集合的交集
C=intersect(A, B);
C='tctaactggcgcctcgctgtggaaaa'//C恰好等于gene
以上所述,仅是本发明的较佳实施例,并非对本发明的技术范围作任何限制,本行业的技术人员,在本技术方案的启迪下,可以做出一些变形与修改,凡是依据本发明的技术实质对以上的实施例所作的任何修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (5)

1.一种用于长链分子的数学序列重建方法,其特征在于,所述的测序方法主要包括以下步骤:
1)提供一个个体中至少两个待测DNA分子链,或者对某个体的DNA链用PCR仪进行增殖,设DNA分子数量为X,X为≥2的自然数;
2)将所述X个DNA分子打断成碎片序列,形成X个基因文库;
3)对X个基因文库的基因片段进行测序,获得X个基因文库的片段信息集合;
4)将X个基因文库的碎片进行全排列拼接,获取可能性集合;
5)对可能性集合求交集;
6)判断交集中的元素数量,通过精确的元素数量等式,筛选得到正确的基因序列图谱。
2.根据权利要求1所述的一种用于长链分子的数学序列重建方法,其特征在于,当所述步骤5)的交集只有一个时,所得结果为所测试分子的序列结构;否则,重复所述步骤1)-5)进行测试和计算。
3.根据权利要求1所述的一种用于长链分子的数学序列重建方法,其特征在于,所述步骤3)中,设X个基因文库分别为基因文库A、基因文库B、…、基因文库X,基因文库A的片段信息为{A1,A2,A3,…,Am},基因文库B的片段信息为{B1,B2,B3,…,Bn },基因文库X的片段信息为{X1,X2,X3,…,Xn }。
4.根据权利要求1所述的一种用于长链分子的数学序列重建方法,其特征在于,所述步骤4)中,设可能性集合分别为集合A、集合B、…、集合X,步骤5)的交集为交集G,G=A∩B∩…∩X;当G中元素数量=0,则步骤6)结果判断为X个基因文库中存在错误测序;若G中元素数量=1,则步骤6)结果判断交集G为正确的基因序列图谱;若G中元素数量>1,则需要重复步骤1)-5)的测试和计算,直到G中元素数量=1时,得到正确的基因序列图谱。
5.根据权利要求1所述的一种用于长链分子的数学序列重建方法,其特征在于,所述步骤1)的DNA分子链还可以替换为单一蛋白质分子链、单一多糖链,以测定重建蛋白质、多糖序列。
CN201910035037.0A 2019-01-15 2019-01-15 一种用于长链分子的数学序列重建方法 Expired - Fee Related CN109801679B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910035037.0A CN109801679B (zh) 2019-01-15 2019-01-15 一种用于长链分子的数学序列重建方法
PCT/CN2020/071417 WO2020147657A1 (zh) 2019-01-15 2020-01-10 一种用于长链分子的数学序列重建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910035037.0A CN109801679B (zh) 2019-01-15 2019-01-15 一种用于长链分子的数学序列重建方法

Publications (2)

Publication Number Publication Date
CN109801679A true CN109801679A (zh) 2019-05-24
CN109801679B CN109801679B (zh) 2021-02-02

Family

ID=66558930

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910035037.0A Expired - Fee Related CN109801679B (zh) 2019-01-15 2019-01-15 一种用于长链分子的数学序列重建方法

Country Status (2)

Country Link
CN (1) CN109801679B (zh)
WO (1) WO2020147657A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020147657A1 (zh) * 2019-01-15 2020-07-23 广州柿宝生物科技有限公司 一种用于长链分子的数学序列重建方法
CN112599195A (zh) * 2020-11-30 2021-04-02 中国科学院深圳先进技术研究院 一种基因序列拼接方法及应用
CN113257351A (zh) * 2020-02-12 2021-08-13 赛纳生物科技(北京)有限公司 一种用于多碱基基因测序的基因文库及其构建方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040002116A1 (en) * 2002-01-23 2004-01-01 Council Of Scientific And Industrial Research Simple method of cloning, overexpressing and purifying lens protein tau-crystallin
JP2009089615A (ja) * 2007-10-04 2009-04-30 Kobelco Eco-Solutions Co Ltd プライマー、プライマーセット、硝酸還元細菌定量方法、ならびに、生物処理方法
CN101921840A (zh) * 2010-06-30 2010-12-22 深圳华大基因科技有限公司 一种基于dna分子标签技术和dna不完全打断策略的pcr测序方法
CN103388025A (zh) * 2013-07-10 2013-11-13 华中农业大学 基于克隆dna混合池的全基因组测序方法
CN104017883A (zh) * 2014-06-18 2014-09-03 深圳华大基因科技服务有限公司 组装基因组序列的方法和系统
CN106709273A (zh) * 2016-12-15 2017-05-24 国家海洋局第海洋研究所 基于微藻蛋白质特征序列标签匹配的蛋白质快速检测方法及系统
CN107577921A (zh) * 2017-08-25 2018-01-12 云壹生物技术(大连)有限公司 一种肿瘤靶向基因测序数据解析方法
CN108121897A (zh) * 2016-11-29 2018-06-05 华为技术有限公司 一种基因组变异检测方法及检测装置
CN108866173A (zh) * 2017-05-16 2018-11-23 深圳华大基因科技服务有限公司 一种标准序列的验证方法、装置及其应用

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6270961B1 (en) * 1987-04-01 2001-08-07 Hyseq, Inc. Methods and apparatus for DNA sequencing and DNA identification
CN1272551A (zh) * 2000-04-13 2000-11-08 上海交通大学 测定dna序列的方法
WO2003099999A2 (en) * 2002-05-20 2003-12-04 Abmaxis, Inc. Generation and selection of protein library in silico
SG11201408736SA (en) * 2012-06-29 2015-03-30 Massachusetts Inst Technology Massively parallel combinatorial genetics
CN108660200B (zh) * 2018-05-23 2022-10-18 北京希望组生物科技有限公司 一种检测短串联重复序列扩张的方法
CN109801679B (zh) * 2019-01-15 2021-02-02 广州柿宝生物科技有限公司 一种用于长链分子的数学序列重建方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040002116A1 (en) * 2002-01-23 2004-01-01 Council Of Scientific And Industrial Research Simple method of cloning, overexpressing and purifying lens protein tau-crystallin
JP2009089615A (ja) * 2007-10-04 2009-04-30 Kobelco Eco-Solutions Co Ltd プライマー、プライマーセット、硝酸還元細菌定量方法、ならびに、生物処理方法
CN101921840A (zh) * 2010-06-30 2010-12-22 深圳华大基因科技有限公司 一种基于dna分子标签技术和dna不完全打断策略的pcr测序方法
CN103388025A (zh) * 2013-07-10 2013-11-13 华中农业大学 基于克隆dna混合池的全基因组测序方法
CN104017883A (zh) * 2014-06-18 2014-09-03 深圳华大基因科技服务有限公司 组装基因组序列的方法和系统
CN108121897A (zh) * 2016-11-29 2018-06-05 华为技术有限公司 一种基因组变异检测方法及检测装置
CN106709273A (zh) * 2016-12-15 2017-05-24 国家海洋局第海洋研究所 基于微藻蛋白质特征序列标签匹配的蛋白质快速检测方法及系统
CN108866173A (zh) * 2017-05-16 2018-11-23 深圳华大基因科技服务有限公司 一种标准序列的验证方法、装置及其应用
CN107577921A (zh) * 2017-08-25 2018-01-12 云壹生物技术(大连)有限公司 一种肿瘤靶向基因测序数据解析方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020147657A1 (zh) * 2019-01-15 2020-07-23 广州柿宝生物科技有限公司 一种用于长链分子的数学序列重建方法
CN113257351A (zh) * 2020-02-12 2021-08-13 赛纳生物科技(北京)有限公司 一种用于多碱基基因测序的基因文库及其构建方法
CN112599195A (zh) * 2020-11-30 2021-04-02 中国科学院深圳先进技术研究院 一种基因序列拼接方法及应用
CN112599195B (zh) * 2020-11-30 2024-04-19 中国科学院深圳先进技术研究院 一种基因序列拼接方法及应用

Also Published As

Publication number Publication date
WO2020147657A1 (zh) 2020-07-23
CN109801679B (zh) 2021-02-02

Similar Documents

Publication Publication Date Title
EP4296899A2 (en) Deep learning-based techniques for pre-training deep convolutional neural networks
CN110010193B (zh) 一种基于混合策略的复杂结构变异检测方法
JP5068414B2 (ja) 少なくとも1つの順序づけされた制限酵素マップを使用して1つ以上の遺伝子配列マップの検証、アラインメントおよび再順序づけを行うためのシステムおよび方法
EP3901833A1 (en) Deep learning-based variant classifier
CN109801679A (zh) 一种用于长链分子的数学序列重建方法
CN104531848A (zh) 一种组装基因组序列的方法和系统
CN106068330A (zh) 将已知等位基因用于读数映射中的系统和方法
CN107533590A (zh) 核酸序列装配
CN101240341B (zh) 利用硫代寡核苷酸探针的dna测序方法
CN104711250A (zh) 一种长片段核酸文库的构建方法
CN117083680A (zh) 基于人工智能的癌症诊断和癌症类型预测方法
JP3675521B2 (ja) Dnaの塩基配列決定時におけるフラグメント波形表示方法および装置
Jiang et al. Assessing base-resolution DNA mechanics on the genome scale
CN108595914B (zh) 一种烟草线粒体rna编辑位点高精度预测方法
US20220364080A1 (en) Methods for dna library generation to facilitate the detection and reporting of low frequency variants
Hoffmann Computational analysis of high throughput sequencing data
CN109097458A (zh) 基于ngs读段搜索实现序列延伸的虚拟pcr方法
WO2017009718A1 (en) Automatic processing selection based on tagged genomic sequences
Kemena et al. MDAT-Aligning multiple domain arrangements
US20100221734A1 (en) Shotgun dna mapping by unzipping
Hou et al. DEEP-LONG: a fast and accurate aligner for long RNA-seq
Gambin et al. Computational Methods for the Analysis of Chromosomal Rearrangements
CN102140523B (zh) 高通量测序模板的原位复制及其增加阅读长度的测序方法
Durai Novel graph based algorithms for transcriptome sequence analysis
Parisi Novel Approaches and Algorithms for the Alignment of Third Generation Sequencing Long-Reads

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200122

Address after: 510000 unit 306, floor 3, building 1, No. 3, helix 4 road, international bio Island, Huangpu District, Guangzhou, Guangdong Province

Applicant after: GUANGZHOU SHIBAO BIOTECHNOLOGY Co.,Ltd.

Applicant after: ZHONGKAI University OF AGRICULTURE AND ENGINEERING

Address before: Haizhuqu District Zhongkai road Guangzhou City, Guangdong province 510000 No. 501

Applicant before: ZHONGKAI University OF AGRICULTURE AND ENGINEERING

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210202

Termination date: 20220115

CF01 Termination of patent right due to non-payment of annual fee