CN113782099B - 修补基因组序列组装缺口的方法和装置 - Google Patents

修补基因组序列组装缺口的方法和装置 Download PDF

Info

Publication number
CN113782099B
CN113782099B CN202111251612.4A CN202111251612A CN113782099B CN 113782099 B CN113782099 B CN 113782099B CN 202111251612 A CN202111251612 A CN 202111251612A CN 113782099 B CN113782099 B CN 113782099B
Authority
CN
China
Prior art keywords
assembly gap
sequence
gap
version
reference genome
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111251612.4A
Other languages
English (en)
Other versions
CN113782099A (zh
Inventor
周勋
王龙
田仕林
赵勇
周智伟
陶琳娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Novogene Technology Co ltd
Original Assignee
Beijing Novogene Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Novogene Technology Co ltd filed Critical Beijing Novogene Technology Co ltd
Priority to CN202111251612.4A priority Critical patent/CN113782099B/zh
Publication of CN113782099A publication Critical patent/CN113782099A/zh
Application granted granted Critical
Publication of CN113782099B publication Critical patent/CN113782099B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Engineering & Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供了一种修补基因组序列组装缺口的方法和装置。其中该方法包括:利用参考基因组序列信息与待修补基因组序列进行比对,获得组装缺口的第一版待替换序列信息;利用三代测序原始数据对第一版待替换序列信息进行二次检验和修正,并填补组装缺口,得到第一版修补后基因组序列;将第一版修补后基因组序列重新作为待修补基因组序列进行重复迭代,直至组装评估结果满足完整性要求,停止迭代;将停止迭代时对应的版本的修补后基因组序列作为终版修补缺口后的基因组序列;每次迭代所用的参考基因组序列信息为来源于同物种不同个体的参考基因组序列。该方法在需要计算的数据量、修复组装的完整性、计算的效率和结果展示方面均有较大提升。

Description

修补基因组序列组装缺口的方法和装置
技术领域
本发明涉及基因组测序组装领域,具体而言,涉及一种修补基因组序列组装缺口的方法和装置。
背景技术
基因测序技术,即测定基因序列的技术,对生物和医疗行业具有重大意义。第一代基因测序技术通常指sanger测序技术,随着测序技术的不断发展,拥有高通量、高精度、低成本的第二代基因测序技术逐渐成熟起来。但是,利用二代测序数据组装的基因组通常含有很多的缺口(gap),即便到了第三代基因组测序长读长时代,基因组组装零gap仍然是组装的难题。
基因组组装过程中,因数据缺失、重复、质量低等问题,会存在大量的gap区域,gap区域的存在使我们不能够获得基因组完整的序列信息,进而对基因的研究存在局限性。
目前比较常用的修补gap的方法是利用多个测序平台的数据进行填补,如pbjelly软件,该软件的原理是寻找重叠到gap区间的最优序列,从而进行修补,但是其软件需要内存较大,成本较高。
发明内容
本发明的主要目的在于提供一种修补基因组序列组装缺口的方法和装置,以解决现有技术中的修补方法成本高的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种修补基因组序列组装缺口的方法,该方法包括:利用参考基因组序列信息与待修补基因组序列进行比对,获得组装缺口的第一版待替换序列信息;利用三代测序原始数据对第一版待替换序列信息进行二次检验和修正,并填补组装缺口,得到第一版修补后基因组序列;将第一版修补后基因组序列重新作为待修补基因组序列进行重复迭代,直至组装评估结果满足完整性要求,停止迭代;将停止迭代时对应的版本的修补后基因组序列作为终版修补缺口后的基因组序列;其中,每次迭代所用的参考基因组序列信息为来源于同物种不同个体的参考基因组序列。
进一步地,利用参考基因组的序列信息与待修补基因组序列进行比对,获得组装缺口的第一版待替换序列信息包括:获取并统计待修补基因组的组装缺口的位点信息,得到缺口信息文件;提取组装缺口上下游4~6kb的序列作为缺口待比对序列,将缺口待比对序列与参考基因组的序列信息进行比对,得到比对矩阵文件;根据比对矩阵文件,获得组装缺口的第一版待替换序列信息。
进一步地,将缺口待比对序列与参考基因组的序列信息进行比对,得到比对矩阵文件包括:在缺口待比对序列中,对组装缺口的位置进行标记,得到带有序列标记的位点信息文件;将带有序列标记的位点信息文件与参考基因组序列进行比对,得到比对矩阵文件。
进一步地,根据比对矩阵文件,获得组装缺口的第一版待替换序列信息包括:依据得分最高且e值最小的原则,从比对矩阵文件中筛选组装缺口上下游4~6kb序列的最佳比对结果,得到初版比对结果;
从初版比对结果中筛选成对缺口区域且均比对到同一条scaffold上的区域作为候选区域,候选区域即为第一版待替换序列信息。
进一步地,成对缺口区域包括如下至少一种:
1)组装缺口上游片段ab比对到参考基因组补组装缺口区上游a’b’;组装缺口下游片段cd比对到参考基因组补组装缺口区下游c’d’;
2)组装缺口上游片段ab反向比对到参考基因组补组装缺口区上游b’a’;组装缺口下游片段cd比对到参考基因组补组装缺口区下游c’d’;
3)组装缺口上游片段ab比对到参考基因组补组装缺口区上游a’b’;组装缺口下游片段cd反向比对到参考基因组补组装缺口区下游d’c’;
4)组装缺口上游片段ab反向比对到参考基因组补组装缺口区上游b’a’;组装缺口下游片段cd反向比对到参考基因组补组装缺口区下游d’c’;
5)组装缺口上游片段ab反向比对到参考基因组补组装缺口区下游b’a’;组装缺口下游片段cd反向比对到参考基因组补组装缺口区上游d’c’;
6)组装缺口上游片段ab反向比对到参考基因组补组装缺口区下游b’a’;组装缺口下游片段cd比对到参考基因组补组装缺口区上游c’d’;
7)组装缺口上游片段ab比对到参考基因组补组装缺口区下游a’b’;组装缺口下游片段cd反向比对到参考基因组补组装缺口区上游d’c’;
8)组装缺口上游片段ab比对到参考基因组补组装缺口区下游a’b’;组装缺口下游片段cd比对到参考基因组补组装缺口区上游c’d’。
进一步地,利用三代测序原始数据对第一版待替换序列信息进行二次检验和修正,并填补组装缺口,得到第一版修补后基因组序列包括:利用三代原始测序数据与第一版待替换序列信息进行比对;去除三代原始测序数据中未跨越第一版待替换序列信息中的序列信息,并保留三代原始测序数据中能够跨越第一版待替换序列信息的序列信息,作为候选可替换序列信息;利用候选可替换序列信息对第一版待替换序列信息进行替换,从而填补组装缺口,得到第一版修补后基因组序列。
根据本申请的第二个方面,提供了一种修补基因组序列组装缺口的装置,该装置包括:获取模块,用于利用参考基因组序列信息与待修补基因组序列进行比对,获得组装缺口的第一版待替换序列信息;修正填补模块,用于利用三代测序原始数据对第一版待替换序列信息进行二次检验和修正,并填补组装缺口,得到第一版修补后基因组序列;迭代模块,用于将第一版修补后基因组序列重新作为待修补基因组序列进行重复迭代,直至组装评估结果满足完整性要求,停止迭代;其中,每次迭代所用的参考基因组序列信息为来源于同物种不同个体的参考基因组序列;输出模块,用于将停止迭代时对应的版本的修补后基因组序列作为终版修补缺口后的基因组序列输出。
进一步地,获取模块包括:第一获取元件,用于获取并统计待修补基因组的组装缺口的位点信息,得到缺口信息文件;提取元件,用于提取组装缺口上下游4~6kb的序列作为缺口待比对序列,第一比对元件,用于将缺口待比对序列与参考基因组的序列信息进行比对,得到比对矩阵文件;第二获取元件,根据比对矩阵文件,获得组装缺口的第一版待替换序列信息。
进一步地,第一比对元件包括:标记单元,用于在缺口待比对序列中,对组装缺口的位置进行标记,得到带有序列标记的位点信息文件;比对单元,用于将带有序列标记的位点信息文件与参考基因组序列进行比对,得到比对矩阵文件。
进一步地,第二获取元件包括:最佳比对单元,用于依据得分最高且e值最小的原则,从比对矩阵文件中筛选组装缺口上下游4~6kb序列的最佳比对结果,得到初版比对结果;筛选单元,用于从初版比对结果中筛选成对缺口区域且均比对到同一条scaffold上的区域作为候选区域,候选区域即为第一版待替换序列信息。
进一步地,成对缺口区域包括如下至少一种:
1)组装缺口上游片段ab比对到参考基因组补组装缺口区上游a’b’;组装缺口下游片段cd比对到参考基因组补组装缺口区下游c’d’;
2)组装缺口上游片段ab反向比对到参考基因组补组装缺口区上游b’a’;组装缺口下游片段cd比对到参考基因组补组装缺口区下游c’d’;
3)组装缺口上游片段ab比对到参考基因组补组装缺口区上游a’b’;组装缺口下游片段cd反向比对到参考基因组补组装缺口区下游d’c’;
4)组装缺口上游片段ab反向比对到参考基因组补组装缺口区上游b’a’;组装缺口下游片段cd反向比对到参考基因组补组装缺口区下游d’c’;
5)组装缺口上游片段ab反向比对到参考基因组补组装缺口区下游b’a’;组装缺口下游片段cd反向比对到参考基因组补组装缺口区上游d’c’;
6)组装缺口上游片段ab反向比对到参考基因组补组装缺口区下游b’a’;组装缺口下游片段cd比对到参考基因组补组装缺口区上游c’d’;
7)组装缺口上游片段ab比对到参考基因组补组装缺口区下游a’b’;组装缺口下游片段cd反向比对到参考基因组补组装缺口区上游d’c’;
8)组装缺口上游片段ab比对到参考基因组补组装缺口区下游a’b’;组装缺口下游片段cd比对到参考基因组补组装缺口区上游c’d’。
进一步地,修正填补模块包括:第二比对元件,用于利用三代原始测序数据与第一版待替换序列信息进行比对;去除保留元件,用于去除三代原始测序数据中未跨越第一版待替换序列信息中的序列信息,并保留三代原始测序数据中能够跨越第一版待替换序列信息的序列信息,作为候选可替换序列信息;替换填补元件,用于利用候选可替换序列信息对第一版待替换序列信息进行替换,从而填补组装缺口,得到第一版修补后基因组序列。
为了实现上述目的,根据本发明的一个方面,提供了一种计算机可读的存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述修补基因组序列组装缺口的方法。
为了实现上述目的,根据本发明的一个方面,提供了一种电子设备,电子设备包括处理器,处理器用于运行程序,其中,程序运行时执行上述修补基因组序列组装缺口的方法。
应用本发明的技术方案,利用多序列比对的方法,通过比较参考基因组序列及利用三代测序数据通过生物信息学方法对数据进行处理,从而能够获得基因组gap位置碱基信息并进行填补,并通过迭代及多个不同的参考基因组对gap区域进行验证和修补,从而不仅解决gap区域基因组序列信息不完整问题,提高了gap区域填补的准确性。而且使用内存小,可以在个人计算机中完成。
附图说明
构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了根据本发明的优选的实施例2的修补基因组序列组装缺口的方法的流程示意图;
图2示出了根据本发明的优选的实施例2中的修补组装缺口的8种情况;
图3示出了本申请实施例4中的修补基因组序列组装缺口的装置的结构示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将结合实施例来详细说明本发明。
术语解释:
Reads:高通量测序平台产生的短序列即为reads,或者PacBio单分子实时测序(single molecule real time,SMRT,包括CLR和HIFI数据),ONT(Oxford NanoporeTechnologies)测序产生的长序列,即为reads。
序列组装(Sequence Assembly):就是把基因组长的序列打断,由于不知道基因组整条序列是如何排列(成一条链,最后成为一条染色体)组合(如何区分不同染色体)的,而现有测序技术又无法实现一次把整条长序列完整测序,通过算法,计算机的帮助,把这些短的序列组装起来成为一条完整有序的序列。序列组装包括两种情况,第一种是有参考基因组序列,对重测序的序列进行组装,则可以用MAQ进行组装(即Map to reference genome);第二种对新物种进行从头测序(de novo sequencing),则可以用二代组装软件soapdenovo或者三代组装软件canu进行组装(即De novo assembly)。
Contig:拼接软件基于reads之间的overlap区,拼接获得的序列称为Contig(重叠群),无N。
Contig N50:将所有Contigs按照从长到短进行排序,并顺次相加,当相加的长度达到Contig总长度的一半时,最后一个加上的Contig的长度即为Contig N50。Contig N50是基因组拼接结果好坏的一个判定标准。
Scaffold:基因组 de novo测序,通过reads拼接获得Contigs后,根据确定的一些Contig之间的顺序关系而组装成的更长的片段称为Scaffold(含N)。获得Contig之后,通过构建paried-end或者mate-pair库或者Hi-C文库,从而获得一定片段的两端序列,这些序列可以确定Contig的顺序关系和位置关系,最后Contig按照一定顺序和方向组成Scaffold,其中,形成Scaffold的过程中还需要填补contig之间的空缺(gap)。
Scaffold N50:与Contig N50的涵义类似。将所有Scaffolds按照从长到短进行排序,并顺次相加,当相加的长度达到Scaffold总长度的一半时,最后一个加上的Scaffold的长度即为Scaffold N50。Scaffold N50是基因组拼接结果好坏的一个判定标准。
如背景技术部分所提到的,基因组组装过程中gap区域的产生是由于基因组重复序列、测序数据缺失、测序质量低等原因造成,从而使基因组组装结果为大量的片段(contigs 或 scaffolds)信息,为获得完整的基因组全序列信息,需要对基因组片段中的gap进行填补。为改善这一现状,本申请提出了新的改进方案,具体如下。
实施例1
本实施例提供了一种修补基因组序列组装缺口的方法,该方法包括:
S101,利用参考基因组序列信息与待修补基因组序列进行比对,获得组装缺口的第一版待替换序列信息;
S102,利用三代测序原始数据对第一版待替换序列信息进行二次检验和修正,并填补组装缺口,得到第一版修补后基因组序列;
S103,将第一版修补后基因组序列重新作为待修补基因组序列进行重复迭代,直至组装评估结果满足完整性要求,停止迭代;其中,每次迭代所用的参考基因组序列信息为来源于同物种不同个体的参考基因组序列;
S104,将停止迭代时对应的版本的修补后基因组序列作为终版修补缺口后的基因组序列;
该实施例中,通过将初步组装有gap的基因组序列与数据库中已发布的该物种参考基因组进行序列比对获得gap位置信息,运用生物信息学方法对基因组gap进行填补,再将用于组装的三代测序原始数据与补完gap后的基因组序列进行比对,验证gap的起始和终止位置的正确性,从而获得填补gap后的基因序列。然后通过重复迭代,并在不同轮次的迭代步骤中,采用已经公布的该同一物种的不同个体的参考基因组序列进行比对,进一步提高了修补后的基因组序列的完整性。
相比对仅用参考基因组补gap的方法,本实施例的方法,在使用参考基因组补gap的同时,增加了基于三代测序原始数据三代数据进一步验证的步骤,提高了gap补完后基因组序列的可信度。
需要说明的是,由于三代测序数据的读长较长,常用来对基因组序列进行组装。本申请中的三代测序数据可以是同一批次的测序数据,也可以是不同批次的测序数据,均不影响组装结果。
在一种优选的实施例中,S101包括:获取并统计待修补基因组的组装缺口的位点信息,得到缺口信息文件;提取组装缺口上下游4~6kb,优选5kb,的序列作为缺口待比对序列,将缺口待比对序列与参考基因组的序列信息进行比对,得到比对矩阵文件;根据比对矩阵文件,获得组装缺口的第一版待替换序列信息。
需要说明的是,上述缺口信息文件至少包括:染色体编号、同一染色体缺口编号、缺口起始位点、缺口终止位点及缺口长度。
在一种优选的实施例中,将缺口待比对序列与参考基因组的序列信息进行比对,得到比对矩阵文件包括:在缺口待比对序列中,对组装缺口的位置进行标记,得到带有序列标记的位点信息文件;将带有序列标记的位点信息文件与参考基因组序列进行比对,得到比对矩阵文件。具体对比的软件可以采用blast,获得的文件的格式根据需要进行合理选择,比如,选择m8格式。
在一种优选的实施例中,根据比对矩阵文件,获得组装缺口的第一版待替换序列信息包括:依据得分最高且e值最小的原则,从比对矩阵文件中筛选组装缺口上下游4~6kb序列的最佳比对结果,得到初版比对结果;从初版比对结果中筛选成对缺口区域且均比对到同一条scaffold上的区域作为候选区域,候选区域即为第一版待替换序列信息。
上述优选实施例中,通过在参考基因组比对时,仅筛选blast比对到gap两端为最优比对且比对到一条contig上的区域作为候选补gap区域,提高了比对结果的可信度。即在选取候选补gap区域时,设置了更为严格的比对条件,使比对结果更加可靠。
上述成对缺口区域包括但不限于如下至少一种:1)组装缺口上游片段ab比对到参考基因组补组装缺口区上游a’b’;组装缺口下游片段cd比对到参考基因组补组装缺口区下游c’d’;2)组装缺口上游片段ab反向比对到参考基因组补组装缺口区上游b’a’;组装缺口下游片段cd比对到参考基因组补组装缺口区下游c’d’;3)组装缺口上游片段ab比对到参考基因组补组装缺口区上游a’b’;组装缺口下游片段cd反向比对到参考基因组补组装缺口区下游d’c’;4)组装缺口上游片段ab反向比对到参考基因组补组装缺口区上游b’a’;组装缺口下游片段cd反向比对到参考基因组补组装缺口区下游d’c’;5)组装缺口上游片段ab反向比对到参考基因组补组装缺口区下游b’a’;组装缺口下游片段cd反向比对到参考基因组补组装缺口区上游d’c’;6)组装缺口上游片段ab反向比对到参考基因组补组装缺口区下游b’a’;组装缺口下游片段cd比对到参考基因组补组装缺口区上游c’d’;7)组装缺口上游片段ab比对到参考基因组补组装缺口区下游a’b’;组装缺口下游片段cd反向比对到参考基因组补组装缺口区上游d’c’;8)组装缺口上游片段ab比对到参考基因组补组装缺口区下游a’b’;组装缺口下游片段cd比对到参考基因组补组装缺口区上游c’d’。
上述优选实施例提供了8种潜在的补gap的情况,便于准确修补gap。上述“比对到参考基因组补组装缺口区”上游或下游,是指比对到参考基因组的对应于缺口区的上游或下游。
在一种优选的实施例中,S102包括:利用三代原始测序数据与第一版待替换序列信息进行比对;去除三代原始测序数据中未跨越第一版待替换序列信息中的序列信息,并保留三代原始测序数据中能够跨越第一版待替换序列信息的序列信息,作为候选可替换序列信息;利用候选可替换序列信息对第一版待替换序列信息进行替换,从而填补组装缺口,得到第一版修补后基因组序列。
需要说明的是,上述迭代的过程,是将得到第一版修补后基因组序列作为初始的待修补基因组序列进行处理。序列组装结果的完整性评估采用本领域常用的contig N50或Scaffold N50等指标进行评估即可。
下面将结合其他的实施例来进一步说明本申请的有益效果。
实施例2
本实施例提供了一种基因组序列比对修补gap的生物信息学方法。本实施例基于已发表且完整性较好的参考基因组序列,下载并格式化已发表的该物种基因组序列,得到格式化的基因组序列,通过生物信息学方法比对获得gap位置,并进行基因组gap序列填补。
如图1所示 ,本实施例的修补gap的具体方法如下:
1)对目标基因组鉴定gap区域,统计目标基因组gap位点信息,得到gap信息文件,此文件共五列,分别为染色体编号、同一染色体gap编号、gap起始位点、gap终止位点、gap长度。
2)提取gap区域上下游5kb序列,并标记好位点信息,得到带有序列标记位点信息的fasta格式文件。
3)通过blast比对软件,对步骤2)得到的带有序列标记位点信息的fasta格式文件与步骤1)参考基因组序列进行全局比对,得到m8格式的矩阵文件(m8格式是blast比对结果保存时的一种可选的文件保存格式,具体包括12列信息,比如:查询序列的名称、比对上的目标序列的名称、序列比对的同一性,即%identity、比对区域的长度、比对区域错配碱基数、比对区域gap数目、查询序列在比对区域在的起始位点、查询序列在比对区域在的终止位点、目标序列在比对区域的起始位点、目标序列在比对区域的终止位点、比对的e值,即期望值,e值越小表明真实性越高,最后是比对结果的bit得分值)。
4)对步骤(4)得到的比对结果,依据得分最高且e值最小筛选gap区域上下游5K序列获得最佳比对结果。
5)筛选成对gap区域且均比对到同一条scaffold上作为候选区域。
6)成对gap区域指以下8种情况的待替换位点,获取这8种位点的对应关系文件。如图2所示,这8种情况分别为:
1、 gap上游片段ab比对到参考基因组补gap区上游a’b’;gap下游片段cd比对到参考基因组补gap区下游c’d’;
2、gap上游片段ab反向比对到参考基因组补gap区上游b’a’;gap下游片段cd比对到参考基因组补gap区下游c’d’;
3、gap上游片段ab比对到参考基因组补gap区上游a’b’;gap下游片段cd反向比对到参考基因组补gap区下游d’c’;
4、gap上游片段ab反向比对到参考基因组补gap区上游b’a’;gap下游片段cd反向比对到参考基因组补gap区下游d’c’
5、gap上游片段ab反向比对到参考基因组补gap区下游b’a’;gap下游片段cd反向比对到参考基因组补gap区上游d’c’;
6、gap上游片段ab反向比对到参考基因组补gap区下游b’a’;gap下游片段cd比对到参考基因组补gap区上游c’d’;
7、gap上游片段ab比对到参考基因组补gap区下游a’b’;gap下游片段cd反向比对到参考基因组补gap区上游d’c’;
8、gap上游片段ab比对到参考基因组补gap区下游a’b’;gap下游片段cd比对到参考基因组补gap区上游c’d’。
7)用minimap2软件将三代reads比对到gap临界点上下游500bp,如果三代reads没有跨过此位点,则过滤掉假阳性位点。
8)根据步骤7)的结果进行填补获得补gap后基因组序列。
9)得到步骤8)的基因组再次迭代步骤1)至步骤8)。
10)经过评估组装的完整性,最终得到填补gap后的基因组序列。
实施例3
采用实施例2的方法通过对烟草、大豆等初步组装的基因组进行gap填补,填补gap前后的比对数据见下表1和表2。从表中可以看出,填补gap后的组装结果中,N50指标及基因组完整性都有显著的提升。
表1:烟草补gap前后对比:
Figure DEST_PATH_IMAGE001
表2:大豆补gap前后对比:
Figure 40386DEST_PATH_IMAGE002
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如 ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
对应于上述方式,本申请还分别提供了装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
下面结合可选的实施例进一步说明。
实施例4
本实施例提供了一种修补基因组序列组装缺口的装置,如图3所示,该装置包括:获取模块10、修正填补模块20、迭代模块30及输出模块40,其中,
获取模块10,用于利用参考基因组序列信息与待修补基因组序列进行比对,获得组装缺口的第一版待替换序列信息;
修正填补模块20,用于利用三代测序原始数据对第一版待替换序列信息进行二次检验和修正,并填补组装缺口,得到第一版修补后基因组序列;
迭代模块30,用于将第一版修补后基因组序列重新作为待修补基因组序列进行重复迭代,直至组装评估结果满足完整性要求,停止迭代;其中,每次迭代所用的参考基因组序列信息为来源于同物种不同个体的参考基因组序列;
输出模块40,用于将停止迭代时对应的版本的修补后基因组序列作为终版修补缺口后的基因组序列输出。
可选地,获取模块包括:第一获取元件,用于获取并统计待修补基因组的组装缺口的位点信息,得到缺口信息文件;提取元件,用于提取组装缺口上下游4~6kb的序列作为缺口待比对序列,第一比对元件,用于将缺口待比对序列与参考基因组的序列信息进行比对,得到比对矩阵文件;第二获取元件,根据比对矩阵文件,获得组装缺口的第一版待替换序列信息。
可选地,第一比对元件包括:标记单元,用于在缺口待比对序列中,对组装缺口的位置进行标记,得到带有序列标记的位点信息文件;比对单元,用于将带有序列标记的位点信息文件与参考基因组序列进行比对,得到比对矩阵文件。
可选地,第二获取元件包括:最佳比对单元,用于依据得分最高且e值最小的原则,从比对矩阵文件中筛选组装缺口上下游4~6kb序列的最佳比对结果,得到初版比对结果;筛选单元,用于从初版比对结果中筛选成对缺口区域且均比对到同一条scaffold上的区域作为候选区域,候选区域即为第一版待替换序列信息。
可选地,成对缺口区域包括如下至少一种:1)组装缺口上游片段ab比对到参考基因组补组装缺口区上游a’b’;组装缺口下游片段cd比对到参考基因组补组装缺口区下游c’d’;2)组装缺口上游片段ab反向比对到参考基因组补组装缺口区上游b’a’;组装缺口下游片段cd比对到参考基因组补组装缺口区下游c’d’;3)组装缺口上游片段ab比对到参考基因组补组装缺口区上游a’b’;组装缺口下游片段cd反向比对到参考基因组补组装缺口区下游d’c’;4)组装缺口上游片段ab反向比对到参考基因组补组装缺口区上游b’a’;组装缺口下游片段cd反向比对到参考基因组补组装缺口区下游d’c’;5)组装缺口上游片段ab反向比对到参考基因组补组装缺口区下游b’a’;组装缺口下游片段cd反向比对到参考基因组补组装缺口区上游d’c’;6)组装缺口上游片段ab反向比对到参考基因组补组装缺口区下游b’a’;组装缺口下游片段cd比对到参考基因组补组装缺口区上游c’d’;7)组装缺口上游片段ab比对到参考基因组补组装缺口区下游a’b’;组装缺口下游片段cd反向比对到参考基因组补组装缺口区上游d’c’;8)组装缺口上游片段ab比对到参考基因组补组装缺口区下游a’b’;组装缺口下游片段cd比对到参考基因组补组装缺口区上游c’d’。
可选地,修正填补模块包括:第二比对元件,用于利用三代原始测序数据与第一版待替换序列信息进行比对;去除保留元件,用于去除三代原始测序数据中未跨越第一版待替换序列信息中的序列信息,并保留三代原始测序数据中能够跨越第一版待替换序列信息的序列信息,作为候选可替换序列信息;替换填补元件,用于利用候选可替换序列信息对第一版待替换序列信息进行替换,从而填补组装缺口,得到第一版修补后基因组序列。
实施例5
本实施例提供了一种计算机可读的存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述任一种修补基因组序列组装缺口的方法。
本实施例还提供了一种电子设备,包括处理器,处理器用于运行程序,其中,程序运行时执行上述任一种修补基因组序列组装缺口的方法。
从以上的描述中,可以看出,与现有的基因组修补gap相比,本发明提供一种修补基因组序列组装缺口的方法,根据发明的方法,1)通过在参考基因组比对时,仅筛选blast比对到gap两端为最优比对且比对到一条contig上的区域作为候选补gap区域,提高了比对结果的可信度。2)提供了8种潜在的补gap的情况,最终确定了可以作为补gap的情况;3)基于三代数据进一步验证了提高了gap补完后基因组序列的可信度。
与相比现有技术,本申请的方案至少具有以下优点:本发明不仅适合小基因组,也适合大基因组,主要在超级计算机中运行,能节约大量内存。对1G左右基因组,pbjelly软件使用三代原始数据补gap的内存一般为1T以上,本发明对1G左右基因组补gap使用内存仅为20G;因而,本发明的方法也可以在个人计算机中完成。总之,本发明的方案在需要计算的数据量、计算的模型完整度、计算的效率和结果展示方面都较现有技术都有显著提升,具体如下表。
表3:
Figure 729164DEST_PATH_IMAGE003
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种修补基因组序列组装缺口的方法,其特征在于,所述方法包括:
利用参考基因组序列信息与待修补基因组序列进行比对,获得组装缺口的第一版待替换序列信息;
利用三代测序原始数据对所述第一版待替换序列信息进行二次检验和修正,并填补所述组装缺口,得到第一版修补后基因组序列;
将所述第一版修补后基因组序列重新作为所述待修补基因组序列进行重复迭代,直至组装评估结果满足完整性要求,停止迭代;
将停止迭代时对应的版本的修补后基因组序列作为终版修补缺口后的基因组序列;
其中,每次迭代所用的参考基因组序列信息为来源于同物种不同个体的参考基因组序列;
利用参考基因组的序列信息与待修补基因组序列进行比对,获得组装缺口的第一版待替换序列信息包括:
获取并统计所述待修补基因组的组装缺口的位点信息,得到缺口信息文件;
提取所述组装缺口上下游4~6kb的序列作为缺口待比对序列,
将所述缺口待比对序列与所述参考基因组的序列信息进行比对,得到比对矩阵文件;
根据所述比对矩阵文件,获得所述组装缺口的所述第一版待替换序列信息;
根据所述比对矩阵文件,获得所述组装缺口的所述第一版待替换序列信息包括:
依据得分最高且e值最小的原则,从所述比对矩阵文件中筛选所述组装缺口上下游4~6kb序列的最佳比对结果,得到初版比对结果;
从所述初版比对结果中筛选成对缺口区域且均比对到同一条scaffold上的区域作为候选区域,所述候选区域即为所述第一版待替换序列信息;
所述成对缺口区域包括如下至少一种:
1)组装缺口上游片段ab比对到参考基因组补组装缺口区上游a’b’;组装缺口下游片段cd比对到参考基因组补组装缺口区下游c’d’;
2)组装缺口上游片段ab反向比对到参考基因组补组装缺口区上游b’a’;组装缺口下游片段cd比对到参考基因组补组装缺口区下游c’d’;
3)组装缺口上游片段ab比对到参考基因组补组装缺口区上游a’b’;组装缺口下游片段cd反向比对到参考基因组补组装缺口区下游d’c’;
4)组装缺口上游片段ab反向比对到参考基因组补组装缺口区上游b’a’;组装缺口下游片段cd反向比对到参考基因组补组装缺口区下游d’c’;
5)组装缺口上游片段ab反向比对到参考基因组补组装缺口区下游b’a’;组装缺口下游片段cd反向比对到参考基因组补组装缺口区上游d’c’;
6)组装缺口上游片段ab反向比对到参考基因组补组装缺口区下游b’a’;组装缺口下游片段cd比对到参考基因组补组装缺口区上游c’d’;
7)组装缺口上游片段ab比对到参考基因组补组装缺口区下游a’b’;组装缺口下游片段cd反向比对到参考基因组补组装缺口区上游d’c’;
8)组装缺口上游片段ab比对到参考基因组补组装缺口区下游a’b’;组装缺口下游片段cd比对到参考基因组补组装缺口区上游c’d’。
2.根据权利要求1所述的方法,其特征在于,将所述缺口待比对序列与所述参考基因组的序列信息进行比对,得到比对矩阵文件包括:
在所述缺口待比对序列中,对所述组装缺口的位置进行标记,得到带有序列标记的位点信息文件;
将所述带有序列标记的位点信息文件与所述参考基因组序列进行比对,得到比对矩阵文件。
3.根据权利要求1或2所述的方法,其特征在于,利用三代测序原始数据对所述第一版待替换序列信息进行二次检验和修正,并填补所述组装缺口,得到第一版修补后基因组序列包括:
利用三代原始测序数据与所述第一版待替换序列信息进行比对;
去除所述三代原始测序数据中未跨越所述第一版待替换序列信息中的序列信息,并保留所述三代原始测序数据中能够跨越所述第一版待替换序列信息的序列信息,作为候选可替换序列信息;
利用所述候选可替换序列信息对所述第一版待替换序列信息进行替换,从而填补所述组装缺口,得到所述第一版修补后基因组序列。
4.一种修补基因组序列组装缺口的装置,其特征在于,所述装置包括:
获取模块,用于利用参考基因组序列信息与待修补基因组序列进行比对,获得组装缺口的第一版待替换序列信息;
修正填补模块,用于利用三代测序原始数据对所述第一版待替换序列信息进行二次检验和修正,并填补所述组装缺口,得到第一版修补后基因组序列;
迭代模块,用于将所述第一版修补后基因组序列重新作为所述待修补基因组序列进行重复迭代,直至组装评估结果满足完整性要求,停止迭代;其中,每次迭代所用的参考基因组序列信息为来源于同物种不同个体的参考基因组序列;
输出模块,用于将停止迭代时对应的版本的修补后基因组序列作为终版修补缺口后的基因组序列输出;
所述获取模块包括:
第一获取元件,用于获取并统计所述待修补基因组的组装缺口的位点信息,得到缺口信息文件;
提取元件,用于提取所述组装缺口上下游4~6kb的序列作为缺口待比对序列,
第一比对元件,用于将所述缺口待比对序列与所述参考基因组的序列信息进行比对,得到比对矩阵文件;
第二获取元件,根据所述比对矩阵文件,获得所述组装缺口的所述第一版待替换序列信息;
所述第二获取元件包括:
最佳比对单元,用于依据得分最高且e值最小的原则,从所述比对矩阵文件中筛选所述组装缺口上下游4~6kb序列的最佳比对结果,得到初版比对结果;
筛选单元,用于从所述初版比对结果中筛选成对缺口区域且均比对到同一条scaffold上的区域作为候选区域,所述候选区域即为所述第一版待替换序列信息;
所述成对缺口区域包括如下至少一种:
1)组装缺口上游片段ab比对到参考基因组补组装缺口区上游a’b’;组装缺口下游片段cd比对到参考基因组补组装缺口区下游c’d’;
2)组装缺口上游片段ab反向比对到参考基因组补组装缺口区上游b’a’;组装缺口下游片段cd比对到参考基因组补组装缺口区下游c’d’;
3)组装缺口上游片段ab比对到参考基因组补组装缺口区上游a’b’;组装缺口下游片段cd反向比对到参考基因组补组装缺口区下游d’c’;
4)组装缺口上游片段ab反向比对到参考基因组补组装缺口区上游b’a’;组装缺口下游片段cd反向比对到参考基因组补组装缺口区下游d’c’;
5)组装缺口上游片段ab反向比对到参考基因组补组装缺口区下游b’a’;组装缺口下游片段cd反向比对到参考基因组补组装缺口区上游d’c’;
6)组装缺口上游片段ab反向比对到参考基因组补组装缺口区下游b’a’;组装缺口下游片段cd比对到参考基因组补组装缺口区上游c’d’;
7)组装缺口上游片段ab比对到参考基因组补组装缺口区下游a’b’;组装缺口下游片段cd反向比对到参考基因组补组装缺口区上游d’c’;
8)组装缺口上游片段ab比对到参考基因组补组装缺口区下游a’b’;组装缺口下游片段cd比对到参考基因组补组装缺口区上游c’d’。
5.根据权利要求4所述的装置,其特征在于,所述第一比对元件包括:
标记单元,用于在所述缺口待比对序列中,对所述组装缺口的位置进行标记,得到带有序列标记的位点信息文件;
比对单元,用于将所述带有序列标记的位点信息文件与所述参考基因组序列进行比对,得到比对矩阵文件。
6.根据权利要求4或5所述的装置,其特征在于,所述修正填补模块包括:
第二比对元件,用于利用三代原始测序数据与所述第一版待替换序列信息进行比对;
去除保留元件,用于去除所述三代原始测序数据中未跨越所述第一版待替换序列信息中的序列信息,并保留所述三代原始测序数据中能够跨越所述第一版待替换序列信息的序列信息,作为候选可替换序列信息;
替换填补元件,用于利用所述候选可替换序列信息对所述第一版待替换序列信息进行替换,从而填补所述组装缺口,得到所述第一版修补后基因组序列。
7.一种计算机可读的存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至3中任意一项所述的修补基因组序列组装缺口的方法。
8.一种电子设备,所述电子设备包括处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至3中任意一项所述的修补基因组序列组装缺口的方法。
CN202111251612.4A 2021-10-27 2021-10-27 修补基因组序列组装缺口的方法和装置 Active CN113782099B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111251612.4A CN113782099B (zh) 2021-10-27 2021-10-27 修补基因组序列组装缺口的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111251612.4A CN113782099B (zh) 2021-10-27 2021-10-27 修补基因组序列组装缺口的方法和装置

Publications (2)

Publication Number Publication Date
CN113782099A CN113782099A (zh) 2021-12-10
CN113782099B true CN113782099B (zh) 2022-03-04

Family

ID=78956699

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111251612.4A Active CN113782099B (zh) 2021-10-27 2021-10-27 修补基因组序列组装缺口的方法和装置

Country Status (1)

Country Link
CN (1) CN113782099B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108460245A (zh) * 2017-02-21 2018-08-28 深圳华大基因科技服务有限公司 使用三代序列优化二代组装结果的方法和装置
CN108763871A (zh) * 2018-06-05 2018-11-06 南京诺禾致源生物科技有限公司 基于第三代测序序列的补洞方法及装置
CN110310702A (zh) * 2018-03-16 2019-10-08 深圳华大基因科技服务有限公司 一种基因组测序组装结果修复的方法、装置和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107784201B (zh) * 2016-08-26 2021-05-28 深圳华大基因科技服务有限公司 一种二代序列和三代单分子实时测序序列联合补洞方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108460245A (zh) * 2017-02-21 2018-08-28 深圳华大基因科技服务有限公司 使用三代序列优化二代组装结果的方法和装置
CN110310702A (zh) * 2018-03-16 2019-10-08 深圳华大基因科技服务有限公司 一种基因组测序组装结果修复的方法、装置和存储介质
CN108763871A (zh) * 2018-06-05 2018-11-06 南京诺禾致源生物科技有限公司 基于第三代测序序列的补洞方法及装置

Also Published As

Publication number Publication date
CN113782099A (zh) 2021-12-10

Similar Documents

Publication Publication Date Title
CN110491441B (zh) 一种模拟人群背景信息的基因测序数据仿真系统及方法
Myers The fragment assembly string graph
Sundquist et al. Whole-genome sequencing and assembly with high-throughput, short-read technologies
Aronesty Comparison of sequencing utility programs
CN113496760B (zh) 基于第三代测序的多倍体基因组组装方法和装置
Batzoglou et al. ARACHNE: a whole-genome shotgun assembler
CN107784201B (zh) 一种二代序列和三代单分子实时测序序列联合补洞方法和系统
Dündar et al. Introduction to differential gene expression analysis using RNA-seq
CN107944228B (zh) 一种基因测序变异位点的可视化方法
CN108460245B (zh) 使用三代序列优化二代组装结果的方法和装置
CN112086131B (zh) 一种重测序数据库中假阳性变异位点的筛选方法
Mukherjee et al. Error correcting optical mapping data
CN113205857B (zh) 基因组性染色体非同源区域的鉴定方法和装置
Ludwig et al. DENTIST—using long reads for closing assembly gaps at high accuracy
CN113782099B (zh) 修补基因组序列组装缺口的方法和装置
CN110782946A (zh) 识别重复序列的方法及装置、存储介质、电子设备
Pachter et al. A dictionary based approach for gene annotation
Alachiotis et al. ChromatoGate: a tool for detecting base mis-calls in multiple sequence alignments by semi-automatic chromatogram inspection
CN105069325A (zh) 一种对核酸序列信息进行匹配的方法
JP2005276040A (ja) デグレード確認検査方法、デグレード確認検査システム、およびそのためのプログラム
CN107688727B (zh) 生物序列聚类和全长转录组中转录本亚型识别方法和装置
KR102219745B1 (ko) 생물학적 서열 데이터 처리 방법 및 장치
CN114661671A (zh) 文件处理方法、装置、计算机可读存储介质及电子设备
CN111984624A (zh) 一种通过矫正迁移模型进行数据迁移的方法及系统
Aluru et al. Improved inference of tandem domain duplications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant