CN115831222A - 一种基于三代测序的全基因组结构变异鉴定方法 - Google Patents

一种基于三代测序的全基因组结构变异鉴定方法 Download PDF

Info

Publication number
CN115831222A
CN115831222A CN202211642169.8A CN202211642169A CN115831222A CN 115831222 A CN115831222 A CN 115831222A CN 202211642169 A CN202211642169 A CN 202211642169A CN 115831222 A CN115831222 A CN 115831222A
Authority
CN
China
Prior art keywords
variant dna
cluster
sequencing
dna fragment
signals
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211642169.8A
Other languages
English (en)
Inventor
胡江
王洋
汪德鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Grandomics Biosciences Co ltd
Original Assignee
Grandomics Biosciences Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Grandomics Biosciences Co ltd filed Critical Grandomics Biosciences Co ltd
Priority to CN202211642169.8A priority Critical patent/CN115831222A/zh
Publication of CN115831222A publication Critical patent/CN115831222A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明的实施例公开了一种基于三代测序的全基因组结构变异鉴定方法,包括:将待测序数据与预设参考基因组进行比对,并将预设比对文件进行排序,构建索引;针对每一条测序读段,对其碱基比对情况进行解析,进行SV鉴定,鉴定是否包含变异DNA片段的信号;对错误及重叠的变异DNA片段信号进行修正;输出修正后的序列,与预设参考基因组进行对比,进行SV鉴定,输出鉴定结果;根据鉴定结果,对待测序数据进行分型。本发明能够针对高错误的三代测序序列,提高检测准确性和灵敏性,以及比对边界;提高复杂或者较长的变异DNA片段的鉴定准确性;准确区分距离接近的相邻变异DNA片段;准确对变异DNA片段进行分型。

Description

一种基于三代测序的全基因组结构变异鉴定方法
技术领域
本发明涉及基因组变异鉴定技术领域,特别涉及一种基于三代测序的全基因组结构变异鉴定方法。
背景技术
结构变异(structural variation,SV)一般指长度在50bp以上DNA片段变异。根据变异类型可以为缺失(Deletion)、重复(Duplication)、插入(Insertion)、倒位(Inversion)、易位(Translocation)等。结构变异会通过多种方式影响基因的转录与翻译,从而引发各类遗传性疾病。当基因的编码区域发生结构变异时,会改变基因的转录和翻译;当非编码区域发生结构变异时,会通过位置效应影响基因表达调控元件的调控作用。随着测序技术的快速发展以及测序成本的不断降低,越来越多的结构变异被发现与人类遗传性疾病、甚至癌症相关。比如21号染色体3体引发的唐氏综合征,5号染色体短臂上的缺失引发的猫叫综合征,17q21.31部位的缺失变异会引发学习障碍等。
目前基于二代短读长测序的SV检测方法可以分为读对方法(Read-pair Method)、读深方法(Read-depth method)、分裂片段方法(Split-read method)以及序列组装方法(Sequence assembly method),或者这些方法的组合。但是由于二代数据的读长较短,很多结构变异的长度远远超过其读长,因此不能有效的检测到所有的结构变异,而且存在结果中假阳性较高的情况。
近两年快速发展的三代长读长测序(主要包括PacBio single-molecule realtime sequencing和Oxford Nanopore Sequencing)为提高结构变异检出率和准确度提供了一种可能。目前用于鉴定三代测序采用的软件有pbSV,cuteSV和Sniffles。通常为将测序数据比对到基因组,鉴定含有变异DNA片段(SV)的信号,然后将所有变异DNA片段(SV)的信号进行聚类,最后针对每一个聚类,将变异DNA片段(SV)信号,合并取平均进行输出。这种操作方法受测序错误、比对错误影响较大,尤其是变异DNA片段(SV)边界鉴定不准;无法鉴定复杂的变异DNA片段(SV);对于同类别的但不同长度的型别的变异DNA片段(SV),无法分型;无法准确区分距离接近的相邻变异DNA片段(SV);无法准确鉴定超过测序数据长度的变异DNA片段(SV)。因此,现有技术有待于进一步发展和进步。
发明内容
有鉴于此,本发明实施例的目的在于提供一种基于三代测序的全基因组结构变异鉴定方法,能够针对高错误的三代测序序列,提高检测准确性和灵敏性,以及比对边界;提高复杂或者较长的变异DNA片段(SV)(超过测序数据长度)的鉴定准确性;准确区分距离接近的相邻变异DNA片段(SV);准确对变异DNA片段(SV)进行分型。
本发明的实施例是这样实现的:
一种基于三代测序的全基因组结构变异鉴定方法,其包括:
S11,将待测序数据与预设参考基因组进行比对,并将预设比对文件进行排序,构建索引。
S21,针对每一条测序读段(reads),对其碱基比对情况(cigar字符串)进行解析,进行SV鉴定,鉴定是否包含变异DNA片段(SV)的信号。
S31,对错误及重叠的变异DNA片段信号进行修正。
S41,输出修正(polish)后的序列,与预设参考基因组进行对比,进行SV鉴定,输出鉴定结果。
S51,根据鉴定结果,对待测序数据进行分型。
在本发明较佳的实施例中,上述基于三代测序的全基因组结构变异鉴定方法的S21中,所述针对每一条测序读段(reads),对其碱基比对情况(cigar字符串)进行解析,鉴定是否包含变异DNA片段(SV)的信号,包括:
S211,若该测序读段(reads)中含有30bp及以上的插入或者删除片段,则将该测序读段(reads)以及插入或者删除片段的区间位置存储在列表中;
S212,若该测序读段(reads)中含有100bp及以上的比对切除片段(Clip),则将该测序读段(reads)以及切除片段(Clip)的区间位置存储在列表中;
S213,若其碱基比对(cigar字符串)包括一个以上不同部分比对到不同的位置的情况(Supplement),则将该测序读段(reads)以及多个比对位置存储在列表中。
在本发明较佳的实施例中,上述基于三代测序的全基因组结构变异鉴定方法的S31中,所述对错误及重叠的变异DNA片段信号进行修正,包括:
S311,将待测序数据按照500bp的窗口计算比对深度,如果某个窗口的比对深度远远大于平均深度,则将该窗口二级比对导致的变异DNA片段(SV)信号过滤掉,减少比对错误导致假的变异DNA片段(SV)信号。
S312,将有重叠的变异DNA片段(SV)信号进行聚类。
S313,针对一个聚类,计算信号之间的一致性,如果一致性较高,则取中位值输出,并删除该聚类。
S314,进一步合并聚类,迭代任意两个聚类,若两个聚类的信号包含的测序读段(reads)有重叠,且重叠的测序读段(reads)超过两条,则将该两个聚类合并成一个聚类。
S315,对聚类进行过滤。
S316,针对每一个聚类,输出其中一个型别的变异DNA片段(SV)。
在本发明较佳的实施例中,上述基于三代测序的全基因组结构变异鉴定方法的S31中,所述对错误及重叠的变异DNA片段信号进行修正,还包括:
S317,重复对聚类进行过滤,直到没有聚类。
在本发明较佳的实施例中,上述基于三代测序的全基因组结构变异鉴定方法的S312中,所述将有重叠的变异DNA片段(SV)信号进行聚类,包括:
S3121,将变异DNA片段(SV)信号列表按照染色体、起始坐标、终止坐标从小到大排序。
S3122,将当前的变异DNA片段(SV)信号与前一个变异DNA片段(SV)信号进行循环比较,若两个信号在同一条染色体上,并且距离在500bp以内,则将当前信号加入到上一个信号的聚类中,否则作为一个新的聚类起点。
在本发明较佳的实施例中,上述基于三代测序的全基因组结构变异鉴定方法的S313中,所述针对一个聚类,计算信号之间的一致性,如果一致性较高,则取中位值输出,并删除该聚类,包括:
S3131,检测变异DNA片段(SV)信号的类型是否一致,若不一致,则跳过该聚类。
S3132,依次检测变异DNA片段(SV)信号的起始坐标的方差、终止坐标的方差和长度的方差,若任一方差大于50(参数),则跳过该聚类。
S3133,将起始坐标的中位值当做变异DNA片段(SV)的起点位置,终止坐标的中位值当做变异DNA片段(SV)的终点位置,长度的中位值当做变异DNA片段(SV)的长度,输出该变异DNA片段(SV)。
S3134,从聚类列表中删除上述输出的变异DNA片段(SV)聚类。
在本发明较佳的实施例中,上述基于三代测序的全基因组结构变异鉴定方法的S315中,所述对聚类进行过滤包括:
S3151,计算每一个聚类变异DNA片段(SV)信号的最小起始位置和最大的终止位置,作为该聚类的信号区间。
S3152,基于S311中得到的深度信息,计算该聚类信号区间的平均深度。
S3153,若该聚类的变异DNA片段(SV)信号包含的read条数小于平均深度的30%,或者小于3条,则认为是错误率过高或者比对错误的导致的变异DNA片段(SV)信号,将该聚类删除。
在本发明较佳的实施例中,上述基于三代测序的全基因组结构变异鉴定方法的S316中,所述针对每一个聚类,输出其中一个型别的变异DNA片段(SV),包括:
S3161,计算每一个聚类变异DNA片段(SV)信号的最小起始位置和最大的终止位置,作为该聚类的信号区间。
S3162,检测该聚类的信号区间是否可被该聚类中的任意一条测序读段(reads)跨过。
S3163,若有覆盖,则将该测序读段(reads)作为该聚类的参考序列;若没有覆盖,将该聚类的测序读段(reads)做两两比对,构图组装,并输出其中一条最长的重叠群序列(contig)作为该聚类的参考序列。
S3164,将所有的测序读段(reads)比对到该聚类的参考序列,并且过滤掉含有变异DNA片段(SV)信号的比对结果,利用过滤后的一致性比对将参考序列进行修正(polish)。
S3165,输出修正(polish)后的序列。
在本发明较佳的实施例中,上述基于三代测序的全基因组结构变异鉴定方法的S316中,所述针对每一个聚类,输出其中一个型别的变异DNA片段(SV),还包括:
S3166,将该聚类中所有的测序读段(reads)重新比对到上述输出的变异DNA片段,过滤掉没有变异DNA片段(SV)信号的测序读段(reads),并将该过滤的测序读段(reads)所包含的信号从聚类中删除。
S3167,记录没有变异DNA片段(SV)信号的测序读段(reads),当做支持该修正(polish)之后序列包含的变异DNA片段(SV)的测序读段(reads)。
在本发明较佳的实施例中,上述基于三代测序的全基因组结构变异鉴定方法的S51中,所述根据鉴定结果,对待测序数据进行分型,包括:
S511,若有两个变异DNA片段(SV)来自同一个聚类,并且支持的测序读段(reads)没有重叠(步骤S3167的结果),则将该两个变异DNA片段(SV)(步骤S41的结果)设为不同型别的杂合变异DNA片段(SV)。
S512,若没有出现S511中的情况,检测支持变异DNA片段(SV)的测序读段(reads)数(步骤S3167的结果)与跨过该变异DNA片段(SV)信号的测序读段(reads)总数的比值,若大于80%,设置为纯合,否则为杂合。
本发明实施例的有益效果是:
本发明利用序列比对方法鉴定变异DNA片段(SV),能够快速的鉴定出一部分简单的变异DNA片段(SV),针对剩余复杂变异DNA片段(SV),采用序列组装方法,使得最终结果更准,同时速度也不至于太慢;利用序列组装技术(步骤S3163),可以输出长于测序读段(reads)长度的序列,利用该序列可以更准确的鉴定出SV的类型和长度;对于含有变异DNA片段(SV)的序列(步骤3164),进行了修正(polish)矫正,提高了序列的准确性;利用比对过滤同一聚类中属于不同变异DNA片段(SV)的测序读段(reads),更准确的区分不同型别的变异DNA片段(SV)。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明基于三代测序的全基因组结构变异鉴定方法的流程图;
图2为本发明基于三代测序的全基因组结构变异鉴定方法完整流程示意图;
图3为本发明基于三代测序的全基因组结构变异鉴定方法的利用不同深度的ONT测序数据进行SV检测结果示意图;
图4为本发明基于三代测序的全基因组结构变异鉴定方法的HiFi数据示意图;
图5为本发明基于三代测序的全基因组结构变异鉴定方法的比对结果。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件能够以各种不同的配置来布置和设计。
本发明中出现的专有名词的术语解释:
结构变异(structural variation,SV):指长度在50bp以上DNA片段变异。根据变异类型可以为缺失(Deletion)、重复(Duplication)、插入(Insertion)、倒位(Inversion)、易位(Translocation)等。
二代测序:高通量测序,主要使用Illumina平台的仪器,一次对几十万到几百万条DNA分子进行序列测定,得到的片段读长较短,通常只有100-150bp,准确度较高,通常在99.9%左右。
三代测序:单分子测序技术,主要是指Pacbio或Oxford Nanopore(ONT)平台的测序技术,得到的片段较长,其中PacBio平台的HiFi数据,准确度较高,不过长度通常只有10-20kb。而ONT的数据错误率较高,但是长度较长(>30kb)。
Polish:利用三代测序数据修正基于组装的基因组中的单碱基或者短的插入缺失错误。
Reads(DNA测序片段):测序得到的一个读段,即一个原始的测序数据。
组装:无论是二代测序中的短reads还是三代测序的长reads,得到的测序数据相较于整个基因组而言仍然是极小的,序列组装就是通过各种算法和方法将这些小片段连接起来,从而得到最初的contig(重叠群)。
contig:根据测序reads得到的重叠信息将存在的重叠片段建立一种组合关系,形成重叠群即contig,是最初版本中没有gap的序列。
基因组:通过组装得到的contig序列,目前大部分物种都有公开的基因组可用。
比对:利用序列相似性,将测序reads定位到基因组中的具体位置。
分型:正常人类基因组包含两套染色体(一套来自父本,一套来自母本),因此在基因组中的同一个位置,可能包含不同的碱基或者序列。本文中的分型就是确认某个SV所在的位置是只包含一种SV还是包含两种SV。
纯合:同一个位置只包含一种SV(父母本相同)。
杂合:同一个位置包含2个SV(一个来自父本,一个来自母本)。
Cigar:比对结果信息,阐述一条read所有碱基的比对情况(如错配,插入等)。
Supplement:一条read无法完整的比对到基因组上,不同的部分比对到不同的位置(分块比对)。
Clip:一条read的两端无法比对到基因组上,因此比对的时候两端会被切除。通常由于测序错误或者SV导致。
请参照图1至4,本发明的第一个实施例提供一种基于三代测序的全基因组结构变异鉴定方法,包括:
基于三代测序的全基因组结构变异鉴定方法,其包括:
S11,将待测序数据与预设参考基因组进行比对,并将预设比对文件进行排序,构建索引。
使用开源软件minimap2和samtools构建索引。
S21,针对每一条测序读段(reads),对其碱基比对情况(cigar字符串)进行解析,进行SV鉴定,鉴定是否包含变异DNA片段(SV)的信号。
S31,对错误及重叠的变异DNA片段信号进行修正。
S41,输出修正(polish)后的序列,与预设参考基因组进行对比,进行SV鉴定,输出鉴定结果。
S51,根据鉴定结果,对待测序数据进行分型。
在本发明较佳的实施例中,上述基于三代测序的全基因组结构变异鉴定方法的S21中,所述针对每一条测序读段(reads),对其碱基比对情况(cigar字符串)进行解析,鉴定是否包含变异DNA片段(SV)的信号,包括:
S211,若该测序读段(reads)中含有30bp及以上的插入或者删除片段,则将该测序读段(reads)以及插入或者删除片段的区间位置存储在列表中;
S212,若该测序读段(reads)中含有100bp及以上的比对切除片段(Clip),则将该测序读段(reads)以及切除片段(Clip)的区间位置存储在列表中;
S213,若其碱基比对(cigar字符串)包括一个以上不同部分比对到不同的位置的情况(Supplement),则将该测序读段(reads)以及多个比对位置存储在列表中。
在本发明较佳的实施例中,上述基于三代测序的全基因组结构变异鉴定方法的S31中,所述对错误及重叠的变异DNA片段信号进行修正,包括:
S311,将待测序数据按照500bp的窗口计算比对深度,如果某个窗口的比对深度远远大于平均深度,则将该窗口二级比对导致的变异DNA片段(SV)信号过滤掉,减少比对错误导致假的变异DNA片段(SV)信号。
S312,将有重叠的变异DNA片段(SV)信号进行聚类。
S313,针对一个聚类,计算信号之间的一致性,如果一致性较高,则取中位值输出,并删除该聚类。
S314,进一步合并聚类,迭代任意两个聚类,若两个聚类的信号包含的测序读段(reads)有重叠,且重叠的测序读段(reads)超过两条,则将该两个聚类合并成一个聚类。
S315,对聚类进行过滤。
S316,针对每一个聚类,输出其中一个型别的变异DNA片段(SV)。
在本发明较佳的实施例中,上述基于三代测序的全基因组结构变异鉴定方法的S31中,所述对错误及重叠的变异DNA片段信号进行修正,还包括:
S317,重复对聚类进行过滤,直到没有聚类。
在本发明较佳的实施例中,上述基于三代测序的全基因组结构变异鉴定方法的S312中,所述将有重叠的变异DNA片段(SV)信号进行聚类,包括:
S3121,将变异DNA片段(SV)信号列表按照染色体、起始坐标、终止坐标从小到大排序。
S3122,将当前的变异DNA片段(SV)信号与前一个变异DNA片段(SV)信号进行循环比较,若两个信号在同一条染色体上,并且距离在500bp以内,则将当前信号加入到上一个信号的聚类中,否则作为一个新的聚类起点。
在本发明较佳的实施例中,上述基于三代测序的全基因组结构变异鉴定方法的S313中,所述针对一个聚类,计算信号之间的一致性,如果一致性较高,则取中位值输出,并删除该聚类,包括:
S3131,检测变异DNA片段(SV)信号的类型是否一致,若不一致,则跳过该聚类。
S3132,依次检测变异DNA片段(SV)信号的起始坐标的方差、终止坐标的方差和长度的方差,若任一方差大于50(参数),则跳过该聚类。
S3133,将起始坐标的中位值当做变异DNA片段(SV)的起点位置,终止坐标的中位值当做变异DNA片段(SV)的终点位置,长度的中位值当做变异DNA片段(SV)的长度,输出该变异DNA片段(SV)。
S3134,从聚类列表中删除上述输出的变异DNA片段(SV)聚类。
在本发明较佳的实施例中,上述基于三代测序的全基因组结构变异鉴定方法的S315中,所述对聚类进行过滤包括:
S3151,计算每一个聚类变异DNA片段(SV)信号的最小起始位置和最大的终止位置,作为该聚类的信号区间。
S3152,基于S311中得到的深度信息,计算该聚类信号区间的平均深度。
S3153,若该聚类的变异DNA片段(SV)信号包含的read条数小于平均深度的30%,或者小于3条,则认为是错误率过高或者比对错误的导致的变异DNA片段(SV)信号,将该聚类删除。
在本发明较佳的实施例中,上述基于三代测序的全基因组结构变异鉴定方法的S316中,所述针对每一个聚类,输出其中一个型别的变异DNA片段(SV),包括:
S3161,计算每一个聚类变异DNA片段(SV)信号的最小起始位置和最大的终止位置,作为该聚类的信号区间。
S3162,检测该聚类的信号区间是否可被该聚类中的任意一条测序读段(reads)跨过。
S3163,若有覆盖,则将该测序读段(reads)作为该聚类的参考序列;若没有覆盖,将该聚类的测序读段(reads)做两两比对,构图组装,并输出其中一条最长的重叠群序列(contig)作为该聚类的参考序列。
S3164,将所有的测序读段(reads)比对到该聚类的参考序列,并且过滤掉含有变异DNA片段(SV)信号的比对结果,利用过滤后的一致性比对将参考序列进行修正(polish)。
S3165,输出修正(polish)后的序列。
在本发明较佳的实施例中,上述基于三代测序的全基因组结构变异鉴定方法的S316中,所述针对每一个聚类,输出其中一个型别的变异DNA片段(SV),还包括:
S3166,将该聚类中所有的测序读段(reads)重新比对到上述输出的变异DNA片段,过滤掉没有变异DNA片段(SV)信号的测序读段(reads),并将该过滤的测序读段(reads)所包含的信号从聚类中删除。
S3167,记录没有变异DNA片段(SV)信号的测序读段(reads),当做支持该修正(polish)之后序列包含的变异DNA片段(SV)的测序读段(reads)。
在本发明较佳的实施例中,上述基于三代测序的全基因组结构变异鉴定方法的S51中,所述根据鉴定结果,对待测序数据进行分型,包括:
S511,若有两个变异DNA片段(SV)来自同一个聚类,并且支持的测序读段(reads)没有重叠(步骤S3167的结果),则将该两个变异DNA片段(SV)(步骤S41的结果)设为不同型别的杂合变异DNA片段(SV)。
S512,若没有出现S511中的情况,检测支持变异DNA片段(SV)的测序读段(reads)数(步骤S3167的结果)与跨过该变异DNA片段(SV)信号的测序读段(reads)总数的比值,若大于80%,设置为纯合,否则为杂合。
本发明利用不同深度的ONT测序数据进行SV检测结果如图3所示,从图中可以看出,GrandSV在不同测序深度下的结果,都比同类型软件结果好。
准确度和灵敏度高:
(1)对于含有变异DNA片段(SV)的序列(步骤S3164),进行了修正(polish)矫正,提高了序列的准确性(90-97%提高到99%左右),然后通过将更准确的序列进行重新比对,使得鉴定的变异DNA片段(SV)以及边界更准。
(2)针对复杂区域,利用组装技术(步骤S3163),可以输出长于测序读段(reads)长度的序列,然后通过利用更长更准的序列重比对,来获得更准确的比对结果,最终会导致变异DNA片段(SV)鉴定结果更准。
(3)分型鉴定不同的变异DNA片段(SV)时,传统的做法只是比较变异DNA片段(SV)信号坐标区间,如果不同型别的变异DNA片段(SV)坐标区间差别不是太大,则无法区分。而Grand变异DNA片段(SV)利用比对过滤同一聚类中属于不同变异DNA片段(SV)的测序读段(reads)(步骤S3166),更准确的区分不同型别的变异DNA片段(SV)。
(4)通过循环迭代,可以鉴定支持数较低的低频变异DNA片段(SV)。
(5)如图4中HiFi数据所示,由于测序读段(reads)长度限制,长度较长的变异DNA片段(SV)没有HiFi数据跨过,因此传统的做法只是报道变异DNA片段(SV)断点,无法报道变异DNA片段(SV)类型和长度。GrandSV可以利用组装(步骤S3163)技术,输出跨过该变异DNA片段(SV)的序列,利用该序列可以更准确的鉴定出变异DNA片段(SV)的类型和长度。
请参照图1至5,本发明的第二个实施例提供一种基于三代测序的全基因组结构变异鉴定方法。
如图5所示,以ONT三代测序为例进行介绍鉴定步骤如下:
图5中,左侧数字表示Read ID,蓝色带数字方框表示插入该数字长度的信号,横线带数字表示删除该数字长度的信号。
(1)序列比对,将测序reads比对到基因组上,比对结果如图5所示。
(2)针对每一条测序read鉴定包含SV信号。如图5所示,read 1包含一个232bp的删除信号,read2包含一个76bp的插入信号,read3包含一个302bp的删除信号,read4不包含SV信号,read 5包含一个305bp的删除信号,read6-9不包含SV信号,read10包含一个74bp的插入信号,read11包含一个70bp的插入信号,read12包含一个223bp和512bp的插入信号,read13包含一个66bp的插入信号,read14不包含SV信号,read15包含一个75bp的插入信号,read16包含一个305bp的删除信号,read17不包含SV信号,read18包含一个305bp的删除信号,read19不包含SV信号,read20包含一个78bp的插入信号,read21包含一个301bp,69bp和367bp的插入信号,read22-24不包含SV信号,其中,不包含SV信号的reads在后续的分析中会被忽略。
(3)将基因组按照500bp的窗口计算比对深度,发现该窗口的比对深度与平均深度差异不明显,因此不做过滤。
(4)将同一条read的SV信号进行聚类。针对Read 12和21包含的插入信号,由于这些信号距离之间较短,因此可以合并为一个信号。合并后的Read 12包含735bp的插入信号,Read21包含737bp的插入信号。
(5)将鉴定到的SV信号按照染色体,起始坐标,终止坐标从小到大排序。由于read1,2,3,5,10,11,12,13,15,16,18,20,21包含的SV信号距离较近,因此会被聚成一个大类,命名为A。
(6)计算类别A信号之间的一致性,发现类别A包含的信号类型不一致,即有插入也有删除信号,因此不输出和删除该类别。
(7)按照深度信息过滤聚类。由于聚类A包含的read条数较多,远远超过平均深度的30%,因此不过滤该聚类。
(8)随机从A中取一条read,假定抽取的read是read2.由于聚类A检测该聚类的信号区间可以被read2跨过,read2的比对长度为91kp,远远超过A的跨度(约1.8kb),因此不需要进行组装。直接将read2当做该聚类的参考序列B1。
(9)将剩余read1,3,5,10,11,12,13,15,16,18,20,21比对到参考序列B1上去。由于read1,3,5,12,16,18,21与参考序列B1包含不一致的SV的信号(长度或者类别不一致),因此它们的比对结果会出现SV信号,因此被过滤。read10,11,13,15,20则显示完美匹配,这些完美匹配的比对结果用于矫正参考序列B1生成序列B2。
(10)再次将剩余read1,3,5,10,11,12,13,15,16,18,20,21比对到参考序列B2上去,由于read10,11,13,15,20的比对不包含SV信号,因此这些reads当做支持该B2序列包含的SV的reads。并将这些reads从聚类A中删除。
(11)重复步骤7-10.获得polish之后的序列B2(支持reads为2,10,11,13,15,20),C2(支持reads为3,5,16,18)。另外read1构成一个聚类,read12,21构成一个聚类。这两个聚类包含的read数目太少,在步骤7中会被过滤掉。
(12)将输出的polish之后的序列B2,C2,重新利用minimap2比对到基因组上去,进行SV(鉴定过程如步骤2)鉴定,获得一个75bp的插入Insertion SV1和一个304bp的删除Deletion SV2并输出。
(13)分型。由于SV1和SV2来自同一个聚类,并且支持的read没有重叠,因此SV1和SV2被设置为杂合SV。
此外,pacbio平台样本的鉴定过程和ONT平台样本的鉴定过程一致,仅在步骤1,9,10和12中比对和polish采取的参数设置不一致。
本发明实施例旨在保护一种基于三代测序的全基因组结构变异鉴定方法,具备如下效果:
1.利用序列比对方法鉴定变异DNA片段(SV)速度快的优点鉴定一部分简单的变异DNA片段(SV),针对剩余复杂变异DNA片段(SV),采用序列组装方法,使得最终结果更准,同时速度也不至于太慢。
2.利用序列组装技术(步骤S3163),可以输出长于测序读段(reads)长度的序列。
3.对于含有变异DNA片段(SV)的序列(步骤S3164),进行了修正(polish)矫正,提高了序列的准确性。
4.利用比对过滤同一聚类中属于不同变异DNA片段(SV)的reads(步骤S3166),更准确的区分不同型别的变异DNA片段(SV)。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种基于三代测序的全基因组结构变异鉴定方法,其特征在于,包括:
S11,将待测序数据与预设参考基因组进行比对,并将预设比对文件进行排序,构建索引;
S21,针对每一条测序读段,对其碱基比对情况进行解析,进行SV鉴定,鉴定是否包含变异DNA片段的信号;
S31,对错误及重叠的变异DNA片段信号进行修正;
S41,输出修正后的序列,与预设参考基因组进行对比,进行SV鉴定,输出鉴定结果;
S51,根据鉴定结果,对待测序数据进行分型。
2.根据权利要求1所述的基于三代测序的全基因组结构变异鉴定方法,其特征在于,S21中,所述针对每一条测序读段,对其碱基比对情况进行解析,鉴定是否包含变异DNA片段的信号,包括:
S211,若该测序读段中含有30bp及以上的插入或者删除片段,则将该测序读段以及插入或者删除片段的区间位置存储在列表中;
S212,若该测序读段中含有100bp及以上的比对切除片段,则将该测序读段以及切除片段的区间位置存储在列表中;
S213,若其碱基比对包括一个以上不同部分比对到不同的位置的情况,则将该测序读段以及多个比对位置存储在列表中。
3.根据权利要求1所述的基于三代测序的全基因组结构变异鉴定方法,其特征在于,S31中,所述对错误及重叠的变异DNA片段信号进行修正,包括:
S311,将待测序数据按照500bp的窗口计算比对深度,如果某个窗口的比对深度远远大于平均深度,则将该窗口二级比对导致的变异DNA片段信号过滤掉,减少比对错误导致假的变异DNA片段信号;
S312,将有重叠的变异DNA片段信号进行聚类;
S313,针对一个聚类,计算信号之间的一致性,如果一致性较高,则取中位值输出,并删除该聚类;
S314,进一步合并聚类,迭代任意两个聚类,若两个聚类的信号包含的测序读段有重叠,且重叠的测序读段超过两条,则将该两个聚类合并成一个聚类;
S315,对聚类进行过滤;
S316,针对每一个聚类,输出其中一个型别的变异DNA片段。
4.根据权利要求3所述的基于三代测序的全基因组结构变异鉴定方法,其特征在于,S31中,所述对错误及重叠的变异DNA片段信号进行修正,还包括:
S317,重复对聚类进行过滤,直到没有聚类。
5.根据权利要求3所述的基于三代测序的全基因组结构变异鉴定方法,其特征在于,S312中,所述将有重叠的变异DNA片段信号进行聚类,包括:
S3121,将变异DNA片段信号列表按照染色体、起始坐标、终止坐标从小到大排序;
S3122,将当前的变异DNA片段信号与前一个变异DNA片段信号进行循环比较,若两个信号在同一条染色体上,并且距离在500bp以内,则将当前信号加入到上一个信号的聚类中,否则作为一个新的聚类起点。
6.根据权利要求3所述的基于三代测序的全基因组结构变异鉴定方法,其特征在于,S313中,所述针对一个聚类,计算信号之间的一致性,如果一致性较高,则取中位值输出,并删除该聚类,包括:
S3131,检测变异DNA片段信号的类型是否一致,若不一致,则跳过该聚类;
S3132,依次检测变异DNA片段信号的起始坐标的方差、终止坐标的方差和长度的方差,若任一方差大于50,则跳过该聚类;
S3133,将起始坐标的中位值当做变异DNA片段的起点位置,终止坐标的中位值当做变异DNA片段的终点位置,长度的中位值当做变异DNA片段的长度,输出该变异DNA片段;
S3134,从聚类列表中删除上述输出的变异DNA片段聚类。
7.根据权利要求3所述的基于三代测序的全基因组结构变异鉴定方法,其特征在于,S315中,所述对聚类进行过滤包括:
S3151,计算每一个聚类变异DNA片段信号的最小起始位置和最大的终止位置,作为该聚类的信号区间;
S3152,基于S311中得到的深度信息,计算该聚类信号区间的平均深度;
S3153,若该聚类的变异DNA片段信号包含的read条数小于平均深度的30%,或者小于3条,则认为是错误率过高或者比对错误的导致的变异DNA片段信号,将该聚类删除。
8.根据权利要求3所述的基于三代测序的全基因组结构变异鉴定方法,其特征在于,S316中,所述针对每一个聚类,输出其中一个型别的变异DNA片段,包括:
S3161,计算每一个聚类变异DNA片段信号的最小起始位置和最大的终止位置,作为该聚类的信号区间;
S3162,检测该聚类的信号区间是否可被该聚类中的任意一条测序读段跨过;
S3163,若有覆盖,则将该测序读段作为该聚类的参考序列;若没有覆盖,将该聚类的测序读段做两两比对,构图组装,并输出其中一条最长的重叠群序列作为该聚类的参考序列;
S3164,将所有的测序读段比对到该聚类的参考序列,并且过滤掉含有变异DNA片段信号的比对结果,利用过滤后的一致性比对将参考序列进行修正;
S3165,输出修正后的序列。
9.根据权利要求8所述的基于三代测序的全基因组结构变异鉴定方法,其特征在于,S316中,所述针对每一个聚类,输出其中一个型别的变异DNA片段,还包括:
S3166,将该聚类中所有的测序读段重新比对到上述输出的变异DNA片段,过滤掉没有变异DNA片段信号的测序读段,并将该过滤的测序读段所包含的信号从聚类中删除;
S3167,记录没有变异DNA片段信号的测序读段,当做支持该修正之后序列包含的变异DNA片段的测序读段。
10.根据权利要求1所述的基于三代测序的全基因组结构变异鉴定方法,其特征在于,S51中,所述根据鉴定结果,对待测序数据进行分型,包括:
S511,若有两个变异DNA片段来自同一个聚类,并且支持的测序读段没有重叠,则将该两个变异DNA片段设为不同型别的杂合变异DNA片段;
S512,若没有出现S511中的情况,检测支持变异DNA片段的测序读段数与跨过该变异DNA片段信号的测序读段总数的比值,若大于80%,设置为纯合,否则为杂合。
CN202211642169.8A 2022-12-20 2022-12-20 一种基于三代测序的全基因组结构变异鉴定方法 Pending CN115831222A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211642169.8A CN115831222A (zh) 2022-12-20 2022-12-20 一种基于三代测序的全基因组结构变异鉴定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211642169.8A CN115831222A (zh) 2022-12-20 2022-12-20 一种基于三代测序的全基因组结构变异鉴定方法

Publications (1)

Publication Number Publication Date
CN115831222A true CN115831222A (zh) 2023-03-21

Family

ID=85517078

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211642169.8A Pending CN115831222A (zh) 2022-12-20 2022-12-20 一种基于三代测序的全基因组结构变异鉴定方法

Country Status (1)

Country Link
CN (1) CN115831222A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117577178A (zh) * 2024-01-16 2024-02-20 山东大学 一种结构变异精确断裂信息的检测方法、系统及其应用

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117577178A (zh) * 2024-01-16 2024-02-20 山东大学 一种结构变异精确断裂信息的检测方法、系统及其应用
CN117577178B (zh) * 2024-01-16 2024-03-26 山东大学 一种结构变异精确断裂信息的检测方法、系统及其应用

Similar Documents

Publication Publication Date Title
US8271206B2 (en) DNA sequence assembly methods of short reads
US6401043B1 (en) Variance scanning method for identifying gene sequence variances
CN108121897B (zh) 一种基因组变异检测方法及检测装置
CN104794371B (zh) 检测逆转座子插入多态性的方法和装置
CN114743594B (zh) 一种用于结构变异检测的方法、装置和存储介质
CN110692101A (zh) 用于比对靶向的核酸测序数据的方法
CN110021355B (zh) 二倍体基因组测序片段的单倍体分型和变异检测方法和装置
Krishnan et al. Exhaustive whole-genome tandem repeats search
WO2013097048A1 (zh) 基因组单核苷酸多态性位点的标记方法和装置
CN115831222A (zh) 一种基于三代测序的全基因组结构变异鉴定方法
KR20220076444A (ko) 유전체 서열 내의 변이 후보를 분류하는 방법 및 장치
CN111180013A (zh) 检测血液病融合基因的装置
CN112750501A (zh) 一种宏病毒组流程的优化分析方法
WO2013097328A1 (zh) 基因组indel位点标记方法和装置
CN112669902B (zh) 检测基因组结构变异的方法、计算设备和存储介质
US20200395098A1 (en) Alignment using homopolymer-collapsed sequencing reads
Martin Algorithms and tools for the analysis of high throughput DNA sequencing data
Bzikadze Human centromeres: from initial assemblies to structural and evolutionary analysis
CN114464252B (zh) 一种检测结构变异的方法及装置
CN113674802B (zh) 一种基于甲基化测序数据进行变异检测的方法及装置
CN115391284B (zh) 基因数据文件快速识别方法、系统和计算机可读存储介质
CN115831225A (zh) 一种适用于基因组重复序列的结构变异验证系统及方法
KR102404947B1 (ko) 기계학습 기반의 유전체 구조 변이 식별 방법 및 장치
CN113449533B (zh) 一种基于条形码序列的读长比对方法和装置
CN116665775A (zh) 检测线粒体起源核基因组序列的方法、装置和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination