同时进行单体型分析和染色体非整倍性检测的方法和系统
优先权信息
本申请请求2013年9月30日提交的国际专利申请PCT/CN2013/084783的优先权和权益,其完整内容通过参照在此并入。
技术领域
本发明涉及生物医学领域,具体地,涉及同时进行单体型分析和染色体非整倍性检测的方法和系统。
背景技术
世界卫生组织2012全球出生缺陷防治报告显示,全球出生缺陷总发生率为3%,每年有320万出生缺陷患儿出生,其中27万新生儿因出生缺陷而死亡。研究表明,绝大部分出生缺陷与遗传因素有关,染色体异常与单基因遗传病是两个重要原因。其中,单基因遗传病种类众多,发病率各有不同,且这些疾病绝大多数无法治愈,给整个社会和家庭带来沉重的经济和心理负担。因此防止单基因遗传病患儿的发生和减少遗传病患儿的出生是遗传性出生缺陷防控的重点。胚胎植入前诊断(Preimplantation Genetic Diagnosis,PGD)技术可从根源上阻断遗传病的发生和传递,将出生缺陷的预防提前到胚胎阶段。然而,单基因遗传病的植入前诊断并未广泛应用,至今为止世界上才几千例报道。究其原因,主要是由于标本量少(仅1~2个细胞),容易产生等位基因脱扣(ADO)和污染,检测较为困难、准确性也不好保证,无法完全满足单基因遗传病植入前诊断的临床需求。目前植入前非整倍体检测主要有三种技术,荧光原位杂交(FISH)技术,Array CGH及SNP-array技术,而植入前单基因病检测技术主要为多重荧光PCR(MF-PCR)技术。当前植入前非整倍体检测与单体型分析、单基因病检测一般都是分开进行,还没有一种方法能将两种不同类型的植入前遗传病同时检测出来,不利于优生优育的发展推进。
近年来,随着新一代测序技术的快速发展,高通量测序被越来越广泛地应用于医学领域,高通量测试能够实现染色体结构变异(缺失、重复、非整倍体等)与单碱基突变(SNP、点突变、indel等)的检测,并且应用于多种临床疾病检测或研究,例如基于高通量测序的无创产前唐氏综合症筛查、基于高通量测序的HPV筛查以及基于高通量测序的各种复杂遗传病的基因诊断等。
发明内容
本发明旨在提出一种只需待测样本包含少量核酸、经一次试验和一次试验的数据量就能同时进行目标基因单体型分析和染色体非整倍性检测的方法,也能作为同时检测单基因病和染色体非整倍性的基础。
本发明一方面提供了一种能同时对待测样本进行目标基因单体型分析和染色体非整倍性检测的方法,包括以下步骤:
1)基于待测样本基因组的至少一部分,构建目标区域测序文库,其中,在构建目标区域测序文库的过程中,包括采用探针集进行筛选,探针集由多个预定探针构成,预定探针能够识别所说的目标基因上下游的SNP和均匀分布于目标染色体的SNP;
2)对目标区域测序文库进行测序,以便获得测序结果;
3)将测序结果与参考序列比对,以便获得比对结果;
4)基于比对结果,确定待测样本的SNP信息;
5)基于待测样本的SNP信息,同时确定待测样本的目标基因单体型和染色体非整倍性信息。
本发明的这个方法是通过设计探针将一系列均匀分布于目标染色体上的SNP位点和与目标基因相关联的SNP位点信息集中到芯片上,利用这个探针芯片将相应区域捕获下来,接着,将获得的区域序列进行高通量测序,根据测序结果进行目标基因单体型和目标染色体非整倍性分析。该方法只需一次实验、少量样本DNA和较少的数据量就能完成多项变异的准确检测,试剂耗材人力等成本显著降低,具有通量高、检测周期短的特点,可以一次完成多种遗传变异包括所有染色体非整倍性检测,并且能够用于多个不同遗传背景样品的同时检测。该方法可以用于或者辅助用于胚胎植入前遗传学诊断,尤其是作为实现PGD非整倍体及单基因病同时检测的基础,解决进行这两种检测样本量不足的问题。值得一提的是,在这个方法的基础上,进一步设计使探针集能够捕获整个目标基因,基于目标基因里的一些已公布的SNP与疾病的关系,可以进一步实现直接和/或间接检测单基因病,以及与染色体非整倍性的同时检测。
本发明的另一方面提供了一种计算机可读介质,用于存储供计算机执行的程序,本领域普通技术人员可以理解,在执行该程序时,通过指令相关硬件可完成上述同时进行样本进行单体型分析和染色体非整倍性检测方法的全部或部分步骤。所称存储介质可以包括:只读存储器、随机存储器、磁盘或光盘等。
本发明的又一方面提供了一种同时对待测样本进行目标基因单体型分析和染色体非整倍性检测的系统,该系统包括:目标区域测序文库构建装置,目标区域测序文库构建装置适于对目标区域进行文库构建,其中,在构建区域测序文库的过程中,包括采用探针集进行筛选,所说的探针集由多个预订探针构成,预订探针能够识别目标基因的上下游SNP和均匀分布于目标染色体的SNP;
测序装置,测序装置与目标区域测序文库构建装置相连,适于对目标区域测序文库进行测序,获得测序结果;
分析装置,分析装置与测序装置相连,用于分析测序结果,包括数据输入单元、数据输出单元、存储单元和处理器,其中,
数据输入单元用于输入测序结果,
数据输出单元用于输出结果数据,
存储单元用于存储数据,包括可执行程序,
处理器,与所述数据输入单元、数据输出单元和存储单元连接,用于执行所说的可执行程序,可执行程序可以完成包括上述本发明一方面提供的同时对待测样本进行目标基因单体型分析和染色体非整倍性检测的方法的一部分或全部步骤。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1显示了本发明的一个实施例的确定区分型SNPs方法的示意图;
图2显示了本发明一个实施例构建的文库的Agilent 2100的检测结果;
图3显示了本发明一个实施例的单体型构建模拟图;
图4显示了本发明一个实施例的胚胎单体型与胚胎遗传状况分析的流程示意图;
图5显示了本发明的一个实施例的胚胎染色体非整倍性检测结果图。
具体实施方式
下面详细描述本发明的实施例。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
需要说明的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者多个该特征。进一步地,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
根据本发明的一个实施方式,提供一种同时对待测样本进行目标基因单体型分析和染色体非整倍性检测的方法,包括以下步骤:
步骤1:构建目标区域测序文库
基于待测样本基因组的至少一部分,构建目标区域测序文库,其中,在构建区域测序文库的过程中,包括采用探针集进行筛选,所说的探针集由多个预定探针构成,预定探针能够识别目标基因上下游的SNP和均匀分布于目标染色体的SNP;
目标区域测序文库,可通过探针集捕获待测样本的基因组文库获得,探针集能够捕获目标基因的上下游与目标基因紧密连锁的SNP和均匀分布于目标染色体的SNP。
在本发明的具体一个实施方式中,待测样本源自胚胎,如取至胚胎卵裂球4~8细胞时期的单细胞。
在本发明的一个具体实施方式中,探针集是这样确定的:基于参考序列,选择目标基因上下游SNP以及均匀分布于染色体的SNP,获得目标SNP集;基于目标SNP集中的每个SNP在参考序列上的位置,在参考序列上截取一段包含SNP集中的至少一个SNP的、不长于一个目标区域测序文库大小的序列作为一条预定探针,以此获得探针集。待测样本源自人时,参考序列是人已知序列,比如人参考基因组。在本发明的一个实施例中,一条预定探针中包含1个SNP并且这个SNP位于这条预定探针的中点,这样有利于高效的捕获这个SNP,这里的“中点”“,可以是相对的中点即一条序列的中段位置也可以是严格意义上的中心点,比如一条序列,其上、下游1/3分别定义为“前段”和“后段”,中间的1/3即为“中段”,或者比如一条序列包含2n+1个核苷酸,严格意义上的中点即为第n+1核苷酸的位置,而当一条序列含有2n个核苷酸,序列严格意义的中点为第n或第n+1个核苷酸的位置。当前高通量测序及探针合成技术的发展,测序文库大小一般为100-1000bp,探针长度多数为的20-200nt,在本发明中,对目标区域测序文库的大小及探针的长度没有另外限制。
在本发明的一个具体实施方式中,目标基因上下游的SNP,是指与目标基因紧密连锁区域中的SNP。另外,SNP间距离越小,重组率越小,当距离小于1M时,重组率低于1%(人的重组率是1%每1M的区域)。探针集捕获包含的目标基因上下游的SNP的范围可以基于人类基因组的一般重组率大概估计选择确定,一般地,选择的目标基因上下游的范围小,捕获得的SNP准确,但是数量少,选择的范围大,捕获得的SNP数量多,但是范围大发生的重组概率也会越高,且选择的上下游范围大SNP数量多,设计合成花费相对高。在本发明的一个实施例中为降低基因重组的影响,选择的SNP位点集中在目标基因上下游各1M范围内,可以把目标基因与上下游SNP区域的重组的概率降低到万分之一,密度高、连锁紧密,既可以大大提高目标基因上下游SNP信息检测的灵敏度和准确性,又可降低分析目标基因单体型分析检测成本。
在本发明的一个具体实施方式中,探针集能够捕获的均匀分布于染色体的SNP,所说的均匀分布不需要SNP之间的间隔是一个固定数值,只要在利用所说的探针集捕获待测样本基因组时,能够使捕获得的SNP的间距总体上呈现相对均匀的分布,能使捕获确定的区域组合代表反映整条目标染色体或者整个基因组就行。在本发明的一个实施例中,均匀分布于某条染色体上的SNP中的任意两个相邻的SNP应满足在参考基因组上的距离不大于3000kbp、均匀分布于染色体的SNP的个数至少占所述染色体SNP总数的1/3000。SNP越多,距离越近,检测精度越高,即越能检测到更小的染色体局部变异(即检测到更小的拷贝数变异),但是SNP过多就需要更多的探针捕获,需要测更多的数据。比如当前发现10M以上的CNV才可能与疾病相关,那么若将检测精度定在10M,SNPs间的距离就可以大概确定,大概是10K间距,目标染色体上的SNP数也确定了。而为了检测染色体非整倍体,SNP的数目可以很少,选中的SNP的间距可至多为3000K。在本发明的一个实施例中,为了检测染色体非整倍性,均匀分布于染色体上的SNP之间的距离约为500K。
在本发明的一个具体实施方式中,目标基因上下游的和均匀分布于染色体的SNP在群体中的频率大于等于0.3,群体数据可以是已知的有公开数据的群体,比如千人基因组数据(ftp://ftp.ncbi.nih.gov/1000genomes/ftp/release),也可以是预先构建的、包含多个来源于同一物种的多个个体的基因组数据。基于高频SNP位点在染色体/基因组上的分布,更有利于作后续关联分析。
在本发明的一个具体实施方式中,探针集进一步能够捕获整个目标基因。基于目标基因区中的已公开的一些SNP与疾病的关系,可以进一步实现直接和/或间接检测单基因病,以及与染色体非整倍性的同时检测。
在本发明的一个具体实施方式中,将选择的多个SNP位点集中于一张芯片上,从能够基于获得的SNP信息同时进行单体型和染色体非整倍性检测,无需因人而异设计实验方案,既缩短了检测周期,又降低了检测成本。采用包含多个目标检测位点的芯片可以同时检测多个样本,检测通量极大提高。这为未来的规模化分析检测提供巨大技术支持,比如未来的PGD规模化检测需求。
步骤2:对目标区域测序文库进行测序,获得测序结果
依据现有高通量平台的指导手册,比如利用Illumina Hiseq2000/2500、Roche454、Lifetechnologies Ion Torrent、单分子或纳米孔测序平台等将构建好的目标区域测序文库上机测序,获得读段(reads)以及一些仪器给出的测序质量值等,获得测序结果。在本发明的一个具体实施方式中,质量值低的reads不用于后续分析检测。
步骤3:将测序结果与参考序列比对,获得比对结果
读段在参考基因组上的位置可以通过序列比对确定,比对可使用各种比对软件,例如SOAP(Short OligonucleotideAnalysis Package),bwa(Burrows-Wheeler Aligner),samtools,GATK(Genome Analysis Toolkit)等。有的读段能够比对到基因组的多个位置,有的读段比对上基因组的唯一一个位置,有的读段比对不上基因组。在本发明的一个实施例中,只取比对结果中比对到唯一位置的读段进行后续分析。
步骤4:基于比对结果,确定待测样本的SNP信息
利用SNP分析软件从上述比对结果中识别出SNP位点。根据本发明的一个实施例,在获得唯一比对序列后,进一步包括从上述唯一比对读段中去除建库中PCR造成的重复reads。可以采用的SNP分析软件的种类不受特别限制。根据本发明的一个实施例中,选用的SNP分析软件为SAMtools和GATK的至少之一。
步骤5:基于待测样本的SNP信息,同时确定待测样本的目标基因单体型和染色体
非整倍性信息
同时确定待测样本的目标基因单体型和染色体非整倍性信息是这样进行的:预先或同时利用一样的探针集构建与待测样本遗传相关的样本的目标区域测序文库,对遗传相关样本的目标区域测序文库进行测序,获得遗传相关样本的测序结果,将遗传相关样本的测序结果与参考序列进行比对,获得比对结果,基于比对结果,确定遗传相关样本的SNP信息,与待测样本遗传相关的样本包括待测样本的父本样本、待测样本的母本样本和与待测样本遗传自同样父母的第二样本;基于遗传相关样本的SNP信息和待测样本SNP信息,确定待测样本的父本和母本样本的单体型,推断出待测样本的单体型;以及基于比较任一遗传相关样本的SNP信息和待测样本的SNP信息的差异,检测待测样本染色体非整倍性。
在本发明的一个具体实施方式中,从待测样本或其遗传相关样本的比对结果中识别出SNP之后进一步包括,对识别出的SNP进行过滤,过滤的条件为去除满足下列条件之一的SNP:SNP测序深度低于10×,优选低于20×;和/或杂合SNP中两种碱基测序深度差异高于20%,优选高于10%,更优选高于5%。由此,经过过滤的SNP信息准确可信。需要说明的是,理论上测序深度越高,杂合SNP测序深度比值越接近1:1,且SNP过滤条件中的测序深度、测序深度差异度的具体数值的设定与实施时的样本、测序深度、测序质量相关,可根据实际需要调整。在本发明的一个实施例中,待测样本来源于胚胎,胚胎遗传相关个体的测序深度为50×、胚胎样本的测序深度为100×且测序质量较好,为使留下的都是测序准确符合实际的SNP,严格过滤,过滤掉低于10×的SNP,也过滤掉测序深度差异高于10%的杂合SNP,去除了大量的杂合SNP;可以理解的,采用更高深度测序(>100×),若也要严格过滤保证剩余SNP的真实准确,可过滤掉如低于20×的SNP,过滤掉如差异高于5%的杂合SNP,相反的,对于相对低深度测序的数据,可设置过滤掉高于20%的杂合SNP。
在本发明的一个具体实施方式中,待测样本来源于胚胎,基于胚胎遗传相关样本的SNP信息和胚胎SNP信息,确定胚胎的父本和母本单体型包括:从父本和母本的SNP信息中筛选出区分型SNPs,结合区分型SNPs和第二样本SNP信息确定父本和母本单体型,第二样本来源于先证者。需要说明的是,在这里所使用的术语“区分型SNP”指的是可以有效区分父母单体型的碱基,即在某一位置父母双方4个碱基中其中一碱基(常染色体)与该位置的其他碱基都不相同,该碱基可以确定父母双方4条单体型中的唯一一条,如某位置父母基因型分别为AA、AG,则G碱基为区分型SNP,因为在该位置G可以确定唯一的一个单体型,而A在其他3个单体型中都存在,无法确定唯一单体型。其中图1显示了根据孟德尔遗传原理,确定父母区分型SNPs位点方法的示意图。这里术语“先证者”指确诊为带有某致病突变,并表现出该疾病症状的患者,且其是与前述胚胎具有遗传关系的生物体,既可以是胚胎或者胎儿,也可以是出生后的个体。
基于所说的区分型SNP和先证者的SNP信息,确定父本单体型和母本单体型。也即:基于区分型SNP和先证者SNP,分别针对父母基因组中与先证者的两条同源染色体,分别构建第一父本单体型、第二父本单体型、第一母本单体型和第二母本单体型,以便用于后续胚胎单体型的确定。其中,所说的父本单体型包括第一父本单体型和第二父本单体型,母本单体型包括第一母本单体型和第二母本单体型,第一父本单体型、第二父本单体型、第一母本单体型和第二母本单体型是由区分型SNP构成的。根据本发明的实施例,可以根据孟德尔遗传原理与连锁交换定律,结合父母区分型SNP和先证者SNPs信息构建出父母SNP-单体型,构建原理如图3所示。所述SNP-单体型包含区分型SNP,每条单体型都含有众多区分型SNP,单体型中的区分型SNP能够与其他单体型相区分。如某一位置父母基因型分别为AA、AG,G为区分型SNP,A为非区分型SNP,A、G分别为单体型中该处的碱基。由于先证者的2条单体型,分别遗传自父母,可根据疾病情况确定致病突变所在的单体型。如显性遗传病,父亲患病,母亲正常,则先证者所遗传自父亲的单体型为致病突变所在的单体型;如隐性遗传病,父母都是携带者,则先证者(患病)的两个单体型都为致病突变所在的单体型。由此,基于区分型SNP和先证者的SNP信息,能够有效确定父本单体型和母本单体型,进而基于胚胎的SNP信息、父亲SNP单体型和母亲SNP单体型,能够有效确定胚胎单体型。
然后,推断出待测样本的单体型包括,利用待测样本的SNP信息和待测样本父本母本的单体型,分别对待测样本SNP中包含的父本和母本的区分型SNP的数目进行统计,依据统计数目不小于阈值来确定待测样本SNP的单体型组合,从而获得待测标样本单体型。在本发明的一个具体实施方式中,所说的阈值为10,。在本发明的一个实施例中,基于胚胎SNP信息、父亲单体型和母亲单体型,确定父亲单体型和母亲单体型的组合方式,以便获得胚胎的SNP单体型。即基于胚胎的SNP信息与前述的第一父本单体型、第二父本单体型、第一母本单体型和第二母本单体型,确定胚胎某染色体或者染色体某区域中的SNP类型,进而确定所述胚胎单体型。胚胎单体型是通过下列步骤获得的:确定胚胎的SNP显著支持的父本单体型作为胚胎的父本来源单体型;以及确定胚胎的SNP显著支持的母本单体型作为胚胎的母本来源单体型。其中,根据本发明的一个实施例,区分型SNP数不低于10个是显著支持的指示。具体地,由于胚胎的2个单体型分别遗传自父母各一条,可以根据胚胎SNPs信息结合父母单体型进行分析,判断胚胎SNPs是哪两条单体型的组合,分析原理如图3所示。分析中可采用区分型SNP数目统计计算,根据数值的大小确定胚胎单体型,具体流程如图4所示。根据本发明的一个实施例,一单体型区分型SNP数大于10,则可确定这是胚胎遗传获得的一条单体型;如一单体型区分型SNP数小于4,则可判断该单体型不是遗传给胚胎的那条,为错误SNP导致。根据本发明一个具体实施例,为确保准确,将一正确单体型的区分型SNP支持数定于为不低于10个,错误单体型的区分型SNP支持数不高于3个,这是因为前面设定的SNP过滤条件较为严格,即单体型构建中所用SNP正确率较高,并且候选SNP数量大,实际测试数据表明正确单体型的SNP支持数远高于10个,错误单体型SNP支持数一般为0。根据本发明的一个实施例,经验证,对于一常染色体疾病,通过本发明的方法分析,每个胚胎只能得到2个满足要求的单体型;对于一X染色体疾病,通过本发明的方法分析,可得到一个(男胎)或两个(女胎)满足要求的单体型。本发明的单体型分析方法,除了能够用于单基因遗传病检测,还能够同时进行HLA分型、非整倍体检测,实现了单个样本的多项检测,可为相关IVF病人提供个性化服务。
在本发明的一个具体实施方式中,在确定待测样本的单体型和染色体非整倍性信息的步骤之后,进一步包括,基于待测样本单体型上的SNP与疾病的关系进行样本单基因病检测。
在本发明的一个具体实施方式中,基于比较任一遗传相关样本的SNP信息和待测样本的SNP信息的差异检测待测样本染色体非整倍性,其中的任一遗传相关样本的SNP信息也可以用k个正常参照样本的SNP信息来替代,k为自然数,k个参照样本的SNP信息的获得可以通过参考本发明中待测样本SNP信息的获得方法,如预先或同时利用一样的探针集构建参照样本的目标区域测序文库,对参照样本的目标区域文库进行测序,获得参照样本的测序结果,将参照样本的测序结果与参考序列进行比对,获得比对结果,基于比对结果,确定参照样本的SNP信息。基于比较任一遗传相关样本或者参照样本的SNP信息和待测标样本的SNP信息的差异来检测待测样本染色体非整倍性,是通过比较待测样本SNP的测序深度和遗传相关样本/k个参照样本同一位置的平均测序深度是否有显著性差异来判断待测样本是否存在染色体非整倍性的。这里所说的染色体非整倍性可以是整条染色体的重复或缺失,也可以是某条染色体上局部区域的重复或缺失即为所说的拷贝数变异。SNPi的测序深度TDi利用以下公式确定,TDi=比对上参考序列SNPi的读段数目,i表示SNP编号。
在本发明的一个具体实施方式中,获得过滤后的待测胚胎样本的SNP后,统计每个SNP的测序深度,进一步对每个SNP的测序深度值进行一系列处理,获得SNP的测序深度系数Ri,SNP的测序深度系数Ri的确定包括以下步骤,
(a)对TDi进行第一校正以获得第一校正测序深度TDai,第一校正是通过对包含i在内的n个连续SNP的测序深度进行线性回归实现的,其中,n为自然数,n≥10;
在本发明的一个具体实施方式中,在步骤(a)中,基于下列公式,确定第一校正覆盖深度TD
ai:
其中,TD
j表示所述n个连续区域中的第j个区域的覆盖深度,j为自然数,1≤j≤n;在步骤(b)中,基于下列公式,对TD
ai进行均一化获得
在本发明的一个具体实施方式中,在获得待测样本的R
i后进一步包括对R
i进行第二校正以获得r
i,
其中,R
ai为k个参照样本SNP
i的测序深度系数的平均值,
y为自然数表示参照样本编号,R
i,y表示参照样本y的SNP
i的测序深度系数。或者,在本发明的另一个具体实施方式中,在获得待测样本的R
i后进一步包括对R
i进行第二校正以获得r
i,
其中,R
ai为k个参照样本和一个待测样本的SNP i的测序深度系数的平均值,
在本发明的一个具体实施方式中,将SNPi的测序深度与整个胚胎样本的所有SNP的平均测序深度进行比较,即上述的n取最大值,获得SNPi的比例值(ratio),即获得上述的Ri;接着将SNPi的ratio值与k个参照样本中相同位置的平均ratio值进行比较,比如相除,得到SNPi校正后的ratio值,即获得上述的ri。为便于直观展示,可以将染色体上校正后各SNP的ratio值作图,ratio值的高低反应了染色体情况,如图5所示,正常二倍体ratio值在1.0附近波动,而单体或三体ratio值为偏向下方0.5或偏向上方1.5附近波动。
上述计算处理待测样本SNPi的覆盖深度系数Ri的过程中,引进中间参数或者对各参数的校正、均一化等处理能减少因实验条件的波动、样品间本身的差异等带来的误差,使最后的ri能真实反映Ri且围绕1的波动幅度比Ri小,且多个样本的ri符合正态分布;上述实施方式中对TDi进行第一校正,接着对第一校正后的数值进行均一化,相当于两次求均值的过程,即在打算以SNPi的n个SNP连续的测序深度均值代表SNPi的测序深度之前,n个SNP中的每个SNP的测序深度值的计算都是利用以该SNP为第一个SNP的n个连续SNP的测序深度均值表示的,这样相当于利用包含SNPi的2n个连续SNP的测序深度值来校正TDi(若2n已超过SNP总数,即利用包含SNPi的所有SNP的测序深度来校正TDi),能使连续SNP的测序深度保持稳定。需要说明的是,本领域人员可以利用其它校正或求平均值处理使相邻几个SNP的测序深度值保持稳定,比如以与SNPi间隔多少个的几个SNP的平均测序深度来校正目标SNPi测序深度,均属于本发明的构思。参照样本SNPi的测序深度系数的计算处理可以参考待测样本SNPi的测序深度系数的计算处理过程,参照样本数据可以预先计算处理好备用,也可以与待测样本的计算处理过程同步进行而获得。
在本发明的一个具体实施方式中,比较待测样本SNP的测序深度和k个参照样本同一位置的平均测序深度是否有显著性差异,是通过t检验进行的。进行t检验,待测样本SNP
i的t统计量的计算公式为
其中,
表示k个参照样本的r
i,y的平均值,r
i,y为参照样本y的SNP
i的经第二校正的测序深度系数,
S为k个参照样本标准差,
基于SNP
i的t
i值,获得显著水平P
i,当Pi<0.05,判定SNPi所在区域存在拷贝数变异;反之,则判定SNPi所在区域不存在拷贝数变异。在本发明的另一个实施例中,基于SNP
i的t
i值和预先确定的显著水平P
i0,获得t
i理论值t
i0,当ti≥t
i0,判定SNP
i所在区域存在拷贝数变异,反之,则判定SNP
i所在区域不存在拷贝数变异;预先确定的P
i0≤0.05。这样,通过T检验待测样本r
i与k个参照样本的中位数
的差异,能判断出拷贝数变异(CNV)区域的位置、大小以及倍数。,将连续异常的SNP即将连续显著差异的SNP连接成一个区域,该区域即CNV区域,CNV大小通过SNP的坐标计算出来,而当连续异常的SNP连接成的区域为所在染色体的大小时,即存在染色体非整倍性变异。
根据本发明的另一个实施方式,提供了一种计算机可读介质,用于存储供计算机执行的程序,本领域普通技术人员可以理解,在执行该程序时,通过指令相关硬件可完成上述同时对待测样本进行目标基因单体型分析和染色体非整倍性检测方法的全部或部分步骤。所称存储介质可以包括:只读存储器、随机存储器、磁盘或光盘等。在本发明的一个具体实施方式中,从获得测序结果后的步骤都通过计算机执行程序完成。
根据本发明的又一个实施方式,提供了一种同时对待测样本进行目标基因单体型分析和染色体非整倍性检测的系统,包括:
(一)目标区域测序文库构建装置,目标区域测序文库构建装置适于对目标区域进行文库构建;目标区域测序文库的构建过程包括利用探针集筛选,比如利用探针集捕获待测样本的基因组文库获得目标区域测序文库;所说的探针集能够捕获目标基因上下游SNP和均匀分布于染色体的SNP,获得所说的目标区域。
(二)测序装置,测序装置与目标区域测序文库构建装置相连,适于对上述目标区域测序文库进行测序,获得测序结果;
(三)分析装置,所述分析装置与所述测序装置相连,用于分析测序结果,包括数据输入单元、数据输出单元、存储单元和处理器,其中,
数据输入单元用于输入测序结果,
数据输出单元用于输出结果数据,
存储单元用于存储数据,包括上述的计算机可执行程序,
处理器,与所述数据输入单元、数据输出单元和存储单元连接,用于执行所述可执行程序,所说的可执行程序可以完成前述对待测样本同时进行目标基因单体型分析和染色体非整倍性检测方法的全部或部分步骤。
需要说明的是,前面描述的本发明的方法的优点和效果同样适用于上述同时进行单体型分析和染色体非整倍性检测的系统,在此不再赘述。
下面将结合实施例对本发明的方案进行解释。本领域技术人员将会理解,下面的实施例仅用于说明本发明,而不应视为限定本发明的范围。实施例中未注明具体技术或条件的,按照本领域内的文献所描述的技术或条件(例如参考J.萨姆布鲁克等著,黄培堂等译的《分子克隆实验指南》,第三版,科学出版社)或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者,均为可以通过市购获得的常规产品,例如可以采购自Illumina公司。
实施例一:探针序列的确定、捕获芯片的定制和测试
设计的探针能识别的区域包含三部分,一部分为目标基因区域,一部分为目标基因的SNP-marker区域,即目标基因上下游紧密连锁的高频SNP区,一部分为染色体SNP-marker区域,即全染色体或目标染色体范围内均匀分布的高频SNP区。在芯片上合成确定的探针序列。目标基因区域主要为外显子及外显子与内含子交界区域,该区域覆盖了绝大部分的致病突变,可用于疾病突变的直接检测。SNP-marker区域为目标基因区域上下游区域,该区域包含了上千个高频SNP(即千人数据库中频率大于0.3的SNP),该区域主要用于检测父母差异化的SNP,结合家系中的先证者SNP信息构建目标基因单体型。由于减数分裂中同源染色体间基因重组的存在,会对基因的SNP-单体型造成影响。SNP-marker间距离越小,重组率越小,当距离小于1M时,重组率低于1%(人的重组率是1%每1M的区域)。芯片捕获包含的SNP-marker区域的范围可以基于人类基因组的一般重组率大概估计选择确定,一般地选择的目标基因区域上下游的范围小,捕获得的SNP准确,但是数量少,选择的范围大,捕获得的SNP数量多,但是范围大发生的重组概率也会越高,且选择的上下游范围大SNP数量多,设计合成花费相对高。为降低基因重组的影响,确保检测准确性,将SNP-marker区域限定在目标基因上下游1M内,这样可以把目标基因区与SNP-marker区域的重组的概率降低到万分之一。染色体SNP-marker区域主要用于染色体非整倍性的检测。需要说明的是,目标基因区和目标基因的SNP-marker区,与染色体SNP-marker区域可能会有交叉重叠,比如目标基因区中的SNP可能同时也属于染色体SNP-marker区域,这些SNP在目标基因单体型构建和染色体非整倍性检测都发挥作用,是本发明方法能够用少量数据量就能检测多项变异的原因之一。其中的目标基因区,不是同时进行目标基因单体型分析和染色体非整倍性检测所必需。
1.1目标基因捕获探针/芯片设计
首先确定目标单基因遗传病对应的基因,然后以Hg19为参考序列确定目标基因所在位置,确定捕获区域。
1.2目标基因SNP-marker捕获探针/芯片设计
根据1中确定的各目标基因位置,在该位置的上下游各1Mbp范围寻找在千人数据库频率较高的SNP,比如频率>0.3的SNP,这些SNP位点及其上下100bp左右即构成目标基因SNP-marker区域。使选取的SNP位点位于目标捕获片段中段,有利于提高SNP被捕获下来的几率,由于后面构建的文库大小在200bp左右,即捕获探针的捕获片段大小主要在200bp左右,为提高目标SNP的捕获效率,将这些SNP位点及其上下100bp左右(使选取的SNP大致位于1/2 200bp处)的区域为目标基因SNP-marker捕获区域。
1.3染色体SNP-marker捕获芯片设计
以Hg19为参考序列,在全染色体范围内寻找在千人数据库频率较高的SNP,筛选出均匀分布于全染色体范围的SNP,共筛选出10,000个SNP位点,然后以这些SNP位点及其上下100bp左右为SNP-marker区域,设计探针。
1.4探针/芯片评估
探针/芯片设计完成之后,采用SSAHA(Sequence Search and Alignment byHashingAlgorithm)软件对探针特异性评估,评估合格即进行芯片合成,芯片的合成是委托罗氏公司(Roche)完成的。
实施例二:目标区域测序文库的构建、测序
2.1样本核酸提取与WGA
在本实施例中,采用一般方法和检测流程分别对一苯丙酮尿症(经典型)家系(家系一,常染色体隐性遗传)样本及一生育进行性肌营养不良(DMD)家系(家系二,X染色体隐性遗传)样本进行检测。家系一夫妇经过IVF获得7个胚胎,并采用MF-PCR方法进行PAH基因检测,筛选出2个正常胚胎植入,最终获得一个女婴,经脐带血基因检测确认该女婴正常。家系二夫妇经过IVF获得9个胚胎,并采用MF-PCR方法进行DMD基因PGD,筛选出3个正常胚胎,选择其中2个植入,最终获得一个男婴(其中有一胚胎没发育),经脐带血基因检测确认该男婴正常。
家系一样本包括父母、患病女儿(先证者)外周血及7个胚胎卵裂球单细胞。经PAH基因检测,父亲为PAH基因R243Q(c.728G>A)突变携带者,母亲为PAH基因V399V(c.1197A>T)突变携带者,先证者为PAH基因R243Q(c.728G>A)与V399V(c.1197A>T)复合突变,表现为苯丙酮尿症。7个胚胎卵裂球单细胞(分别标记为E11、E12、E13、E14、E15、E16、E17);家系二样本包括父母、女儿(表型正常)外周血及9个胚胎卵裂球单细胞。经DMD基因检测,父亲正常,母亲及女儿为DMD基因R2905X(c.8713C>T)突变携带者。9个胚胎卵裂球单细胞(分别标记为E21、E22、E23、E24、E25、E26、E27、E28、E29)
父母、先证者外周血采用QIAamp DNA Blood MidiKit(Qiagen)试剂盒按说明提取DNA,并用Nanodrop检测,浓度大于30ng/ul。7个胚胎卵裂球单细胞分别采用
Single Cell WGA kit(Qiagen)试剂盒并按操作说明进行全基因组扩增,产物进行琼脂糖凝胶电泳及Qubit定量。样品标记分别为:F1、M1、P1、E11、E12、E13、E14、E15、E16、E17,F2、M2、P2、E21、E22、E23、E24、E25、E26、E27、E28、E29。
2.2Illumina Hiseq基因组文库构建
上述获得的DNA样品及WGA产物先用CovarisTM打断仪打断至200bp大小的片段,然后根据
公司HiSeq2000TM测序仪的上机要求、根据illumina提供的建库操作说明进行建库:
2.2.1样品打断
22管基因组DNA及WGA产物各取总量3ug用Covaris microTube with AFA fiberand Snap‐Cap在Covaris S2(Covaris公司)上打断。
2.2.2末端修复、末端加A、加接头
按建库要求,按双末端标签文库构建说明书步骤及其列明的试剂、反应条件等,对上述断裂纯化后的DNA片段进行末端修复,并进行纯化;加个碱基A于经末端修复纯化后的DNA片段的两端,纯化末端加A产物;在末端加A产品的两端连接测序接头,利用连接标签接头对22个文库分别引入不同的标签,并记录标签和文库的对应关系,并利用能与测序接头互补结合的磁珠纯化带接头的DNA片段。
2.2.3基因组文库构建完成后经
Bioanalyzer 2100检测片段分布范围符合要求,结果如图3,经荧光定量PCR(QPCR)检测到文库浓度结果如表1:
表1QPCR定量检测文库的相对浓度
2.4芯片捕获
上述22个基因组文库分2组,每组11个,按等比例混合成总量500ng的2个混合文库。混合文库采用NimbleGen公司定制的液相芯片SeqCap EZ Choice XL Library按操作说明进行杂交(具体步骤见Nimblegen SeqCap EZ Exome Capture操作说明书)。杂交72个小时后采用NmibleGenwashkit按操作说明进行洗脱。最后洗脱产物进行富集度检测、Qpcr和2100检测。
2.5、Hiseq2500测序
上述杂交产物上
HiSeq2500TM测序仪测序,测序循环数为PE101index(即双向101bp index测序),其中仪器的参数设置及操作方法都按照
操作手册(可由http://www.illumina.com/support/documentation.ilmn获取)。
2.6总体数据评价
测序完成后,首先对测序数据进行质量过滤和去除接头污染的序列,对高质量的测序reads的进行总体评价分析。
使用比对软件BWA(version 0.5.10)将测序reads比对到人类参考基因组(HG19,NCBI release GRCh37)上,参数设置为(-I-i 15-L-k 2-l 31-t 4),取比对结果中唯一比对到芯片目标区域的reads并用SAMtools去除PCR重复扩展的序列进行后续分析。测序得到的数据量,如表2所示。
表2测序数据产量
样本 |
Reads数量 |
覆盖率(%) |
平均测序深度 |
F1 |
257769 |
92.34 |
112.9 |
M1 |
229895 |
91.42 |
100.74 |
P1 |
194791 |
91.03 |
85.29 |
E11 |
94342 |
90.3 |
47.22 |
E12 |
115433 |
90.83 |
50.37 |
E13 |
80693 |
90.29 |
55.18 |
E14 |
79561 |
89.71 |
43.29 |
E15 |
93157 |
89.11 |
45.17 |
E16 |
96298 |
89.55 |
46.03 |
E17 |
130773 |
90.37 |
57.07 |
F2 |
232455 |
91.16 |
119.66 |
M2 |
223421 |
91.57 |
106.6 |
P2 |
213217 |
92.19 |
88.87 |
E21 |
104379 |
90.03 |
57.12 |
E22 |
106759 |
90.78 |
54.33 |
E23 |
90678 |
90.29 |
43.77 |
E24 |
89056 |
89.71 |
42.24 |
E25 |
98867 |
89.76 |
49.86 |
E26 |
97656 |
89.67 |
48.93 |
E27 |
112321 |
90.13 |
53.27 |
E28 |
95651 |
89.57 |
46.03 |
E29 |
98343 |
89.72 |
51.07 |
父母及先证者的外周血样品测序深度约为100x,胚胎细胞WGA样品测序深度约为50x。
实施例三:胚胎单体型分析和单基因病检测
3.1采用Genome Analysis Toolkit(GATK)软件包进行个样本SNP及indel分析,得到各个样本的基因型。部分基因区域基因型如表3和表4所示:
表3各样本部分PAH基因区域基因型
该SNP信息对应参考基因组的反义链。-表示该处无法得到SNP(无数据覆盖或深度太低),斜体表示致病突变。表中103237426坐标和103246707坐标对应的是PAH数据库中V399V(c.1197A>T)与R243Q(c.728G>A)位点。为了便于理解,已经将该两个突变位点的反义链信息改成对应的正义链的形式表示。
表4各样本部分DMD基因区域基因型
-表示该处无法得到SNP(无数据覆盖或深度太低),斜体表示致病突变。表中32456388坐标对应的是DMD数据库中R2905X(c.8713C>T)位点。
3.2父母单体型构建
根据父母及先证者的SNP信息按照上述图3所示方法可以构建父母单体型,包括致病突变所在的单体型,表5和表6分别表示PAH及DMD基因部分位置的单体型构建。
表5PAH基因父母单体型构建
表中F-Hap1、F-Hap2分别表示父亲两个单体型,M-Hap1,M-Hap2分别表示母亲两个单体型。该SNP信息对应参考基因组的负链。-表示该处无法得到SNP(无数据覆盖或深度太低),斜体为致病突变。表中103237426坐标和103246707坐标对应的是PAH数据库中V399V(c.1197A>T)与R243Q(c.728G>A)位点。为了便于理解,已经将该两个突变位点的反义链信息改成对应的正义链的形式表示。
表6DMD基因父母单体型构建
表中F-Hap表示父亲单体型(男性只有一条X染色体),M-Hap1,M-Hap2分别表示母亲两个单体型。斜体为致病突变。表中32456388坐标对应的是DMD数据库中R2905X(c.8713C>T)位点。
3.3胚胎单体型分析
根据表3、4中胚胎SNP信息及表5、6中父母单体型信息按照图3所示方法对胚胎区分型SNPs进行统计,然后根据对应每条单体型支持的SNP数目多少判断出胚胎单体型,进而判断胚胎是否致病。对于常染色体,一个胚胎只有2个单体型,一般也只有两个单体型有SNP支持,但偶尔会出现第3或第4条单体型,这是由于SNP错误导致,这种错误的SNP在总SNP中低于5%。此外,由于ADO及测序错误的存在,胚胎SNP会存在个别SNP丢失或错误现象,为避免这种错误对结果的影响,我们规定一条单体型至少有10个区分型SNPs支持。本实施例的大量数据表明,错误的单体型所支持的区分型SNPs一般不超过3个,而正确的单体型所支持的区分型SNPs会大于20个,这说明个别错误不会影响胚胎单体型判断。因而,为确保结果准确,本发明将正确单体型的SNP支持数定义为不少于10个,错误单体型的SNP数不大于3个。具体分析流程如图4所示。图4显示的为一常染色体隐性遗传病的胚胎状态分析流程,其中父母的Hap1为致病突变所在单体型。图中所示个别胚胎出现了SNP支持第3个单体型,但支持的SNP非常少,不会影响结果判断。
从以上分析结果即可判断胚胎状态,如表7所示。检测结果与传统方法MF-PCR(多重PCR)检测结果相符,结果符合率为100%,表明本发明的方法能够准确检测胚胎基因型指导胚胎植入,并具有检测周期短、高通量、低成本的优势。MF-PCR检测结果如表8和表9。上述流程开发软件自动完成。
表7各胚胎检测结果
样本 |
检测结果 |
E11 |
R243Q(c.728G>A)携带者 |
E12 |
正常 |
E13 |
正常 |
E14 |
R243Q(c.728G>A)携带者 |
E15 |
R243Q(c.728G>A)合并V399V(c.1197A>T)突变 |
E16 |
R243Q(c.728G>A)携带者 |
E17 |
V399V(c.1197A>T)携带者 |
E21 |
女,正常 |
E22 |
女,R2905X(c.8713C>T)携带者 |
E23 |
男,R2905X(c.8713C>T)突变 |
E24 |
女,R2905X(c.8713C>T)携带者 |
E25 |
男,R2905X(c.8713C>T)突变 |
E26 |
女,正常 |
E27 |
女,R2905X(c.8713C>T)携带者 |
E28 |
男,正常 |
E29 |
男,R2905X(c.8713C>T)突变 |
表8家系一7个胚胎的MF-PCR检测结果
表9家系二9个胚胎的MF-PCR检测结果
样本 |
检测结果 |
E21 |
女,正常 |
E22 |
女,R2905X(c.8713C>T)携带者 |
E23 |
男,R2905X(c.8713C>T)突变 |
E24 |
女,R2905X(c.8713C>T)携带者 |
E25 |
男,R2905X(c.8713C>T)突变 |
E26 |
女,正常 |
E27 |
女,R2905X(c.8713C>T)携带者 |
E28 |
男,正常 |
E29 |
男,R2905X(c.8713C>T)突变 |
实施例四:胚胎染色体非整倍性检测
对各胚胎样本测序后过滤得到的高质量的测序reads进行以下分析:筛选出预先设计的染色体SNP区域,并统计每个SNP区域的有效深度。将每个SNP区域的深度与整个样品的SNP的平均测序深度进行比较,获得各SNP区域的比例值(ratio),再各SNP区域的ratio值与参照样品群中相同位置的中位数ratio值进行比较,得到每个SNP校正后的ratio值,通过T检验检验每个SNP校正后的ratio值与参照样本的地差异程度,判断出CNV变异区域的位置,大小,以及倍数。为便于直观展示,将个染色体上校正后各SNP区域的ratio值作图,ratio值的高低反应了染色体情况,如图5所示。经本方法分析,7个胚胎中E3,E4存在染色体异常,E3为21三体,E4为21单体,如表10所示。
表10部分各胚胎总体检测结果
工业实用性
本发明的对样本同时进行目标基因单体型分析和染色体非整倍性检测的方法及其系统,能够基于一次试验、一次试验的数据量进行多种变异的检测,非常适于核酸含量少的样本的变异检测。
尽管本发明的具体实施方式已经得到详细的描述,本领域技术人员将会理解。根据已经公开的所有教导,可以对那些细节进行各种修改和替换,这些改变均在本发明的保护范围之内。本发明的全部范围由所附权利要求及其任何等同物给出。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。