发明详细描述
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
需要说明的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。进一步地,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。如果没有明确说明,在本文的公式或标识中,相同的字母代表相同的含义。
一、一种确定预定染色体保守区域的方法
根据本发明的一个方面,本发明提出了一种确定预定染色体保守区域的方法。
参考图1,根据本发明实施例的确定预定染色体保守区域的方法包括:
S100:对样本基因组进行测序,以便获得由多个测序序列构成的测序结果
根据本发明的实施例,对所述全基因组样本进行测序进一步包括:对所述全基因组样本进行扩增;
利用经过扩增的基因组样本构建测序文库;以及对所述测序文库进行测序。由此,能够有效地获取样本基因组的测序结果的全基因组信息,并且能够对单细胞基因组或者微量核酸样本进行有效测序。本领域技术人员可以根据采用的基因组测序技术的具体方案选择不同的构建测序文库的方法,关于构建基因组测序文库的细节,可以参见测序仪器的厂商例如Illumina公司所提供的规程,例如参见Illumina公司Multiplexing SamplePreparation Guide(Part#1005361;Feb 2010)或Paired-End SamplePrep Guide(Part#1005063;Feb 2010),通过参照将其并入本文。
根据本发明的实施例,利用基于PCR的全基因组扩增方法或非基于PCR的方法对所述全基因组进行扩增。
根据本发明的具体实施例,所述基于PCR的全基因组扩增方法为PEP-PCR、DOP-PCR或OmniPlexWGA方法;或所述非基于PCR的方法为MDA。
根据本发明的具体实施例,利用选自Hiseq系统、Miseq系统、Genome Analyzer(GA)系统、454FLX、SOLiD系统、Ion Torrent系统和单分子测序装置的至少一种对所述测序文库进行测序。
另外,根据本发明的实施例,在对基因组进行测序之前,进一步包括从生物样本中提取样本基因组的步骤。由此,能够直接以生物样本作为原材料,获得关于该生物样本是否具有拷贝数变异的信息,从而反映生物体的健康状态。根据本发明的实施例,可以采用的生物样本并不受特别限制。根据本发明的一些具体示例,可以采用的生物样本为选自血液、尿液、唾液、组织、生殖细胞、受精卵、卵裂球和胚胎的任意一种。
根据本发明的实施例,从生物样本分离单细胞的方法和设备不受特别限制。根据本发明的一些具体示例,可以采用选自稀释法、吸管分离法、显微操作(优选显微切割)、流式细胞分离术、微流控法的至少一种从生物样本分离单细胞。由此,能够有效便捷地获得生物样本的单细胞,以便实施后续操作,由此,可以进一步提高确定样本基因组中是否存在拷贝数变异的效率。
S200:将所述测序结果与参照基因组序列进行比对,以便确定所述测序序列在所述参照基因组序列上的分布
在完成对样本基因组进行测序之后,所得到的测序结果中包含了多个测序序列。将所得到的测序结果与参照基因组序列进行比对,从而可以确定所得到的测序序列在参照基因组序列上的定位。根据本发明的实施例,可以采用任何已知的方法对这些测序数据的总数目进行计算。例如,可以采用测序仪器的制造商所提供的软件进行分析。优选采用短寡核苷酸分析包(Short Oligonucleotide Analysis Package,SOAP)和BWA比对(Burrows-Wheeler Aligner)进行,将测序序列与参考基因组序列比对,得到测序序列在参考基因组上的位置。进行序列比对可以使用程序提供的默认参数进行,或者由本领域技术人员根据需要对参数进行选择。在本发明的一个实施方案中,所采用的比对软件是SOAPaligner/soap2。
根据本发明的实施例,参照基因组序列是NCBI数据库中的标准人类基因组参考序列(例如可以为hg18,NCBI Build 36)。也可以是已知基因组序列的一部分,例如可以为选自人类21号染色体、18号染色体、13号染色体、X染色体和Y染色体的至少一种的序列。
根据本发明的实施例,通过将测序结果与参照基因组序列进行比对,可以选择与参照基因组序列唯一比对的序列,进行后续分析,由此,能够避免重复序列对拷贝数变异分析的干扰,进一步提高确定预定染色体保守区域、确定样本基因组中是否存在拷贝数变异的效率。
S300:基于所述测序序列在所述参照基因组序列上的分布,针对预定染色体,确定异常区域
根据本发明的实施例,步骤S300进一步包括:(3-1)将所述参考基因组序列划分为多个窗口,并且分别统计各个所述窗口的测序深度;(3-2)基于所述多个窗口的所有端点两侧相同数目窗口的测序深度,选择初始突破点;(3-3)基于所述初始突破点,确定所述异常区域。
根据本发明的实施例,各个所述窗口的所述测序深度是按照公式确定的,其中,/>表示所述窗口的测序深度,W表示各个所述窗口中的唯一比对序列数,Rt表示各个所述窗口中所述唯一比对序列数的总和,N表示各个所述窗口的窗口总数。
根据本发明的实施例,在进行步骤(3-2)之前,预先基于各个所述窗口的GC含量对各个所述窗口的测序深度进行校正处理。
根据本发明的实施例,所述校正处理包括:(3-2-a)对各个所述窗口的GC含量进行统计,并按照预定步长进行区段划分,以便获得多个GC含量区段;(3-2-b)统计各个所述GC含量区段中窗口的唯一比对序列数的中位值;(3-2-c)基于公式确定经过校正的各个所述窗口的测序深度,其中,T表示经过校正的所述窗口的测序深度,/>表示所述窗口的测序深度,M表示步骤(3-2-b)中确定的所述中位值,W表示所述窗口中的唯一比对序列数。
根据本发明的具体实施例,在步骤(3-2-a)中,所述预定步长为0.01。
根据本发明的具体实施例,在步骤(3-2)中,选择这样的端点作为所述初始突破点,在该端点两侧相同数目的窗口中,测序深度存在显著差异性。
根据本发明的具体实施例,所述初始突破点是通过下列步骤确定的:确定各个端点的p值,所述p值表示两侧测序数据数目的显著差异性;以及如果所述位点的p值小于终止p值,判断所述位点为突破点,优选所述终止p值为至多1.1×10-50。
根据本发明的具体实施例,在所述各个端点两侧各取100个窗口。
根据本发明的具体实施例,所述窗口的长度均为100-200Kbp,优选150Kbp。
根据本发明的具体实施例,步骤(3-3)包括:(3-3-a)基于所述初始突破点,确定多个检验窗口;以及(3-3-b)基于所述检验窗口的平均测序深度与预定阈值的差异,确定所述检验窗口是否为异常区域。
根据本发明的实施例,在步骤(3-3)中,通过下列步骤确定所述异常区域:(3-3-1)确定多个候选突破点,其中在所述候选突破点的前后均存在其他突破点;(3-3-2)确定每个候选突破点的p值,并剔除p值最大的候选突破点;(3-3-3)对剩余的候选突破点重复步骤2),直到剩余候选突破点的p值均小于终止p值,所述剩余候选突破点作为经过筛选的候选突破点;(3-3-4)确定相邻两个经过筛选的候选突破点之间的区域为检验窗口;(3-3-5)基于所述检验窗口的平均测序深度与预定阈值的差异,确定所述检验窗口是否为异常区域。
根据本发明的再一具体实施例,所述方法进一步包括:(3-4)针对所述预定染色体的参考序列,在排除步骤(3-3)中所确定的区域后,针对剩余区域内的所有窗口的每一个,按照公式确定各窗口的T值稳定值,其中i表示窗口的编号,n表示第i号窗口之后连续的至少一个窗口数目,其中n为至少1的整数,优选至少10的整数,Tni表示第i号窗口的T值稳定值;(3-5)基于步骤(3-4)中得到的各窗口的T值稳定值,选择差异显著的窗口作为异常区域。
S400:针对所述预定染色体,选择所述异常区域之外的至少一部分区域作为所述预定染色体的保守区域
二、一种确定样本基因组中是否存在染色体拷贝数变异的方法
在本发明的一个方面,本发明提出了一种确定样本基因组中是否存在染色体拷贝数变异的方法。
参考图2,根据本发明实施例的确定样本基因组中是否存在染色体拷贝数变异的方法包括:
S1000:确定预定染色体的保守区域
具体地,本步骤可参照前面所述的确定预定染色体保守区域的方法。
S2000:基于所述保守区域中所述窗口的测序深度,确定所述预定染色体的特征值
根据本发明的实施例,S2000进一步包括:(b-1)按照公式确定预定染色体的平均深度值,其中Rc表示c号染色体的平均深度值,c表示染色体的编号,j表示c号染色体上所述保守区域中所有窗口的总数,Tj表示经过校正的窗口的测序深度;(b-2)基于公式确定所述预定染色体的所述特征值,其中,Rc为所述预定染色体的平均深度值,表示所述样本中各染色体Rc值的平均值,sd表示所述样本中各染色体Rc值的标准偏差。
S3000:基于S2000中所得到的所述特征值,针对所述样本基因组,确定所述预定染色体是否存在拷贝数变异
根据本发明的实施例,在步骤S3000中,基于所述特征值与预定阈值的差异,针对所述样本基因组,确定所述检验窗口是否存在拷贝数变异。
根据本发明的具体实施例,所述预定阈值包括第一阈值和第二阈值,所述第二阈值大于所述第一阈值,其中,所述特征值大于所述第二阈值表示所述预定染色体存在染色体重复,所述特征值小于所述第一阈值表示所述预定染色体存在染色体缺失。
根据本发明的再一具体实施例,所述第一阈值和所述第二阈值是基于多个参考样本的Rc值波动范围确定的,其中,所述参考样本已知不存在所述拷贝数变异。
根据本发明的再一具体实施例,所述第一阈值不超过所述波动范围的下端值,所述第二阈值不低于所述波动范围的上端值。
根据本发明的再一具体实施例,所述第一阈值为至多0.7,所述第二阈值为至少1.3。
根据本发明的再一具体实施例,染色体拷贝数变异为选自染色体非整倍性、染色体片段缺失、染色体片段增加、微缺失、微重复的至少一种。优选的,利用根据本发明实施例的确定样本基因组中是否存在染色体拷贝数变异的方法对染色体非整倍性的检测效果更优。
三、一种确定预定染色体保守区域的装置
根据本发明的第三方面,本发明提出了一种确定预定染色体保守区域的装置,利用该装置能够有效的实施前述确定预定染色体保守区域的方法,从而能够有效地确定预定染色体中的保守区域,进而基于所确定的保守区域,在不需要正常样本的情况下有效确定单细胞染色体的拷贝数变异,尤其是非整倍性变异。
参考图3,根据本发明的实施例,确定预定染色体保守区域的装置100包括:测序单元110、比对单元120、异常区域确定单元130、保守区域确定单元140。
根据本发明的实施例,所述测序单元110对来自于单细胞的全基因组样本进行测序,以便获得由多个测序序列构成的测序结果;根据本发明的实施例,确定预定染色体保守区域的装置100可以进一步包括基因组提取单元(图中未示出),该基因组提取单元适于从生物样本中分离单细胞,进而提取样本基因组,并且该基因组提取单元与测序单元相连以便为测序单元110提供样本基因组。由此,能够直接以生物样本作为原材料,获得关于该生物样本预定染色体保守区域和获得拷贝数变异的信息,从而反映生物体的健康状态。根据本发明的实施例,测序单元可以进一步包括:基因组扩增组件、测序文库构建组件以及测序组件。其中,基因组扩增组件适于对所述样本基因组进行扩增,测序文库构建组件与基因组扩增组件相连,并且适于利用经过扩增的样本基因组构建测序文库;以及测序组件,测序组件与所述测序文库构建组件相连,并且适于对所述测序文库进行测序。根据本发明的实施例,测序单元为选自第二代测序技术如Illumina公司的Hiseq系统,Miseq系统,GenomeAnalyzer(GA)系统,Roche公司的454FLX,Applied Biosystems公司的SOLiD系统,Life Technologies公司的Ion Torrent系统和单分子测序装置的至少一种。由此,能够利用这些测序装置的高通量、深度测序的特点,进一步提高了确定预定染色体保守区域和确定单细胞染色体非整倍性的效率。
根据本发明的实施例,比对单元120与测序单元110相连,所述比对单元120用于将所述测序结果与参照基因组序列进行比对,以便确定所述测序序列在所述参照基因组序列上的分布。
根据本发明的实施例,异常区域确定单元130与比对单元120相连,用于基于所述测序序列在所述参照基因组序列上的分布,针对预定染色体,确定异常区域。
根据本发明的实施例,所述异常区域确定单元130包括:窗口划分组件,所述窗口划分组件用于将所述参考基因组序列划分为多个窗口,并且分别统计各个所述窗口的测序深度;初始突变点确定组件,所述确定初始突变点组件用于基于所述多个窗口的所有端点两侧相同数目窗口的测序深度,选择初始突破点;异常区域确定组件,所述异常区域确定组件用于基于所述初始突破点,确定所述异常区域。其中,异常区域确定组件包括:检验窗口确定模块,所述检验窗口确定模块用于基于所述初始突破点,确定多个检验窗口;以及差异比对模块,所述差异比对模块用于基于所述检验窗口的平均测序深度与预定阈值的差异,确定所述检验窗口是否为异常区域。根据本发明的实施例,通过下列方式确定所述异常区域:确定多个候选突破点,其中在所述候选突破点的前后均存在其他突破点;确定每个候选突破点的p值,并剔除p值最大的候选突破点;对剩余的候选突破点重复确定每个候选突破点的p值,并剔除p值最大的候选突破点,直到剩余候选突破点的p值均小于终止p值,所述剩余候选突破点作为经过筛选的候选突破点;确定相邻两个经过筛选的候选突破点之间的区域为检验窗口;基于所述检验窗口的平均测序深度与预定阈值的差异,确定所述检验窗口是否为异常区域。
各个所述窗口的所述测序深度是按照公式确定的,其中,/>表示所述窗口的测序深度,W表示各个所述窗口中的唯一比对序列数,Rt表示各个所述窗口中所述唯一比对序列数的总和,N表示各个所述窗口的窗口总数。根据本发明的具体实施例,异常区域确定单元130还可以进一步包括校正组件,该校正组件与初始突变点确定组件相连,用于基于各个所述窗口的GC含量对各个所述窗口的测序深度进行校正处理。具体地,该校正组件包括GC含量确认模块,所述GC含量确认模块适于对各个所述窗口的GC含量进行统计,并按照预定步长进行区段划分,以便获得多个GC含量区段;中位值统计模块,所述中位数统计模块适于统计各个所述GC含量区段中窗口的唯一比对序列数的中位值;测序深度确认模块,所述测序深度确认模块适于基于公式/>确定经过校正的各个所述窗口的测序深度,其中,T表示经过校正的所述窗口的测序深度,/>表示所述窗口的测序深度,M表示步骤(3-2-b)中确定的所述中位值,W表示所述窗口中的唯一比对序列数。
优选地,所述预定步长为0.01。
根据本发明的实施例,选择这样的端点作为所述初始突破点,在该端点两侧相同数目的窗口中,测序深度存在显著差异性。
根据本发明的实施例,所述初始突破点是通过下列方式确定的:确定各个端点的p值,所述p值表示两侧测序数据数目的显著差异性;以及如果所述位点的p值小于终止p值,判断所述位点为突破点,优选所述终止p值为至多1.1×10-50。
根据本发明的实施例,在所述各个端点两侧各取100个窗口。
根据本发明的实施例,所述窗口的长度均为100-200Kbp,优选150Kbp。
根据本发明的实施例,所述异常区域确定单元还可以进一步包括:窗口T值稳定值确定组件,所述窗口T值稳定值确定组件用于针对所述预定染色体的参考序列,在排除所述异常区域确定组件中所确定的区域后,针对剩余区域内的所有窗口的每一个,按照公式确定各窗口的T值稳定值,其中i表示窗口的编号,n表示第i号窗口之后连续的至少一个窗口数目,其中n为至少1的整数,优选至少10的整数,Tni表示第i号窗口的T值稳定值,差异显著的窗口确定组件,所述差异显著确定组件用于基于窗口T值稳定值确定组件得到的各窗口的T值稳定值,选择差异显著的窗口作为异常区域。
根据本发明的实施例,保守区域确定单元140与异常区域确定单元130相连,用于针对所述预定染色体,选择所述异常区域之外的至少一部分区域作为所述预定染色体的保守区域。
需要说明的是,本领域技术人员能够理解,在前面所描述的确定预定染色体保守区域的方法的特征和优点也适合于确定预定染色体保守区域的装置,为描述方便,不再详述。
四、一种确定样本基因组中是否存在染色体拷贝数变异的系统
根据本发明的第四方面,本发明提出了一种确定样本基因组中是否存在染色体拷贝数变异的系统,利用该系统能够有效的实施前述确定样本基因组中是否存在染色体拷贝数变异的方法,从而能够有效地确定单细胞染色体的拷贝数变异,尤其是非整倍性变异。
参考图4,根据本发明实施例的确定样本基因组中是否存在染色体拷贝数变异的系统包括:确定预定染色体保守区域的装置100,所述确定预定染色体保守区域的装置100如前所描述的,所述确定预定染色体保守区域的装置用于确定预定染色体的保守区域;确定特征值的装置200,所述确定特征值的装置200用于基于所述保守区域中所述窗口的测序深度,确定所述预定染色体的特征值;确定拷贝数变异的装置300,所述确定拷贝数变异的装置用于基于确定特征值的装置中得到的所述特征值,针对所述样本基因组,确定所述预定染色体是否存在拷贝数变异。
其中,根据本发明的实施例,所述确定特征值的装置200用于基于所述保守区域中所述窗口的测序深度,确定所述预定染色体的特征值,包括:确定染色体的平均深度单元,所述确定染色体的平均深度单元适于按照公式确定预定染色体的平均深度值,其中Rc表示c号染色体的平均深度值,c表示染色体的编号,j表示c号染色体上所述保守区域中所有窗口的总数,Tj表示经过校正的窗口的测序深度;确定染色体的所述特征值单元,所述确定染色体的所述特征值单元适于基于公式/>确定所述预定染色体的所述特征值,其中,Rc为所述预定染色体的平均深度值,/>表示所述样本中各染色体Rc值的平均值,sd表示所述样本中各染色体Rc值的标准偏差。
根据本发明的实施例,确定拷贝数变异的装置适于基于所述特征值与预定阈值的差异,针对所述样本基因组,确定所述检验窗口是否存在拷贝数变异。
根据本发明的实施例,所述预定阈值包括第一阈值和第二阈值,所述第二阈值大于所述第一阈值,其中,所述特征值大于所述第二阈值表示所述预定染色体存在染色体重复,所述特征值小于所述第一阈值表示所述预定染色体存在染色体缺失。
根据本发明的实施例,所述第一阈值和所述第二阈值是基于多个参考样本的Rc值波动范围确定的,其中,所述参考样本已知不存在所述拷贝数变异。
根据本发明的实施例,所述第一阈值不超过所述波动范围的下端值,所述第二阈值不低于所述波动范围的上端值。
根据本发明的实施例,所述第一阈值为至多0.7,所述第二阈值为至少1.3。
根据本发明的实施例,染色体拷贝数变异为选自染色体非整倍性、染色体片段缺失、染色体片段增加、微缺失、微重复的至少一种。优选的,利用根据本发明实施例的确定样本基因组中是否存在染色体拷贝数变异的系统适于实施前述确定样本基因组中是否存在染色体拷贝数变异的方法,对染色体非整倍性的检测效果更优。
需要说明的是,本领域技术人员能够理解,在前面所描述的确定样本基因组中是否存在染色体拷贝数变异的方法的特征和优点也适合于确定样本基因组中是否存在染色体拷贝数变异的系统,为描述方便,不再详述。
五、计算机可读介质
根据本发明的第五方面,本发明提出了一种计算机可读介质。根据本发明的实施例,该计算机可读介质上存储有指令,所述指令适于被处理器执行以便通过下列步骤确定样本基因组中是否存在拷贝数变异:确定预定染色体保守区域的装置,所述确定预定染色体保守区域的装置如前面所限定的,所述确定预定染色体保守区域的装置用于确定预定染色体的保守区域;确定特征值的装置,所述确定特征值的装置用于基于所述保守区域中所述窗口的测序深度,确定所述预定染色体的特征值;确定拷贝数变异的装置,所述确定拷贝数变异的装置用于基于确定特征值的装置中得到的所述特征值,针对所述样本基因组,确定所述预定染色体是否存在拷贝数变异。借助该计算机可读介质,能够有效地实施根据本发明实施例的确定样本基因组中是否存在拷贝数变异的方法,从而能够有效地确定样本基因组中是否存在拷贝数变异,尤其适用与染色体非整倍性。
需要说明的是,本领域技术人员能够理解,在前面所描述的确定样本基因组中是否存在拷贝数变异的方法的特征和优点也适合于该计算机可读介质,为描述方便,不再详述。
下面将结合实施例对本发明的方案进行解释。本领域技术人员将会理解,下面的实施例仅用于说明本发明,而不应视为限定本发明的范围。实施例中未注明具体技术或条件的,按照本领域内的文献所描述的技术或条件(例如参考J.萨姆布鲁克等著,黄培堂等译的《分子克隆实验指南》,第三版,科学出版社)或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者,均为可以通过市购获得的常规产品,例如可以采购自Illumina公司。
一般方法
参考图5,在实施例中采用的确定样本基因组中是否存在拷贝数变异的方法包括下列:
1)样本基因组测序
从样本中分离单细胞,样本可以选自血液、尿液、唾液、组织、生殖细胞、受精卵、卵裂球和胚胎等。之后裂解单细胞提取样本全基因组,裂解方法不受限制。之后对提取的基因组进行扩增,扩增方法可以采用基于PCR的方法例如PEP-PCR(primer-extension-preamplification PCR,PEP-PCR)、DOP-PCR、和OmniPlex WGA,也可采用非基于PCR的方法例如MDA(Multiple DisplacementAmplification,MDA)等,在本专利的实施例中考虑到扩增时间和扩增均一性的影响,优先选用Rubicon Genomics的PicoPlex。在完成扩增之后可以根据二代测序平台操作手册进行文库构建,这里的二代测序平台可以是Illumina公司的Hiseq平台,Miseq平台,GenomeAnalyzer(GA)平台,Roche公司的454FLX,AppliedBiosystems公司的SOLiD平台,Life Technologies公司的Ion Torrent平台等,本实施例中采用华大基因的BGISEQ-500平台进行测序。本发明中测序平台并不限定在二代测序平台中,也可以是其他测序方法和装置,例如第三代测序技术以及未来更先进的测序装置。本专利通过测试发现在28bp的情况下,通过低深度全基因组测序,可实现单细胞非整倍体的有效检出。
2)下机数据质控
根据所用测序平台的数据特点对样本测序质量情况进行过滤。在本实施例中,根据BGISEQ-500测序特点,根据测序光强,测序序列数,标签拆分率,G碱基和C碱基含量占比对下机数据进行质控。
3)序列比对
将测序结果与参照基因组序列进行比对,本实施例中参照标准的人类基因组序列(hg19,NCBI Build 37),也可以限定在已知基因组的某几条染色体。将通过质控的下机序列与标准人类基因组序列进行比对,确定测序序列在基因组上的位置。比对可以利用现有比对软件进行。在本发明的实施例中用BWA(Burrows-WheelerAligner)比对软件进行。发明人发现此方法在测序序列长度为28碱基的情况下仍可成功检出非整倍体。本领域专业人员可以根据其他测序平台序列长度选择其他比对软件,根据比对结果进行参数调整。比对完成后根据比对结果文件挑选出与参照基因组序列唯一比对的序列,进行后续分析,并去掉序列中的重复序列,防止测序深度产生偏差,出现错误结果。
4)单个样本质控
根据比对结果计算样本唯一比对率,重复率,唯一比对read数目,GC含量等。根据数据分布特点,本实施例中选用百分位数法估计正常值范围(在数据不符合正态分布和偏态分布情况下)采用范围为5%和95%,采用估计软件为:SPSS Statistics 17.0。选用可表征测序特点的指标作为质控范围。本实施例中选用的为唯一比对率,重复率,GC含量和深度变异系数作为质控指标。
5)数据校正与标准化
首先将人类参考基因组划分为不同窗口,窗口可以是等长的也可是非等长的。根据样本序列比对结果对每个区间内的序列数进行统计。根据所有窗口内落入的序列数是否呈现正态分布确定区间长度的最佳方案。根据比对后落入窗口内的唯一比对序列数和该窗口的GC含量对窗口的深度值进行校正。首先用全基因组范围内窗口的平均序列数对各个窗口内的序列数进行标准化,得到标准化后的深度值,其中窗口的内唯一比对序列数为W,Rt为总的唯一比对序列数,N为总的窗口数。根据窗口内GC的含量差异,以0.01的步长对窗口类型进行分类。用W与相同间隔内序列数的中位值M的比值乘以平均/>得到每个窗口的矫正值/>
6)样本内染色体片段变异检测
完成数据矫正后,根据Y染色体上唯一比对的序列数对单个样本的性别进行判断。逐个遍历样本中的窗口,选择窗口相邻的左右两端等量的窗口数进行游程检验,得到每个窗口对应的检测P值。对所有P值进行排序去掉非显著的窗口位置,得到初始断点集合B={b1,b2,b3,…,bn}。对相邻断点左右两端区间内的深度值进行二轮统计得到每个断点对应新的P值。在上述断点P值的基础上,对某一断点来说分别于左右两断点区间进行统计检验,并在循环中删除不显著断点。获得每个断点区间的P值和深度值的均值。根据断点P值显著性判断是否为真实断点,根据深度值的大小判断是缺失还是重复。根据断点区间大小判断检测精度。
7)样本内整条染色体变异检测
对窗口内的矫正深度T进行区间矫正,为保证连续几个窗口内的T值的稳定性,采用公式n≥10,即利用i窗口后面的n个窗口的深度来矫正Ti。并且计算n个区域内的变异系数,过滤掉变异系数异常的区域,计算每条染色体的平均深度值/>(j为此染色体的窗口数,c为染色体编号)。计算样本内染色体深度的平均深度值/>和标准差sd,计算对应染色体的/>
8)单个样本非整倍体判断
根据上述检测步骤对9例正常样本进行统计得到Rc值的正常波动范围为0.7~1.3,以此范围为正常样本的波动范围,其他样本中小于0.7的为染色体缺失,大于1.3的为染色体重复。根据2.2.6中统计检验获得的整条染色体的缺失重复信息进行片段融合,计算变异长度。根据2.2.7中整条染色体的矫正深度值判断整条染色体的变异情况。最终根据整条染色体的深度值,变异长度和变异系数来判断是否发生非整倍体变异。
实施例对7例商业购买的细胞系进行染色体非整倍性变异检测
本发明使用商业购买的细胞系,共有7个实施例,具体信息见表1。
表1:实施例中七个样本
样本名 |
Array-CGH结果 |
Sample1 |
47,XY,+15(1.38) |
Sample2 |
47,XX,+18(1.48) |
Sample3 |
47,XX,+21(1.46) |
Sample4 |
47,XX,+9(1.41) |
Sample5 |
47,XX,+15(1.43) |
Sample6 |
47,XY,+18(1.46) |
Sample7 |
47,XY,+21(1.45) |
(1)挑取细胞系单细胞
商业购买已知核型的细胞系(Coriell Institute for Medical Research),消化细胞,用显微操作仪(Eppendorf,NK2)分选细胞。向消化后的细胞中加入Hochest(LIFETECHNOLOGIES,1660845)染色液,室温下避光染色15min。将染色后的细胞悬液平铺于已预先平铺了用PBS(LIFE TECHNOLOGIES,14190-144)稀释的1%BSA(NEB,B9001S)的载玻片表面,挑取1个明场下有明显细胞形貌及荧光场下符合条件的有核细胞至做好标记的PCR管(AXYGEN,MCT-150-C)中,PCR管根据实验要求提前添加4μLPBS作为底液,挑选完成后,离心,准备进行单细胞扩增反应。
(2)单细胞全基因组扩增
采用本试剂盒中的试剂对胚胎细胞进行WGA,具体的扩增过程包括三个步骤。第一,细胞裂解:向已经收集到细胞的PCR管中加入由细胞裂解缓冲液和细胞裂解酶配置的混合液,在75℃下反应10min,95℃下反应4min,使细胞裂解,并释放出其中的DNA。第二,前扩增:向上步反应液中加入由前扩增缓冲液和前扩增酶配置的混合液,在95℃下反应2min,然后在95℃15s,15℃50s,25℃40s,35℃30s,65℃40s,75℃40s下反应12个循环。第三,后扩增:向前一步反应液中加入由后扩增缓冲液,后扩增酶和去核酸酶水配置的混合液,在95℃下反应2min,然后在95℃15s,65℃1min,75℃1min下循环14次,反应完成后的扩增产物可直接用于下游分析或置于-20℃冰箱保存。
(3)测序文库制备
采用本试剂盒中的试剂对细胞的WGA产物进行文库构建,具体的文库构建过程包括四个步骤:DNA打断、末端修复、接头连接、PCR扩增。第一,DNA打断:对WGA产物进行定量,取一定量的WGA产物,向其中加入由DNA打断酶和DNA打断缓冲液组成的混合液,在37℃下反应5min,75℃下反应15min,打断后纯化。第二,末端修复:对打断纯化后的产物进行定量,取一定量的纯化后的产物,向其中加入由末端修复缓冲液和末端修复酶配置的混合液,在37℃下反应30min,然后在75℃下反应15min。第三,接头连接:向上步反应液中加入由连接缓冲液和连接酶配置的混合液,然后向其中加入标签接头1-48(每个样本单独一个接头),在20℃下反应20min,使用磁珠纯化连接反应产物。第四,PCR扩增,向上步反应纯化后的DNA中,加入由PCR反应液和PCR引物配置的混合液,在98℃下反应2min,然后在98℃15s,56℃15s,72℃30s下循环12个cycles,在72℃下延伸5min,4℃保持;扩增完成后,使用磁珠纯化,并测定纯化后样本的浓度。
(4)DNA测序反应
基于二代高通量测序技术,在华大自主研发的BGISEQ-500测序平台进行上机测序。测序试剂采用本试剂盒中试剂,其中仪器的参数设置及操作方法都要严格按照操作手册进行。
虽然本发明中所用仪器为BGISEQ-500,本试剂盒中的测序循环数为SE28+10,但由于仪器以及建库、测序方法会不断升级,所以在实际应用中,本试剂盒的使用不限于这一种仪器,不限于这一种建库方法,不限于这一种测序循环数,适用于BGISEQ系列中的各种建库方法、测序平台以及测序方法。
(5)数据分析
a,序列比对
本实施例中用BWA软件(版本号:0.7.7-r441)将测得的样本序列比对到参考基因组(hg19,NCBI Build 37)。根据比对结果获得比对信息如表2从比对结果中挑出唯一比对的序列,去掉重复序列后用于下面的分析。根据比对产生的信息对样本进行质控。
表2:
b,单样本数据校正
七个样本的数据矫正后的深度值分布示意图如图6~12所示。与图6~12对应的每条染色体的矫正深度值见表3。
表3:
c、单样本分割断点位置
七个样本内全基因组检验显著值拟合分布如图13~19所示。由图13~19可以看出,整条染色体显著断点拟合线均在1.3以上,可判断为非整倍体。
工业实用性
本发明的确定预定染色体保守区域的方法、确定预定染色体保守区域的装置、确定样本基因组中是否存在拷贝数变异的方法、系统和计算机可读介质能够有效地用于确定样本基因组中是否存在拷贝数变异。
尽管本发明的具体实施方式已经得到详细的描述,本领域技术人员将会理解。根据已经公开的所有教导,可以对那些细节进行各种修改和替换,这些改变均在本发明的保护范围之内。本发明的全部范围由所附权利要求及其任何等同物给出。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。