CN104133914A

CN104133914A - 一种消除高通量测序引入的gc偏差及对染色体拷贝数变异的检测方法

Info

Publication number: CN104133914A
Application number: CN201410394930.XA
Authority: CN
Inventors: 郑海灵; 陈会飞; 陈洪亮; 祝兴强; 林静; 张阿虹; 徐欢
Original assignee: XIAMEN VANGENES BIOTECHNOLOGY Co Ltd
Current assignee: Xiamen Vangenes Biotechnology Co ltd
Priority date: 2014-08-12
Filing date: 2014-08-12
Publication date: 2014-11-05
Anticipated expiration: 2034-08-12
Also published as: CN104133914B

Abstract

本发明涉及高通量测序技术领域，特别是指一种消除高通量测序引入的GC偏差及对染色体拷贝数变异的检测方法，通过对人类基因组进行处理，并结合高通量测序得到的基因序列进行比对，对基因序列进行校正后，在染色体间做T-test，从而判断混合样本中染色体是否存在整倍体变异，很好地解决了高通量测序引入的GC偏差的技术问题，从而使得高通量测序在混合样本中染色体拷贝数变异的检测上的应用成为可能。

Description

一种消除高通量测序引入的GC偏差及对染色体拷贝数变异的检测方法

技术领域

本发明涉及高通量测序技术领域，特别是指一种消除高通量测序引入的GC偏差及对染色体拷贝数变异的检测方法。

背景技术

高通量测序技术又称“下一代”测序技术，以能一次并行对几十万到几百万条DNA分子进行序列测定和一般读长较短等为标志。高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能，所以又被称为深度测序。

高通量测序整个过程中，包括前期扩增和测序时，会引入GC的偏差，造成不同GC组成的DNA分子的差异取样和富含GC或少含GC的染色体测序数据的偏差，GC偏差的存在一定程度上影响了高通量测序的应用。

染色体拷贝数目的变异指的是和正常样本基因组染色体拷贝数目不同的变异，目前拷贝数目变异的检测方法，主要有高分辨率染色体核型分析、荧光原位杂交、比较基因组杂交、多重连接探针扩增技术、PCR的方法等，但这些方法在进行全基因组水平全面扫描的情况下，存在效率较低等缺点。在混合样本中，这些方法对某一个样本的变异检出的能力也不是很强。

发明内容

本发明的主要目的在于解决高通量测序引入的GC偏差问题以及高通量测序对混合样本中某一个样本的变异检测能力不强的问题，提供一种消除高通量测序引入的GC偏差及对染色体拷贝数变异的检测方法。

本发明采用如下的技术方案：

一种消除高通量测序引入的GC偏差方法，包括如下步骤：

步骤一，对人类基因组进行分析，找出所有一定长度的唯一比对序列；

步骤二，将上述唯一比对序列按照在人类基因组上的位置顺序，在染色体内以一定数目的唯一比对序列划分一个窗口，记录下每个窗口的起始位置和终止位置；

步骤三，利用高通量测序平台对待测混合样本进行全基因组测序；

步骤四，将步骤三得到的序列统一取出与步骤一中的唯一比对序列长度相同的前部序列，同时去除测序质量较低的序列；

步骤五，将步骤四得到的前部序列比对到人类基因组，去除多匹配、非完全匹配和没有比对到染色体的序列；

步骤六，将步骤五得到的序列定位到步骤二划分的窗口中，统计每个窗口内所有序列的GC值，并忽略窗口内序列数目大于99.9分位数的窗口；

步骤七，根据步骤六得到的窗口和每个窗口的序列数目和GC值，对所有窗口的序列数目和GC值进行拟合，得到二者间的拟合关系；

步骤八，根据步骤七得到的拟合关系，用每个窗口的GC值预测得到新的序列数目，记做预测值，计算公式如下：

pre_i,j＝f(GC_i,j)

其中i＝1,2,3……22，X，Y；pre_i,j代表预测值，f(GC_i,j)代表第i条染色体第j个窗口序列数目和GC值之间的拟合关系；

步骤九，根据步骤八得到的预测值，计算出每个窗口预测值与最大值之间的差距，计算公式如下：

d_if_i,j＝max(pre)-pre_i,j

其中，i＝1,2,3……22，X，Y；d_if_i,j是第i条染色体第j个窗口的预测值和所有窗口预测值的差，max(pre)是所有窗口中最大的预测值；

步骤十，根据步骤六得到的窗口和每个窗口的序列数目，将每个窗口的序列数目加上步骤九得到的差距，计算公式如下：

adjust_i,j＝n_i,j+d_if_i,j

其中，i＝1,2,3……22，X，Y；adjust_i,j为第i条染色体的第j个窗口校正后的值，n_i,j为统计的每个窗口原始序列数目。

进一步地，步骤一中一定长度的唯一比对序列的长度为30-100bp。

更进一步地，所述唯一比对序列的长度为35bp。

进一步地，人类基因组为hg19或hg18。

进一步地，所述步骤二划分的窗口包括的唯一比对序列的数目为40000/(高通量测序得到的所有序列数目-高通量测序得到的唯一比对序列的数目)，其中高通量测序得到的所有序列数目和高通量测序得到的唯一比对序列的数目的单位为M。

进一步地，所述步骤七中的拟合为线性拟合、smooth-spline拟合或loess拟合。

一种通过高通量测序对染色体拷贝数变异进行检测的方法，根据前述得到的每个窗口校正后的唯一比对序列值在染色体间进行比较，其中他们之间的差异表明混合样本中有样本拷贝数目变异，比较两条染色体间的差异用T-test进行，公式如下：

Z_{p, q} = (\overset{&OverBar;}{{adjust}_{p}} - \overset{&OverBar;}{{adjust}_{q)}} / \sqrt{\frac{(n_{p} - 1) {S_{p}}^{2} + (n_{q} - 1) {S_{q}}^{2}}{n_{p} + n_{q} - 2} (\frac{1}{n_{p}} - \frac{1}{n_{q}})}

其中为第p条染色体的所有窗口的均值，为第q条染色体的所有窗口的均值。

进一步地，当该方法用于检测混合样本中性染色体拷贝数变异时，包括如下步骤：

步骤一，是否含有男性样本：当该方法用于检测混合样本中是否含有男性样本时，若Z_X,Y＜20表明混合样本中没有男性样本，若Z_X,Y＞80说明混合样本中有男性样本，式中X、Y分别为X染色体和Y染色体；

步骤二，是否XXX三体异常：首先根据步骤一判断是否含有男性样本，当没有男性样本时，若Z_X,p＜3，则表明混合样本中含有XXX三倍体；

步骤三，是否XO异常：首先根据步骤一判断是否含有男性样本，当没有男性样本时，若Z_x,p>5且Z_x,p<13，则表明混合样本中含有XO异常；

步骤四，是否XXY三体异常：首先根据步骤一判断是否含有男性样本，当有男性样本时，若Z_x,p>13，则表明混合样本中含有XXY三体异常。

进一步地，当该方法用于检测混合样本中某一条常染色体是否存在拷贝数变异时，将该常染色体与其他常染色体做T-test，若Z>3，则表明该常染色体存在拷贝数异常。

与现有技术相比，本发明的一种消除高通量测序引入的GC偏差及对染色体拷贝数变异的检测方法很好地解决了高通量测序引入的GC偏差的技术问题，从而使得高通量测序在混合样本中染色体拷贝数变异的检测上的应用成为可能。

具体实施方式

实施例一

混合样本来源：孕妇外周血。

人类基因组hg19的处理：对人类基因组进行分析，找出所有35bp的唯一比对序列，将该找出的所有35bp的唯一比对序列按照在人类基因组上的位置顺序，在染色体内以20000个唯一比对序列划分为一个窗口，记录下每个窗口的起始位置和终止位置。

混合样本测序及窗口定位：混合样本常规处理后进行高通量测序，得到约4M的全序列片段，取出其中的唯一比对序列，并去除测序质量较低的序列，去除多匹配、非完全匹配和没有比对到染色体的序列，得到唯一比对序列2193034个，将2193034个唯一比对序列定位到上述窗口中，统计每个窗口内所有序列的GC值，并忽略窗口内序列数目大于99.9分位数的窗口。

窗口序列数目和GC值拟合：将上述得到的窗口和每个窗口的序列数目和GC值，对所有窗口的序列数目和GC值进行loess拟合。

预测值和最大值的取得：根据上述拟合关系，用每个窗口的GC值预测得到新的序列数目，记做预测值，计算公式如下：

pre_i,j＝f(GC_i,j)

根据上述得到的预测值，计算出每个窗口预测值与最大值之间的差距，计算公式如下：

d_if_i,j＝max(pre)-pre_i,j

其中，i＝1,2,3……22，X，Y；d_if_i,j是第i条染色体第j个窗口的预测值和所有窗口预测值的差，max(pre)是所有窗口中最大的预测值。

窗口序列数目的校正：根据上述得到的窗口和每个窗口的序列数目，将每个窗口的序列数目加上上述得到的差距，计算公式如下：

adjust_i,j＝n_i,j+d_if_i,j

任意两条染色体之间T-test检测：公式如下：

Z_{p, q} = (\overset{&OverBar;}{{adjust}_{p}} - \overset{&OverBar;}{{adjust}_{q)}} / \sqrt{\frac{(n_{p} - 1) {S_{p}}^{2} + (n_{q} - 1) {S_{q}}^{2}}{n_{p} + n_{q} - 2} (\frac{1}{n_{p}} - \frac{1}{n_{q}})}

检测结果如表一：

表一

表二

胎儿性别判断：Z_X,Y＝109.4278029，Z_X,Y＞80说明胎儿为男性。

性染色体异常判断：Z_X,6＝18.7552519，Z_X,6＞3，可以判断性染色体正常。

常染色体异常判断：mean(Z_21,i)i＝(1,2..,8)＝-1.555108756，mean(Z_21,i)＜3i＝(1,2…8)，可以判断21号染色体正常；Z_18,6＝-0.962033844，Z_18,6＜3，可以判断18号染色体正常；mean(Z_13,i)i＝(1,2…12)＝-0.287431004，mean(Z_13,i)i＝(1,2…12)＜3，可以判断13号染色体正常。

实施例二

混合样本来源：人为混合三倍体胚胎样本和正常未孕女性样本。

混合样本测序及窗口定位：混合样本常规处理后进行高通量测序，得到约4.5M的全序列片段，取出其中的唯一比对序列，并去除测序质量较低的序列，去除多匹配、非完全匹配和没有比对到染色体的序列，得到唯一比对序列2556217个，将2556217个唯一比对序列定位到上述窗口中，统计每个窗口内所有序列的GC值，并忽略窗口内序列数目大于99.9分位数的窗口。

pre_i,j＝f(GC_i,j)

d_if_i,j＝max(pre)-pre_i,j

adjust_i,j＝n_i,j+d_if_i,j

任意两条染色体之间T-test检测：公式如下：

Z_{p, q} = (\overset{&OverBar;}{{adjust}_{p}} - \overset{&OverBar;}{{adjust}_{q)}} / \sqrt{\frac{(n_{p} - 1) {S_{p}}^{2} + (n_{q} - 1) {S_{q}}^{2}}{n_{p} + n_{q} - 2} (\frac{1}{n_{p}} - \frac{1}{n_{q}})}

检测结果如表三、表四：

表三

表四

胎儿性别判断：Z_X,Y＝143.1451121，Z_X,Y＞80，可以判断胎儿为男性。

性染色体异常判断：Z_X,6＝20.93281138，Z_X,6＞3，可以判断性染色体正常。

常染色体异常判断：mean(Z_21,i)i＝(1,2..,8)＝-2.080532466，mean(Z_21,i)i＝(1,2..,8)＜3，可以判断21号染色体正常；Z_18,6＝10.17094987，Z_18,6＞3，可以判断18号染色体三倍体异常；mean(Z_13,i)i＝(1,2…12)＝-0.602645032，mean(Z_13,i)i＝(1,2…12)＜3，可以判断13号染色体正常。

实施例三

混合样本测序及窗口定位：混合样本常规处理后进行高通量测序，得到约6.8M的全序列片段，取出其中的唯一比对序列，并去除测序质量较低的序列，去除多匹配、非完全匹配和没有比对到染色体的序列，得到唯一比对序列4801374个，将4801374个唯一比对序列定位到上述窗口中，统计每个窗口内所有序列的GC值，并忽略窗口内序列数目大于99.9分位数的窗口。

pre_i,j＝f(GC_i,j)

d_if_i,j＝max(pre)-pre_i,j

adjust_i,j＝n_i,j+d_if_i,j

任意两条染色体之间T-test检测：公式如下：

Z_{p, q} = (\overset{&OverBar;}{{adjust}_{p}} - \overset{&OverBar;}{{adjust}_{q)}} / \sqrt{\frac{(n_{p} - 1) {S_{p}}^{2} + (n_{q} - 1) {S_{q}}^{2}}{n_{p} + n_{q} - 2} (\frac{1}{n_{p}} - \frac{1}{n_{q}})}

检测结果如表五、表六：

表五

表六

胎儿性别判断：Z_X,Y＝14.98617968，Z_X,Y＜20，可以判断胎儿为女性。

性染色体异常判断：Z_X,6＝7.686140974，Z_X,6＞3，可以判断性染色体正常。

常染色体异常判断：mean(Z_21,i)i＝(1,2..,8)＝-2.874726035，mean(Z_21,i)i＝(1,2..,8)＜3，可以判断21号染色体正常；Z_18,6＝-1.458291529，Z_18,6＜3，可以判断18号染色体正常；mean(Z_13,i)i＝(1,2…12)＝13.52049745，mean(Z_13,i)i＝(1,2…12)＞3，可以判断13号染色体三倍体异常。

实施例四

混合样本测序及窗口定位：混合样本常规处理后进行高通量测序，得到约4M的全序列片段，取出其中的唯一比对序列，并去除测序质量较低的序列，去除多匹配、非完全匹配和没有比对到染色体的序列，得到唯一比对序列2102435个，将2102435个唯一比对序列定位到上述窗口中，统计每个窗口内所有序列的GC值，并忽略窗口内序列数目大于99.9分位数的窗口。

pre_i,j＝f(GC_i,j)

d_if_i,j＝max(pre)-pre_i,j

adjust_i,j＝n_i,j+d_if_i,j

任意两条染色体之间T-test检测：公式如下：

Z_{p, q} = (\overset{&OverBar;}{{adjust}_{p}} - \overset{&OverBar;}{{adjust}_{q)}} / \sqrt{\frac{(n_{p} - 1) {S_{p}}^{2} + (n_{q} - 1) {S_{q}}^{2}}{n_{p} + n_{q} - 2} (\frac{1}{n_{p}} - \frac{1}{n_{q}})}

检测结果如表七、表八：

表七

表八

胎儿性别判断：Z_X,Y＝110.3458292，Z_X,Y＞80，可以判断胎儿为男性。

性染色体异常判断：Z_X,6＝24.78472809，Z_X,6＞3，可以判断性染色体正常。

常染色体异常判断：mean(Z_21,i)i＝(1,2..,8)＝6.842115822，mean(Z_21,i)i＝(1,2..,8)＞3，可以判断21号染色体三倍体异常；Z_18,6＝1.043081232，Z_18,6＜3，可以判断18号染色体正常；mean(Z_13,i)i＝(1,2…12)＝-1.771007537，mean(Z_13,i)i＝(1,2…12)＜3，可以判断13号染色体正常。

实施例五

混合样本来源：孕妇外周血。

混合样本测序及窗口定位：混合样本常规处理后进行高通量测序，得到约4.5M的全序列片段，取出其中的唯一比对序列，并去除测序质量较低的序列，去除多匹配、非完全匹配和没有比对到染色体的序列，得到唯一比对序列2669190个，将2669190个唯一比对序列定位到上述窗口中，统计每个窗口内所有序列的GC值，并忽略窗口内序列数目大于99.9分位数的窗口。

pre_i,j＝f(GC_i,j)

d_if_i,j＝max(pre)-pre_i,j

adjust_i,j＝n_i,j+d_if_i,j

任意两条染色体之间T-test检测：公式如下：

Z_{p, q} = (\overset{&OverBar;}{{adjust}_{p}} - \overset{&OverBar;}{{adjust}_{q)}} / \sqrt{\frac{(n_{p} - 1) {S_{p}}^{2} + (n_{q} - 1) {S_{q}}^{2}}{n_{p} + n_{q} - 2} (\frac{1}{n_{p}} - \frac{1}{n_{q}})}

检测结果如表九、表十：

表九

表十

胎儿性别判断：Z_X,Y＝10.75361612，Z_X,Y＜20，可以判断胎儿为女性。

性染色体异常判断：Z_X,6＝-5.992124378，Z_X,6＜3，可以判断性染色体XXX三倍体异常。

常染色体异常判断：mean(Z_21,i)i＝(1,2..,8)＝-1.978769806，mean(Z_21,i)i＝(1,2..,8)＜3，可以判断21号染色体正常；Z_18,6＝2.273282136，Z_18,6＜3，可以判断18号染色体正常；mean(Z_13,i)i＝(1,2…12)＝-0.357446827，mean(Z_13,i)i＝(1,2…12)＜3，可以判断13号染色体正常。

上述仅为本发明的具体实施方式，但本发明的设计构思并不局限于此，凡利用此构思对本发明进行非实质性的改动，均应属于侵犯本发明保护范围的行为。

Claims

1.一种消除高通量测序引入的GC偏差方法，其特征在于：包括如下步骤：

pre_i,j＝f(GC_i,j)

d_if_i,j＝max(pre)-pre_i,j

adjust_i,j＝n_i,j+d_if_i,j

2.如权利要求1所述的一种消除高通量测序引入的GC偏差方法，其特征在于：所述步骤一中一定长度的唯一比对序列的长度为30-100bp。

3.如权利要求2所述的一种消除高通量测序引入的GC偏差方法，其特征在于：所述唯一比对序列的长度为35bp。

4.如权利要求1所述的一种消除高通量测序引入的GC偏差方法，其特征在于：所述人类基因组为hg19或hg18。

5.如权利要求1所述的一种消除高通量测序引入的GC偏差方法，其特征在于：所述步骤二划分的窗口包括的唯一比对序列的数目为40000/(高通量测序得到的所有序列数目-高通量测序得到的唯一比对序列的数目)，其中高通量测序得到的所有序列数目和高通量测序得到的唯一比对序列的数目的单位为M。

6.如权利要求1所述的一种消除高通量测序引入的GC偏差方法，其特征在于：所述步骤七中的拟合为线性拟合、smooth-spline拟合或loess拟合。

7.一种通过高通量测序对染色体拷贝数变异进行检测的方法，其特征在于：根据权利要求1得到的每个窗口校正后的唯一比对序列值在染色体间进行比较，其中他们之间的差异表明混合样本中有样本拷贝数目变异，比较两条染色体间的差异用T-test进行，公式如下：

Z_{p, q} = (\overset{&OverBar;}{{adjust}_{p}} - \overset{&OverBar;}{{adjust}_{q)}} / \sqrt{\frac{(n_{p} - 1) {S_{p}}^{2} + (n_{q} - 1) {S_{q}}^{2}}{n_{p} + n_{q} - 2} (\frac{1}{n_{p}} - \frac{1}{n_{q}})}

8.如权利要求7所述的一种通过高通量测序对染色体拷贝数变异进行检测的方法，其特征在于：当该方法用于检测混合样本中性染色体拷贝数变异时，包括如下步骤：

9.如权利要求7所述的一种通过高通量测序对染色体拷贝数变异进行检测的方法，其特征在于：当该方法用于检测混合样本中某一条常染色体是否存在拷贝数变异时，将该常染色体与其他常染色体做T-test，若Z>3，则表明该常染色体存在拷贝数异常。