CN104133914A - 一种消除高通量测序引入的gc偏差及对染色体拷贝数变异的检测方法 - Google Patents

一种消除高通量测序引入的gc偏差及对染色体拷贝数变异的检测方法 Download PDF

Info

Publication number
CN104133914A
CN104133914A CN201410394930.XA CN201410394930A CN104133914A CN 104133914 A CN104133914 A CN 104133914A CN 201410394930 A CN201410394930 A CN 201410394930A CN 104133914 A CN104133914 A CN 104133914A
Authority
CN
China
Prior art keywords
window
sequence
sample
value
aligned sequences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410394930.XA
Other languages
English (en)
Other versions
CN104133914B (zh
Inventor
郑海灵
陈会飞
陈洪亮
祝兴强
林静
张阿虹
徐欢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Vangenes Biotechnology Co ltd
Original Assignee
XIAMEN VANGENES BIOTECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by XIAMEN VANGENES BIOTECHNOLOGY Co Ltd filed Critical XIAMEN VANGENES BIOTECHNOLOGY Co Ltd
Priority to CN201410394930.XA priority Critical patent/CN104133914B/zh
Publication of CN104133914A publication Critical patent/CN104133914A/zh
Application granted granted Critical
Publication of CN104133914B publication Critical patent/CN104133914B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明涉及高通量测序技术领域,特别是指一种消除高通量测序引入的GC偏差及对染色体拷贝数变异的检测方法,通过对人类基因组进行处理,并结合高通量测序得到的基因序列进行比对,对基因序列进行校正后,在染色体间做T-test,从而判断混合样本中染色体是否存在整倍体变异,很好地解决了高通量测序引入的GC偏差的技术问题,从而使得高通量测序在混合样本中染色体拷贝数变异的检测上的应用成为可能。

Description

一种消除高通量测序引入的GC偏差及对染色体拷贝数变异的检测方法
技术领域
本发明涉及高通量测序技术领域,特别是指一种消除高通量测序引入的GC偏差及对染色体拷贝数变异的检测方法。
背景技术
高通量测序技术又称“下一代”测序技术,以能一次并行对几十万到几百万条DNA分子进行序列测定和一般读长较短等为标志。高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能,所以又被称为深度测序。
高通量测序整个过程中,包括前期扩增和测序时,会引入GC的偏差,造成不同GC组成的DNA分子的差异取样和富含GC或少含GC的染色体测序数据的偏差,GC偏差的存在一定程度上影响了高通量测序的应用。
染色体拷贝数目的变异指的是和正常样本基因组染色体拷贝数目不同的变异,目前拷贝数目变异的检测方法,主要有高分辨率染色体核型分析、荧光原位杂交、比较基因组杂交、多重连接探针扩增技术、PCR的方法等,但这些方法在进行全基因组水平全面扫描的情况下,存在效率较低等缺点。在混合样本中,这些方法对某一个样本的变异检出的能力也不是很强。
发明内容
本发明的主要目的在于解决高通量测序引入的GC偏差问题以及高通量测序对混合样本中某一个样本的变异检测能力不强的问题,提供一种消除高通量测序引入的GC偏差及对染色体拷贝数变异的检测方法。
本发明采用如下的技术方案:
一种消除高通量测序引入的GC偏差方法,包括如下步骤:
步骤一,对人类基因组进行分析,找出所有一定长度的唯一比对序列;
步骤二,将上述唯一比对序列按照在人类基因组上的位置顺序,在染色体内以一定数目的唯一比对序列划分一个窗口,记录下每个窗口的起始位置和终止位置;
步骤三,利用高通量测序平台对待测混合样本进行全基因组测序;
步骤四,将步骤三得到的序列统一取出与步骤一中的唯一比对序列长度相同的前部序列,同时去除测序质量较低的序列;
步骤五,将步骤四得到的前部序列比对到人类基因组,去除多匹配、非完全匹配和没有比对到染色体的序列;
步骤六,将步骤五得到的序列定位到步骤二划分的窗口中,统计每个窗口内所有序列的GC值,并忽略窗口内序列数目大于99.9分位数的窗口;
步骤七,根据步骤六得到的窗口和每个窗口的序列数目和GC值,对所有窗口的序列数目和GC值进行拟合,得到二者间的拟合关系;
步骤八,根据步骤七得到的拟合关系,用每个窗口的GC值预测得到新的序列数目,记做预测值,计算公式如下:
prei,j=f(GCi,j)
其中i=1,2,3……22,X,Y;prei,j代表预测值,f(GCi,j)代表第i条染色体第j个窗口序列数目和GC值之间的拟合关系;
步骤九,根据步骤八得到的预测值,计算出每个窗口预测值与最大值之间的差距,计算公式如下:
difi,j=max(pre)-prei,j
其中,i=1,2,3……22,X,Y;difi,j是第i条染色体第j个窗口的预测值和所有窗口预测值的差,max(pre)是所有窗口中最大的预测值;
步骤十,根据步骤六得到的窗口和每个窗口的序列数目,将每个窗口的序列数目加上步骤九得到的差距,计算公式如下:
adjusti,j=ni,j+difi,j
其中,i=1,2,3……22,X,Y;adjusti,j为第i条染色体的第j个窗口校正后的值,ni,j为统计的每个窗口原始序列数目。
进一步地,步骤一中一定长度的唯一比对序列的长度为30-100bp。
更进一步地,所述唯一比对序列的长度为35bp。
进一步地,人类基因组为hg19或hg18。
进一步地,所述步骤二划分的窗口包括的唯一比对序列的数目为40000/(高通量测序得到的所有序列数目-高通量测序得到的唯一比对序列的数目),其中高通量测序得到的所有序列数目和高通量测序得到的唯一比对序列的数目的单位为M。
进一步地,所述步骤七中的拟合为线性拟合、smooth-spline拟合或loess拟合。
一种通过高通量测序对染色体拷贝数变异进行检测的方法,根据前述得到的每个窗口校正后的唯一比对序列值在染色体间进行比较,其中他们之间的差异表明混合样本中有样本拷贝数目变异,比较两条染色体间的差异用T-test进行,公式如下:
Z p , q = ( adjust p ‾ - adjust q ) ‾ / ( n p - 1 ) S p 2 + ( n q - 1 ) S q 2 n p + n q - 2 ( 1 n p - 1 n q )
其中为第p条染色体的所有窗口的均值,为第q条染色体的所有窗口的均值。
进一步地,当该方法用于检测混合样本中性染色体拷贝数变异时,包括如下步骤:
步骤一,是否含有男性样本:当该方法用于检测混合样本中是否含有男性样本时,若ZX,Y<20表明混合样本中没有男性样本,若ZX,Y>80说明混合样本中有男性样本,式中X、Y分别为X染色体和Y染色体;
步骤二,是否XXX三体异常:首先根据步骤一判断是否含有男性样本,当没有男性样本时,若ZX,p<3,则表明混合样本中含有XXX三倍体;
步骤三,是否XO异常:首先根据步骤一判断是否含有男性样本,当没有男性样本时,若Zx,p>5且Zx,p<13,则表明混合样本中含有XO异常;
步骤四,是否XXY三体异常:首先根据步骤一判断是否含有男性样本,当有男性样本时,若Zx,p>13,则表明混合样本中含有XXY三体异常。
进一步地,当该方法用于检测混合样本中某一条常染色体是否存在拷贝数变异时,将该常染色体与其他常染色体做T-test,若Z>3,则表明该常染色体存在拷贝数异常。
与现有技术相比,本发明的一种消除高通量测序引入的GC偏差及对染色体拷贝数变异的检测方法很好地解决了高通量测序引入的GC偏差的技术问题,从而使得高通量测序在混合样本中染色体拷贝数变异的检测上的应用成为可能。
具体实施方式
实施例一
混合样本来源:孕妇外周血。
人类基因组hg19的处理:对人类基因组进行分析,找出所有35bp的唯一比对序列,将该找出的所有35bp的唯一比对序列按照在人类基因组上的位置顺序,在染色体内以20000个唯一比对序列划分为一个窗口,记录下每个窗口的起始位置和终止位置。
混合样本测序及窗口定位:混合样本常规处理后进行高通量测序,得到约4M的全序列片段,取出其中的唯一比对序列,并去除测序质量较低的序列,去除多匹配、非完全匹配和没有比对到染色体的序列,得到唯一比对序列2193034个,将2193034个唯一比对序列定位到上述窗口中,统计每个窗口内所有序列的GC值,并忽略窗口内序列数目大于99.9分位数的窗口。
窗口序列数目和GC值拟合:将上述得到的窗口和每个窗口的序列数目和GC值,对所有窗口的序列数目和GC值进行loess拟合。
预测值和最大值的取得:根据上述拟合关系,用每个窗口的GC值预测得到新的序列数目,记做预测值,计算公式如下:
prei,j=f(GCi,j)
其中i=1,2,3……22,X,Y;prei,j代表预测值,f(GCi,j)代表第i条染色体第j个窗口序列数目和GC值之间的拟合关系;
根据上述得到的预测值,计算出每个窗口预测值与最大值之间的差距,计算公式如下:
difi,j=max(pre)-prei,j
其中,i=1,2,3……22,X,Y;difi,j是第i条染色体第j个窗口的预测值和所有窗口预测值的差,max(pre)是所有窗口中最大的预测值。
窗口序列数目的校正:根据上述得到的窗口和每个窗口的序列数目,将每个窗口的序列数目加上上述得到的差距,计算公式如下:
adjusti,j=ni,j+difi,j
其中,i=1,2,3……22,X,Y;adjusti,j为第i条染色体的第j个窗口校正后的值,ni,j为统计的每个窗口原始序列数目。
任意两条染色体之间T-test检测:公式如下:
Z p , q = ( adjust p &OverBar; - adjust q ) &OverBar; / ( n p - 1 ) S p 2 + ( n q - 1 ) S q 2 n p + n q - 2 ( 1 n p - 1 n q )
其中为第p条染色体的所有窗口的均值,为第q条染色体的所有窗口的均值。
检测结果如表一:
表一
表二
胎儿性别判断:ZX,Y=109.4278029,ZX,Y>80说明胎儿为男性。
性染色体异常判断:ZX,6=18.7552519,ZX,6>3,可以判断性染色体正常。
常染色体异常判断:mean(Z21,i)i=(1,2..,8)=-1.555108756,mean(Z21,i)<3i=(1,2…8),可以判断21号染色体正常;Z18,6=-0.962033844,Z18,6<3,可以判断18号染色体正常;mean(Z13,i)i=(1,2…12)=-0.287431004,mean(Z13,i)i=(1,2…12)<3,可以判断13号染色体正常。
实施例二
混合样本来源:人为混合三倍体胚胎样本和正常未孕女性样本。
人类基因组hg19的处理:对人类基因组进行分析,找出所有35bp的唯一比对序列,将该找出的所有35bp的唯一比对序列按照在人类基因组上的位置顺序,在染色体内以20000个唯一比对序列划分为一个窗口,记录下每个窗口的起始位置和终止位置。
混合样本测序及窗口定位:混合样本常规处理后进行高通量测序,得到约4.5M的全序列片段,取出其中的唯一比对序列,并去除测序质量较低的序列,去除多匹配、非完全匹配和没有比对到染色体的序列,得到唯一比对序列2556217个,将2556217个唯一比对序列定位到上述窗口中,统计每个窗口内所有序列的GC值,并忽略窗口内序列数目大于99.9分位数的窗口。
窗口序列数目和GC值拟合:将上述得到的窗口和每个窗口的序列数目和GC值,对所有窗口的序列数目和GC值进行loess拟合。
预测值和最大值的取得:根据上述拟合关系,用每个窗口的GC值预测得到新的序列数目,记做预测值,计算公式如下:
prei,j=f(GCi,j)
其中i=1,2,3……22,X,Y;prei,j代表预测值,f(GCi,j)代表第i条染色体第j个窗口序列数目和GC值之间的拟合关系;
根据上述得到的预测值,计算出每个窗口预测值与最大值之间的差距,计算公式如下:
difi,j=max(pre)-prei,j
其中,i=1,2,3……22,X,Y;difi,j是第i条染色体第j个窗口的预测值和所有窗口预测值的差,max(pre)是所有窗口中最大的预测值。
窗口序列数目的校正:根据上述得到的窗口和每个窗口的序列数目,将每个窗口的序列数目加上上述得到的差距,计算公式如下:
adjusti,j=ni,j+difi,j
其中,i=1,2,3……22,X,Y;adjusti,j为第i条染色体的第j个窗口校正后的值,ni,j为统计的每个窗口原始序列数目。
任意两条染色体之间T-test检测:公式如下:
Z p , q = ( adjust p &OverBar; - adjust q ) &OverBar; / ( n p - 1 ) S p 2 + ( n q - 1 ) S q 2 n p + n q - 2 ( 1 n p - 1 n q )
其中为第p条染色体的所有窗口的均值,为第q条染色体的所有窗口的均值。
检测结果如表三、表四:
表三
表四
胎儿性别判断:ZX,Y=143.1451121,ZX,Y>80,可以判断胎儿为男性。
性染色体异常判断:ZX,6=20.93281138,ZX,6>3,可以判断性染色体正常。
常染色体异常判断:mean(Z21,i)i=(1,2..,8)=-2.080532466,mean(Z21,i)i=(1,2..,8)<3,可以判断21号染色体正常;Z18,6=10.17094987,Z18,6>3,可以判断18号染色体三倍体异常;mean(Z13,i)i=(1,2…12)=-0.602645032,mean(Z13,i)i=(1,2…12)<3,可以判断13号染色体正常。
实施例三
混合样本来源:人为混合三倍体胚胎样本和正常未孕女性样本。
人类基因组hg19的处理:对人类基因组进行分析,找出所有35bp的唯一比对序列,将该找出的所有35bp的唯一比对序列按照在人类基因组上的位置顺序,在染色体内以20000个唯一比对序列划分为一个窗口,记录下每个窗口的起始位置和终止位置。
混合样本测序及窗口定位:混合样本常规处理后进行高通量测序,得到约6.8M的全序列片段,取出其中的唯一比对序列,并去除测序质量较低的序列,去除多匹配、非完全匹配和没有比对到染色体的序列,得到唯一比对序列4801374个,将4801374个唯一比对序列定位到上述窗口中,统计每个窗口内所有序列的GC值,并忽略窗口内序列数目大于99.9分位数的窗口。
窗口序列数目和GC值拟合:将上述得到的窗口和每个窗口的序列数目和GC值,对所有窗口的序列数目和GC值进行loess拟合。
预测值和最大值的取得:根据上述拟合关系,用每个窗口的GC值预测得到新的序列数目,记做预测值,计算公式如下:
prei,j=f(GCi,j)
其中i=1,2,3……22,X,Y;prei,j代表预测值,f(GCi,j)代表第i条染色体第j个窗口序列数目和GC值之间的拟合关系;
根据上述得到的预测值,计算出每个窗口预测值与最大值之间的差距,计算公式如下:
difi,j=max(pre)-prei,j
其中,i=1,2,3……22,X,Y;difi,j是第i条染色体第j个窗口的预测值和所有窗口预测值的差,max(pre)是所有窗口中最大的预测值。
窗口序列数目的校正:根据上述得到的窗口和每个窗口的序列数目,将每个窗口的序列数目加上上述得到的差距,计算公式如下:
adjusti,j=ni,j+difi,j
其中,i=1,2,3……22,X,Y;adjusti,j为第i条染色体的第j个窗口校正后的值,ni,j为统计的每个窗口原始序列数目。
任意两条染色体之间T-test检测:公式如下:
Z p , q = ( adjust p &OverBar; - adjust q ) &OverBar; / ( n p - 1 ) S p 2 + ( n q - 1 ) S q 2 n p + n q - 2 ( 1 n p - 1 n q )
其中为第p条染色体的所有窗口的均值,为第q条染色体的所有窗口的均值。
检测结果如表五、表六:
表五
表六
胎儿性别判断:ZX,Y=14.98617968,ZX,Y<20,可以判断胎儿为女性。
性染色体异常判断:ZX,6=7.686140974,ZX,6>3,可以判断性染色体正常。
常染色体异常判断:mean(Z21,i)i=(1,2..,8)=-2.874726035,mean(Z21,i)i=(1,2..,8)<3,可以判断21号染色体正常;Z18,6=-1.458291529,Z18,6<3,可以判断18号染色体正常;mean(Z13,i)i=(1,2…12)=13.52049745,mean(Z13,i)i=(1,2…12)>3,可以判断13号染色体三倍体异常。
实施例四
混合样本来源:人为混合三倍体胚胎样本和正常未孕女性样本。
人类基因组hg19的处理:对人类基因组进行分析,找出所有35bp的唯一比对序列,将该找出的所有35bp的唯一比对序列按照在人类基因组上的位置顺序,在染色体内以20000个唯一比对序列划分为一个窗口,记录下每个窗口的起始位置和终止位置。
混合样本测序及窗口定位:混合样本常规处理后进行高通量测序,得到约4M的全序列片段,取出其中的唯一比对序列,并去除测序质量较低的序列,去除多匹配、非完全匹配和没有比对到染色体的序列,得到唯一比对序列2102435个,将2102435个唯一比对序列定位到上述窗口中,统计每个窗口内所有序列的GC值,并忽略窗口内序列数目大于99.9分位数的窗口。
窗口序列数目和GC值拟合:将上述得到的窗口和每个窗口的序列数目和GC值,对所有窗口的序列数目和GC值进行loess拟合。
预测值和最大值的取得:根据上述拟合关系,用每个窗口的GC值预测得到新的序列数目,记做预测值,计算公式如下:
prei,j=f(GCi,j)
其中i=1,2,3……22,X,Y;prei,j代表预测值,f(GCi,j)代表第i条染色体第j个窗口序列数目和GC值之间的拟合关系;
根据上述得到的预测值,计算出每个窗口预测值与最大值之间的差距,计算公式如下:
difi,j=max(pre)-prei,j
其中,i=1,2,3……22,X,Y;difi,j是第i条染色体第j个窗口的预测值和所有窗口预测值的差,max(pre)是所有窗口中最大的预测值。
窗口序列数目的校正:根据上述得到的窗口和每个窗口的序列数目,将每个窗口的序列数目加上上述得到的差距,计算公式如下:
adjusti,j=ni,j+difi,j
其中,i=1,2,3……22,X,Y;adjusti,j为第i条染色体的第j个窗口校正后的值,ni,j为统计的每个窗口原始序列数目。
任意两条染色体之间T-test检测:公式如下:
Z p , q = ( adjust p &OverBar; - adjust q ) &OverBar; / ( n p - 1 ) S p 2 + ( n q - 1 ) S q 2 n p + n q - 2 ( 1 n p - 1 n q )
其中为第p条染色体的所有窗口的均值,为第q条染色体的所有窗口的均值。
检测结果如表七、表八:
表七
表八
胎儿性别判断:ZX,Y=110.3458292,ZX,Y>80,可以判断胎儿为男性。
性染色体异常判断:ZX,6=24.78472809,ZX,6>3,可以判断性染色体正常。
常染色体异常判断:mean(Z21,i)i=(1,2..,8)=6.842115822,mean(Z21,i)i=(1,2..,8)>3,可以判断21号染色体三倍体异常;Z18,6=1.043081232,Z18,6<3,可以判断18号染色体正常;mean(Z13,i)i=(1,2…12)=-1.771007537,mean(Z13,i)i=(1,2…12)<3,可以判断13号染色体正常。
实施例五
混合样本来源:孕妇外周血。
人类基因组hg19的处理:对人类基因组进行分析,找出所有35bp的唯一比对序列,将该找出的所有35bp的唯一比对序列按照在人类基因组上的位置顺序,在染色体内以20000个唯一比对序列划分为一个窗口,记录下每个窗口的起始位置和终止位置。
混合样本测序及窗口定位:混合样本常规处理后进行高通量测序,得到约4.5M的全序列片段,取出其中的唯一比对序列,并去除测序质量较低的序列,去除多匹配、非完全匹配和没有比对到染色体的序列,得到唯一比对序列2669190个,将2669190个唯一比对序列定位到上述窗口中,统计每个窗口内所有序列的GC值,并忽略窗口内序列数目大于99.9分位数的窗口。
窗口序列数目和GC值拟合:将上述得到的窗口和每个窗口的序列数目和GC值,对所有窗口的序列数目和GC值进行loess拟合。
预测值和最大值的取得:根据上述拟合关系,用每个窗口的GC值预测得到新的序列数目,记做预测值,计算公式如下:
prei,j=f(GCi,j)
其中i=1,2,3……22,X,Y;prei,j代表预测值,f(GCi,j)代表第i条染色体第j个窗口序列数目和GC值之间的拟合关系;
根据上述得到的预测值,计算出每个窗口预测值与最大值之间的差距,计算公式如下:
difi,j=max(pre)-prei,j
其中,i=1,2,3……22,X,Y;difi,j是第i条染色体第j个窗口的预测值和所有窗口预测值的差,max(pre)是所有窗口中最大的预测值。
窗口序列数目的校正:根据上述得到的窗口和每个窗口的序列数目,将每个窗口的序列数目加上上述得到的差距,计算公式如下:
adjusti,j=ni,j+difi,j
其中,i=1,2,3……22,X,Y;adjusti,j为第i条染色体的第j个窗口校正后的值,ni,j为统计的每个窗口原始序列数目。
任意两条染色体之间T-test检测:公式如下:
Z p , q = ( adjust p &OverBar; - adjust q ) &OverBar; / ( n p - 1 ) S p 2 + ( n q - 1 ) S q 2 n p + n q - 2 ( 1 n p - 1 n q )
其中为第p条染色体的所有窗口的均值,为第q条染色体的所有窗口的均值。
检测结果如表九、表十:
表九
表十
胎儿性别判断:ZX,Y=10.75361612,ZX,Y<20,可以判断胎儿为女性。
性染色体异常判断:ZX,6=-5.992124378,ZX,6<3,可以判断性染色体XXX三倍体异常。
常染色体异常判断:mean(Z21,i)i=(1,2..,8)=-1.978769806,mean(Z21,i)i=(1,2..,8)<3,可以判断21号染色体正常;Z18,6=2.273282136,Z18,6<3,可以判断18号染色体正常;mean(Z13,i)i=(1,2…12)=-0.357446827,mean(Z13,i)i=(1,2…12)<3,可以判断13号染色体正常。
上述仅为本发明的具体实施方式,但本发明的设计构思并不局限于此,凡利用此构思对本发明进行非实质性的改动,均应属于侵犯本发明保护范围的行为。

Claims (9)

1.一种消除高通量测序引入的GC偏差方法,其特征在于:包括如下步骤:
步骤一,对人类基因组进行分析,找出所有一定长度的唯一比对序列;
步骤二,将上述唯一比对序列按照在人类基因组上的位置顺序,在染色体内以一定数目的唯一比对序列划分一个窗口,记录下每个窗口的起始位置和终止位置;
步骤三,利用高通量测序平台对待测混合样本进行全基因组测序;
步骤四,将步骤三得到的序列统一取出与步骤一中的唯一比对序列长度相同的前部序列,同时去除测序质量较低的序列;
步骤五,将步骤四得到的前部序列比对到人类基因组,去除多匹配、非完全匹配和没有比对到染色体的序列;
步骤六,将步骤五得到的序列定位到步骤二划分的窗口中,统计每个窗口内所有序列的GC值,并忽略窗口内序列数目大于99.9分位数的窗口;
步骤七,根据步骤六得到的窗口和每个窗口的序列数目和GC值,对所有窗口的序列数目和GC值进行拟合,得到二者间的拟合关系;
步骤八,根据步骤七得到的拟合关系,用每个窗口的GC值预测得到新的序列数目,记做预测值,计算公式如下:
prei,j=f(GCi,j)
其中i=1,2,3……22,X,Y;prei,j代表预测值,f(GCi,j)代表第i条染色体第j个窗口序列数目和GC值之间的拟合关系;
步骤九,根据步骤八得到的预测值,计算出每个窗口预测值与最大值之间的差距,计算公式如下:
difi,j=max(pre)-prei,j
其中,i=1,2,3……22,X,Y;difi,j是第i条染色体第j个窗口的预测值和所有窗口预测值的差,max(pre)是所有窗口中最大的预测值;
步骤十,根据步骤六得到的窗口和每个窗口的序列数目,将每个窗口的序列数目加上步骤九得到的差距,计算公式如下:
adjusti,j=ni,j+difi,j
其中,i=1,2,3……22,X,Y;adjusti,j为第i条染色体的第j个窗口校正后的值,ni,j为统计的每个窗口原始序列数目。
2.如权利要求1所述的一种消除高通量测序引入的GC偏差方法,其特征在于:所述步骤一中一定长度的唯一比对序列的长度为30-100bp。
3.如权利要求2所述的一种消除高通量测序引入的GC偏差方法,其特征在于:所述唯一比对序列的长度为35bp。
4.如权利要求1所述的一种消除高通量测序引入的GC偏差方法,其特征在于:所述人类基因组为hg19或hg18。
5.如权利要求1所述的一种消除高通量测序引入的GC偏差方法,其特征在于:所述步骤二划分的窗口包括的唯一比对序列的数目为40000/(高通量测序得到的所有序列数目-高通量测序得到的唯一比对序列的数目),其中高通量测序得到的所有序列数目和高通量测序得到的唯一比对序列的数目的单位为M。
6.如权利要求1所述的一种消除高通量测序引入的GC偏差方法,其特征在于:所述步骤七中的拟合为线性拟合、smooth-spline拟合或loess拟合。
7.一种通过高通量测序对染色体拷贝数变异进行检测的方法,其特征在于:根据权利要求1得到的每个窗口校正后的唯一比对序列值在染色体间进行比较,其中他们之间的差异表明混合样本中有样本拷贝数目变异,比较两条染色体间的差异用T-test进行,公式如下:
Z p , q = ( adjust p &OverBar; - adjust q ) &OverBar; / ( n p - 1 ) S p 2 + ( n q - 1 ) S q 2 n p + n q - 2 ( 1 n p - 1 n q )
其中为第p条染色体的所有窗口的均值,为第q条染色体的所有窗口的均值。
8.如权利要求7所述的一种通过高通量测序对染色体拷贝数变异进行检测的方法,其特征在于:当该方法用于检测混合样本中性染色体拷贝数变异时,包括如下步骤:
步骤一,是否含有男性样本:当该方法用于检测混合样本中是否含有男性样本时,若ZX,Y<20表明混合样本中没有男性样本,若ZX,Y>80说明混合样本中有男性样本,式中X、Y分别为X染色体和Y染色体;
步骤二,是否XXX三体异常:首先根据步骤一判断是否含有男性样本,当没有男性样本时,若ZX,p<3,则表明混合样本中含有XXX三倍体;
步骤三,是否XO异常:首先根据步骤一判断是否含有男性样本,当没有男性样本时,若Zx,p>5且Zx,p<13,则表明混合样本中含有XO异常;
步骤四,是否XXY三体异常:首先根据步骤一判断是否含有男性样本,当有男性样本时,若Zx,p>13,则表明混合样本中含有XXY三体异常。
9.如权利要求7所述的一种通过高通量测序对染色体拷贝数变异进行检测的方法,其特征在于:当该方法用于检测混合样本中某一条常染色体是否存在拷贝数变异时,将该常染色体与其他常染色体做T-test,若Z>3,则表明该常染色体存在拷贝数异常。
CN201410394930.XA 2014-08-12 2014-08-12 一种消除高通量测序引入的gc偏差及对染色体拷贝数变异的检测方法 Active CN104133914B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410394930.XA CN104133914B (zh) 2014-08-12 2014-08-12 一种消除高通量测序引入的gc偏差及对染色体拷贝数变异的检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410394930.XA CN104133914B (zh) 2014-08-12 2014-08-12 一种消除高通量测序引入的gc偏差及对染色体拷贝数变异的检测方法

Publications (2)

Publication Number Publication Date
CN104133914A true CN104133914A (zh) 2014-11-05
CN104133914B CN104133914B (zh) 2017-03-08

Family

ID=51806592

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410394930.XA Active CN104133914B (zh) 2014-08-12 2014-08-12 一种消除高通量测序引入的gc偏差及对染色体拷贝数变异的检测方法

Country Status (1)

Country Link
CN (1) CN104133914B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104951671A (zh) * 2015-06-10 2015-09-30 东莞博奥木华基因科技有限公司 基于单样本外周血检测胎儿染色体非整倍性的装置
CN105574361A (zh) * 2015-11-05 2016-05-11 上海序康医疗科技有限公司 一种检测基因组拷贝数变异的方法
CN106520940A (zh) * 2016-11-04 2017-03-22 深圳华大基因研究院 一种染色体非整倍体和拷贝数变异检测方法及其应用
CN106778072A (zh) * 2016-12-30 2017-05-31 西安交通大学 针对第二代肿瘤基因组高通量测序数据的流程校正方法
CN106845154A (zh) * 2016-12-29 2017-06-13 安诺优达基因科技(北京)有限公司 一种用于ffpe样本拷贝数变异检测的装置
CN107077533A (zh) * 2014-12-10 2017-08-18 深圳华大基因研究院 测序数据处理装置和方法
CN108427864A (zh) * 2018-02-14 2018-08-21 南京世和基因生物技术有限公司 一种拷贝数变异的检测方法、装置以及计算机可读介质
CN108875311A (zh) * 2018-06-22 2018-11-23 安徽医科大学第附属医院 基于高通量测序和高斯混合模型的拷贝数变异检测方法
CN109234267A (zh) * 2018-09-12 2019-01-18 中国科学院遗传与发育生物学研究所 一种基因组组装方法
CN111429966A (zh) * 2020-04-23 2020-07-17 长沙金域医学检验实验室有限公司 基于稳健线性回归的染色体拷贝数变异判别方法及装置
CN111627498A (zh) * 2020-05-21 2020-09-04 北京吉因加医学检验实验室有限公司 一种测序数据gc偏向性校正的方法及其装置
CN114792548A (zh) * 2022-06-14 2022-07-26 北京贝瑞和康生物技术有限公司 校正测序数据、检测拷贝数变异的方法、设备和介质
WO2023030233A1 (zh) * 2021-08-30 2023-03-09 广州燃石医学检验所有限公司 一种拷贝数变异的检测方法及其应用
CN115831233A (zh) * 2023-02-07 2023-03-21 杭州联川基因诊断技术有限公司 一种基于mTag的靶向测序数据预处理的方法、设备和介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101845500A (zh) * 2010-05-18 2010-09-29 苏州众信生物技术有限公司 一种利用dna序列条码矫正二代高通量测序的序列丰度偏差的方法
CN102409088A (zh) * 2011-09-22 2012-04-11 郭奇伟 一种基因拷贝数变异的检测方法
US20120095697A1 (en) * 2010-10-13 2012-04-19 Aaron Halpern Methods for estimating genome-wide copy number variations
CN103710454A (zh) * 2013-12-31 2014-04-09 南方科技大学 Tcr或bcr高通量测序的方法及利用标签序列矫正多重pcr引物偏差的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101845500A (zh) * 2010-05-18 2010-09-29 苏州众信生物技术有限公司 一种利用dna序列条码矫正二代高通量测序的序列丰度偏差的方法
US20120095697A1 (en) * 2010-10-13 2012-04-19 Aaron Halpern Methods for estimating genome-wide copy number variations
CN102409088A (zh) * 2011-09-22 2012-04-11 郭奇伟 一种基因拷贝数变异的检测方法
CN103710454A (zh) * 2013-12-31 2014-04-09 南方科技大学 Tcr或bcr高通量测序的方法及利用标签序列矫正多重pcr引物偏差的方法

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107077533B (zh) * 2014-12-10 2021-07-27 深圳华大生命科学研究院 测序数据处理装置和方法
CN107077533A (zh) * 2014-12-10 2017-08-18 深圳华大基因研究院 测序数据处理装置和方法
CN104951671B (zh) * 2015-06-10 2017-09-19 东莞博奥木华基因科技有限公司 基于单样本外周血检测胎儿染色体非整倍性的装置
CN104951671A (zh) * 2015-06-10 2015-09-30 东莞博奥木华基因科技有限公司 基于单样本外周血检测胎儿染色体非整倍性的装置
CN105574361B (zh) * 2015-11-05 2018-11-02 上海序康医疗科技有限公司 一种检测基因组拷贝数变异的方法
CN105574361A (zh) * 2015-11-05 2016-05-11 上海序康医疗科技有限公司 一种检测基因组拷贝数变异的方法
CN106520940A (zh) * 2016-11-04 2017-03-22 深圳华大基因研究院 一种染色体非整倍体和拷贝数变异检测方法及其应用
CN106845154B (zh) * 2016-12-29 2022-04-08 浙江安诺优达生物科技有限公司 一种用于ffpe样本拷贝数变异检测的装置
CN106845154A (zh) * 2016-12-29 2017-06-13 安诺优达基因科技(北京)有限公司 一种用于ffpe样本拷贝数变异检测的装置
CN106778072A (zh) * 2016-12-30 2017-05-31 西安交通大学 针对第二代肿瘤基因组高通量测序数据的流程校正方法
CN106778072B (zh) * 2016-12-30 2019-05-21 西安交通大学 针对第二代肿瘤基因组高通量测序数据的流程校正方法
CN108427864A (zh) * 2018-02-14 2018-08-21 南京世和基因生物技术有限公司 一种拷贝数变异的检测方法、装置以及计算机可读介质
CN108875311A (zh) * 2018-06-22 2018-11-23 安徽医科大学第附属医院 基于高通量测序和高斯混合模型的拷贝数变异检测方法
CN108875311B (zh) * 2018-06-22 2021-02-12 安徽医科大学第一附属医院 基于高通量测序和高斯混合模型的拷贝数变异检测方法
CN109234267A (zh) * 2018-09-12 2019-01-18 中国科学院遗传与发育生物学研究所 一种基因组组装方法
CN109234267B (zh) * 2018-09-12 2021-07-30 中国科学院遗传与发育生物学研究所 一种基因组组装方法
CN111429966A (zh) * 2020-04-23 2020-07-17 长沙金域医学检验实验室有限公司 基于稳健线性回归的染色体拷贝数变异判别方法及装置
CN111627498A (zh) * 2020-05-21 2020-09-04 北京吉因加医学检验实验室有限公司 一种测序数据gc偏向性校正的方法及其装置
CN111627498B (zh) * 2020-05-21 2022-10-04 北京吉因加医学检验实验室有限公司 一种测序数据gc偏向性校正的方法及其装置
WO2023030233A1 (zh) * 2021-08-30 2023-03-09 广州燃石医学检验所有限公司 一种拷贝数变异的检测方法及其应用
CN114792548A (zh) * 2022-06-14 2022-07-26 北京贝瑞和康生物技术有限公司 校正测序数据、检测拷贝数变异的方法、设备和介质
CN115831233A (zh) * 2023-02-07 2023-03-21 杭州联川基因诊断技术有限公司 一种基于mTag的靶向测序数据预处理的方法、设备和介质

Also Published As

Publication number Publication date
CN104133914B (zh) 2017-03-08

Similar Documents

Publication Publication Date Title
CN104133914A (zh) 一种消除高通量测序引入的gc偏差及对染色体拷贝数变异的检测方法
US11371074B2 (en) Method and system for determining copy number variation
US20200335178A1 (en) Detecting repeat expansions with short read sequencing data
US20230112134A1 (en) Methods and processes for non-invasive assessment of genetic variations
AU2022202791B2 (en) Determination of base modifications of nucleic acids
US20140127688A1 (en) Methods and systems for identifying contamination in samples
CN104894271B (zh) 一种检测基因融合的方法及装置
CN111052249B (zh) 确定预定染色体保守区域的方法、确定样本基因组中是否存在拷贝数变异的方法、系统和计算机可读介质
FI2557517T3 (fi) Nukleiinihapposekvenssiepätasapainon määrittäminen
US11913068B2 (en) Methods for nucleic acid size detection of repeat sequences
CN104846089A (zh) 一种孕妇外周血中胎儿游离dna比例的定量方法
US20230005568A1 (en) Method of correcting amplification bias in amplicon sequencing
CN114196749B (zh) 核酸产品和用于α-地中海贫血单体型分析的试剂盒
WO2018223188A1 (en) Assay
Macaulay et al. Methylome meets maternity ward: predicting pre-eclampsia in early pregnancy
Granda 5 Complete screening of CFTR gene mutations in cystic fibrosis patients from Eastern Hungary

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20181011

Address after: 350401 A 6, 7 building, Taiwan business park, two Jin Road, North Town, Pingtan, Fujian.

Patentee after: Pingtan Wan Ji medical laboratory Co.,Ltd.

Address before: 361100 98, Qiang Ye Lou 98, Xiang Xing Road, torch garden, Xiangan District, Xiamen, Fujian.

Patentee before: XIAMEN VANGENES BIOTECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20211203

Address after: 361000 room 605, qiangye building, torch high tech Zone (Xiang'an) Industrial Zone, Xiang'an District, Xiamen City, Fujian Province

Patentee after: XIAMEN VANGENES BIOTECHNOLOGY Co.,Ltd.

Address before: 350401 A 6, 7 building, Taiwan business park, two Jin Road, North Town, Pingtan, Fujian.

Patentee before: Pingtan Wan Ji medical laboratory Co.,Ltd.

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A method for eliminating GC bias introduced by high-throughput sequencing and detecting chromosomal copy number variation

Effective date of registration: 20230607

Granted publication date: 20170308

Pledgee: Xiamen Xiang'an District Branch of China Postal Savings Bank Co.,Ltd.

Pledgor: XIAMEN VANGENES BIOTECHNOLOGY Co.,Ltd.

Registration number: Y2023980042947