CN104156631A - 染色体三倍体检验方法 - Google Patents

染色体三倍体检验方法 Download PDF

Info

Publication number
CN104156631A
CN104156631A CN201410335037.XA CN201410335037A CN104156631A CN 104156631 A CN104156631 A CN 104156631A CN 201410335037 A CN201410335037 A CN 201410335037A CN 104156631 A CN104156631 A CN 104156631A
Authority
CN
China
Prior art keywords
chromosome
prime
gamma
value
triploid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410335037.XA
Other languages
English (en)
Other versions
CN104156631B (zh
Inventor
张鸣
王俊
郑伟谋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TIANJIN BGI TECHNOLOGY Co Ltd
Tianjin Huada Medical Laboratory Co Ltd
BGI Shenzhen Co Ltd
Original Assignee
Shenzhen Bgi Medicine Co Ltd
TIANJIN BGI TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Bgi Medicine Co Ltd, TIANJIN BGI TECHNOLOGY Co Ltd filed Critical Shenzhen Bgi Medicine Co Ltd
Priority to CN201410335037.XA priority Critical patent/CN104156631B/zh
Publication of CN104156631A publication Critical patent/CN104156631A/zh
Application granted granted Critical
Publication of CN104156631B publication Critical patent/CN104156631B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种染色体三倍体检测方法,包括:将测试样本的测序结果比对到参考序列上,得到比对结果;将比对结果按GC含量进行分组;根据分组结果采用相关分析法得到与待检测染色体最相关的染色体以及相关统计量;对最相关的染色体以及相关统计量进行回归分析以计算待检测染色体对应的Z值,根据Z值与预设阈值的比较结果判断出待检测染色体为三倍体的概率。本发明的有益效果是:通过不同染色体的GC含量的相关性,采用典型相关分析法来确定待检测染色体与其它染色体的相关性,进而确定出待检测染色体对应的Z值,由此确定待检测染色体为三倍体的概率,而不是计算GC修正系数,避免了GC修正系数计算中引入的误差,从而去掉GC bias在测序中的影响。

Description

染色体三倍体检验方法
技术领域
本发明涉及基因组学及生物信息学技术领域,具体涉及无创产前诊断胎儿染色体三倍体检验方法。
背景技术
染色体非整倍体病变是胎儿最常见的染色体畸形,对胎儿染色体非整倍体病变是降低出生缺陷、提高出生人口素质的重要手段。依据染色体类别不同可分为常染色体非整倍体和性染色体非整倍体。常染色体非整倍体主要包括21-三体(唐氏综合征)、18-三体(爱德华氏综合征)和13-三体(帕陶氏综合征),其中以21-三体最为常见。
目前染色体异常的产前诊断技术分为有创产前诊断技术和无创产前诊断技术。有创产前诊断技术(包括绒毛取材术、羊膜腔穿刺术和经皮脐血管穿刺)通过在妊娠期获取胎儿来源细胞,进行染色体核型检测,如果发现并确诊染色体异常,则可以于分娩前尽早终止妊娠,但有创产前技术带来的风险就是可能引起流产、感染等。孕妇外周血中胎儿游离DNA的发现为无创产前诊断技术奠定了坚实的基础,通过采取孕妇静脉血,利用新一代DNA测序技术对母体外周血中的游离DNA片段进行测序,并将测序结果进行生物信息学分析,通过分析得到每条染色体检测的碱基占所有检测碱基的百分比,并将该值与由正常血样所构建的阈值作比较,从而可以确定胎儿是否具有非整倍体异常。
这种无创DNA产前诊断信息分析存在两大难点:一方面孕妇外周血中胎儿遗传物质所占的比例很低,并且该比例随着孕妇个体的差异会有明显的不同。另一方面测序过程中GC bias(鸟嘌呤和胞嘧啶偏差,Guanine Cytosine bias)会极大的影响诊断的精确度,在胎儿系数很低的情况下,GC的影响会让无创产前中三倍体的诊断更加困难。胎儿系数是指胎儿DNA占外周血中母体DNA的比例,如果是胎儿自己的全血DNA,如存在21-三体综合征,则其21号染色体的深度是其它染色体的1.5倍(即三条21号染色体/两条正常染色体)。但是外周血中胎儿的DNA的比例通常不可能是1,一般是0.03-0.3,这个比例越高,则检测外周血的21号染色体的深度就越容易。如果是21-三体综合征,则21号染色体的深度就越明显的偏高。例如胎儿DNA的比例(即胎儿系数)是0.3,那么,如果胎儿是具有21-三体综合征,则从母体取的外周血做的产前诊断中,理论上21号染色体的深度应该是其它染色体的深度的1.15倍。但是一般来说胎儿系数都很低,不会有0.3这么高,而GC的影响又对染色体深度的影响比较大,这也是一定要做GC修正的原因,否则低到0.1左右的深度差异的检测结果通常不准确。
发明内容
根据本发明的一方面提供一种染色体三倍体检测方法,包括:将测试样本的测序结果比对到参考序列上,得到比对结果;根据GC含量对比对结果中各染色体进行分组,得到各染色体对应的GC含量的读长序列的数目;确定第一相关统计量和第二相关统计量,所述第一相关统计量为待检测染色体与另一染色体的关于读长序列的数目的比值,所述第二相关统计量为另外一对染色体的关于读长序列的数目的比值,根据典型相关分析法,计算出使所述第一相关统计量与所述第二相关统计量之间相关关系最大的相关系数,得到与所述待检测染色体最相关的染色体;对所述最相关的染色体以及相关系数进行回归分析以计算待检测染色体对应的Z值,根据所述Z值与预设阈值的比较结果判断出所述待检测染色体为三倍体的概率。
依据本发明的另一方面提供一种染色体非整倍性检测装置,包括:数据输入单元,用于输入数据;数据输出单元,用于输出数据;存储单元,用于存储数据,其中包括可执行的程序;处理器,与数据输入单元、数据输出单元及存储单元数据连接,用于执行存储单元中存储的可执行的程序,该程序的执行包括完成上述染色体三倍体检测方法。
依据本发明的再一方面提供一种计算机可读存储介质,用于存储供计算机执行的程序,本领域普通技术人员可以理解,在执行该程序时,通过指令相关硬件可完成上述染色体三倍体检测方法的全部或部分步骤。所称存储介质可以包括:只读存储器、随机存储器、磁盘或光盘等。
本发明的有益效果是:通过不同染色体的GC含量的相关性,采用典型相关分析法来确定待检测染色体与其它染色体的相关性,进而确定出待检测染色体对应的Z值,由此确定待检测染色体为三倍体的概率,而不是计算GC修正系数,避免了GC修正系数计算中引入的误差,从而去掉GC bias在测序中的影响。
附图说明
为了更清楚地说明本发明实施例,下面将对实施例中所需要使用的附图作简单地介绍,其中:
图1为本发明一种实施例的染色体三倍体的检测方法的流程示意图;
图2为不采用本发明的一种示例中测试样本的相对覆盖度的示意图;
图3为本发明一种示例中染色体为i=13、j=1、i'=1、j’=4的Rij和Ri’j’的示意图;
图4为本发明一种示例中正常染色体样本的Z值的直方图分布示意图;
图5为本发明一种示例中正常染色体样本的Z值的Q-Q示意图;
图6为本发明一种示例中染色体为i=18、j=1、i'=1、j’=5的Rij和Ri’j’的示意图;
图7为本发明一种示例中染色体为i=21、j=19、i'=8、j’=19的Rij和Ri’j’的示意图。
具体实施方式
本发明采取一种新的思路,不再去计算GC的修正系数,而通过“样品内比对到不同染色体的reads受到GC的影响是一致的,即,不同染色体的GC bias有明显的相关性,从而比对到不同染色体的reads数也应该有明显的相关性”这个原理,通过典型相关分析的方法,找到不同染色体应该有在怎样的修正系数下有最大的相关性来去除GC的影响。本发明的方法可以对测序中GC bias的去除提供一个新的思路,且经试验,该方法在产前诊断项目产生了良好的效果,能够以较高的检验精度给出染色体的三倍体检验结果。
下面通过具体实施方式结合附图对本发明作进一步详细说明。
实施例1
依据本发明的一种实施方式,提供一种染色体三倍体检测方法,参考图1,包括如下步骤S11~S17。
步骤S11,将测试样本的测序结果比对到参考序列上,得到比对结果。
测试样本是指需要进行染色体三倍体检测的个体,例如进行产前检测的孕妇。本实施例中测试样本的来源不受特别限制,例如可以选自:孕妇外周血、孕妇尿液、孕妇宫颈胎儿脱落滋养细胞、孕妇宫颈粘液、胎儿有核红细胞等,只要能够从中提取出含有胎儿遗传信息的核酸样本即可。本实施例中,测试样本优选为来自孕妇的含有胎儿DNA的外周血,这样可以对胎儿进行无创产前检测且样本获取方式简便。由于样本中除胎儿核酸外还包含孕妇自身核酸,因此为避免干扰检测结果,孕妇本身应当无染色体三倍体问题,当然,这种判断通常是十分明显的。在其他实施方式中,也可以使用有创方法获得的样本,例如样本可以来自胎儿的脐带血、胎盘组织或绒毛膜组织、未培养或培养过的羊水细胞、绒毛组细胞等。本实施例对从样本中提取用于测序的核酸的方法和设备不作限定,可以采用各种已有的手段进行,例如商品化的核酸提取试剂盒。下文提及的正常样本涉及正常胎儿,即胎儿无染色体三倍体问题。
依据本发明的实施方式对样本的测序方法和设备没有特殊依赖,通常会将提取自样本的核酸进行打断,并根据所选用的测序方法进行相应的文库(library)制备,然后进行测序。例如,可选用第三代测序平台(Metzker ML.Sequencingtechnologies-the next generation.Nat Rev Genet.2010Jan;11(1):31-46),包括但不限于Helicos公司的真实单分子测序技术(True Single Molecule DNAsequencing),Pacific Biosciences公司的单分子实时测序(single molecule real-time(SMRTTM)),以及Life Technologies公司的半导体测序技术等。
测试样本的测序结果包括多个读长序列(即reads,也称“读段”)。序列比对是指一个或多个核酸序列与参考序列(reference)进行比较的过程,常见为将一段较短的核酸序列(如reads)与参考基因组序列相比较,以确定较短核列在参考基因组上的位置。在将测序结果比对到参考序列时,可使用各种比对软件,例如Tmap,BWA(Burrows-Wheeler Aligner),SOAP(Short OligonucleotideAnalysis Package),samtools等,本实施例对此不作限定。根据比对软件,可采用容错(即允许有若干个碱基错配(mismatch))或不容错比对,采用容错比对时,一般平均100bp允许有1~3个容错。这里所使用的参考序列是已知序列,可以是预先获得的目标个体所属生物类别中的任意的参考模板。例如,若目标个体是人类,参考序列可选择美国国家生物技术信息中心(NCBI,national centerfor biotechnology information)数据库中的人类基因组参考序列。本实施方式中,参考序列选择为NCBI数据库中版本37.3(hg19;NCBI Build37.3)的人类基因组参考序列。
在本实施例中,将原始reads(即测试样本的测序结果)比对到reference时,只选取unique比对的reads(即只比对到一个位置上的reads,又称唯一比对序列unique kmer,是指定位到参考序列唯一位置的序列)或者说是0错配(即0Mismatch)的reads,以尽量减少测序错误导致的对数据分析的影响,因为非unique的reads可能比对到多个染色体,对染色体的深度产生影响。对于X和Y染色体,为了计算胎儿系数和辨别性别更加准确,一种实施例中还再去掉1mismatch下会比对到其它染色体的reads。
步骤S13,将比对结果(即步骤S11比对后选取出的reads)按GC值(又称GC含量)进行分组,即统计比对到染色体为i、GC值为γ的reads个数,将其记为ni,γ
对于一个测试样本,可以根据测试结果计算该测试样本的GC含量。分组的数目是按照reads的长度决定,例如,若reads的长度为35bp,则对应有35个GC值,从0/35到35/35(即0到1)。实施例中,染色体i是染色体1-46号染色体中的任一个。
步骤S15,对分组结果采用相关分析法找出与待检测染色体i最相关的染色体。
典型相关分析法是为了找出两组变量A1,A2,A3,…,Ap和B1,B2,B3,…,Bp之间的相关关系而分别对两组变量求线性组合A’=A1*a1,A2*a2,A3*a3,…,Ap*ap和B’=B1*b1,B2*b2,B3*b3,…,Bp*bp,使得线性组合后的两个变量A’和B’相关性最大。本实施例是通过统计学的方法找到和染色体i关联最强(即相关性最高)的一些染色体,并利用这些染色体和染色体i的相关关系进行回归,从而对染色体i进行检测。而在本实施例中,假设存在染色体i、j、i'、j’(j≠i,j’≠i',i'≠i,i'≠j’),则可以通过典型相关分析法找出使这四条染色体相关性最大的可能。
简明起见,将染色体为i、GC值为γ的reads个数n与染色体为j、GC值为γ的reads个数n的比值记为Rijγ(即Rijγ=(n/n)),其中i是待检测的染色体,j是除染色体i外的其它染色体。由于相同GC值的reads对应的不同染色体的GC bias在一次测序中相同,所以Rijγ理论上只与染色体为i、j且GC值为γ相关的量,与其它Ri’j’γ’成正比,其中Ri’j’γ’含义类似Rijγ,即Ri’j’γ’=(ni’γ’/nj’γ’)
也就是说,对于本实施例,Rijγ和Ri’j’γ’分别代表这四个染色体i、j、i'、j’所组成的两组向量(例如两个s*35的矩阵,s表示样本的总个数),需要利用典型相关分析法找出两个系数向量aijγ和ai’j’γ’,使得Rij1*aij1+Rij2*aij2+Rij3*aij3+…+Rij35*aij35和Ri’j’1*ai’j’1+Ri’j’2*ai’j’2+Ri’j’3*ai’j’3+…+Ri’j’35*ai’j’35这两个新的线性组合后的向量相关性最大。因为如果相关性越高,则后续做回归分析时,回归后残差的标准差就越小,而残差标准差越小,则用于计算的染色体Z值就越精确,由此可以提高染色体检验结果。
本实施例中,计算Rij作为染色体i和染色体j之间的比值,即
R ij = Σ γ a ijγ * R ijγ = Σ γ a ijγ * ( n iγ / n jγ ) - - - ( 1 )
类似地,Ri’j’γ’表示染色体为i'、GC值为γ’的reads个数ni’γ’与染色体为j’、GC值为γ’的reads个数nj’γ’的比值,染色体i'和染色体j’之间的比值Ri’j’
R i ′ j ′ = Σ γ ′ a i ′ j ′ γ ′ * R i ′ j ′ γ ′ = Σ γ ′ a i ′ j ′ γ ′ * ( n i ′ γ ′ / n j ′ γ ′ ) - - - ( 2 )
其中aijγ和ai’j’γ’表示典型相关分析中采用的两个系数向量,aijγ为待染色体i和另一个染色体j之间的相关系数,代表的意义是GC的bias,ai’j’γ’为另一对染色体i'和j’之间的相关系数,代表的意义是不同染色体的bias。
根据式(1)和(2),很明显,理论上Rij也与Ri’j’成正比。Rij代表的意义可以理解为染色体i和染色体j的修正后的深度的比值,如果染色体i为三倍体,则该值Rij偏大,由于Rij和Ri’j’都是GC修正后的值,并且由于做了典型相关分析的处理,有很强的相关性,因此后续可以利用回归分析的方法检测出Rij的变化。Ri’j’的含义类似,不作重述。
为使Rij和Ri’j’成正比,需要找出使Rij和Ri’j’相关关系最大的系数aijγ和ai’j’γ’,用数学方式即可表示为
{aijγ,ai’j’γ’}=argmax(cor(Rij,Ri’j’))
其中cor()表示求取Rij和Ri’j’的相关系数。根据典型相关分析的方法,即可算出使Rij和Ri’j’相关关系最大的系数aijγ和ai’j’γ’
步骤S17,对找出的最相关的染色体进行回归分析,计算待检测染色体对应的Z值,根据所述Z值与预设阈值的比较结果判断出所述待检测染色体为三倍体的概率。
对于待检验的染色体i,可以找到多组使Rij和Ri’j’相关系数较高的j、i'、j’组合来做回归分析。回归分析是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法,运用十分广泛。由于Rij和Ri’j’采用典型相关分析方法计算得到,具有很好的线性相关关系。因此,本实施例中采用最小二乘法做线性回归。最小二乘法通过最小化误差的平方和寻找数据的最佳匹配,利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。当然,其它实施例中也可以其它的线性回归方法。
如果Rij和Ri’j’相关且相关系数较大(例如相关系数>0.9),则对于正常的染色体i有:
Rij=α+βRi'j'
其中参数α和β是最小二乘法回归的系数,ε是残差,表示的是随机的数据波动,服从正态分布(即ε~N(0,δ2)),其中δ为标准差。残差的标准差δ的值也可以在求出α和β后计算得到,即
δ=sd(ε)=sd(Rij-(α+βRi’j’))
其中sd()为表示求标准差的函数。
而如果染色体i为三倍体,则
R ij = Σ γ a ijγ * R ijγ = Σ γ a ijγ * ( ( 1 + e 2 ) n iγ n jγ ) = ( 1 + e 2 ) * Σ γ a ijγ * ( n iγ n jγ )
= α + βR i ′ j ′ + ϵ + e 2 * Σ γ a ijγ * ( n iγ n jγ ) = α + βR i ′ j ′ + ϵ + e 2 * R ij
本实施例中,染色体Z值(Z-value)的计算为
Z-value=ε/δ=(Rij-(α+βRi’j’))/sd(Rij-(α+βRi’j’))
一般地,对于正常的测试样本(即不存在染色体三倍体问题的测试样本),其染色体Z值服从的正态分布为Z~N(0,1),而对于三倍体样本(即存在染色体三倍体问题的测试样本),其染色体Z值服从的正态分布为
需要说明的是,虽然依据本发明实施方式的检测方法的结果客观上能够用于判断染色体三倍体,进而用于检测由此导致的遗传疾病,例如胎儿的唐氏综合征、爱德华综合征等,但是依据本发明实施方式的检测方法也并不一定用于疾病诊断或相关的目的,例如一些染色体编译的存在并不代表着患病风险或健康状况,或者也可以用于单纯的遗传多态性科学研究。
本领域普通技术人员可以理解,上述实施方式中各种方法的全部或部分步骤可以通过程序来指令相关硬件完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器、随机存储器、磁盘或光盘等。
依据本发明的另一方面还提供一种染色体三倍体检测装置,包括:数据输入单元,用于输入数据;数据输出单元,用于输出数据;存储单元,用于存储数据,其中包括可执行的程序;处理器,与上述数据输入单元、数据输出单元及存储单元数据连接,用于执行存储单元中存储的可执行的程序,该程序的执行包括完成上述实施方式中各种方法的全部或部分步骤。依据本发明的又一方面还提供一种计算机可读存储介质,用于存储供计算机执行的程序,该程序的执行包括完成上述实施方式中各种方法的全部或部分步骤。
以下通过采用本发明的具体检测方法对具体的测试样本进行详细的描述。其中,参考序列为NCBI数据库中版本37.3(hg19;NCBIBuild37.3)的人类基因组参考序列,原始数据为无创DNA产前诊断项目中的4450例孕妇外周血DNA全基因组测序数据,平均每份测试样本的测序量约为5M reads,且reads长度为35bp。
如果不管GC bias的影响而直接去看染色体的相对覆盖度C13,将会发现五角星的T13样本的相对覆盖度和正常的染色体样本很难分清,如图2所示。图2中横坐标为4450例样本的样本ID,纵坐标为4450例样本的相对覆盖度C13,黑色的圆点表示13号染色体为正常的染色体样本,五角星表示13号染色体为三倍体的样本,由图2可以得知,由于GC bias的影响,13号染色体的相对覆盖度C13波动很大,也无法直接用来区分三倍体和正常样本。这里,染色体i的相对覆盖度Ci可以用下式表示:
C i = n i N i / ( n N )
其中ni为比对到染色体i的reads个数,Ni为染色体的unique kmer个数,n为比对到全基因组的reads个数,N为全基因组的unique kmer个数。
而如果采用本发明的染色体三倍体检测方法,在4450例产前外周血DNA全基因组测序样本中,在检测13号染色体(i=13)时,选取典型相关分析后相关系数较高(cor(Rij,Ri’j’)=0.975)的一组染色体j=1、i'=1、j’=4,其系数aijγ和ai’j’γ’的值如下表(计算结果表明,γ较小或者较大时reads数目很小,所以选取γ为8-24):
a_13_1 a_1_4
0.047181 0.032078
0.062577 0.045115
0.092589 0.058267
0.14049 0.082279
0.172166 0.089611
0.195477 0.087376
0.195597 0.080593
0.243422 0.086789
0.200711 0.060294
0.195506 0.050737
0.172672 0.039082
0.152998 0.02822
0.153285 0.016756
0.116993 0.016239
0.093151 0.009085
0.053716 0.004935
0.05254 0.001814
将系数aijγ和ai’j’γ’代入前述公式(1)和(2),以Rij为X轴、Ri’j’为Y轴,得到二者的关系如图3所示,为i=13、j=1、i'=1、j’=4时的Rij和Ri’j’,其中黑色的圆点代表正常的染色体样本,五角星代表胎儿13号染色体为三倍体的样本。从图3可以看出,五角星的T13样本明显偏离正常的染色体样本。
从图2和图3可以看出,本发明的染色体三倍体检测方法对去除GC bias、有效区分三倍体和正常样本是有效的。
计算得到的7个T13样本的Z值依次为9.109、6.371、5.633、19.808、6.396、5.062、8.685。如图4所示,为4443例正常样本的Z值直方图分布,纵坐标为每个直方的频率,横坐标为Z值。显而易见,T13样本的Z值明显比正常样本的Z值要高。
采用Q-Q图(Q代表分位数Quantile)表示正常样本的Z值满足正态分布Z~N(0,1),如图5所示,其中横坐标为N(0,1)的分位数,纵坐标为正常样本的Z值;可见,正常样本Z值比较理想地符合正态分布,并且斜率为1.00222,也即是说,正常样本Z值与标准正态分布N(0,1)符合的比较好。
18号染色体和21号染色体的典型相关分析后的Rij和Ri’j’的相关关系图分别如图6和图7所示。图6为i=18、j=1、i'=1、j’=5时的Rij和Ri’j’,其中黑色的圆点代表正常染色体样本,五角星代表胎儿18号染色体为三倍体的样本。图7为i=21、j=19、i'=8、j’=19时的Rij和Ri’j’,其中黑色的圆点代表正常染色体样本,五角星代表胎儿21号染色体为三倍体的样本。从图中可以看出,采用本发明的染色体三倍体检测方法也能较好地区分正常染色体样本和染色体三倍体样本。
以上内容是结合具体的实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换。

Claims (8)

1.一种染色体三倍体检测方法,其特征在于,包括:
将测试样本的测序结果比对到参考序列上,得到比对结果;
根据GC含量对比对结果中各染色体进行分组,得到各染色体对应的GC含量的读长序列的数目;
确定第一相关统计量和第二相关统计量,所述第一相关统计量为待检测染色体与另一染色体的关于读长序列的数目的比值,所述第二相关统计量为另外一对染色体的关于读长序列的数目的比值,根据典型相关分析法,计算出使所述第一相关统计量与所述第二相关统计量之间相关关系最大的相关系数,得到与所述待检测染色体最相关的染色体;
对所述最相关的染色体以及所述相关系数进行回归分析以计算待检测染色体对应的Z值,根据所述Z值与预设阈值的比较结果判断出所述待检测染色体为三倍体的概率。
2.根据权利要求1所述的方法,其特征在于,所述确定第一相关统计量和第二相关统计量这一步骤包括:
计算第一相关统计量Rijγ和第二相关统计量Ri’j’γ’,Rijγ表示第一读长序列的数目n与第二读长序列的数目n的比值,所述第一读长序列对应待检测染色体i且GC分量为γ,所述第二读长序列对应染色体j且GC分量为γ,Ri’j’γ’表示第三读长序列的数目ni’γ’与第四读长序列的数目nj’γ’的比值,所述第三读长序列对应待检测染色体i'且GC分量为γ’,所述第四读长序列对应染色体j’且GC分量为γ’;
计算待检测染色体i与另一个染色体j之间的第一相关统计量Rij,计算公式为 R ij = Σ γ a ijγ * R ijγ = Σ γ a ijγ * ( n iγ / n jγ ) ,
计算另外一对染色体i'和j'之间的第二相关统计量Ri’j’,计算公式为
R i ′ j ′ = Σ γ ′ a i ′ j ′ γ ′ * R i ′ j ′ γ ′ = Σ γ ′ a i ′ j ′ γ ′ * ( n i ′ γ ′ / n j ′ γ ′ ) ,
其中aijγ和ai’j’γ’均为相关系数。
3.根据权利要求2所述的方法,其特征在于,所述根据典型相关分析法,计算出使所述第一相关统计量与所述第二相关统计量之间相关关系最大的相关系数,得到与所述待检测染色体最相关的染色体这一步骤包括:
所述相关系数的计算公式为{aijγ,ai’j’γ’}=argmax(cor(Rij,Ri’j’)),其中aijγ和ai’j’γ’为待计算的相关系数,cor(Rij,Ri’j’)表示求取Rij和Ri’j’的相关系数;
所述与所述待检测染色体最相关的染色体包括多组使Rij和Ri’j’相关系数较高的染色体j、i'和j’,i表示待染色体。
4.根据权利要求1所述的方法,其特征在于,所述对所述最相关的染色体以及所述相关系数进行回归分析以计算待检测染色体对应的Z值这一步骤包括:
构建染色体关系模型,所述模型为:如果染色体k正常,则Rkm=α+βRk'm'+ε,如果染色体k为三倍体,则其中m、m’和k’为不同于k的染色体,Rkm为染色体k与m之间的统计量,Rk‘m’为染色体k’与m’之间的统计量,α和β为待求取的系数,ε为残差,e为胎儿系数;
根据所述最相关的染色体以及相关统计量,采用最小二乘法对所述模型进行计算,得到α和β,并估算出残差ε及残差的标准差δ;
所述待检测染色体对应的Z值等于所述残差与残差的标准差的比值,对于正常的染色体,其Z值服从标准正态分布,对于三倍体染色体,其Z值服从的正态分布为 Z ~ N ( e 2 * R ij / δ , 1 ) .
5.根据权利要求4所述的方法,其特征在于,所述根据所述Z值与预设阈值的比较结果判断出所述待检测染色体为三倍体的概率这一步骤包括:比较所述Z值与预设阈值,如果所述Z值大于等于所述预设阈值,则判断所述待染色体为三倍体,如果所述Z值小于所述预设阈值,则判断所述待染色体为正常染色体。
6.根据权利要求1所述的方法,其特征在于,所述比对结果仅包括定位到所述参考序列唯一位置的序列。
7.根据权利要求6所述的方法,其特征在于,所述序列为35bp。
8.根据权利要求1所述的方法,其特征在于,所述测试样本的来源选自以下至少一种:孕妇外周血、孕妇尿液、孕妇宫颈胎儿脱落滋养细胞、孕妇宫颈粘液和胎儿有核红细胞。
CN201410335037.XA 2014-07-14 2014-07-14 染色体三倍体检验方法 Active CN104156631B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410335037.XA CN104156631B (zh) 2014-07-14 2014-07-14 染色体三倍体检验方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410335037.XA CN104156631B (zh) 2014-07-14 2014-07-14 染色体三倍体检验方法

Publications (2)

Publication Number Publication Date
CN104156631A true CN104156631A (zh) 2014-11-19
CN104156631B CN104156631B (zh) 2017-07-18

Family

ID=51882129

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410335037.XA Active CN104156631B (zh) 2014-07-14 2014-07-14 染色体三倍体检验方法

Country Status (1)

Country Link
CN (1) CN104156631B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104593503A (zh) * 2015-01-22 2015-05-06 北京嘉宝仁和医疗科技有限公司 一种检测胎儿三倍体的引物组、方法及试剂盒
CN107077533A (zh) * 2014-12-10 2017-08-18 深圳华大基因研究院 测序数据处理装置和方法
CN107075564A (zh) * 2014-12-10 2017-08-18 深圳华大基因研究院 确定肿瘤核酸浓度的方法和装置
CN107077538A (zh) * 2014-12-10 2017-08-18 深圳华大基因研究院 测序数据处理装置和方法
CN107133495A (zh) * 2017-05-04 2017-09-05 北京医院 一种非整倍性生物信息的分析方法和分析系统
CN108604258A (zh) * 2016-01-20 2018-09-28 伊万基因诊断中心有限公司 染色体异常判断方法
CN108595912A (zh) * 2018-05-07 2018-09-28 深圳市瀚海基因生物科技有限公司 检测染色体非整倍性的方法、装置及系统
CN108733984A (zh) * 2017-10-30 2018-11-02 成都凡迪医疗器械有限公司 Nipt的z值结果校正方法及装置、计算机可读存储介质
WO2019227420A1 (zh) * 2018-05-31 2019-12-05 深圳华大临床检验中心 确定男性待测样本是否存在三倍体的方法、系统和计算机可读介质
CN111627498A (zh) * 2020-05-21 2020-09-04 北京吉因加医学检验实验室有限公司 一种测序数据gc偏向性校正的方法及其装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011130880A1 (zh) * 2010-04-23 2011-10-27 深圳华大基因科技有限公司 胎儿染色体非整倍性的检测方法
CN103403183A (zh) * 2011-06-29 2013-11-20 深圳华大基因健康科技有限公司 胎儿遗传异常的无创性检测
CN103525939A (zh) * 2013-10-28 2014-01-22 广州爱健生物技术有限公司 无创检测胎儿染色体非整倍体的方法和系统
CN103608818A (zh) * 2011-02-09 2014-02-26 纳特拉公司 非侵入性产前倍性识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011130880A1 (zh) * 2010-04-23 2011-10-27 深圳华大基因科技有限公司 胎儿染色体非整倍性的检测方法
CN103608818A (zh) * 2011-02-09 2014-02-26 纳特拉公司 非侵入性产前倍性识别方法
CN103403183A (zh) * 2011-06-29 2013-11-20 深圳华大基因健康科技有限公司 胎儿遗传异常的无创性检测
CN103525939A (zh) * 2013-10-28 2014-01-22 广州爱健生物技术有限公司 无创检测胎儿染色体非整倍体的方法和系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
H.CHRISTINA FAN ET AL.: "Sensitivity of Noninvasive Prenatal Detection of Fetal Aneuploidy from Maternal Plasma Using Shotgun Sequencing Is Limited Only by Counting Statistics", 《PLOS ONE》 *
LI WANG ET AL.: "Detection of Chromosomal Aneuploidy in Human Preimplantation Embryos by Next- Generation Sequencing", 《BIOLOGYOFRE PRODUCTION》 *
Y M DENNIS LO ET AL.: "Plasma placental RNA allelic ratio permits noninvasive prenatal chromosomal aneuploidy detection", 《NATURE MEDICINE》 *
李秀阁: "典型相关分析在数据挖掘中的应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
赖允丽 等: "无创性产前基因测序技术在染色体非整倍体中的应用", 《中国优生与遗传杂志》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107077538B (zh) * 2014-12-10 2020-08-07 深圳华大生命科学研究院 测序数据处理装置和方法
CN107077533A (zh) * 2014-12-10 2017-08-18 深圳华大基因研究院 测序数据处理装置和方法
CN107075564A (zh) * 2014-12-10 2017-08-18 深圳华大基因研究院 确定肿瘤核酸浓度的方法和装置
CN107077538A (zh) * 2014-12-10 2017-08-18 深圳华大基因研究院 测序数据处理装置和方法
CN107077533B (zh) * 2014-12-10 2021-07-27 深圳华大生命科学研究院 测序数据处理装置和方法
CN104593503A (zh) * 2015-01-22 2015-05-06 北京嘉宝仁和医疗科技有限公司 一种检测胎儿三倍体的引物组、方法及试剂盒
CN108604258A (zh) * 2016-01-20 2018-09-28 伊万基因诊断中心有限公司 染色体异常判断方法
CN108604258B (zh) * 2016-01-20 2022-05-13 伊万基因诊断中心有限公司 染色体异常判断方法
CN107133495A (zh) * 2017-05-04 2017-09-05 北京医院 一种非整倍性生物信息的分析方法和分析系统
CN108733984A (zh) * 2017-10-30 2018-11-02 成都凡迪医疗器械有限公司 Nipt的z值结果校正方法及装置、计算机可读存储介质
CN108733984B (zh) * 2017-10-30 2021-09-03 成都凡迪医疗器械有限公司 Nipt的z值结果校正方法及装置、计算机可读存储介质
CN108595912A (zh) * 2018-05-07 2018-09-28 深圳市瀚海基因生物科技有限公司 检测染色体非整倍性的方法、装置及系统
CN108595912B (zh) * 2018-05-07 2023-12-19 深圳市真迈生物科技有限公司 检测染色体非整倍性的方法、装置及系统
CN111373054A (zh) * 2018-05-31 2020-07-03 深圳华大临床检验中心 确定男性待测样本是否存在三倍体的方法、系统和计算机可读介质
WO2019227420A1 (zh) * 2018-05-31 2019-12-05 深圳华大临床检验中心 确定男性待测样本是否存在三倍体的方法、系统和计算机可读介质
CN111627498A (zh) * 2020-05-21 2020-09-04 北京吉因加医学检验实验室有限公司 一种测序数据gc偏向性校正的方法及其装置
CN111627498B (zh) * 2020-05-21 2022-10-04 北京吉因加医学检验实验室有限公司 一种测序数据gc偏向性校正的方法及其装置

Also Published As

Publication number Publication date
CN104156631B (zh) 2017-07-18

Similar Documents

Publication Publication Date Title
CN104156631A (zh) 染色体三倍体检验方法
CN103525939B (zh) 无创检测胎儿染色体非整倍体的方法和系统
CN107133495B (zh) 一种非整倍性生物信息的分析方法和分析系统
US11854666B2 (en) Noninvasive prenatal screening using dynamic iterative depth optimization
CN105392894B (zh) 确定样本基因组中是否存在拷贝数变异的方法、系统和计算机可读介质
CN104169929B (zh) 用于确定胎儿是否存在性染色体数目异常的系统和装置
CN108778287B (zh) 用于早产结果的早期风险评估的方法和系统
KR20150070111A (ko) 염색체 이상의 검출 방법
CN105825076B (zh) 消除常染色体内和染色体间gc偏好的方法及检测系统
EP3171288A1 (en) Method for prediction of fetal monogenic genetic variations using maternal serum dna
CN104951671B (zh) 基于单样本外周血检测胎儿染色体非整倍性的装置
EP3023504B1 (en) Method and device for detecting chromosomal aneuploidy
KR101678962B1 (ko) 대규모 병렬형 게놈서열분석 방법을 이용한 비침습적 산전검사 장치 및 방법
CN109979529A (zh) Cnv检测装置
CN105765076B (zh) 一种染色体非整倍性检测方法及装置
WO2021134513A1 (zh) 确定染色体非整倍性、构建分类模型的方法和装置
CN106795551A (zh) 单细胞染色体的cnv分析方法和检测装置
CN107239676B (zh) 一种针对胚胎染色体的序列数据处理装置
WO2016112539A1 (zh) 确定胎儿核酸含量的方法和装置
CN112823391A (zh) 基于检测限的质量控制度量
CN108229099B (zh) 数据处理方法、装置、存储介质及处理器
KR101618032B1 (ko) 비침습적 태아 염색체 이상 검출방법
TWI485254B (zh) 以全基因體趨勢記分為基礎之非侵入性產前檢測方法
KR102287096B1 (ko) 모체 시료 중 태아 분획을 결정하는 방법
TWI603082B (zh) 非侵入式胎兒性徵異常檢測系統及其方法與非侵入式胎兒性徵檢測系統及其方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 101, Room 201, building 3, 300308, airport business park, 80 Ring Road North, Tianjin Airport Economic Zone

Co-patentee after: BGI SHENZHEN CO LTD

Patentee after: TIANJIN BGI TECHNOLOGY CO., LTD.

Address before: 101, Room 201, building 3, 300308, airport business park, 80 Ring Road North, Tianjin Airport Economic Zone

Co-patentee before: Shenzhen BGI Medicine Co., Ltd.

Patentee before: TIANJIN BGI TECHNOLOGY CO., LTD.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20181108

Address after: 300000 Tianjin Tianjin free trade area (Airport Economic Zone), 80 North East Road, business park, 3 building, 201-1.

Co-patentee after: TIANJIN BGI TECHNOLOGY CO., LTD.

Patentee after: Tianjin Huada medical laboratory Co., Ltd.

Co-patentee after: BGI SHENZHEN CO LTD

Address before: 300308 Room 101, 201, 3 building, East Business District, 80 North Huan Road, Tianjin airport economic zone.

Co-patentee before: BGI SHENZHEN CO LTD

Patentee before: TIANJIN BGI TECHNOLOGY CO., LTD.