CN105483229A - 一种检测胎儿染色体非整倍体的方法及系统 - Google Patents

一种检测胎儿染色体非整倍体的方法及系统 Download PDF

Info

Publication number
CN105483229A
CN105483229A CN201510976494.1A CN201510976494A CN105483229A CN 105483229 A CN105483229 A CN 105483229A CN 201510976494 A CN201510976494 A CN 201510976494A CN 105483229 A CN105483229 A CN 105483229A
Authority
CN
China
Prior art keywords
section
reading
count
hop count
karyomit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510976494.1A
Other languages
English (en)
Other versions
CN105483229B (zh
Inventor
杨呈勇
甘海燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Ascendas Genomics Technology Co Ltd
Original Assignee
Guangdong Ascendas Genomics Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Ascendas Genomics Technology Co Ltd filed Critical Guangdong Ascendas Genomics Technology Co Ltd
Priority to CN201510976494.1A priority Critical patent/CN105483229B/zh
Publication of CN105483229A publication Critical patent/CN105483229A/zh
Application granted granted Critical
Publication of CN105483229B publication Critical patent/CN105483229B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Health & Medical Sciences (AREA)
  • Zoology (AREA)
  • Engineering & Computer Science (AREA)
  • Wood Science & Technology (AREA)
  • Genetics & Genomics (AREA)
  • Analytical Chemistry (AREA)
  • Microbiology (AREA)
  • Molecular Biology (AREA)
  • Immunology (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Pathology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及一种检测胎儿染色体非整倍体的方法及系统,本发明克服了现有技术的不足,一方面提供了一种去除不受实验操作影响的基因组不同区段之间由自身碱基组成不同造成的测序深度偏差的方法及系统。另一方面提供了一种用于通过对孕妇外周血游离DNA进行大规模平行测序的胎儿染色体非整倍体的无创检测方法和系统。本发明方法可有效避免数据失真,更好的还原样本自身特征,从而使胎儿染色体非整倍体检测准确度更高。

Description

一种检测胎儿染色体非整倍体的方法及系统
技术领域
本发明涉及医疗检测领域,具体涉及一种检测胎儿染色体非整倍体的方法及系统。
背景技术
胎儿染色体非整倍体是由染色体数目或结构异常而发生的疾病,其中21三体(唐氏综合征,DS)、18三体(爱德华氏综合征)、13三体综合征(帕陶氏综合征)是临床最常见和最易出现的染色体异常疾病,且21三体最为常见,发病率为1/800~1/600。
现有的产前诊断技术是通过侵入性方法如羊膜穿刺或绒毛膜绒毛取样获取胎儿组织,进行FISH分析或者染色体核型分析。但这些技术均为有创性的,可能引起流产、胎儿损伤、出血、感染等。虽然目前国内外广泛采用的孕妇血清标记物筛查和超声检查方法是无创的,但检测结果的假阳性率和假阴性率都比较高,且极易受孕周等因素影响。
1997年,Lo等在母体血浆中发现了游离的胎儿DNA,这为无创产前诊断提供了新的可能性。但由于孕妇血浆中胎儿游离DNA的含量少,处于一种高母体DNA的背景下,难以获得胎儿基因组的基因或染色体的信息,使得检测母体血浆样品中由非整倍体胎儿造成的染色体比例呈现的小变化难以发现。为了克服以上问题,高通量测序技术被运用于染色体非整倍体疾病的无创检测。
利用高通量测序技术对胎儿染色体非整倍体进行检测的方法相比传统方法具有明显优势。该方法只需抽取母体外周血进行检测,可避免传统的侵入性方法可能给孕妇和胎儿带来的危害;另外直接检测母亲和胎儿的DNA序列,相比于检测血清蛋白标志物和超声波检测,准确性、灵敏度及可靠性都大大提高。
2008年,RossaW.K.Chiu等提出了一种利用大规模高通量测序进行胎儿染色体非整倍体的无创产前诊断方法。该方法通过提取孕妇外周血血浆中的游离DNA,进行新一代高通量测序,通过分析高通量测序得到的大量碱基序列信息,得到单条染色体碱基序列数在总的碱基序列中的占比,并将该值与参考数据库中正常孕妇血样构建的该染色体含量占比的阈值进行比较,使用z值检验以判断胎儿是否具有非整倍体异常。
然而,在样本文库制备和上机测序过程中容易产生GC偏好性,严重影响胎儿非整倍体检测的灵敏度和特异度。针对这一问题,Fan和Quake等提出了一种将基因组各染色体进行等长划分为非重叠区段(BIN),根据不同区段的GC密度为每个区段分配权重,通过乘以相应权重以优化每个区段的读段数,以去除GC偏差效应。
华大基因
利用GC含量与染色体覆盖深度之间的关系,重新确立每条染色体的拟合覆盖深度。基于拟合覆盖深度,建立二元假设:一个零假设(H0:所述胎儿是整倍性)是假定患者案例分布的平均覆盖深度和所有正常参考分布的平均覆盖深度相等,意味着如果零假设被接受则该患者案例是整倍体;另一个零假设(H1:所述胎儿是非整倍性)是具有不良胎儿占比的患者案例分布的平均覆盖深度等于具有相同胎儿占比的非整倍性案例分布的平均覆盖深度。这意味着如果该零假设被接受则该患者案例是非整倍体。最后使用对数似然比推断胎儿是否为三体。
贝瑞和康
方法一:发现在母体血浆中的胚胎DNA大部分为100bp到250bp的片段,且各个染色体占总DNA的比例与各个染色体占母体血浆中100bp-250bp之间的任意一点或任意一个区间的DNA的比例是一致的。因此本发明的方法仅需要测定100bp到250bp之间的任意一点或任意一个区间的DNA中的每段DNA来自几号染色体,并计算在同一样本内100bp-250bp之间的任意一点或任意一个区间的所有DNA中来自待测染色体与来自参考染色体的DNA片段数的比值,并计算各样本间所述比值的变异,根据变异的数值确定待测染色体的拷贝数。
方法二:所测得的来自各个染色体的DNA片段的GC含量分别与来自各个染色体的DNA片段占总DNA片段的比值具有一定的线性关系,上述现象可能与检测的方法相关,该线性关系可用y=ax+b表示,其中y代表来自待测染色体的DNA片段的GC含量,x代表来自待测染色体的DNA片段数量占总DNA的比值,a和b是常数,对于不同的染色体a和b可以是不同的值,可根据所述来自待测染色体的DNA片段中的GC含量对所述比值进行校正,并计算待测样本中所述来自待测染色体的DNA片段校正后的比值的变异,根据所述变异的程度确定待测染色体的拷贝数。
爱健
提出了一种消除染色体间测序GC偏好性的方法。对每个Bin获得的样品的染色体的碱基百分比进行k均值聚类分析,然后根据每条常染色体所在的类别,在每个类别内分别运用H.ChristinaFan提供的方法进行GC校正。其z值计算方法依据参考数据库的均值和方差,即RossaW.K.Chiu等提出的方法。
目前的方法都只考虑了GC偏好性对测序深度的影响,而未考虑不同碱基序列组合组成的片段本身造成的测序深度偏差。
目前的方法大部分都基于大量正常样品建立的参考数据库计算均值和方差进而得到z值,判断待测样本是否为非整倍体。
然而由于生物样品的复杂性,下一代测序技术的局限性,实验操作的随机性等客观因素的存在,基于参考数据库的数据分布得到的z值,未能有效消除多种客观因素的影响,容易导致检测结果出现偏差。
本发明提供的方法结合GC校正和Binoffset校正,得到更为准确的样本测序深度,更好的反映样本本身的特征,针对校正后的结果,本发明提供了一种更为适用的z值计算方法,直接与样品自身的其他染色体比较,进而判断样本是否发生非整倍体异常。
发明内容
本发明的目的是克服现有技术的不足,本发明一方面提供了一种去除不受实验操作影响的基因组不同区段之间由自身碱基组成不同造成的测序深度偏差的方法及系统。
本发明另一方面提供了一种用于通过对孕妇外周血游离DNA进行大规模平行测序的胎儿染色体非整倍体的无创检测方法和系统。
本发明采用的技术方案为:
一种去除不受实验操作影响的基因组不同区段之间由自身碱基组成不同造成的测序深度偏差的方法,该方法包括如下步骤:
1)、大量正常孕妇血样的游离DNA进行高通量测序,获取各样品的多核苷酸片段的碱基序列信息,又称读段;
2)、将各样品测序所得的碱基序列与人基因组参考序列进行比对,获取序列的在基因组上的位置信息;
3)、根据各样品的比对结果,去除由文库构建和上机测序中的PCR扩增导致的重复读段,去除低质量读段,去除未比对到基因组的读段及比对到多个位置的读段,得到唯一比对读段;
4)、将各样品的唯一比对读段数均归一化为10M,按照读段比对后的位置信息将其分配到基因组各染色体以20K等长划分的非重叠区段,统计分配到各区段上的读段数;
5)、去除高变区段,然后进行GC校正;
6)、计算所有检测样品的各染色体上的同一区段对应的读段数的中位数,计算公式如下:
Count median i = m e d i a n ( Count i 1 , Count i 2 ... Count i n )
其中i表示第i个区段,Countin表示第n个样品对应的第i个区段的读段数;
7)、根据上一步得到的结果,计算每条染色体每个区段对应的读段数的中位数的中位数;计算公式如下:
Count m e d i a n = m e d i a n ( Count median 1 Count median 2 ... , Count median m )
其中m为区段个数;
8)、每个区段对应的读段数的中位数与上一步所得的对应染色体的区段的读段数的中位数的中位数之间的差值即为区段的偏移基线。
9)、对待测样本各染色体划分的等长区段进行偏移校正,即利用上述步骤得到的偏移基线与其对应的每条染色体划分的等长区段所分配的片段数进行相应的调整;
countnorm=countgc+bin_offset
其中countgc表示区段GC校正后对应的读段数,bin_offset表示区段对应的偏移校正值,countnorm表示区段偏移校正后的对应的读段数。
上述方法中,所述的高变区段指的是区段的波动幅度超过所有区段平均波动幅度的三倍的区段。
上述方法中,所述的正常孕妇血样的样品数为100-1000。如一般可以选择100、200、500、1000。
上述方法中,所述的GC校正指的是:Fan和Quake提出的去除GC偏差效应的方法。
本发明还提供了一种去除不受实验操作影响的基因组不同区段之间由自身碱基组成不同造成的测序深度偏差的系统,其包括:
1)、测序模块:用于大量正常孕妇血样的游离DNA进行高通量测序,获取各样品的多核苷酸片段的碱基序列信息;
2)、比对模块:用于将各样品测序所得的碱基序列与人基因组参考序列进行比对,获取序列的在基因组上的位置信息;
3)、质控模块:用于根据各样品的比对结果,去除由文库构建和上机测序中的PCR扩增导致的重复读段,去除低质量读段,去除未比对到基因组的读段及比对到多个位置的读段,得到唯一比对读段;
4)、统计模块:用于将各样品的唯一比对读段数均归一化为10M,按照读段比对后的位置信息将其分配到基因组各染色体以20K等长划分的非重叠区段,统计分配到各区段上的读段数;
5)、优化模块:去除高变区段,然后进行GC校正;
6)、计算模块:用于计算所有检测样品的各染色体上的同一区段对应的读段数的中位数,计算公式如下:
Count median i = m e d i a n ( Count i 1 , Count i 2 ... Count i n )
其中i表示第i个区段,Countin表示第n个样品对应的第i个区段的读段数;
根据上一步得到的结果,计算每条染色体每个区段对应的读段数的中位数的中位数;计算公式如下:
Count m e d i a n = m e d i a n ( Count median 1 , Count median 2 , ... , Count median m )
其中m为区段个数;
计算区段的偏移基线,即每个区段对应的读段数的中位数与上一步所得的区段的读段数的中位数的中位数之间的绝对差值即为区段的偏移基线。
7)、校正模块:用于对待测样本各染色体划分的等长区段进行偏移校正,即利用计算模块得到的偏移基线与其对应的每条染色体划分的等长区段所分配的片段数进行相应的调整。
countnorm=countgc+bin_offset。
countgc表示区段GC校正后对应的读段数,bin_offset表示区段对应的偏移校正值,countnorm表示区段偏移校正后的对应的读段数。
最终使整条染色体的覆盖深度分布更均一,更好的还原样本原有的特征,进而提高系统的准确度。
上述系统中,所述的高变区段指的是区段的波动幅度超过所有区段平均波动幅度的三倍的区段。
上述系统中,n=100-1000。如100、200、500、1000。
上述系统中,所述的GC校正指的是:Fan和Quake提出的去除GC偏差效应的方法。
本文还提供了一种检测胎儿染色体非整倍体的方法,所述方法用于诊断目的或非诊断目的,所述方法包括:
1)、通过测序从孕妇血浆样品中获得游离的多核苷酸片段的碱基序列信息;
2)、将测序所得的碱基序列信息与人参考基因组进行比对,获得片段在基因组上的位置信息;
3)、根据各样品的比对结果,去除由文库构建和上机测序中的PCR扩增导致的重复读段,去除低质量读段,去除未比对到基因组的读段及比对到多个位置的读段,得到唯一比对读段;
4)、基于读段的比对信息将其分配至各染色体;并将各染色体划分为20K等长的非重叠区段,统计分配到每区段的读段数;
5)忽略读段数高变区段,所述的高变区段指的是区段的波动幅度超过所有区段平均波动幅度的三倍的区段;
6)、利用Fan和Quake提出的去除GC偏差效应的方法对染色体各区段的读段数进行GC校正,得到校正后的区段的读段数;
7)、利用正常样品构建的区段偏移基线对区段的读段数进行二次校正,得到二次校正后的区段的读段数;
8)、对每条染色体上相邻的区段进行合并,每15个区段合并为一个300K的大区段,大区段的读段数为被合并区段的读段数的和值;
9)、计算每条染色体上大区段之间的中位数和方差,利用统计学方法计算染色体和染色体之间的差异值z_score。所述统计方法可以根据以下公式进行计算:
z _ score j , k = μ j - μ k / σ j 2 / N j + σ k 2 / N k
其中μ为染色体上分布的各大区段的读段数的中位数;σ为染色上分布的各大区段的读段数的标准方差;N为大区段的个数;j,k分别代表两条不同的染色体,其中性染色体除外。
本文还提供了一种检测胎儿染色体非整倍体的系统,所述系统包括:
1)、测序模块:用于孕妇血浆样品的测序,获得游离的多核苷酸片段的碱基序列信息;
2)、比对模块:用于将测序所得的碱基序列信息与人参考基因组进行比对,获得片段在基因组上的位置信息;
3)、质控模块:用于去除由文库构建和上机测序中的PCR扩增导致的重复读段,去除低质量读段,去除未比对到基因组的读段及比对到多个位置的读段,得到唯一比对读段;
4)、统计模块:用于基于唯一比对读段的比对信息将其分配至各染色体;并将各染色体划分为20K等长的非重叠区段,统计分配到每区段的读段数;
5)、优化模块:用于去除读段数高变区段;
6)、第一校正模块:用于GC校正,得到校正后的区段的读段数;
7)、第二校正模块:用于利用正常样品构建的区段偏移基线对区段的读段数进行二次校正,得到二次校正后的区段的读段数;所述正常样品构建的区段偏移基线指的是上述去除不受实验操作影响的基因组不同区段之间由自身碱基组成不同造成的测序深度偏差的方法中所得到的区段偏移基线;
8)、计算模块:用于对每条染色体上相邻的区段进行合并,每15个区段合并为一个300K的大区段,大区段的读段数为被合并区段的读段数的和值;
计算每条染色体上大区段之间的中位数和方差,利用统计学方法计算染色体和染色体之间的差异值z_score。所述统计方法可以根据以下公式进行计算:
z _ score j , k = μ j - μ k / σ j 2 / N j + σ k 2 / N k
其中μ为染色体上分布的各大区段的读段数的中位数;σ为染色上分布的各大区段的读段数的标准方差;N为大区段的个数;j,k分别代表两条不同的染色体,其中性染色体除外。
上述系统中,所述的高变区段指的是区段的波动幅度超过所有区段平均波动幅度的三倍的区段;
上述系统中,所述的GC校正指的是:Fan和Quake提出的去除GC偏差效应的方法。
本发明中,所述Fan和Quake提出的去除GC偏差效应的方法指的是:首先将整个染色体划成20kb片段大小的非重叠区域,进而计算每个区域内各测序序列的GC含量;根据不同的GC含量,以0.1%为单位,对所有具有相同GC含量的区段取其读段数平均值Mi,其中忽略没有读段,GC含量为0,以及读段数过多的区段,同时对每个GC含量所对应的区段给予一个权重 为所有区段的读段数平均值,最后对每个区段乘以相应的权重以改善映射到每个区段的读段数目。
根据上述的z_score计算公式,计算每条染色体与其他常染色体的z_score,取这些z_score的中位数即为检测样本该染色体对应的z_score,具体公式如下
z_scorel=median(z_scorel,1,z_scorel,2,…z_scorel,21,z_scorel,22但不包括z_scorel,l)>3,(l=1,2,...,21,22)表示第l号染色体为非整倍体。
例如,z_score21=median(z_score21,1,z_score21,2,…z_score21,20,z_score21,22)即21号染色体的z_score,为除21号染色体外其他所有常染色与21染色体比较得到的z_score的中位数。如果z_score21>3则该样品为Trisomy21,其他常染色体亦同理。
本发明所具有的优点和有益效果:
本发明描述了一种去除不受实验操作影响的基因组不同区段之间由自身碱基组成不同造成的测序深度偏差的方法及系统,可有效避免数据失真,更好的还原样本自身特征,从而使胎儿染色体非整倍体检测准确度更高。
本发明提供的一种检测胎儿染色体非整倍体的方法及系统,只需要3000000条唯一比对的读段,便可检出胎儿浓度4%以上的染色体非整倍体,成本相对较低且灵敏度高。
附图说明
图1为检测胎儿染色体非整倍体的方法的流程图。
图2是不同校正方法对各染色体区段方差的影响结果图。
具体实施方式
下面通过具体实施例对本发明作进一步说明,但不限定本发明的保护范围。
实施例1:
一种去除不受实验操作影响的基因组不同区段之间由自身碱基组成不同造成的测序深度偏差的系统
样本来源:654例临床阴性样本
该系统包括:
测序模块:对母体血浆样本中的游离DNA进行测序,使用Ionproton或SOLID5500测序仪
比对模块:将DNA片段测序结果与人类参考基因组进行比较,确定片段在各染色体上的位置,可以使用人类基因组标准序列数据库hg19;
质控模块:去除由PCR扩增或者测序错误等造成的比对到基因组上同一位置的duplicate片段,去除比对质量值小于10的片段,去除可同时比对到多个位置的片段;
统计模块:将参考基因组中的各染色体划分为20K等长的区段,统计每个区段上分配的片段数;
优化模块:去除高变区段,然后进行GC校正;所述GC校正采用Fan和Quake提出的去除GC偏差效应的方法;所述的高变区段指的是区段的波动幅度超过所有区段平均波动幅度的三倍的区段;
计算模块:计算所有阴性样本的每条染色体的每个区段的偏移基线;
计算所有检测样品的各染色体上的同一区段对应的读段数的中位数,计算公式如下:
Count median i = m e d i a n ( Count i 1 , Count i 2 ... Count i n )
其中i表示第i个区段,Countin表示第n个样品对应的第i个区段的读段数;
根据上一步得到的结果,计算每条染色体每个区段对应的读段数的中位数的中位数;计算公式如下:
Count m e d i a n = m e d i a n ( Count median 1 Count median 2 ... , Count median m )
其中m为区段个数;
每个区段对应的读段数的中位数与上一步所得的对应染色体的区段的读段数的中位数的中位数之间的差值即为区段的偏移基线。
校正模块:每个区段上的原始片段数加上对应的偏移基线即为校正后的片段数,取其中一例样本进行比较,结果图2所示:
从图2中可以看出本发明的校正方法可有效较少各区段之间的波动,使各染色体的不同区域读段数分布更均一,更真实的反映数据原本特征,有利于提高检测的敏感度。
实施例2
一种检测胎儿染色体非整倍体的系统,所述系统包括:
1)、测序模块:用于孕妇血浆样品的测序,获得游离的多核苷酸片段的碱基序列信息;
2)、比对模块:用于将测序所得的碱基序列信息与人参考基因组进行比对,获得片段在基因组上的位置信息;
3)、质控模块:用于去除由文库构建和上机测序中的PCR扩增导致的重复读段,去除低质量读段,去除未比对到基因组的读段及比对到多个位置的读段,得到唯一比对读段;
4)、统计模块:用于基于唯一比对读段的比对信息将其分配至各染色体;并将各染色体划分为20K等长的非重叠区段,统计分配到每区段的读段数;
5)、优化模块:用于去除读段数高变区段;所述的高变区段指的是区段的波动幅度超过所有区段平均波动幅度的三倍的区段;
6)、第一校正模块:用于GC校正,得到校正后的区段的读段数;
7)、第二校正模块:用于利用正常样品构建的区段偏移基线对区段的读段数进行二次校正,得到二次校正后的区段的读段数;所述正常样品构建的区段偏移基线指的是上述去除不受实验操作影响的基因组不同区段之间由自身碱基组成不同造成的测序深度偏差的方法中所得到的区段偏移基线;
8)、计算模块:用于对每条染色体上相邻的区段进行合并,每15个区段合并为一个300K的大区段,大区段的读段数为被合并区段的读段数的和值;
计算每条染色体上大区段之间的中位数和方差,利用统计学方法计算染色体和染色体之间的差异值z_score。所述统计方法可以根据以下公式进行计算:
z _ score j , k = μ j - μ k / σ j 2 / N j + σ k 2 / N k
其中μ为染色体上分布的各大区段的读段数的中位数;σ为染色上分布的各大区段的读段数的标准方差;N为大区段的个数;j,k分别代表两条不同的染色体,其中性染色体除外。
上述系统中,所述的GC校正指的是:首先将整个染色体划成20kb片段大小的非重叠区域,进而计算每个区域内各测序序列的GC含量;根据不同的GC含量,以0.1%为单位,对所有具有相同GC含量的区段取其读段数平均值Mi,其中忽略没有读段,GC含量为0,以及读段数过多的区段,同时对每个GC含量所对应的区段给予一个权重为所有区段的读段数平均值,最后对每个区段乘以相应的权重以改善映射到每个区段的读段数目。
实施例3:一种检测胎儿染色体非整倍体的方法,该方法包括如下步骤:
1.样本采集
按照外周血采集标准采集5mL孕妇外周血至EDTA管中。样本编号:L1_140718010、L1_140718011、L1_140718009和L1_140706012,样本均来源于广州市妇女儿童医疗中心。
2.血浆分离
使用低速离心机,1600g离心10分钟,吸取上清血浆,转移至2.0MLEP管中;使用高速离心机,16000g离心10分钟,吸取上清血浆,转入750μL血浆至冰盒上的2.0mLEP管中,血浆分离后放入-80℃冰箱。
3.血浆游离DNA提取
血浆样品于4℃,16000g离心10分钟,吸取700μL,加入60μL磁珠,震荡,混匀10分钟,离心,弃去残留液体,加入33μLEBbuffer,重悬磁珠,洗脱核酸,将EP管置于磁力架,吸附磁珠,将DNA溶液吸到EP管内。
4.文库构建
1)对DNA溶液进行末端修复
加入DNA溶液30μL,末端修复缓冲液10μL,末端修复酶0.5μL,无核酸酶水9.5μL于1.5mLEP管中,25摄氏度反应30分钟;加入DNA纯化磁珠35μL,混匀,离心,吸附磁珠,弃去残留液体;加入33μLDNA洗脱液,洗脱核酸,待溶液澄清后,用移液枪吸取溶液于新的EP管中。
2)末端加接头
加入平末端DNA溶液32μL,无核酸酶水10μL,连接缓冲液5μL,DNA连接酶1μL,P1接头1μL于新的EP管中,25℃反应30分钟;同上,磁珠纯化洗脱,吸取溶液于新的EP管中。
3)PCR扩增DNA片段
继续在上步的管中加入PCR酶混合液47.5μL,PCR引物混合液2.5μL,放入PCR仪按以下条件进行反应:72℃,20分钟;98℃,2分钟;(98℃15秒,62℃15秒,70℃1分钟)10个循环;70℃,5分钟;4℃Hold。磁珠纯化洗脱,得到文库样品存于4℃冰箱。
5.模版制备
样本稀释,混合;在2.5mL的离心管中加入无核酸水191.2μL,乳液PCR缓冲液2000μL,乳液PCR酶混合液120μL,模版载体溶液100μL,稀释后的文库样本8.8μL,将配制好的反应液在OneTouch2仪器上反应。
取OT完成后的样本100μL,磁珠130μL,300×3的模版清洗液,300μL的Melt-offSolution分别加入到八连管中,将八连管放到IonOneTouchES上进行模版富集,仪器运行完后离心,稀释,得到模版溶液。
6.上机测序
使用Iontorrent测序仪进行上机测序,此步由仪器自动完成;
7.数据分析
由测序仪配套的服务器完成整个分析过程,其中服务器上的TorrentServer自动完成碱基识别,序列比对的分析,最后由实施例2的系统进行胎儿染色体非整倍体的判断。示例结果如下表:
样本编号 核型结果 z_score#13 z_score#18 z_score#21
L1_140718010 47,XX,+21 0.87 0.8 9.59
L1_140718011 47,XX,+18 0.59 10.41 0.56
L1_140718009 47,XY,+13 9.86 0.52 0.45
L1_140706012 46,XX 0.9 0.92 0.87
以上对本发明的一个实施例进行了详细说明,但所述内容仅为本发明的较佳实施例,不能被认为用于限定本发明的实施范围。凡依本发明申请范围所作的均等变化与改进等,均应仍归属于本发明的专利涵盖范围之内。

Claims (10)

1.一种去除不受实验操作影响的基因组不同区段之间由自身碱基组成不同造成的测序深度偏差的方法,其特征在于:该方法包括如下步骤:
1)、大量正常孕妇血样的游离DNA进行高通量测序,获取各样品的多核苷酸片段的碱基序列信息,又称读段;
2)、将各样品测序所得的碱基序列与人基因组参考序列进行比对,获取序列的在基因组上的位置信息;
3)、根据各样品的比对结果,去除由文库构建和上机测序中的PCR扩增导致的重复读段,去除低质量读段,去除未比对到基因组的读段及比对到多个位置的读段,得到唯一比对读段;
4)、将各样品的唯一比对读段数均归一化为10M,按照读段比对后的位置信息将其分配到基因组各染色体以20K等长划分的非重叠区段,统计分配到各区段上的读段数;
5)、去除高变区段,然后进行GC校正;
6)、计算所有检测样品的各染色体上的同一区段对应的读段数的中位数,计算公式如下:
Count median i = m e d i a n ( Count i 1 , Count i 2 ... Count i n )
其中i表示第i个区段,Countin表示第n个样品对应的第i个区段的读段数;
7)、根据上一步得到的结果,计算每条染色体每个区段对应的读段数的中位数的中位数;计算公式如下:
Count m e d i a n = m e d i a n ( Count median 1 , Count median 2 , ... , Count median m )
其中m为区段个数;
8)、每个区段对应的读段数的中位数与上一步所得的对应染色体的区段的读段数的中位数的中位数之间的差值即为区段的偏移基线;
9)、对待测样本各染色体划分的等长区段进行偏移校正,即利用上述步骤得到的偏移基线与其对应的每条染色体划分的等长区段所分配的片段数进行相应的调整;
countnorm=countgc+bin_offset
其中countgc表示区段GC校正后对应的读段数,bin_offset表示区段对应的偏移校正值,countnorm表示区段偏移校正后的对应的读段数。
2.根据权利要求1所述的方法,其特征在于:所述的高变区段指的是区段的波动幅度超过所有区段平均波动幅度的三倍的区段。
3.根据权利要求1或2所述的方法,其特征在于:所述的GC校正指的是:Fan和Quake提出的去除GC偏差效应的方法。
4.一种去除不受实验操作影响的基因组不同区段之间由自身碱基组成不同造成的测序深度偏差的系统,其特征在于:该系统包括:
1)、测序模块:用于大量正常孕妇血样的游离DNA进行高通量测序,获取各样品的多核苷酸片段的碱基序列信息;
2)、比对模块:用于将各样品测序所得的碱基序列与人基因组参考序列进行比对,获取序列的在基因组上的位置信息;
3)、质控模块:用于根据各样品的比对结果,去除由文库构建和上机测序中的PCR扩增导致的重复读段,去除低质量读段,去除未比对到基因组的读段及比对到多个位置的读段,得到唯一比对读段;
4)、统计模块:用于将各样品的唯一比对读段数均归一化为10M,按照读段比对后的位置信息将其分配到基因组各染色体以20K等长划分的非重叠区段,统计分配到各区段上的读段数;
5)、优化模块:去除高变区段,然后进行GC校正;
6)、计算模块:用于计算所有检测样品的各染色体上的同一区段对应的读段数的中位数,计算公式如下:
Count median i = m e d i a n ( Count i 1 , Count i 2 ... Count i n )
其中i表示第i个区段,Countin表示第n个样品对应的第i个区段的读段数;
根据上一步得到的结果,计算每条染色体每个区段对应的读段数的中位数的中位数;计算公式如下:
Count m e d i a n = m e d i a n ( Count median 1 , Count median 2 , ... , Count median m )
其中m为区段个数;
计算区段的偏移基线,即每个区段对应的读段数的中位数与上一步所得的区段的读段数的中位数的中位数之间的绝对差值即为区段的偏移基线;
7)、校正模块:
用于对待测样本各染色体划分的等长区段进行偏移校正,即利用计算模块得到的偏移基线与其对应的每条染色体划分的等长区段所分配的片段数进行相应的调整;
countnorm=countgc+bin_offset;
countgc表示区段GC校正后对应的读段数,bin_offset表示区段对应的偏移校正值,countnorm表示区段偏移校正后的对应的读段数。
5.根据权利要求4所述的系统,其特征在于:所述的高变区段指的是区段的波动幅度超过所有区段平均波动幅度的三倍的区段。
6.根据权利要求4或5所述的系统,其特征在于:所述的GC校正指的是:Fan和Quake提出的去除GC偏差效应的方法。
7.一种检测胎儿染色体非整倍体的方法,所述方法用于非诊断目的,其特征在于:所述方法包括:
1)、通过测序从孕妇血浆样品中获得游离的多核苷酸片段的碱基序列信息;
2)、将测序所得的碱基序列信息与人参考基因组进行比对,获得片段在基因组上的位置信息;
3)、去除由文库构建和上机测序中的PCR扩增导致的重复读段,去除低质量读段,去除未比对到基因组的读段及比对到多个位置的读段,得到唯一比对读段;
4)、基于读段的比对信息将其分配至各染色体;并将各染色体划分为20K等长的非重叠区段,统计分配到每区段的读段数;
5)忽略读段数高变区段,所述的高变区段指的是区段的波动幅度超过所有区段平均波动幅度的三倍的区段;
6)、利用Fan和Quake提出的去除GC偏差效应的方法对染色体各区段的读段数进行GC校正,得到校正后的区段的读段数;
7)、利用正常样品构建的区段偏移基线对区段的读段数进行二次校正,得到二次校正后的区段的读段数;
8)、对每条染色体上相邻的区段进行合并,每15个区段合并为一个300K的大区段,大区段的读段数为被合并区段的读段数的和值;
9)、计算每条染色体上大区段之间的中位数和方差,利用统计学方法计算染色体和染色体之间的差异值z_score,所述统计方法可以根据以下公式进行计算:
z _ score j , k = μ j - μ k / σ j 2 / N j + σ k 2 / N k
其中μ为染色体上分布的各大区段的读段数的中位数;σ为染色上分布的各大区段的读段数的标准方差;N为大区段的个数;j,k分别代表两条不同的染色体,其中性染色体除外。
8.一种检测胎儿染色体非整倍体的系统,其特征在于:所述系统包括:
1)、测序模块:用于孕妇血浆样品的测序,获得游离的多核苷酸片段的碱基序列信息;
2)、比对模块:用于将测序所得的碱基序列信息与人参考基因组进行比对,获得片段在基因组上的位置信息;
3)、质控模块:用于去除由文库构建和上机测序中的PCR扩增导致的重复读段,去除低质量读段,去除未比对到基因组的读段及比对到多个位置的读段,得到唯一比对读段;
4)、统计模块:用于基于唯一比对读段的比对信息将其分配至各染色体;并将各染色体划分为20K等长的非重叠区段,统计分配到每区段的读段数;
5)、优化模块:用于去除读段数高变区段;
6)、第一校正模块:用于GC校正,得到校正后的区段的读段数;
7)、第二校正模块:用于利用正常样品构建的区段偏移基线对区段的读段数进行二次校正,得到二次校正后的区段的读段数;所述正常样品构建的区段偏移基线指的是由权利要求1所述去除不受实验操作影响的基因组不同区段之间由自身碱基组成不同造成的测序深度偏差的方法中所得到的区段偏移基线;
8)、计算模块:用于对每条染色体上相邻的区段进行合并,每15个区段合并为一个300K的大区段,大区段的读段数为被合并区段的读段数的和值;
计算每条染色体上大区段之间的中位数和方差,利用统计学方法计算染色体和染色体之间的差异值z_score,所述统计方法可以根据以下公式进行计算:
z _ score j , k = μ j - μ k / σ j 2 / N j + σ k 2 / N k
其中μ为染色体上分布的各大区段的读段数的中位数;σ为染色上分布的各大区段的读段数的标准方差;N为大区段的个数;j,k分别代表两条不同的染色体,其中性染色体除外。
9.根据权利要求8所述的系统,其特征在于:所述的高变区段指的是区段的波动幅度超过所有区段平均波动幅度的三倍的区段。
10.根据权利要求8或9所述的系统,其特征在于:所述的GC校正指的是:Fan和Quake提出的去除GC偏差效应的方法。
CN201510976494.1A 2015-12-21 2015-12-21 一种检测胎儿染色体非整倍体的方法及系统 Active CN105483229B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510976494.1A CN105483229B (zh) 2015-12-21 2015-12-21 一种检测胎儿染色体非整倍体的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510976494.1A CN105483229B (zh) 2015-12-21 2015-12-21 一种检测胎儿染色体非整倍体的方法及系统

Publications (2)

Publication Number Publication Date
CN105483229A true CN105483229A (zh) 2016-04-13
CN105483229B CN105483229B (zh) 2018-10-16

Family

ID=55670500

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510976494.1A Active CN105483229B (zh) 2015-12-21 2015-12-21 一种检测胎儿染色体非整倍体的方法及系统

Country Status (1)

Country Link
CN (1) CN105483229B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106520940A (zh) * 2016-11-04 2017-03-22 深圳华大基因研究院 一种染色体非整倍体和拷贝数变异检测方法及其应用
CN106650312A (zh) * 2016-12-29 2017-05-10 安诺优达基因科技(北京)有限公司 一种用于循环肿瘤dna拷贝数变异检测的装置
CN106845154A (zh) * 2016-12-29 2017-06-13 安诺优达基因科技(北京)有限公司 一种用于ffpe样本拷贝数变异检测的装置
CN107622183A (zh) * 2017-08-15 2018-01-23 上海派森诺生物科技股份有限公司 一种基于多重指标的胎儿染色体倍性检测分析方法
CN108256292A (zh) * 2016-12-29 2018-07-06 安诺优达基因科技(北京)有限公司 一种拷贝数变异检测装置
CN108733984A (zh) * 2017-10-30 2018-11-02 成都凡迪医疗器械有限公司 Nipt的z值结果校正方法及装置、计算机可读存储介质
CN109628567A (zh) * 2018-12-28 2019-04-16 国家卫生计生委科学技术研究所 一种用于检测胎儿染色体非整倍性的无创性产前检测系统
WO2019213811A1 (zh) * 2018-05-07 2019-11-14 深圳市真迈生物科技有限公司 检测染色体非整倍性的方法、装置及系统
CN112712853A (zh) * 2020-12-31 2021-04-27 北京优迅医学检验实验室有限公司 一种无创产前检测装置
CN113593629A (zh) * 2021-06-29 2021-11-02 广东博奥医学检验所有限公司 基于半导体测序的降低无创产前检测假阳性假阴性的方法
CN114792548A (zh) * 2022-06-14 2022-07-26 北京贝瑞和康生物技术有限公司 校正测序数据、检测拷贝数变异的方法、设备和介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013000100A1 (en) * 2011-06-29 2013-01-03 Bgi Shenzhen Co., Limited Noninvasive detection of fetal genetic abnormality
CN103525939A (zh) * 2013-10-28 2014-01-22 广州爱健生物技术有限公司 无创检测胎儿染色体非整倍体的方法和系统
CN104120181A (zh) * 2011-06-29 2014-10-29 深圳华大基因医学有限公司 对染色体测序结果进行gc校正的方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013000100A1 (en) * 2011-06-29 2013-01-03 Bgi Shenzhen Co., Limited Noninvasive detection of fetal genetic abnormality
CN104120181A (zh) * 2011-06-29 2014-10-29 深圳华大基因医学有限公司 对染色体测序结果进行gc校正的方法及装置
CN103525939A (zh) * 2013-10-28 2014-01-22 广州爱健生物技术有限公司 无创检测胎儿染色体非整倍体的方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
H. CHRISTINA FAN等: "Sensitivity of Noninvasive Prenatal Detection of Fetal Aneuploidy from Maternal Plasma Using Shotgun Sequencing Is Limited Only by Counting Statistics", 《PLOS ONE》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106520940A (zh) * 2016-11-04 2017-03-22 深圳华大基因研究院 一种染色体非整倍体和拷贝数变异检测方法及其应用
CN108256292B (zh) * 2016-12-29 2021-11-02 浙江安诺优达生物科技有限公司 一种拷贝数变异检测装置
CN106845154A (zh) * 2016-12-29 2017-06-13 安诺优达基因科技(北京)有限公司 一种用于ffpe样本拷贝数变异检测的装置
CN106650312B (zh) * 2016-12-29 2022-05-17 浙江安诺优达生物科技有限公司 一种用于循环肿瘤dna拷贝数变异检测的装置
CN106845154B (zh) * 2016-12-29 2022-04-08 浙江安诺优达生物科技有限公司 一种用于ffpe样本拷贝数变异检测的装置
CN106650312A (zh) * 2016-12-29 2017-05-10 安诺优达基因科技(北京)有限公司 一种用于循环肿瘤dna拷贝数变异检测的装置
CN108256292A (zh) * 2016-12-29 2018-07-06 安诺优达基因科技(北京)有限公司 一种拷贝数变异检测装置
CN107622183A (zh) * 2017-08-15 2018-01-23 上海派森诺生物科技股份有限公司 一种基于多重指标的胎儿染色体倍性检测分析方法
CN107622183B (zh) * 2017-08-15 2021-04-09 上海派森诺生物科技股份有限公司 一种基于多重指标的胎儿染色体倍性检测分析方法
CN108733984A (zh) * 2017-10-30 2018-11-02 成都凡迪医疗器械有限公司 Nipt的z值结果校正方法及装置、计算机可读存储介质
CN108733984B (zh) * 2017-10-30 2021-09-03 成都凡迪医疗器械有限公司 Nipt的z值结果校正方法及装置、计算机可读存储介质
WO2019213811A1 (zh) * 2018-05-07 2019-11-14 深圳市真迈生物科技有限公司 检测染色体非整倍性的方法、装置及系统
CN109628567A (zh) * 2018-12-28 2019-04-16 国家卫生计生委科学技术研究所 一种用于检测胎儿染色体非整倍性的无创性产前检测系统
CN112712853B (zh) * 2020-12-31 2023-11-21 北京优迅医学检验实验室有限公司 一种无创产前检测装置
CN112712853A (zh) * 2020-12-31 2021-04-27 北京优迅医学检验实验室有限公司 一种无创产前检测装置
CN113593629B (zh) * 2021-06-29 2024-02-13 广东博奥医学检验所有限公司 基于半导体测序的降低无创产前检测假阳性假阴性的方法
CN113593629A (zh) * 2021-06-29 2021-11-02 广东博奥医学检验所有限公司 基于半导体测序的降低无创产前检测假阳性假阴性的方法
CN114792548A (zh) * 2022-06-14 2022-07-26 北京贝瑞和康生物技术有限公司 校正测序数据、检测拷贝数变异的方法、设备和介质
CN114792548B (zh) * 2022-06-14 2022-09-09 北京贝瑞和康生物技术有限公司 校正测序数据、检测拷贝数变异的方法、设备和介质

Also Published As

Publication number Publication date
CN105483229B (zh) 2018-10-16

Similar Documents

Publication Publication Date Title
CN105483229A (zh) 一种检测胎儿染色体非整倍体的方法及系统
CN103525939B (zh) 无创检测胎儿染色体非整倍体的方法和系统
CN103080336B (zh) 检测胚胎或肿瘤染色体拷贝数的试剂盒、装置和方法
CN103403183B (zh) 胎儿遗传异常的无创性检测
RU2699728C2 (ru) Способ и устройство для определения фракции внеклеточных нуклеиновых кислот в биологическом образце и их применение
CN104232777B (zh) 同时确定胎儿核酸含量和染色体非整倍性的方法及装置
CN104169929B (zh) 用于确定胎儿是否存在性染色体数目异常的系统和装置
CN105392894B (zh) 确定样本基因组中是否存在拷贝数变异的方法、系统和计算机可读介质
CN103275862B (zh) 一种检测甲型流感病毒h7n9亚型的荧光定量rt-pcr试剂盒
CN104120181B (zh) 对染色体测序结果进行gc校正的方法及装置
CN108573125A (zh) 一种基因组拷贝数变异的检测方法及包含该方法的装置
CN107949845A (zh) 能够在多个平台上区分胎儿性别和胎儿性染色体异常的新方法
CN105239164A (zh) 一种胎儿游离dna文库定量的标准品及其制备方法
CN106096330B (zh) 一种无创产前生物信息检测分析方法
CN107133491B (zh) 一种获取胎儿游离dna浓度的方法
CN106537401A (zh) 使用母体血清dna预测胎儿单基因遗传变异的方法
CN104951671A (zh) 基于单样本外周血检测胎儿染色体非整倍性的装置
CN105555970A (zh) 同时进行单体型分析和染色体非整倍性检测的方法和系统
CN107075564A (zh) 确定肿瘤核酸浓度的方法和装置
CN105648045A (zh) 确定胎儿目标区域单体型的方法和装置
CN102753703A (zh) 胎儿染色体非整倍性的检测方法
CN104531842A (zh) 一种无创产前检测胎儿21、18和13三体综合征的阳性质控品及其制备方法
CN106591451B (zh) 测定胎儿游离dna含量的方法及其用于实施该方法的装置
CN108300776A (zh) 脆性x综合征快速筛查试剂盒
CN107239676B (zh) 一种针对胚胎染色体的序列数据处理装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 528437 Guangdong city of Zhongshan province Zhongshan Torch Development Zone, Cheung Hing Road 6 No. 8 South trade building layer

Applicant after: Guangdong Tengfei gene Polytron Technologies Inc

Address before: 528437 Guangdong city of Zhongshan province Zhongshan Torch Development Zone, Cheung Hing Road 6 No. 8 South trade building layer

Applicant before: GUANGDONG ASCENDAS GENOMICS TECHNOLOGY CO., LTD.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant