CN104520437B - 一种染色体非整倍性检测方法及装置 - Google Patents

一种染色体非整倍性检测方法及装置 Download PDF

Info

Publication number
CN104520437B
CN104520437B CN201380004733.6A CN201380004733A CN104520437B CN 104520437 B CN104520437 B CN 104520437B CN 201380004733 A CN201380004733 A CN 201380004733A CN 104520437 B CN104520437 B CN 104520437B
Authority
CN
China
Prior art keywords
window
sample
module
test sample
chromosome
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201380004733.6A
Other languages
English (en)
Other versions
CN104520437A (zh
Inventor
郑晶
张春雷
陈盛培
蒋浩君
谢伟伟
陈芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Huada Medical Laboratory
Original Assignee
BGI Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=52345697&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=CN104520437(B) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by BGI Shenzhen Co Ltd filed Critical BGI Shenzhen Co Ltd
Publication of CN104520437A publication Critical patent/CN104520437A/zh
Application granted granted Critical
Publication of CN104520437B publication Critical patent/CN104520437B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2535/00Reactions characterised by the assay type for determining the identity of a nucleotide base or a sequence of oligonucleotides
    • C12Q2535/101Sanger sequencing method, i.e. oligonucleotide sequencing using primer elongation and dideoxynucleotides as chain terminators

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Genetics & Genomics (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Public Health (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Immunology (AREA)
  • Molecular Biology (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

一种染色体非整倍性检测方法及装置,其中方法包括:获取测试样本的测序结果在参考序列上的分布情况,即落在参考序列上划分的每个窗口中的读长序列的数目,其中测试样本包含来自目标个体的目标样本和来自正常个体的对照样本;进而计算每个目标样本在每个窗口中的偏差统计量;将目标样本的某个染色体上的偏差统计量的平均值与相应的偏差阈值进行比较,根据比较结果判断该染色体是否缺失或重复,其中偏差阈值按照全部正常个体在该染色体上的偏差统计量设置。

Description

一种染色体非整倍性检测方法及装置
技术领域
本发明涉及基因组学及生物信息学技术领域,具体涉及染色体非整倍性检测方法及装置。
背景技术
染色体是组成细胞核的基本物质。正常人的体细胞染色体数目为46条,并有一定的形态和结构。核型通常指染色体的表型特征,例如数量、长度等,核型检测能够在较大尺度上反映染色体的异常情况,例如某个染色体的非整倍性(缺失或重复),在遗传学研究上具有重要作用,例如对胎儿的染色体的核型检测有助于降低出生风险。
目前常用的胎儿产前检测技术分为无创产前技术和有创产前技术。其中,无创产前技术包括:1)利用甲胎蛋白(AFP)、游离雌三醇(β-HCG)和妊娠相关蛋白(PAPP-A)等血清标记物对孕妇血清与尿液成分进行检测,以计算唐氏综合症风险;2)借助物理学的方法对胎儿进行可视化筛查,例如B超、X线、CT、磁共振等;3)对配子或移入到子宫腔之前的胚胎进行遗传学分析的植入前遗传学诊断(PGD)等。有创产前技术包括孕早期的绒毛活组织检查、孕中期的胎儿脐带血穿刺、羊水穿刺、胎儿镜检查及胚胎活检等。
目前无创产前技术的检测结果不够可靠,假阳性率和假阴性率都偏高,而有创产前技术准确率高,但容易给孕妇和胎儿胎来风险,例如导致流产或羊膜腔炎。
发明内容
依据本发明的一方面提供一种染色体非整倍性检测方法,包括如下步骤:获取测试样本的测序结果在参考序列上的分布情况,测试样本包含来自M个目标个体的目标样本和来自N个正常个体的对照样本,M和N为正整数,测序结果包括多个读长序列,参考序列上划分有多个窗口,测试样本的测序结果在参考序列上的分布情况表现为落在每个窗口中的读长序列的数目r(i,j),其中i为窗口的编号,j为测试样本的编号,i和j为正整数;计算每个测试样本在每个窗口中的相对序列数R(i,j)=r(i,j)/rp(j),其中rp(j)为第j个样本的r(i,j)的平均值;计算每个目标样本在每个窗口中的偏差统计量Z(i,j)=[R(i,j)-mean(i)]/sd(i),其中mean(i)为第i个窗口中R(i,j)的平均值,sd(i)为第i个窗口中R(i,j)的标准差;将目标样本的第c号染色体上的Z(i,j)的平均值Zp(c,j)与第c号染色体的偏差阈值进行比较,根据比较结果判断该目标样本的第c号染色体是否缺失或重复,其中偏差阈值按照全部正常个体在第c号染色体上的偏差统计量设置。
依据本发明的另一方面提供一种染色体非整倍性检测装置,包括:数据输入单元,用于输入数据;数据输出单元,用于输出数据;存储单元,用于存储数据,其中包括可执行的程序;处理器,与数据输入单元、数据输出单元及存储单元数据连接,用于执行存储单元中存储的可执行的程序,该程序的执行包括完成上述染色体非整倍性检测方法。
依据本发明的再一方面提供一种计算机可读存储介质,用于存储供计算机执行的程序,本领域普通技术人员可以理解,在执行该程序时,通过指令相关硬件可完成上述染色体非整倍性检测方法的全部或部分步骤。所称存储介质可以包括:只读存储器、随机存储器、磁盘或光盘等。
依据本发明的方法通过对偏差统计量的设计反映出测试样本与参考序列的差异,再根据按照正常样本确定的偏差阈值对目标样本是否具有染色体缺失或重复进行判断,提供了一种基于测序技术的染色体非整倍性检测手段,能够灵敏地检测任意染色体的数目异常。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施方式的描述中将变得明显和容易理解,其中:
图1是依据本发明的一种实施方式的检测方法的流程示意图;
图2是依据本发明的另一种实施方式中的窗口划分方法的流程示意图;
图3是依据本发明的另一种实施方式中的GC校正方法的流程示意图。
具体实施方式
实施例1
依据本发明的一种实施方式,提供一种染色体非整倍性检测方法,参考图1,包括如下步骤:
101.获取测试样本的测序结果在参考序列上的分布情况。
(1)测试样本包含来自M个目标个体的目标样本和来自N个正常个体的对照样本,M和N为正整数。
目标个体指需要进行检测的个体,例如需要进行产前检测的孕妇,正常个体指预先确定的正常的个体。通常而言,目标个体与正常个体为同一物种,优选地,具有近似的基本状态,例如,若目标个体为孕妇,则正常个体可以是孕周接近的怀有正常胎儿的正常孕妇。
本实施方式中,目标样本和对照样本的来源不受特别限制,例如可以选自:孕妇外周血、孕妇尿液、孕妇宫颈胎儿脱落滋养细胞、孕妇宫颈粘液、胎儿有核红细胞等,只要能够从中提取出含有胎儿遗传信息的核酸样本即可。本实施方式中,优选目标样本和对照样本具有相同的来源,例如优选为孕妇外周血,这样可以对胎儿进行无创产前检测且样本获取方式简便。由于样本中除胎儿核酸外还包含孕妇自身核酸,因此为避免干扰检测结果,孕妇本身应当无染色体非整倍性问题,当然,这种判断通常是十分明显的。在其他实施方式中,也可以使用有创方法获得的样本,例如样本可以来自胎儿的脐带血、胎盘组织或绒毛膜组织、未培养或培养过的羊水细胞、绒毛组细胞等。
本实施方式对从样本中提取用于测序的核酸的方法和设备不作限定,可以采用各种已有的手段进行,例如商品化的核酸提取试剂盒。
需要说明的是,若目标个体有两个以上,即M≥2,可以分别将每个目标个体与N个正常个体组成一组测试样本,即测试样本的总数为N+1,共获得M组测试样本,每组分别按照所提供方法进行检测和计算,也可以将M个目标个体与N个正常个体组成一组测试样本进行检测和计算,即测试样本的总数为N+M。本实施方式中优选采用测试样本的总数为N+1的方案。
(2)测试样本的测序结果包括多个读长序列(即reads,也称“读段”)。
由于正常个体是预先选择确定的,因此关于对照样本的任何检测或计算数据均可预先产生并保存下来,本实施方式中采用这种预置对照样本的相关数据的方式,在需要时读取使用,以下涉及对照样本数据时不再赘述。在其他实施方式中,也可以采用对照样本同步检测和计算的方式。
依据本发明的实施方式对样本的测序方法和设备没有特殊依赖,通常会将提取自样本的核酸进行打断,并根据所选用的测序方法进行相应的文库(library)制备,然后进行测序。例如,可选用第三代测序平台(Metzker ML.Sequencingtechnologies-the next generation.Nat Rev Genet.2010Jan;11(1):31-46),包括但不限于Helicos公司的真实单分子测序技术(True Single Molecule DNAsequencing),Pacific Biosciences公司的单分子实时测序(single molecule real-time(SMRTTM)),以及Life Technologies公司的半导体测序技术等。本实施方式优选采用Life Technologies公司的半导体测序平台。当需要同时检测多个目标样本时,每个样本可以被加上不同的标签序列(barcode),以用于在测序过程中进行样本的区分(Micah Hamady,Jeffrey J Walker,J Kirk Harris et al.Error-correctingbarcoded primers forpyrosequencing hundreds of samples in multiplex.NatureMethods,2008,March,Vol.5No.3),从而实现同时对多个样本进行测序。标签序列用于区分不同样本,但不影响添加标签序列的DNA分子的其他功能。标签序列长度可以是4-12bp。
本实施方式中,在获取测试样本的测序结果时所使用的测序深度优选为0.2X,并且使用小片段文库,大小优选为100~300bp。在其他实施方式中,测序深度可优选为0.1X~0.3X,同时地或可选地,文库大小优选为50~500bp。使用上述优选的各种低测序深度以及小片段文库,既能够减少测序的数据量以节省成本和缩短检测及分析的时间,又能够保证检测结果的可靠性和准确性。例如,在一种实施方式中,采用0.2X的测序深度和大小约为100bp的文库,可使得所需要分析的测序结果数据在5M左右,大大减小了数据产生的成本,也降低了分析计算的难度,使得在24小时内完成分析过程成为可能,有助于缩短结果反馈的时间。
(3)参考序列上划分有多个窗口,测试样本的测序结果在参考序列上的分布情况表现为落在每个窗口中的读长序列的数目。
简明起见,将每个窗口中的读长序列的数目记为r(i,j),其中i为窗口的编号,j为测试样本的编号,i和j为正整数。如前所述,对于对照样本而言,其r(i,j)可以是预先测定并保存的。
所使用的参考序列是已知序列,可以是预先获得的目标个体所属生物类别中的任意的参考模板。例如,若目标个体是人类,参考序列可选择美国国家生物技术信息中心(NCBI,national center for biotechnology information)数据库中的人类基因组参考序列。本实施方式中,参考序列选择为NCBI数据库中版本37.3(hg19;NCBI Build37.3)的人类基因组参考序列。
在参考序列上划分窗口可以使用各种使得测序结果能够被有效统计的方式,例如,本实施方式中,按照固定的窗口长度和固定的窗口间距划分窗口,固定的窗口长度优选为100Kb,固定的窗口间距优选为10kb或20kb。在其他实施方式中,也可以选择不同的固定的窗口长度和固定的窗口间距,例如固定的窗口长度优选为1kb~1Mb,同时地或可选地,固定的窗口间距优选为1kb~100kb。窗口长度和间距可根据样本中胎儿DNA的丰度进行设置,设置原理是每一个窗口对应一个统计量及一个染色体位置,这意味着窗口的距离决定了检测的精度。
在将测序结果比对到参考序列时,可使用各种比对软件,例如Tmap,BWA(Burrows-Wheeler Aligner),SOAP(Short Oligonucleotide Analysis Package),samtools等,本实施方式对此不作限定。根据比对软件,可采用容错(即允许有若干个碱基错配(mismatch))或不容错比对,采用容错比对时,一般平均100bp允许有1~3个容错。在采用Proton平台测序时,一般采用容错比对。
102.计算每个测试样本在每个窗口中的相对序列数。
简明起见,将每个测试样本在每个窗口中的相对序列数记为R(i,j),
R(i,j)=r(i,j)/rp(j)
其中,rp(j)为第j个样本的r(i,j)的平均值,例如可表示为,
rp(j)=[r(1,j)+…+r(I,j)]/I
其中,I为参考序列上全部窗口的数目。
需要说明的是,本实施方式中使用归一化处理后的相对序列数进行后续的分析运算,这是为了突出数据本身的统计意义,在其他实施方式中,若未采用归一化处理但仍然使用依据本发明的处理思路进行后续数据分析,只是在进行数值的分析、计算和比较时使用未归一化的数值水平,均应当视为本实施方式的等同。以下所涉及计算过程也均可以采用在数学或统计上等同或近似的方法对公式或算法进行变化,同样应视为等同,不再赘述。本实施方式不限制于具体计算公式的表达形式。
103.计算每个目标样本在每个窗口中的偏差统计量
简明起见,将每个目标样本在每个窗口中的偏差统计量记为Z(i,j),
Z(i,j)=[R(i,j)-mean(i)]/sd(i)
其中,mean(i)为第i个窗口中R(i,j)的平均值,例如可表示为,
mean(i)=[R(i,1)+…+R(i,J)]/J
sd(i)为第i个窗口中R(i,j)的标准差,一种可选的计算方式为:
sd ( i ) = 1 J - 1 Σ j = 1 J [ R ( i , j ) - mean ( i ) ] 2
其中,J为全部测试样本的数目。本实施方式中,J=1+N。在其他实施方式中,若测试样本同时包含M个目标样本,则J=M+N。
偏差统计量Z(i,j)代表了第j个样本在第i个窗口是否出现了缺失或重复的统计含义,在当前的计算公式表现形式下,Z(i,j)>0倾向于重复,Z(i,j)<0倾向于缺失,每个窗口的Z(i,j)具有相对独立的统计意义。
104.将目标样本的某个染色体上的偏差统计量的平均值与相应的偏差阈值 进行比较。
(1)偏差统计量Z(i,j)按照所属染色体进行分析比对,即将目标样本的第c号染色体上的Z(i,j)的平均值Zp(c,j)与第c号染色体的偏差阈值进行比较,
Zp(c,j)=[Z(c1,j)+…+Z(cI-c1+1,j)]/cI
其中,c1为参考序列的第c号染色体上第一个窗口的编号,cI为参考序列的第c号染色体上全部窗口的数目。
如前所述,不使用平均值而使用其他具有相同或近似含义的统计值,例如累加值也是等同的做法,相应调整阈值的数值水平即可。
(2)根据比较结果判断该目标样本的第c号染色体是否缺失或重复。例如,若Zp(c,j)超过偏差阈值上限,则可认为目标样本j的第c号染色体出现重复(例如3体),若Zp(c,j)低于偏差阈值下限,则可认为目标样本j的第c号染色体出现缺失(例如单体),由此可以给出目标样本的数字化核型分析结果,例如“第21号染色体3体”、“第18号染色体3体”、“第13号染色体3体”、“X染色体缺失”、“Y染色体缺失”等。
需要说明的是,虽然依据本发明实施方式的变异检测的结果客观上能够用于判断染色体非整倍性,进而用于检测由此导致的遗传疾病,例如胎儿的唐氏综合症、爱德华综合症等,但是依据本发明实施方式的变异检测也并不一定用于疾病诊断或相关的目的,例如一些染色体变异的存在并不代表着患病风险或健康状况,或者也可以用于单纯的遗传多态性科学研究。
(3)偏差阈值按照全部正常个体在第c号染色体上的偏差统计量设置。如前所述,由于偏差阈值是由对照样本得到的,因此可以预先计算和保存,在后续对目标个体进行检测时,只要对照样本的集合不变,均可使用相同的阈值设置。当然若减少、更换或增加对照样本则需要更新相应的偏差阈值。本实施方式所采用的一种优选的阈值设置方式,包括如下步骤:
(3.1)以N个正常个体的对照样本作为全部测试样本,计算每个对照样本的Zp(c,j)。具体计算过程可参考上述步骤中的描述进行,只是测试样本中不再包含目标样本,因此在设置偏差阈值时,全部测试样本的数目为N。为使获得的偏差阈值具有更好的可靠性,本实施方式中,N优选为不小于30。
(3.2)按照设定的检验规则和置信度计算判断为正常所对应的Zp(c,j)值边界,以此作为第c号染色体的偏差阈值。可根据对照样本的数目以及所需要的检测精度等选择检验规则并设置相应的置信度,具体可按照已有的统计数据处理方式进行。本实施方式中,优选采用U检验,置信度为95%,在此置信度下具有“没有假阴性”的优点。在其他实施方式中,也可选择T检验等其他检验规则,同时地或可选地,置信度可选择为90%~99.9%,例如99%、99.5%、99.9%等。
本实施方式中,依据上述设置方式得到的一组偏差阈值如下所列,其中记录数据的格式为(染色体编号;阈值下限;阈值上限):
(1;-0.1417365;0.1417365)(2;-0.09237466;0.09237466)
(3;-0.1250404;0.1250404)(4;-0.1265542;0.1265542)
(5;-0.08148388;0.08148388)(6;-0.119122;0.119122)
(7;-0.1061317;0.1061317)(8;-0.1155915;0.1155915)
(9;-0.1004392;0.1004392)(10;-0.1106214;0.1106214)
(11;-0.09819914;0.09819914)(12;-0.09005814;0.09005814)
(13;-0.1779642;0.1779642)(14;-0.1436377;0.1436377)
(15;-0.1478246;0.1478246)(16;-0.1764641;0.1764641)
(17;-0.147383;0.147383)(18;-0.1891044;0.1891044)
(19;-0.3332986;0.3332986)(20;-0.206487;0.206487)
(21;-0.2573099;0.2573099)(22;-0.2096556;0.2096556)
(X-男胎;-0.823347;0.823347)(X-女胎;-0.285388;0.285388)
(Y-男胎;-1.228768;1.228768)(Y-女胎;-1.217151;1.217151)
实施例2
依据本发明的另一种实施方式,提供一种染色体非整倍性检测方法,基本步骤与实施例1相同,区别在于实施例1中采用按照固定的窗口长度和固定的窗口间距划分窗口的方式,而本实施方式中采用按照每个窗口中包含的唯一比对序列数相同的方式划分窗口。
唯一比对序列是指定位到参考序列唯一位置的序列,在使用“包含的唯一比对序列数相同”的方式来划分窗口的情况下,在将测试样本的测序结果比对到参考序列时,相应的也可以只统计唯一比对的读长序列,而放弃不能唯一比对的读长序列。这种类型的窗口能够降低重复序列以及N区等对检测结果的影响,提高检测的可靠性。
本实施方式提供的一种按照每个窗口中包含的唯一比对序列数相同的方式划分窗口的方法,参考图2,包括如下步骤:
201.获取一组已知的碱基序列。
这组碱基序列既可以通过对某个已知样本(例如上述对照样本中的一个)进行全基因组测序获得,也可以通过按照切割长度切割参考序列获得。
在采用实际测序的方式来获得这组已知的碱基序列时,为了获得足够多的碱基序列,可以对选定的已知样本进行深度测序,以测序得到的读长序列作为这组已知的碱基序列。优选地,可以选择建库和测序方法使得获得的碱基序列的长度与测试样本进行测序所得到的读长序列的长度相当。
在采用切割参考序列的方式来模拟生成这组已知的碱基序列时,可以先确定切割长度,通常可以按照对测试样本进行测序所获得的读长序列的长度来确定切割长度。例如,切割长度可以是与测试样本的读长序列长度接近的固定长度值,例如若测试样本的读长序列约为250bp,则可选择切割长度为200~300bp。然后按照切割长度切割参考序列,例如根据选定的参考序列切割HG18或HG19。
202.将这组已知的碱基序列比对回参考序列,获得唯一比对序列的分布情况。
203.划分窗口。
例如,将相邻的K个唯一比对序列划分为一组,以此划分覆盖每组唯一比对序列的窗口,K为正整数。
实施例3
依据本发明的另一种实施方式,提供一种染色体非整倍性检测方法,基本步骤与实施例1或2相同,区别在于实施例1或2中采用未经校正的相对序列数R(i,j)来计算偏差统计量Z(i,j),而本实施方式中则在计算Z(i,j)之前先对R(i,j)进行校正,简明起见,以下将校正后的R(i,j)记为Ra(i,j)。
本实施方式中,优选按照每个测试样本在每个窗口中的GC(鸟嘌呤Guanine和胞嘧啶Cytosine)含量对R(i,j)进行校正,使得到的Ra(i,j)具有或近似具有正态分布,在计算Z(i,j)时,使用Ra(i,j)。这是因为客观看来,染色体非整倍性(缺失或重复)对覆盖范围内的窗口的影响应当是一致的,测得的统计量R(i,j)应当满足统计学的常见分布,例如正态或标准正态分布。而根据已有的研究结果,GC含量会影响实际测序结果,例如高和低GC含量的区域的读长序列数量会低于中间态GC含量的区域的读长序列数量,这主要和测序过程中使用的建库方法有关。因此,为使的检测结果更加可靠,可以根据测试样本在每个窗口中的GC含量对R(i,j)进行标准化校正,使得Ra(i,j)具有例如近似符合正态分布的统计规律。所称R(i,j)(或Ra(i,j))的分布是指,以R(i,j)的数值为横坐标,含有相同数值的R(i,j)的窗口的数目为纵坐标,所描述的R(i,j)的数值的分布情况。所称“相同数值”是指取值在同一档位区间中。
本实施方式提供的一种按照GC含量对R(i,j)进行校正的方法,参考图3,包括如下步骤:
301.计算测试样本的GC含量。
对于一个测试样本,可根据测序结果计算该测试样本在每个窗口中的GC含量。目标样本与正常样本都可以进行基于GC含量的校正,如前所述,正常样本的相关数据可以预先获得与处理。
302.统计相同GC含量的窗口中的R(i,j)的中位数。
所称相同GC含量指GC含量值在同一档位区间中,例如本实施方式中,档位区间的跨度优选为0.001。在其他实施方式中,档位区间的跨度也可优选为0.0005~0.005。
303.计算校正系数ε(GC)。
通常,以中位数与目标值的比值作为相应GC含量下的校正系数ε(GC)。目标值通常选择能够代表平均数量水平的值,例如本实施方式中优选为该测序样本在全部窗口(包括全部染色体)的R(i,j)的平均值。
304.将R(i,j)乘以ε(GC)得到校正后的R(i,j)。例如,可表示为,
Ra(i,j)=ε(GC)×R(i,j)
显然若直接对r(i,j)进行GC校正也是可以的,是与上述校正过程等同的方法。
本领域普通技术人员可以理解,上述实施方式中各种方法的全部或部分步骤可以通过程序来指令相关硬件完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器、随机存储器、磁盘或光盘等。
依据本发明的另一方面还提供一种染色体非整倍性检测装置,包括:数据输入单元,用于输入数据;数据输出单元,用于输出数据;存储单元,用于存储数据,其中包括可执行的程序;处理器,与上述数据输入单元、数据输出单元及存储单元数据连接,用于执行存储单元中存储的可执行的程序,该程序的执行包括完成上述实施方式中各种方法的全部或部分步骤。
以下结合具体目标个体对依据本发明的具体检测方法的运行结果进行详细的描述。下述检测过程所使用的具体参数设置为:
1.采用实施例3检测方法,其中窗口设置采用实施例1的方式,
2.参考序列:NCBI数据库中版本37.3(hg19;NCBIBuild37.3)的人类基因组参考序列,
3.窗口长度100Kb,窗口间距20kb,
4.目标样本:4例孕妇血浆,对照样本:确定实施例1中所列偏差阈值的一组对照样本。
检测过程为:
1.DNA提取与建库:使用Snova DNA提取试剂盒(SnoMag Circulating DNAKit)提取上述4例血浆样品(目标个体编号见附表)的DNA,所提取DNA按照测试稳定后的proton建库流程进行建库,在片段主带集中在170bp的DNA分子两端加上测序接头,每个目标样本在接头连接时被加上不同的标签序列,以便于区分。建好的文库(主带约为250bp)被emulsion PCR成油包水状态,形成包裹单分子颗粒。
2.测序:对于获自上述4例血浆的DNA样本按照Life Technologies官方公布的Ion Proton说明书进行操作,进行上机测序,每个样本根据标签序列进行区分。利用比对软件Tmap(获自Life Technologies公司主页),将测序结果与参考序列进行不容错比对,得到测序结果在参考序列上的定位。
3.数据分析:计算每个目标样本的Zp(c,j)(每个目标样本分别与对照样本集组成一组测试样本),并使用相应的偏差阈值进行过滤,获得超过阈值的检测结果。
4.结果检验:对同样的4例目标个体按照标准的核型分析方法进行分析(包括羊水穿刺、细胞培养、染色、分带等过程),将分析结果与步骤3中的结果进行比对,如下表所示:
以上所述仅为本发明的较佳实施例,应当理解,这些实施例仅用以解释本发明,并不用于限定本发明。对于本领域的一般技术人员,依据本发明的思想,可以对上述具体实施方式进行变化。

Claims (14)

1.一种染色体非整倍性检测装置,其特征在于,包括:
用于获取测试样本的测序结果在参考序列上的分布情况的模块,所述测试样本包含来自M个目标个体的目标样本和来自N个正常个体的对照样本,M和N为正整数,所述测序结果包括多个读长序列,所述参考序列上划分有多个窗口,所述分布情况表现为落在每个窗口中的读长序列的数目r(i,j),其中i为窗口的编号,j为测试样本的编号,i和j为正整数;所述窗口的划分方式选自:按照固定的窗口长度和固定的窗口间距划分窗口,按照每个窗口中包含的唯一比对序列数相同的方式划分窗口;所述固定的窗口长度为1kb~1Mb;和/或,所述固定的窗口间距为1kb~100kb;
用于计算每个测试样本在每个窗口中的相对序列数R(i,j)的模块,其中R(i,j)=r(i,j)/rp(j),其中rp(j)为第j个样本的r(i,j)的平均值;
用于计算每个目标样本在每个窗口中的偏差统计量Z(i,j)的模块,其中Z(i,j)=[R(i,j)-mean(i)]/sd(i),其中mean(i)为第i个窗口中R(i,j)的平均值,sd(i)为第i个窗口中R(i,j)的标准差;
用于将目标样本的第c号染色体上的Z(i,j)的平均值Zp(c,j)与第c号染色体的偏差阈值进行比较的模块,以及用于根据比较结果判断该目标样本的第c号染色体是否缺失或重复的模块,所述偏差阈值按照全部所述正常个体在第c号染色体上的偏差统计量设置。
2.如权利要求1所述的装置,其特征在于,所述目标样本和对照样本的来源选自以下至少一种:孕妇外周血、孕妇尿液、孕妇宫颈胎儿脱落滋养细胞、孕妇宫颈粘液和胎儿有核红细胞。
3.如权利要求1所述的装置,其特征在于,所述目标样本和对照样本的来源为孕妇外周血。
4.如权利要求1所述的装置,其特征在于,所述固定的窗口长度为100Kb;和/或,
所述固定的窗口间距为5kb~20kb。
5.如权利要求1所述的装置,其特征在于,还包括用于按照每个窗口中包含的唯一比对序列数相同的方式划分窗口的如下模块:
用于获取一组已知的碱基序列的模块,所述已知的碱基序列通过对已知样本进行测序获得,或者通过按照切割长度切割参考序列获得,所述切割长度按照对测试样本进行测序所获得的读长序列的长度确定,
用于将所述已知的读长序列比对回参考序列的模块,以获得唯一比对序列的分布情况,
用于将相邻的K个唯一比对序列划分为一组的模块,以此划分覆盖每组唯一比对序列的窗口,K为正整数。
6.如权利要求1所述的装置,其特征在于,还包括如下模块:用于在计算Z(i,j)之前按照每个测试样本在每个窗口中的GC含量对R(i,j)进行校正的模块,使得校正后的R(i,j)具有或近似具有正态分布,在计算Z(i,j)时,使用所述校正后的R(i,j)。
7.如权利要求6所述的装置,其特征在于,所述对R(i,j)进行校正的模块包括如下模块:
用于对于一个测试样本,根据测序结果计算该测试样本在每个窗口中的GC含量的模块,
用于统计相同GC含量的窗口中的R(i,j)的中位数的模块,所述相同GC含量指GC含量值在同一档位区间中,所述档位区间的跨度为0.0005~0.005,
用于以所述中位数与目标值的比值作为相应GC含量下的校正系数(GC)的模块,所述目标值为该测试样本在全部窗口的R(i,j)的平均值,
用于将R(i,j)乘以(GC)得到校正后的R(i,j)的模块。
8.如权利要求7所述的装置,其特征在于,所述档位区间的跨度为0.001。
9.如权利要求1所述的装置,其特征在于,在获取测试样本的测序结果时所使用的测序深度为0.1X~0.3X;和/或,
在对测试样本进行测序时所构建的测序文库大小为50~500bp。
10.如权利要求1所述的装置,其特征在于,在获取测试样本的测序结果时所使用的测序深度为0.2X;和/或,
在对测试样本进行测序时所构建的测序文库大小为100~300bp。
11.如权利要求1-10任意一项所述的装置,其特征在于,还包括用于偏差阈值的设置的如下模块:
用于以所述N个正常个体的对照样本作为全部测试样本,计算每个对照样本的Zp(c,j)的模块,
用于按照设定的检验规则和置信度计算判断为正常所对应的Zp(c,j)值边界,以此作为第c号染色体的偏差阈值的模块。
12.如权利要求11所述的装置,其特征在于,所述检验规则为U检验;和/或,
所述置信度为90%~99.9%;和/或,
所述N为不小于30。
13.如权利要求11所述的装置,其特征在于,所述置信度为95%。
14.如权利要求1-7任意一项所述的装置,其特征在于,所述sd(i)按照如下方式计算:
其中,J为全部测试样本的数目。
CN201380004733.6A 2013-07-17 2013-07-17 一种染色体非整倍性检测方法及装置 Active CN104520437B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2013/079495 WO2015006932A1 (zh) 2013-07-17 2013-07-17 一种染色体非整倍性检测方法及装置

Publications (2)

Publication Number Publication Date
CN104520437A CN104520437A (zh) 2015-04-15
CN104520437B true CN104520437B (zh) 2016-09-14

Family

ID=52345697

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380004733.6A Active CN104520437B (zh) 2013-07-17 2013-07-17 一种染色体非整倍性检测方法及装置

Country Status (5)

Country Link
US (1) US20160154931A1 (zh)
EP (1) EP3023504B1 (zh)
CN (1) CN104520437B (zh)
HK (1) HK1208888A1 (zh)
WO (1) WO2015006932A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104789686B (zh) * 2015-05-06 2018-09-07 浙江安诺优达生物科技有限公司 检测染色体非整倍性的试剂盒和装置
CN108733979A (zh) * 2017-10-30 2018-11-02 成都凡迪医疗器械有限公司 Nipt的gc含量校准方法、装置及计算机可读存储介质
CN108363903B (zh) * 2018-01-23 2022-03-04 和卓生物科技(上海)有限公司 一种适用于单细胞的染色体非整倍性检测系统及应用
CN110428873B (zh) * 2019-06-11 2021-07-23 西安电子科技大学 一种染色体倍数异常检测方法及检测系统
CN110993029B (zh) * 2019-12-26 2023-09-05 北京优迅医学检验实验室有限公司 一种检测染色体异常的方法及系统
KR20220122596A (ko) * 2019-12-31 2022-09-02 비지아이 클리니컬 래보러토리즈 (셴젠) 컴퍼니 리미티드 염색체 이수성 판별 및 분류 모델 구성 방법 및 장치

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1376282A (zh) * 1999-09-10 2002-10-23 威廉·L·克劳利 在基因算法、信息编码和非重复加密中采用合成基因
CN102753703A (zh) * 2010-04-23 2012-10-24 深圳华大基因科技有限公司 胎儿染色体非整倍性的检测方法
CN103003447A (zh) * 2011-07-26 2013-03-27 维里纳塔健康公司 用于确定样品中存在或不存在不同非整倍性的方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050221341A1 (en) * 2003-10-22 2005-10-06 Shimkets Richard A Sequence-based karyotyping
CA3176319A1 (en) * 2007-07-23 2009-01-29 The Chinese University Of Hong Kong Analyzing tumor dna in a cell-free sample
EP2334812B1 (en) * 2008-09-20 2016-12-21 The Board of Trustees of The Leland Stanford Junior University Noninvasive diagnosis of fetal aneuploidy by sequencing
JP5993029B2 (ja) 2011-12-31 2016-09-14 ビージーアイ ダイアグノーシス カンパニー リミテッドBgi Diagnosis Co., Ltd. 遺伝子変異の検出方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1376282A (zh) * 1999-09-10 2002-10-23 威廉·L·克劳利 在基因算法、信息编码和非重复加密中采用合成基因
CN102753703A (zh) * 2010-04-23 2012-10-24 深圳华大基因科技有限公司 胎儿染色体非整倍性的检测方法
CN103003447A (zh) * 2011-07-26 2013-03-27 维里纳塔健康公司 用于确定样品中存在或不存在不同非整倍性的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Noninvasive prenvasive prenatal diagnosis of fetal chromosomal aneuploidy by massively parallel genomic sequencing of DNA in maternal plasma;Rossa WK Chiu et al;《PNAS》;20081223;第105卷(第51期);全文 *

Also Published As

Publication number Publication date
HK1208888A1 (zh) 2016-03-18
EP3023504A4 (en) 2017-04-05
US20160154931A1 (en) 2016-06-02
WO2015006932A1 (zh) 2015-01-22
CN104520437A (zh) 2015-04-15
EP3023504A1 (en) 2016-05-25
EP3023504B1 (en) 2019-10-02

Similar Documents

Publication Publication Date Title
CN104520437B (zh) 一种染色体非整倍性检测方法及装置
CN104169929B (zh) 用于确定胎儿是否存在性染色体数目异常的系统和装置
CN109072479A (zh) 使用循环微粒对自发性早产风险进行分层
CN105296606B (zh) 确定生物样本中游离核酸比例的方法、装置及其用途
CN103525939B (zh) 无创检测胎儿染色体非整倍体的方法和系统
CN105392894B (zh) 确定样本基因组中是否存在拷贝数变异的方法、系统和计算机可读介质
CN105825076B (zh) 消除常染色体内和染色体间gc偏好的方法及检测系统
CN105143466B (zh) 通过大规模平行rna测序分析母亲血浆转录组
CN105844116B (zh) 测序数据的处理方法和处理装置
CN104350158A (zh) 快速非整倍性检测
KR101614471B1 (ko) 유전체 서열분석을 이용한 태아 염색체 이수성의 진단 방법 및 장치
CN105051209A (zh) 母体血浆的无创性产前分子染色体核型分析
CN105051208B (zh) 确定胚胎基因组中预定区域碱基信息的方法、系统和计算机可读介质
CN109979529A (zh) Cnv检测装置
CN104830986A (zh) 一种检测胎儿基因信息的方法、装置和系统
CN104156631A (zh) 染色体三倍体检验方法
CN105069277A (zh) 孕中期产前筛查中唐氏综合征风险估计方法
KR101678962B1 (ko) 대규모 병렬형 게놈서열분석 방법을 이용한 비침습적 산전검사 장치 및 방법
KR20230110615A (ko) 태아 염색체 이상을 검출하는 방법 및 시스템
CN106795551A (zh) 单细胞染色体的cnv分析方法和检测装置
CN105821117A (zh) 多倍染色体检测用的标准品产品及其制备方法
CN110501443B (zh) 无创识别/预警脂肪肝奶牛的新型生物标记物
CN108229099B (zh) 数据处理方法、装置、存储介质及处理器
CN107239676B (zh) 一种针对胚胎染色体的序列数据处理装置
CN109402247A (zh) 一种基于dna变异计数的胎儿染色体检测系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: SHENZHEN BGI CORPORATION

Free format text: FORMER OWNER: BGI-SHENZHEN CO., LTD.

Effective date: 20150806

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20150806

Address after: Yantian District of Shenzhen City, Guangdong province 518000 Hongan street No. 21 China Comprehensive Park 7 Building 7 layer -14 layer

Applicant after: BGI SHENZHEN CO LTD

Address before: 518000, Beishan Industrial Zone, 146 North Mountain Road, Yantian District, Guangdong, Shenzhen 11F-3

Applicant before: BGI-Shenzhen Co., Ltd.

REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1208888

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20170111

Address after: Beishan Industrial Zone Building in Yantian District of Shenzhen city in Guangdong province 518083 1, 9, 3 and 11 floor of Building 1, 5 floor

Patentee after: Shenzhen Huada clinical inspection center Co., Ltd.

Address before: Yantian District of Shenzhen City, Guangdong province 518000 Hongan street No. 21 China Comprehensive Park 7 Building 7 layer -14 layer

Patentee before: BGI SHENZHEN CO LTD

REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1208888

Country of ref document: HK

CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 518083 1st, 3rd, 4th and 5th floors of 11 buildings in Beishan Industrial Zone, Yantian Street, Yantian District, Shenzhen City, Guangdong Province

Patentee after: Shenzhen Huada clinical laboratory center

Address before: 518083 Building 1, 9 and 11 Building 1, 3 and 5 of Beishan Industrial Zone, Yantian District, Shenzhen City, Guangdong Province

Patentee before: Shenzhen Huada clinical inspection center Co., Ltd.

CP01 Change in the name or title of a patent holder

Address after: 518083 1st, 3rd, 4th and 5th floors of 11 buildings in Beishan Industrial Zone, Yantian Street, Yantian District, Shenzhen City, Guangdong Province

Patentee after: Shenzhen Huada Medical Laboratory

Address before: 518083 1st, 3rd, 4th and 5th floors of 11 buildings in Beishan Industrial Zone, Yantian Street, Yantian District, Shenzhen City, Guangdong Province

Patentee before: SHENZHEN HUADA CLINIC EXAMINATION CENTER

CP01 Change in the name or title of a patent holder