CN117409858A - 胚胎植入前染色体异常的检测方法和装置 - Google Patents
胚胎植入前染色体异常的检测方法和装置 Download PDFInfo
- Publication number
- CN117409858A CN117409858A CN202210800743.1A CN202210800743A CN117409858A CN 117409858 A CN117409858 A CN 117409858A CN 202210800743 A CN202210800743 A CN 202210800743A CN 117409858 A CN117409858 A CN 117409858A
- Authority
- CN
- China
- Prior art keywords
- reads
- preset interval
- chromosome
- preset
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 208000031404 Chromosome Aberrations Diseases 0.000 title claims abstract description 21
- 230000032692 embryo implantation Effects 0.000 title claims abstract description 20
- 206010067477 Cytogenetic abnormality Diseases 0.000 title abstract description 10
- 210000000349 chromosome Anatomy 0.000 claims abstract description 232
- 238000012937 correction Methods 0.000 claims abstract description 108
- 239000000523 sample Substances 0.000 claims abstract description 73
- 238000012163 sequencing technique Methods 0.000 claims abstract description 61
- 239000013074 reference sample Substances 0.000 claims abstract description 31
- 238000012070 whole genome sequencing analysis Methods 0.000 claims abstract description 14
- 239000000178 monomer Substances 0.000 claims abstract description 9
- 208000037280 Trisomy Diseases 0.000 claims abstract description 6
- 208000011908 tetrasomy Diseases 0.000 claims abstract description 5
- 230000011218 segmentation Effects 0.000 claims description 26
- 238000004590 computer program Methods 0.000 claims description 24
- 238000012216 screening Methods 0.000 claims description 11
- 238000003860 storage Methods 0.000 claims description 8
- 208000031639 Chromosome Deletion Diseases 0.000 claims description 5
- 238000001514 detection method Methods 0.000 abstract description 39
- 210000001161 mammalian embryo Anatomy 0.000 abstract description 13
- 208000036878 aneuploidy Diseases 0.000 abstract description 10
- 231100001075 aneuploidy Toxicity 0.000 abstract description 10
- 230000002159 abnormal effect Effects 0.000 abstract description 6
- 238000012165 high-throughput sequencing Methods 0.000 abstract description 4
- 238000012217 deletion Methods 0.000 abstract description 3
- 230000037430 deletion Effects 0.000 abstract description 3
- 238000004364 calculation method Methods 0.000 description 14
- 238000004458 analytical method Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 210000004027 cell Anatomy 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 210000001766 X chromosome Anatomy 0.000 description 5
- 206010008805 Chromosomal abnormalities Diseases 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 206010028980 Neoplasm Diseases 0.000 description 3
- 230000003321 amplification Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000000670 limiting effect Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000003199 nucleic acid amplification method Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 210000003765 sex chromosome Anatomy 0.000 description 3
- 241000282421 Canidae Species 0.000 description 2
- 206010010356 Congenital anomaly Diseases 0.000 description 2
- 238000000018 DNA microarray Methods 0.000 description 2
- 201000006360 Edwards syndrome Diseases 0.000 description 2
- 208000017924 Klinefelter Syndrome Diseases 0.000 description 2
- 241000124008 Mammalia Species 0.000 description 2
- 241000282339 Mustela Species 0.000 description 2
- 208000025174 PANDAS Diseases 0.000 description 2
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 2
- 240000004718 Panda Species 0.000 description 2
- 235000016496 Panda oleosa Nutrition 0.000 description 2
- 241000283080 Proboscidea <mammal> Species 0.000 description 2
- 101100495925 Schizosaccharomyces pombe (strain 972 / ATCC 24843) chr3 gene Proteins 0.000 description 2
- 208000007159 Trisomy 18 Syndrome Diseases 0.000 description 2
- 206010000210 abortion Diseases 0.000 description 2
- 231100000176 abortion Toxicity 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002513 implantation Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000035935 pregnancy Effects 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 230000014639 sexual reproduction Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 206010053884 trisomy 18 Diseases 0.000 description 2
- 241000283690 Bos taurus Species 0.000 description 1
- 241000282817 Bovidae Species 0.000 description 1
- 241000282472 Canis lupus familiaris Species 0.000 description 1
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 241000282693 Cercopithecidae Species 0.000 description 1
- 241000282994 Cervidae Species 0.000 description 1
- 241000283153 Cetacea Species 0.000 description 1
- 244000228088 Cola acuminata Species 0.000 description 1
- 235000010205 Cola acuminata Nutrition 0.000 description 1
- 235000015438 Cola nitida Nutrition 0.000 description 1
- 241001481833 Coryphaena hippurus Species 0.000 description 1
- 201000010374 Down Syndrome Diseases 0.000 description 1
- 206010058314 Dysplasia Diseases 0.000 description 1
- 241000283086 Equidae Species 0.000 description 1
- 241000283070 Equus zebra Species 0.000 description 1
- 241000402754 Erythranthe moschata Species 0.000 description 1
- 241000282818 Giraffidae Species 0.000 description 1
- 244000060234 Gmelina philippensis Species 0.000 description 1
- 241000282575 Gorilla Species 0.000 description 1
- 241000282375 Herpestidae Species 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 208000026350 Inborn Genetic disease Diseases 0.000 description 1
- 241001233242 Lontra Species 0.000 description 1
- 241000721701 Lynx Species 0.000 description 1
- 241000289581 Macropus sp. Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 241000699666 Mus <mouse, genus> Species 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 241000283973 Oryctolagus cuniculus Species 0.000 description 1
- 241000282320 Panthera leo Species 0.000 description 1
- 241000282373 Panthera pardus Species 0.000 description 1
- 241000282376 Panthera tigris Species 0.000 description 1
- 201000009928 Patau syndrome Diseases 0.000 description 1
- 241000405070 Percophidae Species 0.000 description 1
- 241000283216 Phocidae Species 0.000 description 1
- 241000283966 Pholidota <mammal> Species 0.000 description 1
- 241000283011 Rangifer Species 0.000 description 1
- 206010057858 Reproductive tract hypoplasia, male Diseases 0.000 description 1
- 241000282806 Rhinoceros Species 0.000 description 1
- 241000283083 Sirenia Species 0.000 description 1
- 238000000692 Student's t-test Methods 0.000 description 1
- 241000282887 Suidae Species 0.000 description 1
- 206010044686 Trisomy 13 Diseases 0.000 description 1
- 208000006284 Trisomy 13 Syndrome Diseases 0.000 description 1
- 208000026928 Turner syndrome Diseases 0.000 description 1
- 241001147416 Ursus maritimus Species 0.000 description 1
- 241000282458 Ursus sp. Species 0.000 description 1
- 241000596212 Vulpes lagopus Species 0.000 description 1
- 210000002593 Y chromosome Anatomy 0.000 description 1
- 231100000071 abnormal chromosome number Toxicity 0.000 description 1
- 238000002669 amniocentesis Methods 0.000 description 1
- 210000002459 blastocyst Anatomy 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000024245 cell differentiation Effects 0.000 description 1
- 230000032823 cell division Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 235000013601 eggs Nutrition 0.000 description 1
- 210000002257 embryonic structure Anatomy 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 210000004420 female germ cell Anatomy 0.000 description 1
- 230000001605 fetal effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000005206 flow analysis Methods 0.000 description 1
- 230000004907 flux Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 208000016361 genetic disease Diseases 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000013412 genome amplification Methods 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 238000009396 hybridization Methods 0.000 description 1
- 238000007901 in situ hybridization Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 210000003794 male germ cell Anatomy 0.000 description 1
- 230000008774 maternal effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000021121 meiosis Effects 0.000 description 1
- 238000007838 multiplex ligation-dependent probe amplification Methods 0.000 description 1
- 238000007481 next generation sequencing Methods 0.000 description 1
- 150000007523 nucleic acids Chemical class 0.000 description 1
- 102000039446 nucleic acids Human genes 0.000 description 1
- 108020004707 nucleic acids Proteins 0.000 description 1
- 210000004940 nucleus Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002611 ovarian Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 238000003753 real-time PCR Methods 0.000 description 1
- 230000033458 reproduction Effects 0.000 description 1
- 230000001850 reproductive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 208000011580 syndromic disease Diseases 0.000 description 1
- 238000012353 t test Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 210000004291 uterus Anatomy 0.000 description 1
- 230000002792 vascular Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Databases & Information Systems (AREA)
- Bioethics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Artificial Intelligence (AREA)
- Analytical Chemistry (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Chemical & Material Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及一种胚胎植入前染色体异常的检测方法和装置,方法包括:获取待测样本和参考样本的全基因组测序数据,根据所述全基因组测序数据确定每个样本中每条染色体上各预设区间的原始reads数和GC含量;根据每个预设区间的GC含量对每个预设区间的原始reads数进行GC含量矫正和测序深度矫正,以获得每个预设区间的标准reads数;根据待测样本和参考样本的每条染色体上各预设区间的标准reads数评估目标染色体的状态。本发明的方法能够保持高通量测序对于缺失、单体的检测能力,同时提高三体、四体的检测能力;能够实现在z‑score检测为整倍体染色体的数据中再进行微缺失的检测,提高胚胎非整倍体以及其他异常染色体检测的准确性。
Description
技术领域
本发明涉及生物信息学技术领域,具体而言,涉及一种胚胎植入前染色体异常的检测方法和装置。
背景技术
胚胎是专指有性生殖而言,是指雄性生殖细胞和雌性生殖细胞结合成为合子之后,经过多次细胞分裂和细胞分化后形成的有发育成生物成体的能力的雏体。胚胎指的就是有性繁殖发展形成过程的最初阶段,从受精卵开始第一次分裂,到下一阶段发展开始前,是发育生物学最早的阶段。
细胞是生命组成的基本单位,也是全套染色体组成的基本单位。目前胚胎植入前遗传学检测都需要在单个(或多个)细胞水平进行。在单细胞水平分析染色体组成,检测染色体是否正常,亦是常见的研究方法。辅助生殖技术中,植入前胚胎检测对患者成功受孕起到关键作用。
在真核生物的细胞核中,若染色体数目发生变异,即增减一条或几条,则染色体数目不是整倍体。如二倍体缺一条染色体是单体(2n-1),二倍体多一条染色体是三体(2n+1)。一般由于在减数分裂时一对同源染色体不分离或提前分离而形成染色体数目异常的配子,这类配子彼此结合或同正常配子结合,产生各种非整倍体细胞。
非整倍染色体与人类一些遗传疾病密切相关。最常见的如唐氏综合征,发病率约1/800,由于多了一条21号染色体所致,以及13三体和18三体综合症,分别因多出一条13号和18号染色体而出现流产等。常染色体异倍性也是引起妊娠失败而流产的一大方面原因。
性染色体数目异常会造成性别发育异常。男性多一条X染色体(47,XXY)的个体为先天性睾丸发育不全症(Klinefelter综合症)。Turner综合症又称先天性卵巢发育不全综合症,由于缺失一条X染色体,核型为45,X。
传统的检测胚胎非整倍体的方法包括荧光原位杂交(FISH)、realtime-PCR、MLPA、生物芯片等。生物芯片分为比较基因组杂交芯片和SNP芯片,已经成为异倍体检测的主要手段,但是它通量低,一次只能检测有限的胚胎,成本高,操作相对复杂。FISH和realtime-PCR作为更快速的分子生物学检测方法,已经应用于大于80%的异倍体检测中,但是它们受到方法本身探针数目的限制,都不能实现同时对所有23对染色体进行全面检测,且通量很低。
随着新一代测序技术快速发展,NGS测序在染色体检测中的应用也愈来愈多。Dennis Lo等人发展了基于Illumina GA高通量测序对母体血浆中游离核酸进行检测的方法。
然而,在实际检测中,GC含量的变化以及测序深度的不同都会对检测结果造成影响,导致检测结果对测试数据的鲁棒性不佳,加上往往只使用一种计算模型,进而易造成检测结果不准确。
如何减少胚胎非整倍体检测的准确性是胚胎染色体检测的难点。
发明内容
为了解决上述问题,减少胚胎非整倍体以及其他异常染色体检测的准确性,本发明的第一目的在于提供一种胚胎植入前染色体异常的检测方法,包括:
获取待测样本和参考样本的全基因组测序数据,根据全基因组测序数据确定每个样本中每条染色体上各预设区间的原始reads数和GC含量;
根据每个预设区间的GC含量对每个预设区间的原始reads数进行GC含量矫正和测序深度矫正,以获得每个预设区间的标准reads数;
根据待测样本和参考样本的每条染色体上各预设区间的标准reads数评估目标染色体的状态。
本发明的一种实现方式中,每个预设区间的长度为50kb~200kb。
本发明的一种实现方式中,根据每个预设区间的GC含量对每个预设区间的原始reads数进行GC含量矫正和测序深度矫正之前包括:根据每个预设区间的原始reads数和GC含量判断预设区间是否满足预设矫正条件,筛选满足预设矫条件的预设区间;预设矫正条件是指预设区间的GC含量不为零且预设区间的原始reads数大于预设阈值。
本发明的一种实现方式中,根据每个预设区间的GC含量对每个预设区间的原始reads数进行GC含量矫正和测序深度矫正,以获得每个预设区间的标准reads数具体包括:
对于满足预设矫正条件的预设区间,根据每个预设区间的GC含量获取对应的reads数预测值,根据每个预设区间的reads数预测值对原始reads数进行GC含量矫正,以获取每个预设区间的GC含量矫正reads数;
根据每个预设区间的长度对每个预设区间的GC含量矫正reads数进行测序深度矫正以获得每个预设区间的标准reads数。
本发明的一种实现方式中,根据每个预设区间的reads数预测值对原始reads数进行GC含量矫正,以获取每个预设区间的GC含量矫正reads数具体包括:
根据每个预设区间的reads数预测值按照公式一对原始reads数进行GC含量矫正,以获取每个预设区间的GC含量矫正reads数;
公式一:
其中,crGC reads表示预设区间的GC含量矫正reads数;reads表示预设区间的原始reads数;predictreads表示预设区间的reads数预测值;∑reads表示预设区间所在染色体上满足预设矫正条件的预设区间的原始reads数之和,lenbin表示预设区间所在的染色体上满足预设矫正条件的预设区间的数目;
本发明的一种实现方式中,根据每个预设区间的长度对每个预设区间的GC含量矫正reads数进行测序深度矫正以获得每个预设区间的标准reads数具体包括:
根据每个预设区间的长度获取每个预设区间对应的测序深度矫正系数;
按照公式二每个预设区间的GC含量矫正reads数进行测序深度矫正以获得每个预设区间的标准reads数;
公式二:
其中,crdeepth表示预设区间的标准reads数,crGC reads表示预设区间的GC含量矫正reads数,∑crGC reads表示目标染色体各预设区间的GC含量矫正reads数之和,r表示预设区间对应的测序深度矫正系数。
本发明的一种实现方式中,根据待测样本和参考样本的每条染色体上各预设区间的标准reads数评估目标染色体的状态具体包括:
根据待测样本和参考样本的每个预设区间的标准reads数按照公式三计算目标染色体上各预设区间reads数比值的log值;
公式三:
其中,crdeepth表示预设区间的标准reads数,∑crdeepth ref mean表示所有参考样本的各染色体的各预设区间的标准reads数的平均值,logR表示目标染色体上各预设区间reads数比值的log值;
根据待测样本常染色体上各预设区间reads数比值的log值评估目标染色体的状态。
本发明的一种实现方式中,根据待测样本常染色体上各预设区间reads数比值的log值评估目标染色体的状态具体包括:
计算待测样本常染色体上各预设区间reads数比值的log值的总体平均值和总体标准偏差;
将目标染色体上各预设区间reads数比值的log值的中位数作为目标染色体reads数比值的log值,按照公式四计算目标染色体的染色体分数;
公式四:
其中,Zscore表示目标染色体的染色体分数,median表示目标染色体reads数比值的log值,totalmean表示待测样本不同常染色体上各预设区间reads数比值的log值的总体平均值,totalstd表示待测样本不同常染色体上各预设区间reads数比值的log值的总体标准差,n表示不同常染色体上各预设区间的数目之和;
根据目标染色体的染色体分数评估目标染色体的状态。
本发明的一种实现方式中,根据目标染色体的染色体分数评估目标染色体的状态具体包括:
根据目标染色体的染色体分数判断目标染色体的状态是否为二倍体;,若目标染色体的状态为二倍体,根据各预设区间reads数比值的log值确定目标染色体的HMM分割结果和/或CBS分割结果;
根据目标染色体的HMM分割结果和/或CBS分割结果评估目标染色体的状态。
本发明的一种实现方式中,目标染色体的状态包括染色体缺失、单体、整倍体、三体和四体中的至少一种。
本发明的第二目的在于提供一种胚胎植入前染色体异常的检测装置,包括:
测序数据获取模块:用于获取待测样本和参考样本的全基因组测序数据,根据全基因组测序数据确定每个样本中每条染色体上各预设区间的原始reads数和GC含量;
reads数矫正模块:用于根据每个预设区间的GC含量对每个预设区间的原始reads数进行GC含量矫正和测序深度矫正,以获得每个预设区间的标准reads数;
染色体状态评估模块:根据待测样本和参考样本的每条染色体上各预设区间的标准reads数评估目标染色体的状态。
本发明还涉及一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,其特征在于,处理器执行计算机程序时实现上述方法的步骤。
本发明还涉及一种计算机可读存储介质,其上存储有计算机程序,其特征在于,计算机程序被处理器执行时实现上述方法的步骤。
本发明还涉及一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现上述方法的步骤。
本发明提供了一种胚胎植入前染色体异常的检测方法,通过对reads数进行GC含量矫正和测序深度矫正,在保持全基因组扩增高通量测序对于缺失、单体的检测能力的同时,提高三体,四体的检测能力;能够实现在Zscore检测为整倍体染色体的数据中再进行微缺失和/或扩增的检测,确保对胚胎染色体的全面评估提高胚胎非整倍体以及其他异常染色体的检测准确性的准确性。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种胚胎植入前染色体异常的检测方法的流程框图;
图2为本发明实施例提供的一种胚胎植入前染色体异常的检测装置的结构框图;
图3为本发明实施例提供的计算机设备的内部结构图;
图4为本发明实施例1筛选染色体状态评估条件的流程示意图;
图5为本发明实施例1使用lowess构建模型的矫正回归图,图中Y轴为GC含量,X轴为;“uncorrected”表示的点为矫正前的数据,LOWESS-row表示的曲线为矫正前数据的lowess回归曲线;“corrected”表示的点是矫正后的数据,LOWESS-cor表示的曲线为矫正后的lowess回归曲线;
图6为本发明实施例1使用HBM模型和CBS模型的染色体窗口分割拼接示意图。
具体实施方式
现将详细地提供本发明实施方式的参考,其一个或多个实例描述于下文。提供每一实例作为解释而非限制本发明。实际上,对本领域技术人员而言,显而易见的是,可以对本发明进行多种修改和变化而不背离本发明的范围或精神。例如,作为一个实施方式的部分而说明或描述的特征可以用于另一实施方式中,来产生更进一步的实施方式。
因此,旨在本发明覆盖落入所附权利要求的范围及其等同范围中的此类修改和变化。本发明的其它对象、特征和方面公开于以下详细描述中或从中是显而易见的。本领域普通技术人员应理解本讨论仅是示例性实施方式的描述,而非意在限制本发明更广阔的方面。
如上文,在实际检测中,GC含量的变化以及测序深度的不同都会对检测结果造成影响,加上常规检测过程中往往只使用一种计算模型计算染色体状态,进而易造成胚胎非整倍体以及其他异常染色体的检测准确性不高。
为了至少部分解决上述技术问题,本发明的第一方面提供了一种胚胎植入前染色体异常的检测方法,如图1所示,包括:
S10:获取待测样本和参考样本的全基因组测序数据,根据全基因组测序数据确定每个样本中每条染色体上各预设区间的原始reads数和GC含量;
具体地,待测样本可以是指辅助生殖技术中植入子宫前的胚胎样本,也可以是妊娠期通过有创性方法,例如,绒毛取材术、羊膜腔穿刺术和经皮脐血管穿刺,获取的胎儿细胞样本。
参考样本是指和待测样本来源相同,且染色体倍数正常即为二倍体的胚胎样本,也可以称为整倍体胚胎样本。
待测样本和参考样本均来源于哺乳动物。
如本文所用,术语“哺乳动物”包括人、虎、狼、鼠、鹿、貂、猴、貘、树懒、斑马、狗、狐、熊、象、豹子、麝、牛、狮子、熊猫、疣、猪、羚羊、驯鹿、考拉、犀牛、猞猁、穿山甲、长颈鹿、熊猫、食蚁兽、猩猩、海牛、水獭、灵猫、海豚、海象、鸭嘴兽、刺猬、北极狐、北极熊、袋鼠、犰狳、河马、海豹、鲸、鼬、兔中的任意一种二倍体动物。
预设区间是指按照一定长度将染色体划分形成的窗口区间,每个窗口区间的长度相同或者不同,一些优选的实施方案中,每个窗口区间的长度相同。
一些具体实施方案中,每个预设区间的长度为50kb~200kb。
测序数据是指二代测序数据,也称作高通量测序数据。
进一步,根据测序数据mapping到参考基因组上的比对文件可以统计每个窗口区间的窗口起始位点、未经矫正的reads数即原始reads数、每个碱基的数量、窗口区间大小,进而可以确定每个窗口区间的GC含量和测序深度等等。
S20:根据每个预设区间的GC含量对每个预设区间的原始reads数进行GC含量矫正和测序深度矫正,以获得每个预设区间的标准reads数;
一些实施方案中,为了获得更准确的检测结果,根据每个预设区间的GC含量对每个预设区间的原始reads数进行GC含量矫正和测序深度矫正,以获得每个预设区间的标准reads数之前还包括预设区间筛选步骤:
S100:根据每个预设区间的原始reads数和GC含量判断预设区间是否满足预设矫正条件,筛选满足预设矫正条件的预设区间用于获得满足预设矫正条件的预设区间的标准reads数;预设矫正条件是指预设区间的GC含量不为零且预设区间的原始reads数大于预设阈值。
具体地,预设矫正条件是指,GC含量为0且原始reads数小于5。一些具体实施方案中,获得的每个预设区间GC数值后,删除GC含量为0的窗口,将GC数值精确至0.1%用于后续步骤的计算,筛选reads数>5的窗口,也即选取GC含量不为0且reads数>5的窗口进行reads数矫正的步骤。
一些具体实施方案中,根据每个预设区间的GC含量对每个预设区间的原始reads数进行GC含量矫正和测序深度矫正,以获得每个预设区间的标准reads数具体包括:
S201:对于满足预设矫正条件的预设区间,根据每个预设区间的GC含量获取对应的reads数预测值,根据每个预设区间的reads数预测值对原始reads数进行GC含量矫正,以获取每个预设区间的GC含量矫正reads数;
可以理解的是,reads数预测值根据lowess建立GC含量与reads数的回归模型的回归系数预测生成的reads数,GC含量矫正reads数是指根据预设区间的reads数预测值对原始reads数进行GC含量矫正后得到的reads数。
一些具体实施方案中,根据每个预设区间的reads数预测值对原始reads数进行GC含量矫正具体包括:
根据每个预设区间的reads数预测值按照公式一对原始reads数进行GC含量矫正,以获取每个预设区间的GC含量矫正reads数;
公式一:
其中,crGC reads表示预设区间的GC含量矫正reads数;reads表示预设区间的原始reads数;predictreads表示预设区间的reads数预测值;∑reads表示预设区间所在染色体上满足预设矫正条件的预设区间的原始reads数之和,lenbin表示预设区间所在的染色体上满足预设矫正条件的预设区间的数目。
S202:根据每个预设区间的长度对每个预设区间的GC含量矫正reads数进行测序深度矫正以获得每个预设区间的标准reads数;
需要说明的是,样本在上机测序的过程中,不能保证每次产生的数据量是一至的,进而导致在PGT-A中检测的目标数据的reads数产生变化;造成参考基因组数据,以及检测样本的数据不具有一致性,无法进行比较;为了使得不同测序深度的数据具有可比较性,可以采用类TPM值计算方法,根据预设区间的长度对不同测序深度的预设区间的GC含量矫正reads数矫正。
一些具体实施方案中,根据每个预设区间的长度对每个预设区间的GC含量矫正reads数进行测序深度矫正以获得每个预设区间的标准reads数具体包括:
根据每个预设区间的长度获取每个预设区间的测序深度矫正系数;
具体地,预设区间的长度和测序深度矫正系数是预先确定且一一对应的,例如,当窗口选择50k时,即预设区间的长度为50k时,r=4*10e5;当窗口选择100k时,即预设区间的长度为100k时,r=2*10e5;当窗口选择200k时,即预设区间的长度为200k时,r=1*10e5;
按照公式二对每个预设区间的GC含量矫正reads数进行测序深度矫正以获得每个预设区间的标准reads数;
公式二:
其中,crdeepth表示预设区间的标准reads数,crGC reads表示预设区间的GC含量矫正reads数,∑crGC reads表示目标染色体各预设区间的GC含量矫正reads数之和,r表示预设区间对应的测序深度矫正系数。
S30:根据待测样本和参考样本的每条染色体上各预设区间的标准reads数评估目标染色体的状态。
具体地,目标染色体的状态包括染色体缺失、单体、整倍体、三体和四体中的至少一种,根据所有样本的各染色体的各预设区间的标准reads数可以评估每条染色体的染色体状态。
一些实施方案中,根据待测样本和参考样本的每条染色体上各预设区间的标准reads数评估目标染色体的状态具体包括:
S301:按照公式三根据待测样本和参考样本的每个预设区间的标准reads数计算目标染色体上各预设区间reads数比值的log值;
公式三:
其中,crdeepth表示预设区间的标准reads数,∑crdeepth ref mean表示各参考样本的各染色体的各预设区间的标准reads数的平均值,logR表示目标染色体上各预设区间reads数比值的log值。
S302:用于根据待测样本常染色体上各预设区间reads数比值的log值评估目标染色体的状态;
如本文,术语“常染色体”指染色体组中除性染色体以外的染色体。人类的23对染色体中,有22对是常染色体,余下的一对是X染色体与X染色体或X染色体与Y染色体组成的性染色体。
本发明计算过程中使用待测样本常染色体的测序数据作为计算染色体状态的总体样本,而非采用参考样本(整倍体)的测序数据。由于参考样本已经作为log值计算中的一个矫正手段使用,而使用待测样本自身作为对照,可以进一步减少样本间的差异对染色体状态检测的影响,保证在同一建库扩增条件下确定染色体的状态。
一些具体实施方案中,根据待测样本常染色体上各预设区间的标准reads数评估目标染色体的状态具体包括:
S3021:计算待测样本常染色体上各预设区间reads数比值的log值的总体平均值和总体标准偏差;
具体地,待测样本不同常染色体上各预设区间reads数比值的log值的总体平均值采用公式计算,log表示预设区间的预设区间的log值,待测样本不同常染色体上各预设区间reads数比值的log值的总体标准差采用公式/>计算。
S3022:将目标染色体上各预设区间reads数比值的log值的中位数作为目标染色体reads数比值的log值,按照公式四计算目标染色体的染色体分数;
公式四:
其中,Zscore表示目标染色体的染色体分数,median表示目标染色体reads数比值的log值,totalmean表示待测样本不同常染色体上各预设区间reads数比值的log值的总体平均值,totalstd表示待测样本不同常染色体上各预设区间reads数比值的log值的总体标准差,n表示不同常染色体上各预设区间的数目之和;
需要说明的是,在非整倍体检测中,各预设区间reads数比值的log值大部分可以集中分布,但还有一些数据点会分散分布,进而造成最终在计算目标染色体reads数比值的log值时的波动性,因此,在一些优选实施方案中,本发明将目标染色体上各预设区间reads数比值的log值的中位数作为目标染色体reads数比值的log值,以减少log值的波动对检测结果得影响。
S3022:根据目标染色体的染色体分数评估目标染色体的状态。
具体地,预先确定不同染色体状态对应的判断阈值范围,计算目标染色体的染色体分数后,可确定相应的染色体状态。
一些实施方案中,根据目标染色体的染色体分数评估目标染色体的状态具体包括:
S303:根据目标染色体的染色体分数判断目标染色体的状态是否为整倍体;
S304:若目标染色体的状态为整倍体,根据各预设区间reads数比值的log值确定目标染色体的HMM分割结果和/或CBS分割结果,根据目标染色体的HMM分割结果和/或CBS分割结果评估目标染色体的状态。
具体地,根据目标染色体的染色体分数评估的染色体状态是指目标染色体整条染色体的状态,一般用于判断目标染色体是否为整倍体,根据目标染色体的HMM分割结果和/或CBS分割结果评估目标染色体的状态是指整倍体染色体的局部状态,也即是指染色体局部是否缺失、正常或者局部是否出现单体、三体、四体的状态。
本发明的检测方法基于概率统计模型和基于机器学习方法两大类,基于概率统计的检测方法的假设前提是:各预设区间reads数比值的log值与染色体状态具有相应的映射关系,即测序过程获得的reads数是服从泊松分布,如果出现滑动窗口log值增加或者减少也就代表着出现不同的染色体状态;机器学习的方法主要包括利用隐马尔可夫(HMM)、圆形二元分割法(CBS)等模型对log值进行处理,以评估染色体的状态。
在对染色体进行检测时,由于在测序及分析过程中累积的误差使得log值与染色体状态之间对应关系并不准确,因此数据预处理过程中需要对此类误差进行一定的矫正。误差主要来自于GC含量偏差、测序深度的偏差、实验建库及测序过程中引入的背景噪声以及样本本身带来的误差(例如肿瘤样本中由于肿瘤的异质性以及肿瘤样本中混合有正常细胞等都会扰乱reads数的统计)。
本发明针对上述偏差干扰,对于单样本检测采用GC含量矫正消除GC含量偏差带来的干扰;对于不同批次的实验导致的测序深度的偏差,采用对样本进行测序深度矫正而消除;对于实验过程中引入的误差和噪声,利用正常参考样本进行消除,其中,正常参考样本是指染色体正常的整倍体样本,同时采用log值中位数作为目标染色体reads数比值的log值计算染色体分数,从而提高了染色体整体变异检测的准确度。
可以理解的是,本发明首先通过计算染色体分数,提高整条染色体是否异常的准确性,进一步,本发明的HMM模型被设置为具有高灵敏度根据染色体log值进行分割;而CBS模型被设置为具有较低的灵敏度,进而保持对数据的鲁棒性,染色体分数结合HMM或者CBS分割和拼接结果判断染色体局部的微缺失和/或微扩增位置,联合评估断微缺失和/或扩增的情况,提高了检测染色体异常检测的准确度。
本申请的第二方面提供了一种胚胎植入前染色体异常的检测装置,包括:
测序数据获取模块:用于获取待测样本和参考样本的全基因组测序数据,根据全基因组测序数据确定每个样本中每条染色体上各预设区间的原始reads数和GC含量;
reads数矫正模块:用于根据每个预设区间的GC含量对每个预设区间的原始reads数进行GC含量矫正和测序深度矫正,以获得每个预设区间的标准reads数;
染色体状态评估模块:用于根据待测样本和参考样本的每条染色体上各预设区间的标准reads数评估目标染色体的状态。
具体地,每个预设区间的长度为50kb~200kb。
一些实施方案中,reads数矫正模块具体包括:
预设区间筛选模块:用于根据每个预设区间的原始reads数和GC含量判断预设区间是否满足预设矫正条件,筛选满足预设矫正条件的预设区间;预设矫正条件是指预设区间的GC含量不为零且预设区间的原始reads数大于预设阈值。
一些实施方案中,reads数矫正单元具体包括:
GC含量矫正子单元:用于对满足预设矫正条件的预设区间,根据每个预设区间的GC含量获取对应的reads数预测值,根据每个预设区间的reads数预测值对原始reads数进行GC含量矫正,以获取每个预设区间的GC含量矫正reads数;
测序深度矫正子单元:用于根据每个预设区间的长度对每个预设区间的GC含量矫正reads数进行测序深度矫正以获得每个预设区间的标准reads数。
一些实施方案中,GC含量矫正子单元具体用于根据每个预设区间的reads数预测值按照公式一对原始reads数进行GC含量矫正,以获取每个预设区间的GC含量矫正reads数;
公式一:
其中,crGC reads表示预设区间的GC含量矫正reads数;reads表示预设区间的原始reads数;predictreads表示预设区间的reads数预测值;∑reads表示预设区间所在染色体上满足预设矫正条件的预设区间的原始reads数之和,lenbin表示预设区间所在的染色体上满足预设矫正条件的预设区间的数目。
一些具体实施方案中,测序深度矫正子单元具体用于:根据每个预设区间的长度获取每个预设区间的测序深度矫正系数;
按照公式二对每个预设区间的GC含量矫正reads数进行测序深度矫正以获得每个预设区间的标准reads数;
公式二:
其中,crdeepth表示预设区间的标准reads数,crGC reads表示预设区间的GC含量矫正reads数,∑crGC reads表示目标染色体各预设区间的GC含量矫正reads数之和,r表示预设区间的长度对应的测序深度矫正系数。
一些实施方案中,根据待测样本和参考样本的每条染色体上各预设区间的标准reads数评估目标染色体的状态具体包括:
log值计算单元:用于根据待测样本和参考样本的每个预设区间的标准reads数按照公式三计算目标染色体上各预设区间reads数比值的log值;
公式三:
其中,crdeepth表示预设区间的标准reads数,∑crdeepth ref mean表示各参考样本的各染色体的各预设区间的标准reads数的平均值,logR表示目标染色体上各预设区间reads数比值的log值;
第一染色体状态评估单元:用于根据待测样本常染色体上各预设区间reads数比值的log值评估目标染色体的状态。
一些实施方案中,第一染色体状态评估单元具体包括:
平均值和标准差计算子单元:用于计算待测样本常染色体上各预设区间reads数比值的log值的总体平均值和总体标准偏差;
染色体分数计算子单元:用于将目标染色体上各预设区间reads数比值的log值的中位数作为目标染色体reads数比值的log值,按照公式四计算目标染色体的染色体分数;
公式四:
其中,Zscore表示目标染色体的染色体分数,totalmean表示待测样本常染色体上各预设区间reads数比值的log值的总体平均值,totalstd表示待测样本常染色体上各预设区间reads数比值的log值的总体标准差,n表示常染色体上各预设区间的数目之和;
染色体状态评估子单元:用于根据目标染色体的染色体分数评估目标染色体的状态。
一些实施方案中,染色体状态评估子单元具体用于:根据目标染色体的染色体分数判断目标染色体的状态是否为整倍体;
若目标染色体的状态为整倍体,根据各预设区间reads数比值的log值确定目标染色体的HMM分割结果和/或CBS分割结果,根据目标染色体的HMM分割结果和/或CBS分割结果评估目标染色体的状态。
关于胚胎植入前染色体异常的检测装置的具体限定可以参见上文中对于胚胎植入前染色体异常的检测方法的限定,在此不再赘述。上述胚胎植入前染色体异常的检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一些实施方案中,提供了一种计算机设备,该计算机设备可以是服务器104,也可以是终端102,其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器和通信接口。当该计算机设备为终端时,还包括与系统总线连接的显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种胚胎植入前染色体异常的检测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本申请还提供了一种计算机设备。计算机设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述胚胎植入前染色体异常的检测方法的步骤。
本申请还提供了一种计算机可读存储介质。计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述胚胎植入前染色体异常的检测方法的步骤。
本申请还提供了一种计算机程序产品。计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述胚胎植入前染色体异常的检测方法的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(DynamicRandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
下面将结合实施例对本发明的实施方案进行详细描述。
实施例1
按照图4所示的流程图,采用本发明的检测方法筛选染色体状态评估条件。在获得测序下机数据后,对数据进行质控和比对,比对完成后,使用shell命令筛选sam文件中具有唯一mapping结果的reads,之后将sam文件转为bam文件,排序并建立索引。
按照选择的窗口(bin)大小使用自编脚本统计每个窗口的平均GC含量,以及每个窗口的平均reads数。获得的每个窗口GC数值后,删除GC含量为0的窗口的数据,将GC数值精确至0.1%;筛选reads数>5的窗口,进行下一步的分析。
如图5所示,使用lowess模型建立GC含量与reads数的回归模型,并根据GC含量获取相应的预测reads数即predict_reads,使用公式 计算得到crGC reads。通过该步骤的计算后,GC含量导致的reads数偏畸的情况,获得了很好的矫正。
根据bin的大小使用不同的系数(例如当bin为200k时),使用公式 将每个样本的总体crGC reads数放大或缩小到100000,获得待测样本每个预设区间矫正后的crdeepth。
该方法参考于转录组测序中的TPM计算方式,使得不同测序深度的数据具有可比较性。同理使用与上述相同的方法处理参考(整倍体)样本,获得参考样本每条染色体各预设区间的标准reads数crdeepth ref,统计所有参考样本各预设区间的crdeepth ref获得平均值crdeepth ref mean。根据参考样本的crdeepth ref mean,使用公式计算分析样本目标染色体上各预设区间reads数比值的log值,作为后续分析的输入数据。
如图5所示,使用HMM模型对每个染色体的bin进行连接与分割,HMM模型如下参数进行分析:1)首先计算样本方差,根据方差模拟标准正太分布中数值为{-2.0,-0.5,0,0.3,1.0}时的分布概率,作为HMM模型的发射向量矩阵。使用{0.03,0.15,0.64,0.15,0.03}作为HMM模型的初始分布概率。使用{[1-1/35–1/9000,1–35,1/9000,0,0],[1/8500,1-1/35-1/8500,1/35,0,0],[0,1/8500,1-2/8500,1/8500,0],[0,0,1/35,1-1/35-1/8500,1/8500],[0,0,1/90000,1/35,1-1/35-1/90000]}作为状态转移矩阵。上述数据分别代表了非整倍体的五种状态{缺失,单体,正常,三体,四体}。同时也使用CBS模型对每个染色体的bin进行连接与分割。
使用公式公式计算目标染色体的染色体分数。其中,Zscore表示目标染色体的染色体分数,median为目标染色体reads数比值的log值,totalmean为该样本自身常染色体的总体平均值,totalstd为本自身常染色体的总体标准差,n为该染色体bin的数目,Zscore表示目标染色体的染色体分数。
根据Zscore对染色体的倍数进行判断,在被判断为二倍体的染色体中再对微缺失或微重复进行判断,使用HMM与CBS两种分割算法对染色体微缺失或微重复进行判断。
本实施例筛选的条件见表1:
表1
表1中上述过滤条件通过已确诊的13例染色体缺失、37例单体样本、58例整倍体样本、47例三体、17例四体样本通过本发明的的染色体检测方法进行分析得到,同时作为划定整倍体的Zscore阈值范围依据,具体地,根据表1中不同染色体状态的Zscore分值可以确定整倍体Zscore阈值范围为(-15,15)。
实施例2
使用SRR2999343数据进行分析(实施例中列出的数据均可利用SRR号在NCBI中的SRA数据库中获得),已知该样品chr22为单体。通过实施例1的流程分析后计算的不同染色体的Zscore结果见表2,chr22染色体Zscore小于-15,被判断为染色体缺失。
表2.SRR2999343数据Zscore结果
chr | Zscore | chr | Zscore |
chr1 | -5.85688 | chr12 | 1.875781 |
chr2 | 14.43915 | chr13 | -6.01281 |
chr3 | -2.0046 | chr14 | 1.015976 |
chr4 | 1.30624 | chr15 | -4.43473 |
chr5 | -3.80881 | chr16 | -2.22779 |
chr6 | -0.08033 | chr17 | 4.042558 |
chr7 | 2.662373 | chr18 | -0.55631 |
chr8 | 3.801903 | chr19 | 3.520778 |
chr9 | -4.62666 | chr20 | -6.37672 |
chr10 | 0.890145 | chr21 | -5.14804 |
chr11 | -10.2852 | chr22 | -27.2259 |
实施例2
使用SRR6061293数据进行分析,已知该样品chr5:8597077-23991841片段为单体。通过实施例1的流程分析后得到CBS模型分割结果见表3,HMM模型分割结果见表4。结合两种模型结果,胚胎非整倍体以及其他异常染色体检测的准确性。
表3.SRR2999343数据CBS模型分割结果
chr | start | end | log2 | p_value |
chr5 | 8400000 | 16800000 | -1.03086 | 4.15E-23 |
chr5 | 16800000 | 23800000 | -0.72648 | 5.17E-16 |
表4SRR2999343数据HMM模型分割结果
chr | start | end | log2 | p_value |
chr5 | 8600000 | 23400000 | -0.92337 | 1.30E-37 |
实施例3
使用SRR3016666数据进行分析,结果见表4,Zmean表示使用目标染色体上各预设区间的log平均值作为目标染色体reads数比值的log值计算的Zscore,Zmedian表示使用目标染色体上各预设区间reads数比值的log值的中位数计算的Zscore。计算平均值与中位数两种方法在t检验后p=0.756715109,没有显示出差异。但使用中位数进行计算,具有更好的抗波动性能。
表4.平均值与中位数在计算Zscore后的结果对比
chr | Zmean | Zmedian | chr | Zmean | Zmedian |
chr1 | 1.404583 | 3.24127121 | chr12 | 2.103671 | 2.778817 |
chr2 | 2.628826 | 2.08265057 | chr13 | 0.113748 | 1.225264 |
chr3 | 1.900619 | 3.0550181 | chr14 | 1.621408 | 2.009593 |
chr4 | -34.8599 | -26.99265 | chr15 | 2.511066 | 2.936359 |
chr5 | 3.007025 | 3.44970998 | chr16 | 3.134253 | 3.125059 |
chr6 | 5.693193 | 4.11221684 | chr17 | 3.1664 | 3.945438 |
chr7 | 2.046426 | 2.41902291 | chr18 | -0.03355 | 1.627682 |
chr8 | 1.600459 | 1.41111792 | chr19 | 0.422743 | 1.808334 |
chr9 | 3.356726 | 1.84954091 | chr20 | 2.337508 | 2.609263 |
chr10 | -0.17624 | 2.19876075 | chr21 | 3.606721 | 2.264329 |
chr11 | 1.751775 | 1.57055777 | chr22 | 0.635891 | 0.156799 |
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (14)
1.一种胚胎植入前染色体异常的检测方法,其特征在于,包括:
获取待测样本和参考样本的全基因组测序数据,根据所述全基因组测序数据确定每个样本中每条染色体上各预设区间的原始reads数和GC含量;
根据每个预设区间的GC含量对每个预设区间的原始reads数进行GC含量矫正和测序深度矫正,以获得每个预设区间的标准reads数;
根据待测样本和参考样本的每条染色体上各预设区间的标准reads数评估目标染色体的状态。
2.根据权利要求1所述的方法,其特征在于,每个预设区间的长度为50kb~200kb。
3.根据权利要求1或2所述的方法,其特征在于,所述根据每个预设区间的GC含量对每个预设区间的原始reads数进行GC含量矫正和测序深度矫正之前包括:
根据每个预设区间的原始reads数和GC含量判断预设区间是否满足预设矫正条件,筛选满足预设矫正条件的预设区间;
所述预设矫正条件是指预设区间的GC含量不为零且预设区间的原始reads数大于预设阈值。
4.根据权利要求3所述的方法,其特征在于,所述根据每个预设区间的GC含量对每个预设区间的原始reads数进行GC含量矫正和测序深度矫正,以获得每个预设区间的标准reads数具体包括:
对于满足预设矫正条件的预设区间,根据每个预设区间的GC含量获取对应的reads数预测值,根据每个预设区间的reads数预测值对原始reads数进行GC含量矫正,以获取每个预设区间的GC含量矫正reads数;
根据每个预设区间的长度对每个预设区间的GC含量矫正reads数进行测序深度矫正,以获得每个预设区间的标准reads数。
5.根据权利要求4所述的方法,其特征在于,所述根据每个预设区间的reads数预测值对原始reads数进行GC含量矫正,以获取每个预设区间的GC含量矫正reads数具体包括:
根据每个预设区间的reads数预测值按照公式一对原始reads数进行GC含量矫正,以获取每个预设区间的GC含量矫正reads数;
公式一:
其中,crGC reads表示预设区间的GC含量矫正reads数;reads表示预设区间的原始reads数;predictreads表示预设区间的reads数预测值;∑reads表示预设区间所在染色体上满足预设矫正条件的预设区间的原始reads数之和,lenbin表示预设区间所在的染色体上满足预设矫正条件的预设区间的数目。
6.根据权利要求5所述的方法,其特征在于,所述根据每个预设区间的长度对每个预设区间的GC含量矫正reads数进行测序深度矫正以获得每个预设区间的标准reads数具体包括:
根据每个预设区间的长度获取每个预设区间对应的测序深度矫正系数;
按照公式二对每个预设区间的GC含量矫正reads数进行测序深度矫正以获得每个预设区间的标准reads数;
公式二:
其中,crdeepth表示预设区间的标准reads数,crGC reads表示预设区间的GC含量矫正reads数,∑crGC reads表示目标染色体各预设区间的GC含量矫正reads数之和,r表示预设区间对应的测序深度矫正系数。
7.根据权利要求6所述的方法,其特征在于,根据待测样本和参考样本的每条染色体上各预设区间的标准reads数评估目标染色体的状态具体包括:
根据待测样本和参考样本的每个预设区间的标准reads数按照公式三计算目标染色体上各预设区间reads数比值的log值;
公式三:
其中,crdeepth表示预设区间的标准reads数,∑crdeepth ref mean表示所有参考样本的各染色体的各预设区间的标准reads数的平均值,logR表示目标染色体上各预设区间reads数比值的log值;
根据待测样本常染色体上各预设区间reads数比值的log值评估目标染色体的状态。
8.根据权利要求7所述的方法,其特征在于,根据待测样本常染色体上各预设区间reads数比值的log值评估目标染色体的状态具体包括:
计算待测样本常染色体上各预设区间reads数比值的log值的总体平均值和总体标准偏差;
将目标染色体上各预设区间reads数比值的log值的中位数作为目标染色体reads数比值的log值,按照公式四计算目标染色体的染色体分数;
公式四:
其中,Zscore表示目标染色体的染色体分数,median表示目标染色体reads数比值的log值,totalmean表示待测样本不同常染色体上各预设区间reads数比值的log值的总体平均值,totalstd表示待测样本不同常染色体上各预设区间reads数比值的log值的总体标准差,n表示不同常染色体上各预设区间的数目之和;
根据目标染色体的染色体分数评估目标染色体的状态。
9.根据权利要求8所述的方法,其特征在于,所述根据目标染色体的染色体分数评估目标染色体的状态具体还包括:
根据各预设区间reads数比值的log值确定目标染色体的HMM分割结果和/或CBS分割结果,根据目标染色体的HMM分割结果和/或CBS分割结果评估目标染色体的状态。
10.根据权利要求1~9任一项所述的方法,其特征在于,所述目标染色体的状态包括染色体缺失、单体、整倍体、三体和四体中的至少一种。
11.一种胚胎植入前染色体异常的检测装置,其特征在于,包括:
测序数据获取模块:用于获取待测样本和参考样本的全基因组测序数据,根据所述全基因组测序数据确定每个样本中每条染色体上各预设区间的原始reads数和GC含量;
reads数矫正模块:用于根据每个预设区间的GC含量对每个预设区间的原始reads数进行GC含量矫正和测序深度矫正,以获得每个预设区间的标准reads数;
染色体状态评估模块:根据待测样本和参考样本的每条染色体上各预设区间的标准reads数评估目标染色体的状态。
12.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1~10中任一项所述的方法的步骤。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1~10中任一项所述的方法的步骤。
14.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1~10中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210800743.1A CN117409858A (zh) | 2022-07-08 | 2022-07-08 | 胚胎植入前染色体异常的检测方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210800743.1A CN117409858A (zh) | 2022-07-08 | 2022-07-08 | 胚胎植入前染色体异常的检测方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117409858A true CN117409858A (zh) | 2024-01-16 |
Family
ID=89496703
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210800743.1A Pending CN117409858A (zh) | 2022-07-08 | 2022-07-08 | 胚胎植入前染色体异常的检测方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117409858A (zh) |
-
2022
- 2022-07-08 CN CN202210800743.1A patent/CN117409858A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | A multi-tissue atlas of regulatory variants in cattle | |
Hayashi et al. | A Bayesian method and its variational approximation for prediction of genomic breeding values in multiple traits | |
US20140067355A1 (en) | Using Haplotypes to Infer Ancestral Origins for Recently Admixed Individuals | |
Zou et al. | An efficient resampling method for assessing genome-wide statistical significance in mapping quantitative trait loci | |
Liu et al. | A comprehensive catalogue of regulatory variants in the cattle transcriptome | |
WO2019213811A1 (zh) | 检测染色体非整倍性的方法、装置及系统 | |
Kozak et al. | Genome-wide admixture is common across the Heliconius radiation | |
CN109887546A (zh) | 一种基于二代测序技术的单基因或多基因拷贝数检测系统及方法 | |
CN106795551B (zh) | 单细胞染色体的cnv分析方法和检测装置 | |
WO2020063052A1 (zh) | 胎儿游离dna浓度获取方法、获取装置、存储介质及电子装置 | |
Lv et al. | Development of a high-throughput SNP array for sea cucumber (Apostichopus japonicus) and its application in genomic selection with MCP regularized deep neural networks | |
CN117409858A (zh) | 胚胎植入前染色体异常的检测方法和装置 | |
WO2019213810A1 (zh) | 检测染色体非整倍性的方法、装置及系统 | |
CN113628682A (zh) | 一种t790m和c797s顺反式突变类型识别及计算方法 | |
CA3143705A1 (en) | Systems and methods for using density of single nucleotide variations for the verification of copy number variations in human embryos | |
Hernandez-Lopez et al. | Lossy compression of quality scores in differential gene expression: A first assessment and impact analysis | |
Alvarez-Castro et al. | Fully Bayesian analysis of allele-specific RNA-seq data | |
CN113345515B (zh) | 新发平衡易位家系中胚胎遗传性检测方法及装置 | |
CN109817340B (zh) | 疾病风险分布信息确定方法、装置、存储介质及设备 | |
US20220230084A1 (en) | Method and System for a Reduced Computation Hidden Markov Model in Computational Biology Applications | |
Alayoubi et al. | Scanpro: robust proportion analysis for single cell resolution data | |
KR102031841B1 (ko) | 모체 시료 중 태아 분획을 결정하는 방법 | |
CN117153258A (zh) | 校正测序数据、检测染色体非整倍体的方法和装置 | |
Eriksson et al. | Gene-history correlation and population structure | |
CN114708905A (zh) | 基于ngs的染色体非整倍体检测方法、装置、介质和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |