CN117095745A - 用于检测孕妇血浆游离dna中胎儿非整倍体和拷贝数变异的方法和装置及应用 - Google Patents
用于检测孕妇血浆游离dna中胎儿非整倍体和拷贝数变异的方法和装置及应用 Download PDFInfo
- Publication number
- CN117095745A CN117095745A CN202311069138.2A CN202311069138A CN117095745A CN 117095745 A CN117095745 A CN 117095745A CN 202311069138 A CN202311069138 A CN 202311069138A CN 117095745 A CN117095745 A CN 117095745A
- Authority
- CN
- China
- Prior art keywords
- sequencing
- copy number
- genome
- number variation
- aneuploidy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 79
- 230000001605 fetal effect Effects 0.000 title claims abstract description 76
- 208000036878 aneuploidy Diseases 0.000 title claims abstract description 62
- 231100001075 aneuploidy Toxicity 0.000 title claims abstract description 60
- 230000008774 maternal effect Effects 0.000 title claims description 30
- 238000012163 sequencing technique Methods 0.000 claims abstract description 104
- 239000013598 vector Substances 0.000 claims abstract description 43
- 238000010801 machine learning Methods 0.000 claims abstract description 21
- 238000012070 whole genome sequencing analysis Methods 0.000 claims abstract description 10
- 238000001514 detection method Methods 0.000 claims description 101
- 238000012549 training Methods 0.000 claims description 20
- 239000011159 matrix material Substances 0.000 claims description 16
- 108090000623 proteins and genes Proteins 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 7
- 238000007477 logistic regression Methods 0.000 claims description 7
- 238000007637 random forest analysis Methods 0.000 claims description 6
- 238000012164 methylation sequencing Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000003066 decision tree Methods 0.000 claims description 4
- 238000012417 linear regression Methods 0.000 claims description 4
- 210000003754 fetus Anatomy 0.000 abstract description 13
- 239000000523 sample Substances 0.000 description 43
- 108020004414 DNA Proteins 0.000 description 32
- 210000000349 chromosome Anatomy 0.000 description 20
- 208000037280 Trisomy Diseases 0.000 description 11
- 238000004458 analytical method Methods 0.000 description 8
- 210000002826 placenta Anatomy 0.000 description 8
- 230000005856 abnormality Effects 0.000 description 7
- 239000012634 fragment Substances 0.000 description 7
- 210000005259 peripheral blood Anatomy 0.000 description 7
- 239000011886 peripheral blood Substances 0.000 description 7
- 208000011580 syndromic disease Diseases 0.000 description 7
- 201000009928 Patau syndrome Diseases 0.000 description 6
- 206010044686 Trisomy 13 Diseases 0.000 description 6
- 208000006284 Trisomy 13 Syndrome Diseases 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 230000002759 chromosomal effect Effects 0.000 description 5
- 230000000052 comparative effect Effects 0.000 description 5
- 238000010276 construction Methods 0.000 description 5
- IOSROLCFSUFOFE-UHFFFAOYSA-L 2-nitro-1h-imidazole;platinum(2+);dichloride Chemical compound [Cl-].[Cl-].[Pt+2].[O-][N+](=O)C1=NC=CN1.[O-][N+](=O)C1=NC=CN1 IOSROLCFSUFOFE-UHFFFAOYSA-L 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 210000004381 amniotic fluid Anatomy 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 210000001082 somatic cell Anatomy 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000012800 visualization Methods 0.000 description 3
- 201000010374 Down Syndrome Diseases 0.000 description 2
- 201000006360 Edwards syndrome Diseases 0.000 description 2
- 208000007159 Trisomy 18 Syndrome Diseases 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000003322 aneuploid effect Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 210000004027 cell Anatomy 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 206010053884 trisomy 18 Diseases 0.000 description 2
- 206010068051 Chimerism Diseases 0.000 description 1
- 108010034791 Heterochromatin Proteins 0.000 description 1
- 208000020584 Polyploidy Diseases 0.000 description 1
- 108091081062 Repeated sequence (DNA) Proteins 0.000 description 1
- 206010044688 Trisomy 21 Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000032823 cell division Effects 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000001973 epigenetic effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 210000004458 heterochromatin Anatomy 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 238000011065 in-situ storage Methods 0.000 description 1
- 230000036244 malformation Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000021121 meiosis Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 201000003738 orofaciodigital syndrome VIII Diseases 0.000 description 1
- 230000003169 placental effect Effects 0.000 description 1
- 208000020016 psychiatric disease Diseases 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/10—Ploidy or copy number detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/50—Mutagenesis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/30—Unsupervised data analysis
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明涉及一种用于检测孕妇血浆游离DNA中胎儿非整倍体和拷贝数变异的方法和装置及应用。方法包括:基于常规非靶向全基因组测序方式,得到测序数据,以期对测序模版进行分组并产生可分析的子文库;提取测序数据中不同基因组区间的测序深度信息;根据从测序数据中提取的特征向量/矩阵进行分组,并统计和提取来自不同的分组的基因组区间的深度信息;通过机器学习构建分类器,进一步精确区分胎儿携带的变异和母体携带的变异。采用本发明的方法和装置能够精确区分胎儿携带的变异和母体携带的变异,而且本发明的方法和装置兼容性强、适用性广、成本低,只需要超低的测序深度即可实现对胎儿游离DNA基因组的非整倍体和拷贝数变异的精确区分和检测。
Description
技术领域
本发明属于基因检测技术领域,具体地,涉及一种用于检测孕妇血浆游离DNA中胎儿非整倍体和拷贝数变异的方法和装置及应用。
背景技术
胎儿染色体非整倍体(fetal chromosome aneuploidies)中的21三体、18三体、13三体(trisomies 21、18、13,即T21、T18、T13)是临床上最常见的染色体非整倍体疾病。其对应的分别为21-三体综合征(又称唐氏综合征,先天愚型或Down综合征)、18-三体综合征(又称Edwards综合征)和13-三体综合征(又称Patau综合征),发病率分别约为1/700、1/6000、1/10000,患儿绝大多数存在严重智力障碍及器官畸形,生活无法自理,不仅影响儿童的生命健康和生活质量,同时影响经济社会的健康可持续发展。拷贝数变异(CNV)是由基因组发生重排而导致的,一般指长度为1kb以上的基因组大片段的拷贝数增加或者减少,主要表现为亚显微水平的缺失和重复。CNV是基因组结构变异(Structural variation,SV)的重要组成部分。CNV位点的突变率远高于SNP(Single nucleotide polymorphism),是人类疾病的重要致病因素之一。
目前常规用于检测孕妇血浆游离DNA中胎儿非整倍体和拷贝数变异的方法主要为外周血游离DNA的低深度全基因组测序。该方法在上述检测中存在由于胎盘嵌合,母源拷贝数变异等干扰所造成的假阳性结果。目前比较常见的识别胎盘嵌合的方法是针对变异检测值和胎儿浓度的相似程度来凭经验判断,缺乏科学性和平台间的通用性,很难通过固定的阈值进行快速准确的判断,可解释性低。
因此,鉴于目前市场上的检测产品存在精确度低和操作复杂性,亟需设计一种能够针对性地提高胎儿非整倍体和拷贝数变异检测精度,并同时可以兼容不同的建库测序方式,具有较高通用性的用于检测孕妇血浆游离DNA中胎儿非整倍体和拷贝数变异的方法和装置。
发明内容
为了解决上述问题,本发明提供了一种用于检测孕妇血浆游离DNA中胎儿非整倍体和拷贝数变异的方法和装置,采用本发明的方法和装置,能够精确区分胎儿携带的变异和母体携带的变异,而且本发明提供的方法兼容性强、适用性广、成本低、不需要设计探针,只需要超低的测序深度即可实现对胎儿游离DNA基因组的非整倍体和拷贝数变异的精确区分和检测。
具体来说,本发明涉及如下用于检测孕妇血浆游离DNA中胎儿非整倍体和拷贝数变异的方法和装置及其应用。
1.一种用于检测孕妇血浆游离DNA中胎儿非整倍体和拷贝数变异的方法,包括以下步骤:
步骤1、基于非靶向全基因组测序,得到测序数据,以期对测序模版进行分组并产生可分析的子文库;
步骤2、提取所述测序数据中不同基因组区间的测序深度信息Di,其中,Di为基因组上的第i个单位计数窗口;
步骤3、对于每一个测序模版,根据从测序数据中提取的特征向量/矩阵进行分组Sj,j∈(1,2,3......,N);并统计和提取来自不同的分组子文库的基因组区间的深度信息Di,j,Di,j为Sj分组下在第i个计数窗口的基因组深度信息;
步骤4、通过对不同的分组进行全基因组范围内的非整倍体和拷贝数变异的检测,以输出不同分组的非整倍体和拷贝数变异所对应的检测值Zt,j,t代表不同的检测靶标;
步骤5、通过机器学习的方法,使用所述已知真实结果的样本,构建基于特征分组检测值{Zt,j}的机器学习装置的训练集,得到学习装置;
步骤6、针对待测样本,通过统计基于同格式的Zt,j和Di,j的特征分组检测值特征深度向量,并将其导入至步骤5构建的学习装置后,根据预测的标签对检测结果进行精细区分。
2.根据上述的方法,所述非靶向全基因组测序的方法选自甲基化测序、双端短序列测序和单端全长测序中的至少一种。
3.根据上述的方法,所述深度信息选自Reads、Unique reads、Mapability、Genomic GC、Reads GC、Unique reads GC中的至少一种。
4.根据上述的方法,所述特征向量/矩阵选自插入片段长度、序列末端碱基分布频率。
5.根据上述的方法,所述构建基于特征分组检测值{Zt,j}的机器学习装置的训练集的方法包括:输入数据,构建分类器模型处理所述输入数据,得到检测靶标的判定结果,然后进行标签归类,得到已知标签。
6.根据上述的方法,所述输入数据选自Di、Sj、Di,j、Zt,j。
7.根据上述的方法,所述分类器模型选自逻辑回归、随机森林、支持向量、线性回归、决策树和神经网络中的至少一种。
8.根据上述的方法,标签归类的类型选自标签归类的类型选自阴性和阳性;优选地,所述标签归类的类型选自阴性、胎源阳性和母源阳性;更优选地,所述标签归类的类型选自阴性、胎源阳性、母源阳性和嵌合体。
9.一种用于检测孕妇血浆游离DNA中胎儿非整倍体和拷贝数变异的装置,包括数据获取单元、划分窗口单元、分组单元、非整倍体和拷贝数变异检测单元、建模单元和待测样品结果输出单元;其中,
所述数据获取单元,基于非靶向全基因组测序,用于得到测序数据,以期对测序模版进行分组并产生可分析的子文库;
所述划分窗口单元,用于提取所述测序数据中不同基因组区间的测序深度信息Di,其中,Di为基因组上的第i个单位计数窗口;
所述分组单元,用于对于每一个测序模版,根据从测序数据中提取的特征向量/矩阵进行分组,得到不同的分组Sj,j∈(1,2,3......,N);并统计和提取来自不同的分组子文库的基因组区间的深度信息Di,j,Di,j为Sj分组下在第i个计数窗口的基因组深度信息;
所述非整倍体和拷贝数变异检测单元,用于通过对不同的分组进行全基因组范围内的非整倍体和拷贝数变异的检测,以输出不同分组的非整倍体和拷贝数变异所对应的检测值Zt,j,t代表不同的检测靶标;
所述建模单元,用于通过机器学习的方法,使用所述已知真实结果的样本,构建基于特征分组检测值{Zt,j}的机器学习装置的训练集,得到学习装置;
所述待测样品结果输出单元,用于针对待测样本,通过统计基于同格式的Zt,j和Di,j的特征分组检测值特征深度向量,并将其导入至建模单元构建的学习装置后,根据预测的标签对检测结果进行精细区分。
10.上述的用于检测孕妇血浆游离DNA中胎儿非整倍体和拷贝数变异的方法或上述的用于检测孕妇血浆游离DNA中胎儿非整倍体和拷贝数变异的装置在基因检测领域中的应用。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将对本发明涉及的技术方案进行清楚、完整地描述,显然,所描述的具体实施方案仅仅是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
术语解释:
(1)非整倍体(Aneuploid),是整倍体染色体中缺少或额外增加一条或若干条染色体,一般是在减数分裂时一对同源染色体不分离或提前分离而形成n-1或721的配子。其组成与通常的多倍体结构不同,染色体或者染色体片段或成倍丢失。个体染色体数目不是成倍增加或者减少,而是成单个或几个的增添或减少。非整倍体的形成机制非整倍体的产生原因多数是在细胞分裂时,由于染色体不分离、丢失而引起的。
(2)测序深度是指测序得到的碱基总量(bp)与基因组(Genome)大小的比值,它是评价测序量的指标之一。超低测序深度例如可以为0.1x。
(3)单端测序(Single-End sequencing)是指首先将DNA样本进行片段化处理形成200-500bp的片段,引物序列连接到DNA片段的一端,然后末端加上接头,将片段固定在flowcell上生成DNA簇,上机测序单端读取序列。
(4)双端测序(Paired-end sequencing)是指在构建待测DNA文库时在两端的接头上都加上测序引物结合位点,在第一轮测序完成后,去除第一轮测序的模版链,用对读测序模块(Paired-End Module)引导互补链在原位置再生和扩增,以达到第二轮测序所用的模版量,进行第二轮互补链的合成测序。
(5)Reads:read的复数,高通量测序平台产生的一段短测序片段序列。
(6)Unique reads:是指唯一比对到基因组上的reads。在测序过程中,有些reads可以同时比对到基因组多个位置,Unique reads则是从所有非dup的reads中过滤掉这些多处比对的reads,剩下的就是unique reads。
(7)Mapability:对于某些窗口,短序列唯一性较低,主要原因可能是因为来自异染色质大片的重复序列或更复杂的生物学原因,此时利用Mapability这个参数算每个窗口的效率。
(8)Genomic GC:该参数代表每个窗口对应的基因组GC。
(9)Reads GC:每个窗口中所有reads对应的GC。
(10)Unique reads GC:代表每个窗口中unique reads对应的GC。
本发明第一方面提供了一种用于检测孕妇血浆游离DNA中胎儿非整倍体和拷贝数变异的方法,包括以下步骤:
步骤1、基于非靶向全基因组测序,得到测序数据,以期对测序模版进行分组并产生可分析的子文库;
步骤2、提取所述测序数据中不同基因组区间的测序深度信息Di,其中,Di为基因组上的第i个单位计数窗口;
步骤3、对于每一个测序模版,根据从测序数据中提取的特征向量/矩阵进行分组Sj,j∈(1,2,3......,N);并统计和提取来自不同的分组子文库的基因组区间的深度信息Di,j,Di,j为Sj分组下在第i个计数窗口的基因组深度信息;
步骤4、通过对不同的分组进行全基因组范围内的非整倍体和拷贝数变异的检测,以输出不同分组的非整倍体和拷贝数变异所对应的检测值Zt,j,t代表不同的检测靶标;
步骤5、通过机器学习的方法,使用所述已知真实结果的样本,构建基于特征分组检测值{Zt,j}的机器学习装置的训练集,得到学习装置;
步骤6、针对待测样本,通过统计基于同格式的Zt,j和Di,j的特征分组检测值特征深度向量,并将其导入至步骤5构建的学习装置后,根据预测的标签对检测结果进行精细区分。
在本发明中,“精细区分”指可以将待测样本区分为阴性和阳性;优选地,可以将待测样本区分为阴性、胎源阳性和母源阳性;更优选地,可以将待测样本区分为阴性、胎源阳性、母源阳性和嵌合体。
根据本发明的方法,所述非靶向全基因组测序的方法可以选自甲基化测序、双端短序列测序和单端全长测序中的至少一种。
根据本发明的方法,深度信息例如但不限于选自Reads、Unique reads、Mapability、Genomic GC、Reads GC、Unique reads GC中的至少一种。
根据本发明的方法,所述特征向量/矩阵选自插入片段长度、序列末端碱基分布频率。或者还可以包括具有表观遗传学特征的特征向量/矩阵。在本发明中,“特征向量/矩阵”可以为特征向量、矩阵或数值。
根据本发明的方法,对于建库方法和测序平台并无要求。具体地,建库方法例如但不限于使用NIPT建库试剂盒(例如国械注册号20173400331)建库。测序平台例如但不限于使用NextSeq 550AR基因测序仪PE75读长模式。分析方法例如但不限于BMMPA注册证号20192210692。
根据本发明的方法,计数窗口的个数与测序深度以及所要分辨的变异大小存在着逻辑关系,至少应保证单位区间有足够统计意义的稳定模版个数以保证方法学的稳定性和精度,由于胎儿游离DNA的含量在血浆中占比较低,此单位区间的测序模版数理论上不应小于平均胎儿浓度的倒数。
根据本发明的方法,对于每一个测序模版,根据从测序数据中提取的特征向量/矩阵进行分组,得到不同的分组Sj,j∈(1,2,3......,N)。其中,所述分组的方法可以根据分析需要而定,例如基于典型特征值或基于无监督分类器的有限聚类分组。在本发明中,不同的分组间可以存在交集,例如但不限于,S1=1~128,S2=109~166,S3=140~223。
根据本发明的方法,统计和提取来自不同的分组的基因组区间的深度信息Di,j,Di,j为Sj分组下在第i个计数窗口的基因组深度信息,例如D1,1,D1,2,D1,3等。
根据本发明的方法,通过不同的分组进行全基因组范围内的非整倍体和拷贝数变异的检测,以输出非整倍体和拷贝数变异所对应的检测值Zt,j,t代表不同的检测靶标。检测靶标也可以理解为检测目标,例如但不限于13号染色体三体、18号染色体三体、21号染色体三体、任何拷贝数变异综合征。对应地,Zt,j可以表示为Z13,j、Z18,j、Z21,j、ZCNV,j,j∈(1,2,3......,N)。
根据本发明的方法,所述构建基于特征分组检测值{Zt,j}的机器学习装置的训练集的方法包括:输入数据,构建分类器模型处理所述输入数据,得到检测靶标的判定结果,然后进行标签归类,得到已知标签。在后续的分析中,使用所述已知标签对待测样本的检测结果进行分类评价。
根据本发明的方法,所述标签归类的类型选自阴性和阳性;优选地,所述标签归类的类型选自阴性、胎源阳性和母源阳性;更优选地,所述标签归类的类型选自阴性、胎源阳性、母源阳性和嵌合体。例如但不限于胎源阳性、母源阳性、嵌合体或胎源阴性。在本发明中,阴性可以包括胎源阴性。例如样本经临床羊水穿刺后验证,胎儿并非13号染色体的三体综合症,而该样本的对应的胎盘存在13号染色体三体的嵌合体,故此样本给予‘嵌合体或胎源阴性’这个分类标签用于模型训练。在本发明中还包括‘胎源阳性’和‘母源阳性’分类标签,胎源阳性指通过对检测值判断为对应靶标阳性且通过穿刺验证胎儿存在该靶标的异常;母源阳性指通过对检测值判断为对应靶标阳性但通过穿刺验证胎儿和胎盘均不存在该靶标的异常但母亲的体细胞存在该靶标异常。
根据本发明的方法,所述输入数据选自Di、Sj、Di,j、Zt,j。
根据本发明的方法,所述分类器模型选自逻辑回归、随机森林、支持向量、线性回归、决策树和神经网络中的至少一种。根据一定数量的已知样本的胎源阳性和胎源阴性(假阳性)的信息,使用以上样本的多维度靶标检测值向量(Di,j,Zt,j),同时也可纳入不限于以上所述的检测值和胎儿浓度的其他于临床靶标有定性预测能力的其他统计量作为输入向量,进行机器学习的训练步骤。预设的类型个数可以为对应已知阴阳性的0或1的二分法,本装置并不限制分类器的选择,可以使用如逻辑回归,随机森林,支持向量机等常见可以处理数值变量的分类器。通过类似交叉检验的方式选取最优的训练模型用于待测样本的评价。同时可以通过分类器模型的内部结构和权重可以选取或构建用于可视化的中间变量。
根据本发明的方法,采用一定数量的已知真实结果的样本重复步骤1至步骤4,然后将其根据插入片段分组的多维度靶标检测值向量(Di,j,Zt,j)导入步骤5中预训练的模型进行分类预测,最终得到学习装置。在本发明中,一定数量可以根据需要而定,数量的增加与结果的准确性具有正相关性,但与此同时也需考虑成本及经济性等因素。
在本发明中,步骤6、针对待测样本,通过统计基于同格式的Zt,j和Di,j的特征分组检测值特征深度向量,并将其导入至步骤5构建的学习装置后,根据预测的标签对检测结果进行精细区分。其中,基于同格式的Zt,j和Di,j的特征分组检测值特征深度向量的获得方式可以根据步骤1至步骤4的方式获得。
根据本发明的具体的实施方式,一种用于检测孕妇血浆游离DNA中胎儿非整倍体和拷贝数变异的方法,包括以下步骤:
1、基于常规非靶向全基因组测序方式,获取携带生物学上在不同组织细胞来源下存在已知差异的特征向量/矩阵,包括但不限于插入片段长度以及序列末端碱基分布频率。此方法对于建库方法和测序平台并无要求,对于特征向量/矩阵的提取方法包括但不限于,甲基化测序,双端短序列测序和单端全长测序等,以期获得携带特定溯源性特征向量/矩阵作为本装置的输入数据;
2、提取测序数据中不同基因组区间的测序深度信息Di(为基因组上的第i个单个计数窗口)作为输入数据。计数窗口的个数与测序深度以及所要分辨的变异大小存在一定的逻辑关系,至少应保证单位区间有足够统计意义的稳定模版个数以保证方法学的稳定性和精度,由于胎儿游离DNA的含量在血浆中占比较低,此单位区间的测序模版数理论上不应小于平均胎儿浓度的倒数;
3、对于每一个测序模版,根据从测序数据中提取的特征向量/矩阵进行分组,分组方法包含但不限于基于已知的典型特征值,或者基于无监督分类器的有限聚类分组。进一步统计和提取来自不同特征分组的基因组区间的深度信息Dij,j∈(1,21......N),Sj为不同的模版分组,不同的分组间可以存在交集,Dij为Sj这个分组下在第i个计数窗口的基因组深度信息;
4、通过不同的Dj分组进行全基因组范围内的非整倍体和拷贝数变异的检测,可以使用常规分析方法,以期输出常见的各种非整倍体和拷贝数变异所对应的检测值,将此检测值Zt,j作为本装置的输入数据,t代表不同的检测靶标例如13号染色体三体,或某个拷贝数变异综合症;
5、通过机器学习的方法,使用一定数量已知真实结果的样本,构建基于特征分组检测值{Zt,j}的机器学习装置的训练集,使用已知检测靶标的诊断结果作为已知标签,包含但不限于胎源/母源/嵌合体/阴性等,用于待测样本的检测结果的分类评价;
6、针对新的待测样本,通过统计基于同格式的Zt,j和Dij的特征分组检测值特征深度向量,并将其导入至构建好的学习装置后,根据预测的标签对于检测结果进行进一步的精细区分。
本发明第二方面提供了一种用于检测孕妇血浆游离DNA中胎儿非整倍体和拷贝数变异的装置,包括数据获取单元、划分窗口单元、分组单元、非整倍体和拷贝数变异检测单元、建模单元和待测样品结果输出单元;其中,
所述数据获取单元,基于非靶向全基因组测序,得到测序数据,以期对测序模版进行分组并产生可分析的子文库;
所述划分窗口单元,用于提取所述测序数据中不同基因组区间的测序深度信息Di,其中,Di为基因组上的第i个单位计数窗口;
所述分组单元,用于对于每一个测序模版,根据从测序数据中提取的特征向量/矩阵进行分组,得到不同的分组Sj,j∈(1,2,3......,N);并统计和提取来自不同的分组子文库的基因组区间的深度信息Di,j,Di,j为Sj分组下在第i个计数窗口的基因组深度信息;
所述非整倍体和拷贝数变异检测单元,用于通过对不同的分组进行全基因组范围内的非整倍体和拷贝数变异的检测,以输出不同分组的非整倍体和拷贝数变异所对应的检测值Zt,j,t代表不同的检测靶标;
所述建模单元,用于通过机器学习的方法,使用所述已知真实结果的样本,构建基于特征分组检测值{Zt,j}的机器学习装置的训练集,得到学习装置;
所述待测样品结果输出单元,用于针对待测样本,通过统计基于同格式的Zt,j和Di,j的特征分组检测值特征深度向量,并将其导入至建模单元构建的学习装置后,根据预测的标签对检测结果进行精细区分。
在本发明中,所述特征向量/矩阵选自插入片段长度、序列末端碱基分布频率。
在本发明中,所述非靶向全基因组测序的方法选自甲基化测序、双端短序列测序和单端全长测序中的至少一种。
在本发明中,对于建库方法和测序平台并无要求。
在本发明中,计数窗口的个数与测序深度以及所要分辨的变异大小存在着逻辑关系,至少应保证单位区间有足够统计意义的稳定模版个数以保证方法学的稳定性和精度,由于胎儿游离DNA的含量在血浆中占比较低,此单位区间的测序模版数理论上不应小于平均胎儿浓度的倒数。
在本发明中,对于每一个测序模版,根据从测序数据中提取的特征向量/矩阵进行分组Sj,j∈(1,2,3......,N)。其中,所述分组的方法可以根据分析需要而定,例如基于典型特征值或基于无监督分类器的有限聚类分组。在本发明中,不同的分组间可以存在交集,例如但不限于,S1=1~128,S2=109~166,S3=140~223。
在本发明中,统计和提取来自不同的分组的基因组区间的深度信息Di,j,Di,j为Sj分组下在第i个计数窗口的基因组深度信息,例如D1,1,D1,2,D1,3等。
在本发明中,所述深度信息选自Reads、Unique reads、Mapability、Genomic GC、Reads GC、Unique reads GC中的至少一种。
在本发明中,通过不同的分组进行全基因组范围内的非整倍体和拷贝数变异的检测,以输出非整倍体和拷贝数变异所对应的检测值Zt,j,t代表不同的检测靶标。检测靶标也可以理解为检测目标,例如但不限于13号染色体三体、18号染色体三体、21号染色体三体、任何拷贝数变异综合征。对应地,Zt,j可以表示为Z13,j、Z18,j、Z21,j、ZCNV,j等。
在本发明中,所述构建基于特征分组检测值{Zt,j}的机器学习装置的训练集的方法包括:输入数据,构建分类器模型处理所述输入数据,得到检测靶标的判定结果,然后进行标签归类,得到已知标签。
在本发明中,所述输入数据选自Di、Sj、Di,j、Zt,j。
在本发明中,所述分类器模型选自逻辑回归、随机森林、支持向量、线性回归、决策树和神经网络中的至少一种。根据一定数量的已知样本的胎源阳性和胎源阴性(假阳性)的信息,使用以上样本的多维度靶标检测值向量(Di,j,Zt,j),同时也可纳入不限于以上所述的检测值和胎儿浓度的其他于临床靶标有定性预测能力的其他统计量作为输入向量,进行机器学习的训练步骤。预设的类型个数可以为对应已知阴阳性的0或1的二分法,本装置并不限制分类器的选择,可以使用如逻辑回归,随机森林,支持向量机等常见可以处理数值变量的分类器。通过类似交叉检验的方式选取最优的训练模型用于待测样本的评价。同时可以通过分类器模型的内部结构和权重可以选取或构建用于可视化的中间变量。
在本发明中,标签归类的类型选自阴性和阳性;优选地,所述标签归类的类型选自阴性、胎源阳性和母源阳性;更优选地,所述标签归类的类型选自阴性、胎源阳性、母源阳性和嵌合体。例如样本经临床羊水穿刺后验证,胎儿并非13号染色体的三体综合症,而该样本的对应的胎盘存在13号染色体三体的嵌合体,故此样本给予‘嵌合体或胎源阴性’这个分类标签用于模型训练。在本发明中还包括‘胎源阳性’和‘母源阳性’分类标签,胎源阳性指通过对检测值判断为对应靶标阳性且通过穿刺验证胎儿存在该靶标的异常;母源阳性指通过对检测值判断为对应靶标阳性但通过穿刺验证胎儿和胎盘均不存在该靶标的异常但母亲的体细胞存在该靶标异常。
在本发明中,采用一定数量的已知真实结果的样本重复步骤1至步骤4,然后将其根据插入片段分组的多维度靶标检测值向量(Di,j,Zt,j)导入步骤5中预训练的模型进行分类预测,最终得到学习装置。在本发明中,一定数量可以根据需要而定,数量的增加与结果的准确性具有正相关性,但与此同时也需考虑成本及经济性等因素。
本发明第三方面提供了上述的用于检测孕妇血浆游离DNA中胎儿非整倍体和拷贝数变异的方法或上述的用于检测孕妇血浆游离DNA中胎儿非整倍体和拷贝数变异的装置在基因检测领域中的应用。
本发明的有益效果:
(1)采用本发明的方法和装置,能够精确区分胎儿携带的变异和母体携带的变异。
(2)本发明提供的方法和装置,兼容性强、适用性广、成本低、不需要设计探针,只需要超低的测序深度即可实现对胎儿游离DNA基因组的非整倍体和拷贝数变异的精确区分和检测。
下面参考具体实施例,对本发明进行说明,需要说明的是,这些实施例仅仅是说明性的,而不能理解为对本发明的限制。
【实施例1】
一种用于检测孕妇血浆游离DNA中胎儿非整倍体和拷贝数变异的方法:
步骤1、收集已知真实结果的产前外周血样本,使用5mL外周血提取游离DNA,得到样本ALB73W04375。使用NIPT建库试剂盒(国械注册号20173400331)建库。测序平台使用NextSeq 550AR基因测序仪PE75模式,产生30M左右的测序数据。
步骤2、提取测序数据中不同基因组区间的测序深度信息Di,其中,Di为基因组上的第i个单位计数窗口。深度信息包括Unique reads。
步骤3、通过双端序列比对,将每一个测序模版的插入片段大小进行估计,将插入片段的长度作为模版分组Sj的特征向量。根据有一定生物学意义的分组,其中胎儿来源的模版偏短,将每个模版按插入片段这个特征向量分入S1=1~128,S2=109~166,S3=140~223三个有交集的不同的组别。并统计和提取来自不同的分组的基因组区间的深度信息Di,j,Di,j为Sj分组下在第i个计数窗口的基因组深度信息,样本ALB73W04375总文库在chr1上的第一个单位区间内Unique reads,以及相应的3个不同片段组别的子文库在同一个单位区间内的Unique reads如下表1所示。
表1
染色体 | Unique reads | |
D1 | chr1 | 1021 |
D1,1 | chr1 | 125 |
D1,2 | chr1 | 100 |
D1,3 | chr1 | 49 |
步骤4、针对步骤3产生的每一组测序模版,使用常规分析方法BMMPA注册证号20192210692,对基因组单位区间内测序模版的总量Di,j进行建模,产生胎儿染色体非整倍体的检测值Zt,j,以及其他和检测相关的胎儿数量特征(胎儿浓度)。样本ALB73W04375的Z13,j和Zfc,j如下表,按建库试剂盒(国械注册号20173400331)的说明书所示,S1组的Z13值大于4,属于阳性结果,但另外2个子集的对应检测值均落在灰区3以下,不属于阳性结果,如下表2所示。
表2
t\j | S1=1~128 | S2=109~166 | S3=140~223 |
Z13,j | 4.079794437 | 2.971799521 | 1.302150172 |
Zfc,j | 0.32948574 | 0.278243513 | 0.066748496 |
其中,Z13,j代表j组13号染色体三体的检测值,Zfc,j代表j组胎儿浓度的检测值。
步骤5、根据已知样本的胎源阳性和胎源阴性(假阳性)的信息,使用样本ALB73W04375的多维度靶标检测值向量(Di,j,Zt,j),进行机器学习的训练步骤。预设的类型个数可以为对应已知阴阳性的0或1的二分法,使用逻辑回归处理数值变量的分类器。通过交叉检验的方式选取最优的训练模型用于待测样本的评价。同时通过分类器模型的内部结构和权重可以选取或构建用于可视化的中间变量。样本ALB73W04375经临床羊水穿刺后验证,胎儿并非13号染色体的三体综合症,而该样本的对应的胎盘存在13号染色体三体的嵌合体,故此样本给予‘嵌合体或胎源阴性’这个分类标签用于模型训练。
此外,根据一定数量的已知样本的胎源阳性和胎源阴性(假阳性)的信息,使用以上样本的多维度靶标检测值向量(Di,j,Zt,j),得到‘胎源阳性’和‘母源阳性’两个分类标签,胎源阳性指通过对检测值判断为对应靶标阳性且通过穿刺验证胎儿存在该靶标的异常;母源阳性指通过对检测值判断为对应靶标阳性但通过穿刺验证胎儿和胎盘均不存在该靶标的异常但母亲的体细胞存在该靶标异常。
共建立‘嵌合体或胎源阴性’、‘胎源阳性’和‘母源阳性’三个分类标签,最终得到学习装置。
步骤6、对12个待测样本通过统计基于同格式的Zt,j和Di,j的特征分组检测值特征深度向量,并将其导入至步骤5构建的学习装置后,根据预测的标签对检测结果进行精细区分,具体地,对12个待测样本重复上述步骤1-4的步骤,然后将其根据插入片段分组的多维度靶标检测值向量(Di,j,Zt,j)导入步骤5中预训练的模型(学习装置)进行分类预测。结果如下表3所示。
表3
预测值\真实值 | 胎源阳性 | 母源阳性 | 嵌合体或胎源阴性 |
胎源阳性 | 5 | 0 | 0 |
母源阳性 | 0 | 1 | 0 |
嵌合体或胎源阴性 | 0 | 0 | 6 |
随后将12个待测样本的结果与临床诊断结果进行比对,结果显示一致性100%。
【对比例1】
一种用于检测孕妇血浆游离DNA中胎儿非整倍体和拷贝数变异的方法:
步骤1、收集已知真实结果的产前外周血样本,使用5ml外周血提取游离DNA,得到样本ALB73W04375。使用NIPT建库试剂盒(国械注册号20173400331)建库。测序平台使用NextSeq 550AR基因测序仪PE75模式,产生30M左右的测序模版。
步骤2、通过常规分析方法BMMPA注册证号20192210692,对基因组单位区间内测序模版的总量Di进行建模,产生胎儿染色体非整倍体的检测值Zt。样本ALB73W04375的总文库的Z13值大于4(见表4),按建库试剂盒(国械注册号20173400331)的说明书所示属于阳性结果。
表4
Z13 | Zfc | |
ALB73W04375 | 9.10801616 | 0.461583297 |
其中,Z13代表13号染色体三体的检测值,Zfc代表胎儿浓度的检测值。
【对比例2】
一种用于检测孕妇血浆游离DNA中胎儿非整倍体和拷贝数变异的方法:
步骤1、对实施例1的12个待测样本的产前外周血样本,使用5ml外周血提取游离DNA。使用NIPT建库试剂盒(国械注册号20173400331)建库。测序平台使用NextSeq 550AR基因测序仪PE75模式,产生30M左右的测序模版。
步骤2、通过常规分析方法BMMPA注册证号20192210692,对基因组单位区间内测序模版的总量Di进行建模,产生胎儿染色体非整倍体的检测值Zt。结果如下表5所示。
表5
通过实施例1和对比例1的结果能够看出,ALB73W04375采用常规方法检测,结果为阳性;而采用本发明的方法,被归为嵌合体或胎源阴性,并非阳性结果。
通过实施例1和对比例2的结果能够看出,测试组12个待测样本采用传统方法学(对比例2)下报出阳性(胎源)的样本的结果评价,而采用本发明方法可实现对阳性结果的进一步精确细分,并且针对性地将一部分已知的假阳性结果,通过对其模版分组所产生的多维度靶标检测值向量的建模分类,成功地将其进一步分类为胎盘嵌合体(嵌合体或胎源阴性)和母源阳性这两个非胎源阳性的亚型,与临床诊断结果一致性100%。
以上结合具体实施例描述了本发明的基本原理,但是,需要指出的是,在本发明中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本发明的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制。
Claims (10)
1.一种用于检测孕妇血浆游离DNA中胎儿非整倍体和拷贝数变异的方法,包括以下步骤:
步骤1、基于非靶向全基因组测序,得到测序数据,以期对测序模版进行分组并产生可分析的子文库;
步骤2、提取所述测序数据中不同基因组区间的测序深度信息Di,其中,Di为基因组上的第i个单位计数窗口;
步骤3、对于每一个测序模版,根据从测序数据中提取的特征向量/矩阵进行分组,得到不同的分组Sj,j∈(1,2,3......,N);并统计和提取来自不同的分组子文库的基因组区间的深度信息Di,j,Di,j为Sj分组下在第i个计数窗口的基因组深度信息;
步骤4、通过对不同的分组进行全基因组范围内的非整倍体和拷贝数变异的检测,以输出不同分组的非整倍体和拷贝数变异所对应的检测值Zt,j,t代表不同的检测靶标;
步骤5、通过机器学习的方法,使用所述已知真实结果的样本,构建基于特征分组检测值{Zt,j}的机器学习装置的训练集,得到学习装置;
步骤6、针对待测样本,通过统计基于同格式的Zt,j和Di,j的特征分组检测值特征深度向量,并将其导入至步骤5构建的学习装置后,根据预测的标签对检测结果进行精细区分。
2.根据权利要求1所述的方法,其特征在于,所述非靶向全基因组测序的方法选自甲基化测序、双端短序列测序和单端全长测序中的至少一种。
3.根据权利要求1所述的方法,其特征在于,所述深度信息选自Reads、Unique reads、Mapability、Genomic GC、Reads GC、Unique reads GC中的至少一种。
4.根据权利要求1所述的方法,其特征在于,所述特征向量/矩阵选自插入片段长度、序列末端碱基分布频率。
5.根据权利要求1所述的方法,其特征在于,所述构建基于特征分组检测值{Zt,j}的机器学习装置的训练集的方法包括:输入数据,构建分类器模型处理所述输入数据,得到检测靶标的判定结果,然后进行标签归类,得到已知标签。
6.根据权利要求5所述的方法,其特征在于,所述输入数据选自Di、Sj、Di,j、Zt,j。
7.根据权利要求5所述的方法,其特征在于,所述分类器模型选自逻辑回归、随机森林、支持向量、线性回归、决策树和神经网络中的至少一种。
8.根据权利要求5所述的方法,其特征在于,标签归类的类型选自阴性和阳性;优选地,所述标签归类的类型选自阴性、胎源阳性和母源阳性;更优选地,所述标签归类的类型选自阴性、胎源阳性、母源阳性和嵌合体。
9.一种用于检测孕妇血浆游离DNA中胎儿非整倍体和拷贝数变异的装置,包括数据获取单元、划分窗口单元、分组单元、非整倍体和拷贝数变异检测单元、建模单元和待测样品结果输出单元;其中,
所述数据获取单元,基于非靶向全基因组测序,用于得到测序数据,以期对测序模版进行分组并产生可分析的子文库;
所述划分窗口单元,用于提取所述测序数据中不同基因组区间的测序深度信息Di,其中,Di为基因组上的第i个单位计数窗口;
所述分组单元,用于对于每一个测序模版,根据从测序数据中提取的特征向量/矩阵进行分组,得到不同的分组Sj,j∈(1,2,3......,N);并统计和提取来自不同的分组子文库的基因组区间的深度信息Di,j,Di,j为Sj分组下在第i个计数窗口的基因组深度信息;
所述非整倍体和拷贝数变异检测单元,用于通过对不同的分组进行全基因组范围内的非整倍体和拷贝数变异的检测,以输出不同分组的非整倍体和拷贝数变异所对应的检测值Zt,j,t代表不同的检测靶标;
所述建模单元,用于通过机器学习的方法,使用所述已知真实结果的样本,构建基于特征分组检测值{Zt,j}的机器学习装置的训练集,得到学习装置;
所述待测样品结果输出单元,用于针对待测样本,通过统计基于同格式的Zt,j和Di,j的特征分组检测值特征深度向量,并将其导入至建模单元构建的学习装置后,根据预测的标签对检测结果进行精细区分。
10.权利要求1-8中任一项所述的用于检测孕妇血浆游离DNA中胎儿非整倍体和拷贝数变异的方法或权利要求9所述的用于检测孕妇血浆游离DNA中胎儿非整倍体和拷贝数变异的装置在基因检测领域中的应用。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2022116953539 | 2022-12-28 | ||
CN202211695353 | 2022-12-28 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117095745A true CN117095745A (zh) | 2023-11-21 |
Family
ID=88783197
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311069138.2A Pending CN117095745A (zh) | 2022-12-28 | 2023-08-23 | 用于检测孕妇血浆游离dna中胎儿非整倍体和拷贝数变异的方法和装置及应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117095745A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117935914A (zh) * | 2024-03-22 | 2024-04-26 | 北京求臻医学检验实验室有限公司 | 一种意义未明的克隆性造血识别及其应用方法 |
-
2023
- 2023-08-23 CN CN202311069138.2A patent/CN117095745A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117935914A (zh) * | 2024-03-22 | 2024-04-26 | 北京求臻医学检验实验室有限公司 | 一种意义未明的克隆性造血识别及其应用方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105296606B (zh) | 确定生物样本中游离核酸比例的方法、装置及其用途 | |
CN107133495B (zh) | 一种非整倍性生物信息的分析方法和分析系统 | |
CN103874767B (zh) | 对核酸样本中预定区域进行基因分型的方法和系统 | |
CN104221022B (zh) | 一种拷贝数变异检测方法和系统 | |
CN113366122B (zh) | 游离dna末端特征 | |
CN111968701B (zh) | 检测指定基因组区域体细胞拷贝数变异的方法和装置 | |
CN108604258B (zh) | 染色体异常判断方法 | |
CN108319813A (zh) | 循环肿瘤dna拷贝数变异的检测方法和装置 | |
WO2013026411A1 (zh) | 单细胞分类方法、基因筛选方法及其装置 | |
CN104781422A (zh) | 从血浆无创测定胎儿或肿瘤的甲基化组 | |
CN104951671B (zh) | 基于单样本外周血检测胎儿染色体非整倍性的装置 | |
CN110846411A (zh) | 一种基于二代测序的单独肿瘤样本区分基因突变类型的方法 | |
CN106537401A (zh) | 使用母体血清dna预测胎儿单基因遗传变异的方法 | |
CN117095745A (zh) | 用于检测孕妇血浆游离dna中胎儿非整倍体和拷贝数变异的方法和装置及应用 | |
CN105555970A (zh) | 同时进行单体型分析和染色体非整倍性检测的方法和系统 | |
CN109461473B (zh) | 胎儿游离dna浓度获取方法和装置 | |
CN108460248B (zh) | 一种基于Bionano平台检测长串联重复序列的方法 | |
CN110373458A (zh) | 一种地中海贫血检测的试剂盒及分析系统 | |
CN116844638A (zh) | 一种基于高通量转录组测序的儿童急性白血病分型系统及方法 | |
CN108229099A (zh) | 数据处理方法、装置、存储介质及处理器 | |
CN113496761B (zh) | 确定核酸样本中cnv的方法、装置及应用 | |
KR102519739B1 (ko) | 2단계 Z-score에 기반한 비침습적 산전 검사 방법 및 장치 | |
CN110475874A (zh) | 脱靶序列在dna分析中的应用 | |
CN116168761B (zh) | 核酸序列特征区域确定方法、装置、电子设备及存储介质 | |
AU2019480813B2 (en) | Methods for determining chromosome aneuploidy and constructing classification model, and device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |