CN117095745A - 用于检测孕妇血浆游离dna中胎儿非整倍体和拷贝数变异的方法和装置及应用 - Google Patents

用于检测孕妇血浆游离dna中胎儿非整倍体和拷贝数变异的方法和装置及应用 Download PDF

Info

Publication number
CN117095745A
CN117095745A CN202311069138.2A CN202311069138A CN117095745A CN 117095745 A CN117095745 A CN 117095745A CN 202311069138 A CN202311069138 A CN 202311069138A CN 117095745 A CN117095745 A CN 117095745A
Authority
CN
China
Prior art keywords
sequencing
copy number
genome
number variation
aneuploidy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311069138.2A
Other languages
English (en)
Inventor
杜洋
王云峰
张介中
李志民
王娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Annoroad Medical Laboratory Co ltd
Zhejiang Annoroad Bio Technology Co ltd
Annoroad Gene Technology Beijing Co ltd
Original Assignee
Beijing Annoroad Medical Laboratory Co ltd
Zhejiang Annoroad Bio Technology Co ltd
Annoroad Gene Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Annoroad Medical Laboratory Co ltd, Zhejiang Annoroad Bio Technology Co ltd, Annoroad Gene Technology Beijing Co ltd filed Critical Beijing Annoroad Medical Laboratory Co ltd
Publication of CN117095745A publication Critical patent/CN117095745A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明涉及一种用于检测孕妇血浆游离DNA中胎儿非整倍体和拷贝数变异的方法和装置及应用。方法包括:基于常规非靶向全基因组测序方式,得到测序数据,以期对测序模版进行分组并产生可分析的子文库;提取测序数据中不同基因组区间的测序深度信息;根据从测序数据中提取的特征向量/矩阵进行分组,并统计和提取来自不同的分组的基因组区间的深度信息;通过机器学习构建分类器,进一步精确区分胎儿携带的变异和母体携带的变异。采用本发明的方法和装置能够精确区分胎儿携带的变异和母体携带的变异,而且本发明的方法和装置兼容性强、适用性广、成本低,只需要超低的测序深度即可实现对胎儿游离DNA基因组的非整倍体和拷贝数变异的精确区分和检测。

Description

用于检测孕妇血浆游离DNA中胎儿非整倍体和拷贝数变异的 方法和装置及应用
技术领域
本发明属于基因检测技术领域,具体地,涉及一种用于检测孕妇血浆游离DNA中胎儿非整倍体和拷贝数变异的方法和装置及应用。
背景技术
胎儿染色体非整倍体(fetal chromosome aneuploidies)中的21三体、18三体、13三体(trisomies 21、18、13,即T21、T18、T13)是临床上最常见的染色体非整倍体疾病。其对应的分别为21-三体综合征(又称唐氏综合征,先天愚型或Down综合征)、18-三体综合征(又称Edwards综合征)和13-三体综合征(又称Patau综合征),发病率分别约为1/700、1/6000、1/10000,患儿绝大多数存在严重智力障碍及器官畸形,生活无法自理,不仅影响儿童的生命健康和生活质量,同时影响经济社会的健康可持续发展。拷贝数变异(CNV)是由基因组发生重排而导致的,一般指长度为1kb以上的基因组大片段的拷贝数增加或者减少,主要表现为亚显微水平的缺失和重复。CNV是基因组结构变异(Structural variation,SV)的重要组成部分。CNV位点的突变率远高于SNP(Single nucleotide polymorphism),是人类疾病的重要致病因素之一。
目前常规用于检测孕妇血浆游离DNA中胎儿非整倍体和拷贝数变异的方法主要为外周血游离DNA的低深度全基因组测序。该方法在上述检测中存在由于胎盘嵌合,母源拷贝数变异等干扰所造成的假阳性结果。目前比较常见的识别胎盘嵌合的方法是针对变异检测值和胎儿浓度的相似程度来凭经验判断,缺乏科学性和平台间的通用性,很难通过固定的阈值进行快速准确的判断,可解释性低。
因此,鉴于目前市场上的检测产品存在精确度低和操作复杂性,亟需设计一种能够针对性地提高胎儿非整倍体和拷贝数变异检测精度,并同时可以兼容不同的建库测序方式,具有较高通用性的用于检测孕妇血浆游离DNA中胎儿非整倍体和拷贝数变异的方法和装置。
发明内容
为了解决上述问题,本发明提供了一种用于检测孕妇血浆游离DNA中胎儿非整倍体和拷贝数变异的方法和装置,采用本发明的方法和装置,能够精确区分胎儿携带的变异和母体携带的变异,而且本发明提供的方法兼容性强、适用性广、成本低、不需要设计探针,只需要超低的测序深度即可实现对胎儿游离DNA基因组的非整倍体和拷贝数变异的精确区分和检测。
具体来说,本发明涉及如下用于检测孕妇血浆游离DNA中胎儿非整倍体和拷贝数变异的方法和装置及其应用。
1.一种用于检测孕妇血浆游离DNA中胎儿非整倍体和拷贝数变异的方法,包括以下步骤:
步骤1、基于非靶向全基因组测序,得到测序数据,以期对测序模版进行分组并产生可分析的子文库;
步骤2、提取所述测序数据中不同基因组区间的测序深度信息Di,其中,Di为基因组上的第i个单位计数窗口;
步骤3、对于每一个测序模版,根据从测序数据中提取的特征向量/矩阵进行分组Sj,j∈(1,2,3......,N);并统计和提取来自不同的分组子文库的基因组区间的深度信息Di,j,Di,j为Sj分组下在第i个计数窗口的基因组深度信息;
步骤4、通过对不同的分组进行全基因组范围内的非整倍体和拷贝数变异的检测,以输出不同分组的非整倍体和拷贝数变异所对应的检测值Zt,j,t代表不同的检测靶标;
步骤5、通过机器学习的方法,使用所述已知真实结果的样本,构建基于特征分组检测值{Zt,j}的机器学习装置的训练集,得到学习装置;
步骤6、针对待测样本,通过统计基于同格式的Zt,j和Di,j的特征分组检测值特征深度向量,并将其导入至步骤5构建的学习装置后,根据预测的标签对检测结果进行精细区分。
2.根据上述的方法,所述非靶向全基因组测序的方法选自甲基化测序、双端短序列测序和单端全长测序中的至少一种。
3.根据上述的方法,所述深度信息选自Reads、Unique reads、Mapability、Genomic GC、Reads GC、Unique reads GC中的至少一种。
4.根据上述的方法,所述特征向量/矩阵选自插入片段长度、序列末端碱基分布频率。
5.根据上述的方法,所述构建基于特征分组检测值{Zt,j}的机器学习装置的训练集的方法包括:输入数据,构建分类器模型处理所述输入数据,得到检测靶标的判定结果,然后进行标签归类,得到已知标签。
6.根据上述的方法,所述输入数据选自Di、Sj、Di,j、Zt,j
7.根据上述的方法,所述分类器模型选自逻辑回归、随机森林、支持向量、线性回归、决策树和神经网络中的至少一种。
8.根据上述的方法,标签归类的类型选自标签归类的类型选自阴性和阳性;优选地,所述标签归类的类型选自阴性、胎源阳性和母源阳性;更优选地,所述标签归类的类型选自阴性、胎源阳性、母源阳性和嵌合体。
9.一种用于检测孕妇血浆游离DNA中胎儿非整倍体和拷贝数变异的装置,包括数据获取单元、划分窗口单元、分组单元、非整倍体和拷贝数变异检测单元、建模单元和待测样品结果输出单元;其中,
所述数据获取单元,基于非靶向全基因组测序,用于得到测序数据,以期对测序模版进行分组并产生可分析的子文库;
所述划分窗口单元,用于提取所述测序数据中不同基因组区间的测序深度信息Di,其中,Di为基因组上的第i个单位计数窗口;
所述分组单元,用于对于每一个测序模版,根据从测序数据中提取的特征向量/矩阵进行分组,得到不同的分组Sj,j∈(1,2,3......,N);并统计和提取来自不同的分组子文库的基因组区间的深度信息Di,j,Di,j为Sj分组下在第i个计数窗口的基因组深度信息;
所述非整倍体和拷贝数变异检测单元,用于通过对不同的分组进行全基因组范围内的非整倍体和拷贝数变异的检测,以输出不同分组的非整倍体和拷贝数变异所对应的检测值Zt,j,t代表不同的检测靶标;
所述建模单元,用于通过机器学习的方法,使用所述已知真实结果的样本,构建基于特征分组检测值{Zt,j}的机器学习装置的训练集,得到学习装置;
所述待测样品结果输出单元,用于针对待测样本,通过统计基于同格式的Zt,j和Di,j的特征分组检测值特征深度向量,并将其导入至建模单元构建的学习装置后,根据预测的标签对检测结果进行精细区分。
10.上述的用于检测孕妇血浆游离DNA中胎儿非整倍体和拷贝数变异的方法或上述的用于检测孕妇血浆游离DNA中胎儿非整倍体和拷贝数变异的装置在基因检测领域中的应用。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将对本发明涉及的技术方案进行清楚、完整地描述,显然,所描述的具体实施方案仅仅是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
术语解释:
(1)非整倍体(Aneuploid),是整倍体染色体中缺少或额外增加一条或若干条染色体,一般是在减数分裂时一对同源染色体不分离或提前分离而形成n-1或721的配子。其组成与通常的多倍体结构不同,染色体或者染色体片段或成倍丢失。个体染色体数目不是成倍增加或者减少,而是成单个或几个的增添或减少。非整倍体的形成机制非整倍体的产生原因多数是在细胞分裂时,由于染色体不分离、丢失而引起的。
(2)测序深度是指测序得到的碱基总量(bp)与基因组(Genome)大小的比值,它是评价测序量的指标之一。超低测序深度例如可以为0.1x。
(3)单端测序(Single-End sequencing)是指首先将DNA样本进行片段化处理形成200-500bp的片段,引物序列连接到DNA片段的一端,然后末端加上接头,将片段固定在flowcell上生成DNA簇,上机测序单端读取序列。
(4)双端测序(Paired-end sequencing)是指在构建待测DNA文库时在两端的接头上都加上测序引物结合位点,在第一轮测序完成后,去除第一轮测序的模版链,用对读测序模块(Paired-End Module)引导互补链在原位置再生和扩增,以达到第二轮测序所用的模版量,进行第二轮互补链的合成测序。
(5)Reads:read的复数,高通量测序平台产生的一段短测序片段序列。
(6)Unique reads:是指唯一比对到基因组上的reads。在测序过程中,有些reads可以同时比对到基因组多个位置,Unique reads则是从所有非dup的reads中过滤掉这些多处比对的reads,剩下的就是unique reads。
(7)Mapability:对于某些窗口,短序列唯一性较低,主要原因可能是因为来自异染色质大片的重复序列或更复杂的生物学原因,此时利用Mapability这个参数算每个窗口的效率。
(8)Genomic GC:该参数代表每个窗口对应的基因组GC。
(9)Reads GC:每个窗口中所有reads对应的GC。
(10)Unique reads GC:代表每个窗口中unique reads对应的GC。
本发明第一方面提供了一种用于检测孕妇血浆游离DNA中胎儿非整倍体和拷贝数变异的方法,包括以下步骤:
步骤1、基于非靶向全基因组测序,得到测序数据,以期对测序模版进行分组并产生可分析的子文库;
步骤2、提取所述测序数据中不同基因组区间的测序深度信息Di,其中,Di为基因组上的第i个单位计数窗口;
步骤3、对于每一个测序模版,根据从测序数据中提取的特征向量/矩阵进行分组Sj,j∈(1,2,3......,N);并统计和提取来自不同的分组子文库的基因组区间的深度信息Di,j,Di,j为Sj分组下在第i个计数窗口的基因组深度信息;
步骤4、通过对不同的分组进行全基因组范围内的非整倍体和拷贝数变异的检测,以输出不同分组的非整倍体和拷贝数变异所对应的检测值Zt,j,t代表不同的检测靶标;
步骤5、通过机器学习的方法,使用所述已知真实结果的样本,构建基于特征分组检测值{Zt,j}的机器学习装置的训练集,得到学习装置;
步骤6、针对待测样本,通过统计基于同格式的Zt,j和Di,j的特征分组检测值特征深度向量,并将其导入至步骤5构建的学习装置后,根据预测的标签对检测结果进行精细区分。
在本发明中,“精细区分”指可以将待测样本区分为阴性和阳性;优选地,可以将待测样本区分为阴性、胎源阳性和母源阳性;更优选地,可以将待测样本区分为阴性、胎源阳性、母源阳性和嵌合体。
根据本发明的方法,所述非靶向全基因组测序的方法可以选自甲基化测序、双端短序列测序和单端全长测序中的至少一种。
根据本发明的方法,深度信息例如但不限于选自Reads、Unique reads、Mapability、Genomic GC、Reads GC、Unique reads GC中的至少一种。
根据本发明的方法,所述特征向量/矩阵选自插入片段长度、序列末端碱基分布频率。或者还可以包括具有表观遗传学特征的特征向量/矩阵。在本发明中,“特征向量/矩阵”可以为特征向量、矩阵或数值。
根据本发明的方法,对于建库方法和测序平台并无要求。具体地,建库方法例如但不限于使用NIPT建库试剂盒(例如国械注册号20173400331)建库。测序平台例如但不限于使用NextSeq 550AR基因测序仪PE75读长模式。分析方法例如但不限于BMMPA注册证号20192210692。
根据本发明的方法,计数窗口的个数与测序深度以及所要分辨的变异大小存在着逻辑关系,至少应保证单位区间有足够统计意义的稳定模版个数以保证方法学的稳定性和精度,由于胎儿游离DNA的含量在血浆中占比较低,此单位区间的测序模版数理论上不应小于平均胎儿浓度的倒数。
根据本发明的方法,对于每一个测序模版,根据从测序数据中提取的特征向量/矩阵进行分组,得到不同的分组Sj,j∈(1,2,3......,N)。其中,所述分组的方法可以根据分析需要而定,例如基于典型特征值或基于无监督分类器的有限聚类分组。在本发明中,不同的分组间可以存在交集,例如但不限于,S1=1~128,S2=109~166,S3=140~223。
根据本发明的方法,统计和提取来自不同的分组的基因组区间的深度信息Di,j,Di,j为Sj分组下在第i个计数窗口的基因组深度信息,例如D1,1,D1,2,D1,3等。
根据本发明的方法,通过不同的分组进行全基因组范围内的非整倍体和拷贝数变异的检测,以输出非整倍体和拷贝数变异所对应的检测值Zt,j,t代表不同的检测靶标。检测靶标也可以理解为检测目标,例如但不限于13号染色体三体、18号染色体三体、21号染色体三体、任何拷贝数变异综合征。对应地,Zt,j可以表示为Z13,j、Z18,j、Z21,j、ZCNV,j,j∈(1,2,3......,N)。
根据本发明的方法,所述构建基于特征分组检测值{Zt,j}的机器学习装置的训练集的方法包括:输入数据,构建分类器模型处理所述输入数据,得到检测靶标的判定结果,然后进行标签归类,得到已知标签。在后续的分析中,使用所述已知标签对待测样本的检测结果进行分类评价。
根据本发明的方法,所述标签归类的类型选自阴性和阳性;优选地,所述标签归类的类型选自阴性、胎源阳性和母源阳性;更优选地,所述标签归类的类型选自阴性、胎源阳性、母源阳性和嵌合体。例如但不限于胎源阳性、母源阳性、嵌合体或胎源阴性。在本发明中,阴性可以包括胎源阴性。例如样本经临床羊水穿刺后验证,胎儿并非13号染色体的三体综合症,而该样本的对应的胎盘存在13号染色体三体的嵌合体,故此样本给予‘嵌合体或胎源阴性’这个分类标签用于模型训练。在本发明中还包括‘胎源阳性’和‘母源阳性’分类标签,胎源阳性指通过对检测值判断为对应靶标阳性且通过穿刺验证胎儿存在该靶标的异常;母源阳性指通过对检测值判断为对应靶标阳性但通过穿刺验证胎儿和胎盘均不存在该靶标的异常但母亲的体细胞存在该靶标异常。
根据本发明的方法,所述输入数据选自Di、Sj、Di,j、Zt,j
根据本发明的方法,所述分类器模型选自逻辑回归、随机森林、支持向量、线性回归、决策树和神经网络中的至少一种。根据一定数量的已知样本的胎源阳性和胎源阴性(假阳性)的信息,使用以上样本的多维度靶标检测值向量(Di,j,Zt,j),同时也可纳入不限于以上所述的检测值和胎儿浓度的其他于临床靶标有定性预测能力的其他统计量作为输入向量,进行机器学习的训练步骤。预设的类型个数可以为对应已知阴阳性的0或1的二分法,本装置并不限制分类器的选择,可以使用如逻辑回归,随机森林,支持向量机等常见可以处理数值变量的分类器。通过类似交叉检验的方式选取最优的训练模型用于待测样本的评价。同时可以通过分类器模型的内部结构和权重可以选取或构建用于可视化的中间变量。
根据本发明的方法,采用一定数量的已知真实结果的样本重复步骤1至步骤4,然后将其根据插入片段分组的多维度靶标检测值向量(Di,j,Zt,j)导入步骤5中预训练的模型进行分类预测,最终得到学习装置。在本发明中,一定数量可以根据需要而定,数量的增加与结果的准确性具有正相关性,但与此同时也需考虑成本及经济性等因素。
在本发明中,步骤6、针对待测样本,通过统计基于同格式的Zt,j和Di,j的特征分组检测值特征深度向量,并将其导入至步骤5构建的学习装置后,根据预测的标签对检测结果进行精细区分。其中,基于同格式的Zt,j和Di,j的特征分组检测值特征深度向量的获得方式可以根据步骤1至步骤4的方式获得。
根据本发明的具体的实施方式,一种用于检测孕妇血浆游离DNA中胎儿非整倍体和拷贝数变异的方法,包括以下步骤:
1、基于常规非靶向全基因组测序方式,获取携带生物学上在不同组织细胞来源下存在已知差异的特征向量/矩阵,包括但不限于插入片段长度以及序列末端碱基分布频率。此方法对于建库方法和测序平台并无要求,对于特征向量/矩阵的提取方法包括但不限于,甲基化测序,双端短序列测序和单端全长测序等,以期获得携带特定溯源性特征向量/矩阵作为本装置的输入数据;
2、提取测序数据中不同基因组区间的测序深度信息Di(为基因组上的第i个单个计数窗口)作为输入数据。计数窗口的个数与测序深度以及所要分辨的变异大小存在一定的逻辑关系,至少应保证单位区间有足够统计意义的稳定模版个数以保证方法学的稳定性和精度,由于胎儿游离DNA的含量在血浆中占比较低,此单位区间的测序模版数理论上不应小于平均胎儿浓度的倒数;
3、对于每一个测序模版,根据从测序数据中提取的特征向量/矩阵进行分组,分组方法包含但不限于基于已知的典型特征值,或者基于无监督分类器的有限聚类分组。进一步统计和提取来自不同特征分组的基因组区间的深度信息Dij,j∈(1,21......N),Sj为不同的模版分组,不同的分组间可以存在交集,Dij为Sj这个分组下在第i个计数窗口的基因组深度信息;
4、通过不同的Dj分组进行全基因组范围内的非整倍体和拷贝数变异的检测,可以使用常规分析方法,以期输出常见的各种非整倍体和拷贝数变异所对应的检测值,将此检测值Zt,j作为本装置的输入数据,t代表不同的检测靶标例如13号染色体三体,或某个拷贝数变异综合症;
5、通过机器学习的方法,使用一定数量已知真实结果的样本,构建基于特征分组检测值{Zt,j}的机器学习装置的训练集,使用已知检测靶标的诊断结果作为已知标签,包含但不限于胎源/母源/嵌合体/阴性等,用于待测样本的检测结果的分类评价;
6、针对新的待测样本,通过统计基于同格式的Zt,j和Dij的特征分组检测值特征深度向量,并将其导入至构建好的学习装置后,根据预测的标签对于检测结果进行进一步的精细区分。
本发明第二方面提供了一种用于检测孕妇血浆游离DNA中胎儿非整倍体和拷贝数变异的装置,包括数据获取单元、划分窗口单元、分组单元、非整倍体和拷贝数变异检测单元、建模单元和待测样品结果输出单元;其中,
所述数据获取单元,基于非靶向全基因组测序,得到测序数据,以期对测序模版进行分组并产生可分析的子文库;
所述划分窗口单元,用于提取所述测序数据中不同基因组区间的测序深度信息Di,其中,Di为基因组上的第i个单位计数窗口;
所述分组单元,用于对于每一个测序模版,根据从测序数据中提取的特征向量/矩阵进行分组,得到不同的分组Sj,j∈(1,2,3......,N);并统计和提取来自不同的分组子文库的基因组区间的深度信息Di,j,Di,j为Sj分组下在第i个计数窗口的基因组深度信息;
所述非整倍体和拷贝数变异检测单元,用于通过对不同的分组进行全基因组范围内的非整倍体和拷贝数变异的检测,以输出不同分组的非整倍体和拷贝数变异所对应的检测值Zt,j,t代表不同的检测靶标;
所述建模单元,用于通过机器学习的方法,使用所述已知真实结果的样本,构建基于特征分组检测值{Zt,j}的机器学习装置的训练集,得到学习装置;
所述待测样品结果输出单元,用于针对待测样本,通过统计基于同格式的Zt,j和Di,j的特征分组检测值特征深度向量,并将其导入至建模单元构建的学习装置后,根据预测的标签对检测结果进行精细区分。
在本发明中,所述特征向量/矩阵选自插入片段长度、序列末端碱基分布频率。
在本发明中,所述非靶向全基因组测序的方法选自甲基化测序、双端短序列测序和单端全长测序中的至少一种。
在本发明中,对于建库方法和测序平台并无要求。
在本发明中,计数窗口的个数与测序深度以及所要分辨的变异大小存在着逻辑关系,至少应保证单位区间有足够统计意义的稳定模版个数以保证方法学的稳定性和精度,由于胎儿游离DNA的含量在血浆中占比较低,此单位区间的测序模版数理论上不应小于平均胎儿浓度的倒数。
在本发明中,对于每一个测序模版,根据从测序数据中提取的特征向量/矩阵进行分组Sj,j∈(1,2,3......,N)。其中,所述分组的方法可以根据分析需要而定,例如基于典型特征值或基于无监督分类器的有限聚类分组。在本发明中,不同的分组间可以存在交集,例如但不限于,S1=1~128,S2=109~166,S3=140~223。
在本发明中,统计和提取来自不同的分组的基因组区间的深度信息Di,j,Di,j为Sj分组下在第i个计数窗口的基因组深度信息,例如D1,1,D1,2,D1,3等。
在本发明中,所述深度信息选自Reads、Unique reads、Mapability、Genomic GC、Reads GC、Unique reads GC中的至少一种。
在本发明中,通过不同的分组进行全基因组范围内的非整倍体和拷贝数变异的检测,以输出非整倍体和拷贝数变异所对应的检测值Zt,j,t代表不同的检测靶标。检测靶标也可以理解为检测目标,例如但不限于13号染色体三体、18号染色体三体、21号染色体三体、任何拷贝数变异综合征。对应地,Zt,j可以表示为Z13,j、Z18,j、Z21,j、ZCNV,j等。
在本发明中,所述构建基于特征分组检测值{Zt,j}的机器学习装置的训练集的方法包括:输入数据,构建分类器模型处理所述输入数据,得到检测靶标的判定结果,然后进行标签归类,得到已知标签。
在本发明中,所述输入数据选自Di、Sj、Di,j、Zt,j
在本发明中,所述分类器模型选自逻辑回归、随机森林、支持向量、线性回归、决策树和神经网络中的至少一种。根据一定数量的已知样本的胎源阳性和胎源阴性(假阳性)的信息,使用以上样本的多维度靶标检测值向量(Di,j,Zt,j),同时也可纳入不限于以上所述的检测值和胎儿浓度的其他于临床靶标有定性预测能力的其他统计量作为输入向量,进行机器学习的训练步骤。预设的类型个数可以为对应已知阴阳性的0或1的二分法,本装置并不限制分类器的选择,可以使用如逻辑回归,随机森林,支持向量机等常见可以处理数值变量的分类器。通过类似交叉检验的方式选取最优的训练模型用于待测样本的评价。同时可以通过分类器模型的内部结构和权重可以选取或构建用于可视化的中间变量。
在本发明中,标签归类的类型选自阴性和阳性;优选地,所述标签归类的类型选自阴性、胎源阳性和母源阳性;更优选地,所述标签归类的类型选自阴性、胎源阳性、母源阳性和嵌合体。例如样本经临床羊水穿刺后验证,胎儿并非13号染色体的三体综合症,而该样本的对应的胎盘存在13号染色体三体的嵌合体,故此样本给予‘嵌合体或胎源阴性’这个分类标签用于模型训练。在本发明中还包括‘胎源阳性’和‘母源阳性’分类标签,胎源阳性指通过对检测值判断为对应靶标阳性且通过穿刺验证胎儿存在该靶标的异常;母源阳性指通过对检测值判断为对应靶标阳性但通过穿刺验证胎儿和胎盘均不存在该靶标的异常但母亲的体细胞存在该靶标异常。
在本发明中,采用一定数量的已知真实结果的样本重复步骤1至步骤4,然后将其根据插入片段分组的多维度靶标检测值向量(Di,j,Zt,j)导入步骤5中预训练的模型进行分类预测,最终得到学习装置。在本发明中,一定数量可以根据需要而定,数量的增加与结果的准确性具有正相关性,但与此同时也需考虑成本及经济性等因素。
本发明第三方面提供了上述的用于检测孕妇血浆游离DNA中胎儿非整倍体和拷贝数变异的方法或上述的用于检测孕妇血浆游离DNA中胎儿非整倍体和拷贝数变异的装置在基因检测领域中的应用。
本发明的有益效果:
(1)采用本发明的方法和装置,能够精确区分胎儿携带的变异和母体携带的变异。
(2)本发明提供的方法和装置,兼容性强、适用性广、成本低、不需要设计探针,只需要超低的测序深度即可实现对胎儿游离DNA基因组的非整倍体和拷贝数变异的精确区分和检测。
下面参考具体实施例,对本发明进行说明,需要说明的是,这些实施例仅仅是说明性的,而不能理解为对本发明的限制。
【实施例1】
一种用于检测孕妇血浆游离DNA中胎儿非整倍体和拷贝数变异的方法:
步骤1、收集已知真实结果的产前外周血样本,使用5mL外周血提取游离DNA,得到样本ALB73W04375。使用NIPT建库试剂盒(国械注册号20173400331)建库。测序平台使用NextSeq 550AR基因测序仪PE75模式,产生30M左右的测序数据。
步骤2、提取测序数据中不同基因组区间的测序深度信息Di,其中,Di为基因组上的第i个单位计数窗口。深度信息包括Unique reads。
步骤3、通过双端序列比对,将每一个测序模版的插入片段大小进行估计,将插入片段的长度作为模版分组Sj的特征向量。根据有一定生物学意义的分组,其中胎儿来源的模版偏短,将每个模版按插入片段这个特征向量分入S1=1~128,S2=109~166,S3=140~223三个有交集的不同的组别。并统计和提取来自不同的分组的基因组区间的深度信息Di,j,Di,j为Sj分组下在第i个计数窗口的基因组深度信息,样本ALB73W04375总文库在chr1上的第一个单位区间内Unique reads,以及相应的3个不同片段组别的子文库在同一个单位区间内的Unique reads如下表1所示。
表1
染色体 Unique reads
D1 chr1 1021
D1,1 chr1 125
D1,2 chr1 100
D1,3 chr1 49
步骤4、针对步骤3产生的每一组测序模版,使用常规分析方法BMMPA注册证号20192210692,对基因组单位区间内测序模版的总量Di,j进行建模,产生胎儿染色体非整倍体的检测值Zt,j,以及其他和检测相关的胎儿数量特征(胎儿浓度)。样本ALB73W04375的Z13,j和Zfc,j如下表,按建库试剂盒(国械注册号20173400331)的说明书所示,S1组的Z13值大于4,属于阳性结果,但另外2个子集的对应检测值均落在灰区3以下,不属于阳性结果,如下表2所示。
表2
t\j S1=1~128 S2=109~166 S3=140~223
Z13,j 4.079794437 2.971799521 1.302150172
Zfc,j 0.32948574 0.278243513 0.066748496
其中,Z13,j代表j组13号染色体三体的检测值,Zfc,j代表j组胎儿浓度的检测值。
步骤5、根据已知样本的胎源阳性和胎源阴性(假阳性)的信息,使用样本ALB73W04375的多维度靶标检测值向量(Di,j,Zt,j),进行机器学习的训练步骤。预设的类型个数可以为对应已知阴阳性的0或1的二分法,使用逻辑回归处理数值变量的分类器。通过交叉检验的方式选取最优的训练模型用于待测样本的评价。同时通过分类器模型的内部结构和权重可以选取或构建用于可视化的中间变量。样本ALB73W04375经临床羊水穿刺后验证,胎儿并非13号染色体的三体综合症,而该样本的对应的胎盘存在13号染色体三体的嵌合体,故此样本给予‘嵌合体或胎源阴性’这个分类标签用于模型训练。
此外,根据一定数量的已知样本的胎源阳性和胎源阴性(假阳性)的信息,使用以上样本的多维度靶标检测值向量(Di,j,Zt,j),得到‘胎源阳性’和‘母源阳性’两个分类标签,胎源阳性指通过对检测值判断为对应靶标阳性且通过穿刺验证胎儿存在该靶标的异常;母源阳性指通过对检测值判断为对应靶标阳性但通过穿刺验证胎儿和胎盘均不存在该靶标的异常但母亲的体细胞存在该靶标异常。
共建立‘嵌合体或胎源阴性’、‘胎源阳性’和‘母源阳性’三个分类标签,最终得到学习装置。
步骤6、对12个待测样本通过统计基于同格式的Zt,j和Di,j的特征分组检测值特征深度向量,并将其导入至步骤5构建的学习装置后,根据预测的标签对检测结果进行精细区分,具体地,对12个待测样本重复上述步骤1-4的步骤,然后将其根据插入片段分组的多维度靶标检测值向量(Di,j,Zt,j)导入步骤5中预训练的模型(学习装置)进行分类预测。结果如下表3所示。
表3
预测值\真实值 胎源阳性 母源阳性 嵌合体或胎源阴性
胎源阳性 5 0 0
母源阳性 0 1 0
嵌合体或胎源阴性 0 0 6
随后将12个待测样本的结果与临床诊断结果进行比对,结果显示一致性100%。
【对比例1】
一种用于检测孕妇血浆游离DNA中胎儿非整倍体和拷贝数变异的方法:
步骤1、收集已知真实结果的产前外周血样本,使用5ml外周血提取游离DNA,得到样本ALB73W04375。使用NIPT建库试剂盒(国械注册号20173400331)建库。测序平台使用NextSeq 550AR基因测序仪PE75模式,产生30M左右的测序模版。
步骤2、通过常规分析方法BMMPA注册证号20192210692,对基因组单位区间内测序模版的总量Di进行建模,产生胎儿染色体非整倍体的检测值Zt。样本ALB73W04375的总文库的Z13值大于4(见表4),按建库试剂盒(国械注册号20173400331)的说明书所示属于阳性结果。
表4
Z13 Zfc
ALB73W04375 9.10801616 0.461583297
其中,Z13代表13号染色体三体的检测值,Zfc代表胎儿浓度的检测值。
【对比例2】
一种用于检测孕妇血浆游离DNA中胎儿非整倍体和拷贝数变异的方法:
步骤1、对实施例1的12个待测样本的产前外周血样本,使用5ml外周血提取游离DNA。使用NIPT建库试剂盒(国械注册号20173400331)建库。测序平台使用NextSeq 550AR基因测序仪PE75模式,产生30M左右的测序模版。
步骤2、通过常规分析方法BMMPA注册证号20192210692,对基因组单位区间内测序模版的总量Di进行建模,产生胎儿染色体非整倍体的检测值Zt。结果如下表5所示。
表5
通过实施例1和对比例1的结果能够看出,ALB73W04375采用常规方法检测,结果为阳性;而采用本发明的方法,被归为嵌合体或胎源阴性,并非阳性结果。
通过实施例1和对比例2的结果能够看出,测试组12个待测样本采用传统方法学(对比例2)下报出阳性(胎源)的样本的结果评价,而采用本发明方法可实现对阳性结果的进一步精确细分,并且针对性地将一部分已知的假阳性结果,通过对其模版分组所产生的多维度靶标检测值向量的建模分类,成功地将其进一步分类为胎盘嵌合体(嵌合体或胎源阴性)和母源阳性这两个非胎源阳性的亚型,与临床诊断结果一致性100%。
以上结合具体实施例描述了本发明的基本原理,但是,需要指出的是,在本发明中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本发明的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制。

Claims (10)

1.一种用于检测孕妇血浆游离DNA中胎儿非整倍体和拷贝数变异的方法,包括以下步骤:
步骤1、基于非靶向全基因组测序,得到测序数据,以期对测序模版进行分组并产生可分析的子文库;
步骤2、提取所述测序数据中不同基因组区间的测序深度信息Di,其中,Di为基因组上的第i个单位计数窗口;
步骤3、对于每一个测序模版,根据从测序数据中提取的特征向量/矩阵进行分组,得到不同的分组Sj,j∈(1,2,3......,N);并统计和提取来自不同的分组子文库的基因组区间的深度信息Di,j,Di,j为Sj分组下在第i个计数窗口的基因组深度信息;
步骤4、通过对不同的分组进行全基因组范围内的非整倍体和拷贝数变异的检测,以输出不同分组的非整倍体和拷贝数变异所对应的检测值Zt,j,t代表不同的检测靶标;
步骤5、通过机器学习的方法,使用所述已知真实结果的样本,构建基于特征分组检测值{Zt,j}的机器学习装置的训练集,得到学习装置;
步骤6、针对待测样本,通过统计基于同格式的Zt,j和Di,j的特征分组检测值特征深度向量,并将其导入至步骤5构建的学习装置后,根据预测的标签对检测结果进行精细区分。
2.根据权利要求1所述的方法,其特征在于,所述非靶向全基因组测序的方法选自甲基化测序、双端短序列测序和单端全长测序中的至少一种。
3.根据权利要求1所述的方法,其特征在于,所述深度信息选自Reads、Unique reads、Mapability、Genomic GC、Reads GC、Unique reads GC中的至少一种。
4.根据权利要求1所述的方法,其特征在于,所述特征向量/矩阵选自插入片段长度、序列末端碱基分布频率。
5.根据权利要求1所述的方法,其特征在于,所述构建基于特征分组检测值{Zt,j}的机器学习装置的训练集的方法包括:输入数据,构建分类器模型处理所述输入数据,得到检测靶标的判定结果,然后进行标签归类,得到已知标签。
6.根据权利要求5所述的方法,其特征在于,所述输入数据选自Di、Sj、Di,j、Zt,j
7.根据权利要求5所述的方法,其特征在于,所述分类器模型选自逻辑回归、随机森林、支持向量、线性回归、决策树和神经网络中的至少一种。
8.根据权利要求5所述的方法,其特征在于,标签归类的类型选自阴性和阳性;优选地,所述标签归类的类型选自阴性、胎源阳性和母源阳性;更优选地,所述标签归类的类型选自阴性、胎源阳性、母源阳性和嵌合体。
9.一种用于检测孕妇血浆游离DNA中胎儿非整倍体和拷贝数变异的装置,包括数据获取单元、划分窗口单元、分组单元、非整倍体和拷贝数变异检测单元、建模单元和待测样品结果输出单元;其中,
所述数据获取单元,基于非靶向全基因组测序,用于得到测序数据,以期对测序模版进行分组并产生可分析的子文库;
所述划分窗口单元,用于提取所述测序数据中不同基因组区间的测序深度信息Di,其中,Di为基因组上的第i个单位计数窗口;
所述分组单元,用于对于每一个测序模版,根据从测序数据中提取的特征向量/矩阵进行分组,得到不同的分组Sj,j∈(1,2,3......,N);并统计和提取来自不同的分组子文库的基因组区间的深度信息Di,j,Di,j为Sj分组下在第i个计数窗口的基因组深度信息;
所述非整倍体和拷贝数变异检测单元,用于通过对不同的分组进行全基因组范围内的非整倍体和拷贝数变异的检测,以输出不同分组的非整倍体和拷贝数变异所对应的检测值Zt,j,t代表不同的检测靶标;
所述建模单元,用于通过机器学习的方法,使用所述已知真实结果的样本,构建基于特征分组检测值{Zt,j}的机器学习装置的训练集,得到学习装置;
所述待测样品结果输出单元,用于针对待测样本,通过统计基于同格式的Zt,j和Di,j的特征分组检测值特征深度向量,并将其导入至建模单元构建的学习装置后,根据预测的标签对检测结果进行精细区分。
10.权利要求1-8中任一项所述的用于检测孕妇血浆游离DNA中胎儿非整倍体和拷贝数变异的方法或权利要求9所述的用于检测孕妇血浆游离DNA中胎儿非整倍体和拷贝数变异的装置在基因检测领域中的应用。
CN202311069138.2A 2022-12-28 2023-08-23 用于检测孕妇血浆游离dna中胎儿非整倍体和拷贝数变异的方法和装置及应用 Pending CN117095745A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2022116953539 2022-12-28
CN202211695353 2022-12-28

Publications (1)

Publication Number Publication Date
CN117095745A true CN117095745A (zh) 2023-11-21

Family

ID=88783197

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311069138.2A Pending CN117095745A (zh) 2022-12-28 2023-08-23 用于检测孕妇血浆游离dna中胎儿非整倍体和拷贝数变异的方法和装置及应用

Country Status (1)

Country Link
CN (1) CN117095745A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117935914A (zh) * 2024-03-22 2024-04-26 北京求臻医学检验实验室有限公司 一种意义未明的克隆性造血识别及其应用方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117935914A (zh) * 2024-03-22 2024-04-26 北京求臻医学检验实验室有限公司 一种意义未明的克隆性造血识别及其应用方法

Similar Documents

Publication Publication Date Title
CN105296606B (zh) 确定生物样本中游离核酸比例的方法、装置及其用途
CN107133495B (zh) 一种非整倍性生物信息的分析方法和分析系统
CN103874767B (zh) 对核酸样本中预定区域进行基因分型的方法和系统
CN104221022B (zh) 一种拷贝数变异检测方法和系统
CN113366122B (zh) 游离dna末端特征
CN111968701B (zh) 检测指定基因组区域体细胞拷贝数变异的方法和装置
CN108604258B (zh) 染色体异常判断方法
CN108319813A (zh) 循环肿瘤dna拷贝数变异的检测方法和装置
WO2013026411A1 (zh) 单细胞分类方法、基因筛选方法及其装置
CN104781422A (zh) 从血浆无创测定胎儿或肿瘤的甲基化组
CN104951671B (zh) 基于单样本外周血检测胎儿染色体非整倍性的装置
CN110846411A (zh) 一种基于二代测序的单独肿瘤样本区分基因突变类型的方法
CN106537401A (zh) 使用母体血清dna预测胎儿单基因遗传变异的方法
CN117095745A (zh) 用于检测孕妇血浆游离dna中胎儿非整倍体和拷贝数变异的方法和装置及应用
CN105555970A (zh) 同时进行单体型分析和染色体非整倍性检测的方法和系统
CN109461473B (zh) 胎儿游离dna浓度获取方法和装置
CN108460248B (zh) 一种基于Bionano平台检测长串联重复序列的方法
CN110373458A (zh) 一种地中海贫血检测的试剂盒及分析系统
CN116844638A (zh) 一种基于高通量转录组测序的儿童急性白血病分型系统及方法
CN108229099A (zh) 数据处理方法、装置、存储介质及处理器
CN113496761B (zh) 确定核酸样本中cnv的方法、装置及应用
KR102519739B1 (ko) 2단계 Z-score에 기반한 비침습적 산전 검사 방법 및 장치
CN110475874A (zh) 脱靶序列在dna分析中的应用
CN116168761B (zh) 核酸序列特征区域确定方法、装置、电子设备及存储介质
AU2019480813B2 (en) Methods for determining chromosome aneuploidy and constructing classification model, and device

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination