CN112712853A - 一种无创产前检测装置 - Google Patents

一种无创产前检测装置 Download PDF

Info

Publication number
CN112712853A
CN112712853A CN202011629295.0A CN202011629295A CN112712853A CN 112712853 A CN112712853 A CN 112712853A CN 202011629295 A CN202011629295 A CN 202011629295A CN 112712853 A CN112712853 A CN 112712853A
Authority
CN
China
Prior art keywords
sample
cnv
value
ratio
window
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011629295.0A
Other languages
English (en)
Other versions
CN112712853B (zh
Inventor
张静波
王伟伟
李小雨
伍启熹
王建伟
刘倩
唐宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Usci Medical Laboratory Co ltd
Original Assignee
Beijing Usci Medical Laboratory Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Usci Medical Laboratory Co ltd filed Critical Beijing Usci Medical Laboratory Co ltd
Priority to CN202011629295.0A priority Critical patent/CN112712853B/zh
Publication of CN112712853A publication Critical patent/CN112712853A/zh
Application granted granted Critical
Publication of CN112712853B publication Critical patent/CN112712853B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • General Engineering & Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及生物信息学技术领域,具体公开了一种无创产前检测装置。所述装置包括:检测模块、数据质控及预处理模块、数据校正及处理模块和判断模块;通过数据校正及处理模块构建动态数据库以再次重新校正不同染色体基线带来的偏差,并配合后续PCA降噪、母源CNV的识别筛选和CBS算法对窗口Z值的分割等方式,从而有效的降低了批次偏差造成的影响,避免了由于批次偏差导致的假阴或者假阳;还避免了应用待测批次样本做参考集,从而避免由于样本量少,造成的结果不准确;减少了灰区样本数量,降低了检测成本,缩短了检测周期。

Description

一种无创产前检测装置
技术领域
本发明涉及生物信息学技术领域,具体地说,涉及一种无创产前检测装置。
背景技术
无创产前检测(noninvasive prenatal testing,简称NIPT)是一项非侵入性的孕期产检技术,这项技术是建立在孕妇外周血中存在着胎儿游离的DNA这一科学发现的基础上的检测技术,具有很高的检测准确性,同时可以避免绒毛活检术、羊膜穿刺术和经腹静脉穿刺术等侵入性检测所带来的流产和宫内感染风险。
NIPT检测技术原理是通过抽取孕妇外周血,提取出血浆游离DNA,构建二代测序文库,利用二代测序仪得到孕妇血浆游离DNA的序列信息。利用Z检验方法比较染色体的含量与阴性对照集的差异,从而得到胎儿患病的风险。然而,测序试验中可以观察到批次效应,它的原因包括试验分析操作人员,时间、平台、实验室环境等。由于这些非生物因素的影响容易产生批次效应。如果不消除批次效应,对分析结果会产生很大的影响,容易造成假阴或者假阳。同时,位于灰区的样本也会增加,需对数据重新验证,从而增加检测成本及检测周期。CBS是目前检测CNV断点的主流算法之一。特点是分段结果稳定,对低浓度的断点检测灵敏性高。但是也有几个缺点:对波动较大的数据分段过于琐碎;没有提供是否属于CNV的信息;对于不同的数据需要调试不同的阈值。
因此,需要提供一种新的无创产前检测装置以解决现有技术的问题。
发明内容
针对已有的NIPT检测技术的以下缺点:
1、未考虑批次偏差的影响,造成假阴或者假阳;
2、若应用本批次样本作为对照参考集,样本数较少,导致染色体含量的SD偏大,则Z值偏小,容易造成假阴;
3、灰区样本数较大,检测成本较高及检测周期较长。
本发明提出了一种有效降低批次偏差、检测周期短、检测精度高的无创产前检测装置。
为了实现本发明的发明目的,本发明的技术方案如下:
一种无创产前检测装置,所述装置包括:检测模块、数据质控及预处理模块、数据校正及处理模块和判断模块;
所述数据校正及处理模块:用于将待测孕妇样本基因组通过质控、窗口划分后获得的每个bin的ratio中的重复序列和群组CNV剔除后,进行GC校正和不同染色体基线带来的偏差校正,获得每个bin的含量x,并进一步根据动态数据库再次重新校正不同染色体基线带来的偏差;
所述动态数据库的构建方法如下:
根据整个待测样本批次中的t个待测样本S的每个bin的含量x对参考数据库中的所有样本R进行筛选,选择参考数据库中d(S,Rj)最小的男性样本a个和女性样本b个,组建针对本批次待测样本常染色体的动态数据库,其中男女性别比例无统计学差异,a+b不小于1000;选择参考数据库中d(S,Rj)最小的男性样本a个和女性样本b个,分别组建针对本批次待测样本性染色体的动态数据库;d(S,Rj)的计算公式如下:
Figure BDA0002878168570000021
其中,S代表所有待测样本,Rj代表参考数据库中的第j个样本,
Figure BDA0002878168570000022
代表t个待测样本中的第l个样本的第i条染色体bin的含量x的均值,
Figure BDA0002878168570000023
代表参考数据库中第j个样本的第i条染色体的bin的含量x的均值。
本发明优化了批次偏差校正的方法,通过特定的动态数据库构建方法获得了针对每一批次待测样本的动态数据库。利用本发明动态数据库有助于选择与批次波动类似的样本,较小批次偏差,提升阴性参考集的效果,使得检测准确性更高。其中,a+b不小于1000,可避免sd偏大,进行Z统计检验时造成假阴的情况。
为了避免一些重复序列的干扰,本发明在GC校正前对其进行了剔除(去除包含基因组串联重复及散在重复序列的bin)。另外,由于参考基因组hg19是欧洲人,在针对不同人群检测时,会存在一些种群水平上的假定CNV,本发明还对群组CNV进行了剔除。具体可通过叠加所有阴性数据库样本的窗口的reads数,以t检验法剔除离群点(群组CNV)。
除了三体信号等其他干扰因素,GC含量也会对UR ratio造成较大的影响。GC校正可采用平滑样条法(统计每个窗口bin的reads数,并计算人类参考基因组中参考样本对应窗口的GC含量,以通过平滑样条法进行GC校正),尽可能减少误差干扰,有效地判断URratio的值是否有统计学意义上的异常。另外,不同染色体区域有不同的基线覆盖度,尽管GC校正减轻了基线差异,但是远不能消除基线之间的差异。因此,本发明还对不同染色体基线带来的偏差进行了校正。
本发明中,所述数据校正及处理模块还用于在再次重新校正不同染色体基线带来的偏差后,进行PCA降噪;
所述PCA降噪方式为:
分别针对待测样本的常染色体和性染色体,以对应的动态数据库中的每一个阴性参考集样本的数据进行矩阵构建,具体以n个阴性参考集样本的m个bin构造一个n*m的矩阵X,其中每一项都是阴性参考集样本中bin的残差x,首先将X的每一行进行中心化,即减去每行的均值,计算中心化后矩阵X的协方差矩阵XXT,利用特征值分解矩阵得到特征值与特征向量W,将待测样本的残差x,构建1*e的矩阵T,旋转到相同的基上获得T',T'=TW,通过减去前k个主成分重建测试集x';e为待测样本的bin的个数,e=m;
k值的确定:
利用PCA降噪后数据的残差与降噪前数据的残差的比值计算信息损失量L,评估降噪后数据信息丢失的情况来确定k值,具体步骤如下:
将多例通过质控的已知核型结果的阳性样本基因组按100Kb进行窗口划分后合并临近窗口获得窗宽为2Mb的窗口,设置不同的k值,计算阳性区域的信息损失量L,损失量L的计算公式如下:
Figure BDA0002878168570000041
xi代表窗宽为2Mb时的bin的ratio的均值,x′i代表窗宽为2Mb时进行所述PCA降噪后bin的ratio的均值,N代表阳性区域为2Mb窗口的个数;当信息损失量小于0.05时,所对应的k值最终用于待测样本的PCA降噪。
本发明中,所述数据校正及处理模块进行不同染色体基线带来的偏差校正方式为:
通过计算相应数据库中全部正常对照样本的GC校正后的bin的含量的均值和标准差,构建加权线性回归模型,以对应位置校正后bin的ratio的标准差为权重,获得的残差x即为校正后的bin的含量x。
本发明中,所述数据校正及处理模块进一步用于在进行所述PCA降噪后,进行母源CNV识别并剔除不会遗传给后代的母源CNV;
具体识别方式为:当多个连续的经PCA降噪后的bin的含量x的绝对值abs(x)>0.5时,将这些bin合并确定为母源CNV位置,并计算所述母源CNV区域内所包含bin的含量的均值,即为所述母源CNV区域的杂合比hh;
具体剔除方式为:当所述母源CNV区域的杂合比hh=1-FF时,则将所述母源CNV区域予以剔除,当hh=1时,则将所述母源CNV区域予以保留;其中FF为待测样本的胎儿浓度。
由于母体DNA在血浆中的比例远大于胎儿的DNA,因此本发明通过设置阈值来对母体CNV进行检测。
本发明中,所述数据校正及处理模块还用于在剔除不会遗传给后代的母源CNV区域后,利用滑窗方法计算每个窗口的Z值,并利用CBS算法对每个窗口的Z值进行分割,检测CNV断点,再根据检测到的CNV断点获得分割后的CNV片段,依次计算所述分割后的CNV片段的杂合比和Z值。本发明中,Z值的计算公式如下:
Figure BDA0002878168570000051
其中,Rsample代表待测样本每个窗口的ratio或分割后的CNV片段的ratio,每个窗口的ratio为该窗口包含的所有100kb的bin的含量的均值,每个分割后的CNV片段的ratio为该CNV片段包含的所有窗口的bin的含量的均值,meanRreference代表相应的动态数据库中阴性参考集样本与待测样本相对应的窗宽的ratio的均值,sdRreference代表相应的动态数据库中阴性参考集样本与待测样本相对应的窗宽的ratio的标准差。
本发明中,每个窗口的窗宽为2Mb,步长为50kb。
本发明通过滑窗方法计算Z值,从而增强了异常信号,并且通过增大窗口使得数据更加稳定,从而提升了检测结果准确性。
本发明中,所述判断模块:用于根据所述数据校正及处理模块计算得到的分割后的CNV片段的杂合比和Z值进行判断;当分割后的CNV片段的杂合比超出阈值[-1/2*FF,1/2*FF],且该分割后的CNV片段的Z值的绝对值|Z|大于等于3时,判为异常,否则判定为无异常;当判为异常后,若该分割后的CNV片段的Z值大于等于3,则判定为重复,Z值小于等于-3,则判定为缺失。
本发明中,所述检测模块:用于对孕妇外周血游离DNA进行高通量测序,获得待测孕妇样本基因组。
本发明中,所述数据质控及预处理模块:用于将测序得到的待测孕妇样本基因组去除接头及低质量的reads,然后与人类基因组hg19进行比对,剔除未比对上、重复比对及比对到多个位置的reads,仅保留唯一比对上的reads,若unique reads数大于35M,总的GC含量在38%~42%之间,则通过质控;之后,进行窗口划分,窗宽100kb,重叠区域为50kb。
由于NIPT样本测序覆盖度很低,本发明采用基于划分窗口的方法,从而来减小数据的波动并有助于进行GG校正。
本发明的有益效果至少在于:
1.应用动态数据库,有效的降低了批次偏差造成的影响,避免了由于批次偏差导致的假阴或者假阳;还避免了应用待测批次样本做参考集,从而避免由于样本量少,造成的结果不准确;
2.减少了灰区样本数量,降低了检测成本,缩短了检测周期;
3.降低了CNV检测的假阳性,提高了检测精度。
具体实施方式
下面将结合实施例对本发明的优选实施方式进行详细说明。需要理解的是以下实施例的给出仅是为了起到说明的目的,并不是用于对本发明的范围进行限制。本领域的技术人员在不背离本发明的宗旨和精神的情况下,可以对本发明进行各种修改和替换。
下述实施例中所使用的实验方法如无特殊说明,均为常规方法。下述实施例中所用的材料、试剂等,如无特殊说明,均可从商业途径得到。
实施例1
本实施例提供一种以本发明的无创产前检测装置进行染色体变异检测的方法。
所述装置包括:检测模块、数据质控及预处理模块、数据校正及处理模块和判断模块。具体步骤如下:
1、阴性参考集构建
(1)样本选择
选取9000例孕周大于等于12周且核型分析无染色体异常的孕妇样本,男和女比例无统计学差异。提取游离DNA,按高通量方法进行基因组测序,采用单端测序方式获取读长50bp的fastq数据,所用测序平台为华大智造MGISEQ-2000基因测序仪。
(2)数据预处理
将测序数据去除带接头的reads,碱基质量小于5的碱基数大于总碱基数50%的reads,及N碱基数大于总碱基数5%的reads,保留剩余的reads。
(3)比对定位序列位置及质控
将过滤后的reads比对到人类基因组参考序列hg19上,剔除未比对上的reads,重复比对的reads,及比对到多个位置的reads,仅保留唯一比对上的reads,要求数据量大于35M。统计总的GC含量,要求GC含量在38%~42%之间。
(4)分窗统计unique reads数
将阴性参考集的每条染色体分窗统计,窗宽为100kb,滑动步长为50kb。
去除包含基因组串联重复及散在重复序列的bin,通过叠加所有阴性数据库样本的窗口的reads数,t检验法剔除离群点,以去除群组CNV所对应的bin。
(5)GC校正
统计每个窗口bin的reads数,针对人类参考基因组hg19,根据窗宽的划分,计算每个窗口对应的GC含量。利用平滑样条法分别进行校正。之后根据9000例阴性对照样本,计算每个bin的均值和标准差,构建加权线性回归模型,权重为对应位置校正后bin的ratio的标准差,从而校正不同染色体基线带来的偏差,计算出每条染色体的残差x,即为阴性对照样本校正后bin的含量。
(6)动态数据库构建
根据整个待测样本批次中的t个待测样本S的每个bin的含量x对参考数据库(阴性数据库)中的所有样本R(9000例)进行筛选,根据d(S,Rj)的计算公式,选择参考数据库中d(S,Rj)最小的男性样本500例和女性样本500例,组建针对本批次待测样本常染色体的动态数据库;选择参考数据库中d(S,Rj)最小的男性样本500例和女性样本500例,分别组建针对本批次待测样本两个性染色体的动态数据库(男、女各一个)。
d(S,Rj)的计算公式如下:
Figure BDA0002878168570000081
其中,S代表所有待测样本,Rj代表参考数据库中的第j个样本,
Figure BDA0002878168570000082
代表t个待测样本中的第l个样本的第i条染色体bin的含量x的均值,
Figure BDA0002878168570000083
代表参考数据库中第j个样本的第i条染色体的bin的含量x的均值。
其中,通过阈值来判断待测样本的性别,所述阈值由如下方法获得:统计大量流产组织样本的h,h=2c/(1+c),其中,c为样本X染色体bin的ratio的均值与Y染色体bin的ratio的均值之比。根据K均值聚类方法,获得所述阈值。本实施例中所述阈值为0.025。
将待测样本X染色体和Y染色体bin的ratio的均值,代入男胎比例的计算公式h中,当h≥0.025时为男胎,否则为女胎。
分别根据所获得的常染色体的动态数据库和性染色体的动态数据库中的所有样本GC校正后的bin的ratio,计算每个bin的均值和标准差,重新构建加权线性回归模型,权重为对应位置校正后bin的ratio的标准差,分别计算出每条染色体的残差x,即为阴性对照样本重新校正后bin的含量;
(7)PCA算法提取主成分
以所获得的常染色体的动态数据库中的1000例阴性参考集样本的m个bin构造一个1000*m的矩阵X,其中每一项都是阴性参考集样本中bin的ratio,窗宽为100kb时,m为61927。首先将X的每一行进行中心化,即减去每行的均值,计算中心化后矩阵X的协方差矩阵XXT,利用特征值分解矩阵得到常染色体的特征值与特征向量W。
分别以所获得的两个性染色体的动态数据库中的每一个阴性参考集样本以上述方法获得两个性染色体的特征值与特征向量W。
确定测试时所采用的k值:
利用PCA降噪后数据的残差与降噪前数据的残差的比值计算信息损失量L,评估降噪后数据信息丢失的情况来确定k值,具体步骤如下:
将300例通过质控的已知核型结果的阳性样本基因组按100Kb进行窗口划分后合并临近窗口获得窗宽为2Mb的窗口,设置不同的k值,计算阳性区域的信息损失量L,损失量L的计算公式如下:
Figure BDA0002878168570000091
xi代表窗宽为2Mb时的bin的ratio的均值,x′i代表窗宽为2Mb时进行所述PCA降噪后bin的ratio的均值,N代表阳性区域为2Mb窗口的个数;当信息损失量小于0.05时,所对应的k值最终用于待测样本的PCA降噪。本实施例中最终k值确定为8。
2、从上述构建的动态数据库所对应的待测样本批次中选择待测孕妇样本,进行染色体异常分析:
(1)通过检测模块对待测孕妇样本,提取DNA,进行全基因组测序,得到fastq数据。
(2)通过数据质控及预处理模块对测序数据进行去除接头及低质量的reads、剔除非唯一比对上的reads、质控、窗口划分,具体方式与上述阴性参考集构建时的数据处理步骤(2)~(4)中所述相同。
进一步,通过数据校正及处理模块将窗口划分后获得的每个bin的ratio中的重复序列和群组CNV剔除,进行GC校正(具体方式与上述阴性参考集构建时的数据处理步骤(4)~(5)中所述相同)和不同染色体基线带来的偏差校正。
不同染色体基线带来的偏差校正方法如下:根据上述9000例阴性对照样本校正后的bin的ratio(参见阴性参考集构建时的数据处理步骤(5)),计算每个bin的均值和标准差,构建加权线性回归模型,权重为对应位置校正后bin的ratio的标准差,从而校正不同染色体基线带来的偏差,计算出每条染色体的残差x,即为待测样本校正后bin的含量。
(3)按照阴性参考集构建时的数据处理步骤(6)判断待测样本的性别。
通过数据校正及处理模块根据上述构建的动态数据库再次重新校正不同染色体基线带来的偏差。具体根据针对本批次筛选得到的常染色体的动态数据库,计算校正后的bin的ratio的均值和标准差,重新构建加权线性回归模型,权重为对应位置校正后bin的ratio的标准差,计算出每条常染色体的残差x,即为待测样本重新校正后的常染色体的每个bin的ratio。根据针对本批次筛选得到的性染色体的动态数据库进行上述同样操作,计算出待测样本性染色体的残差x,即为待测样本重新校正后的性染色体的每个bin的ratio。
(4)数据校正及处理模块根据上述阴性参考集构建时的数据处理步骤(7)得到的常染色和性染色体的特征值和特征向量W,分别将待测样本的残差x,构建1*e的矩阵T,旋转到相同的基上获得T',T'=TW,通过减去前8个主成分重建测试集x',e为待测样本的bin的个数,e=m。
(5)通过数据校正及处理模块利用发表于美国ACMG会刊《Genetics in Medicine》(August 2019 22(2),DOI:10.1038/s41436-019-0636-5,Minghao Dang;Hanli Xu;JingboZhang,etc.)的文章《Inferring fetal fractions from read heterozygosity empowersthe noninvasive prenatal screening》所述的方法计算胎儿浓度FF。
(6)以数据校正及处理模块进行母源CNV识别并剔除不会遗传给后代的母源CNV;
具体识别、剔除方式为:当多个连续的经PCA降噪后的bin的含量x的绝对值abs(x)>0.5时,将这些bin合并确定为母源CNV位置,并计算所述母源CNV区域内所包含bin的含量的均值,即为所述母源CNV区域的杂合比hh;当所述母源CNV区域的杂合比hh=1-FF时,则将所述母源CNV区域予以剔除,当hh=1时,则将所述母源CNV区域予以保留;其中FF为上述步骤获得的待测样本的胎儿浓度。
以数据校正及处理模块将待测样本的每条染色体的bin按2Mb的窗宽进行合并,步长为50kb,重新划分的2Mb窗口bin的ratio为该窗口包含的所有100kb的bin的ratio的均值。计算相应动态数据库中阴性参考集样本的所有2Mb窗口bin的ratio,并计算每个2Mb窗口bin的均值及标准差。利用Z检验公式,计算每个bin的Z值。
(7)以数据校正及处理模块利用环状二元分割算法(CBS,Circular BinarySegmentation)根据上述计算的每个2Mb窗口bin的Z值识别染色体的断点,并根据断点计算每个分割后的CNV片段segment所包含的2Mb窗口bin的ratio的均值,即该分割后的CNV片段segment的ratio(该分割后的片段的杂合比);并根据断点,计算相应动态数据库中所有阴性参考样本对应片段区域的ratio的均值和标准差,重新计算各分割后的CNV片段segment区域的Z值。
Z值的计算公式如下:
Figure BDA0002878168570000111
其中,Rsample代表待测样本每个窗口的ratio或分割后的CNV片段的ratio,每个窗口的ratio为该窗口包含的所有100kb的bin的含量的均值,每个分割后的CNV片段的ratio为该CNV片段包含的所有2Mb的窗口的bin的含量的均值,meanRreference代表相应的动态数据库中阴性参考集样本与待测样本相对应的窗宽的ratio的均值,sdRreference代表相应的动态数据库中阴性参考集样本与待测样本相对应的窗宽的ratio的标准差。
当计算每个窗口的Z值时,Rsample代表待测样本每个窗口的ratio,当计算各分割后的CNV片段的Z值时,Rsample代表待测样本分割后的CNV片段的ratio。
当计算的窗口或片段在常染色体上时,相应的动态数据库为上述构建的常染色体的动态数据库;当计算的窗口或片段在性染色体上时,相应的动态数据库为上述构建的性染色体的动态数据库。
(8)通过判断模块对各分割后的CNV片段进行判断,设segment片段的ratio阈值[-1/2*FF,1/2*FF],超出阈值范围,且|Z|大于等于3时,判为染色体异常,否则判定为无染色体异常。当判为异常后,若该分割后的CNV片段的Z值大于等于3,则判定为重复,Z值小于等于-3,则判定为缺失。其中,FF为待测样本的胎儿浓度。
实施例2
本实施例利用实施例1所示的方法和对比方法对待测样本进行测试。
(1)选择20例孕妇的外周血进行检测,编号为S1-S20,核型结果显示:1名怀有21号染色体三体胎儿,其余样本均为阴性。
(2)根据本发明实施例1的方法和对比方法对这20例样本进行测试。对比方法与实施例1的方法相同,区别仅在于:不进行动态数据库的构建和使用,也不再重新校正不同染色体基线带来的偏差,采用全部阴性参考集。在对比方法中,当同一批次中|Z|大于等于3的样本数大于本批次总样本数据的一半时,且同一条染色体的Z值均偏大或者偏小时,认为存在批次偏差,不能直接判定样本的结果,需重建库验证。
表1为各待测样本以实施例1和对比方法进行检测时获得的chr13/chr18/chr21的染色体含量,即经上述检测步骤(7)CBS算法获得的分割后的CNV片段segment的ratio(Rsample)和FF。表2为各待测样本以实施例1和对比方法进行检测时获得的meanRreference、sdRreference。表3为各待测样本以实施例1和对比方法进行检测时获得的分割后的CNV片段(chr13/chr18/chr21)的Z值。如表3所示,S18在两种方法(实施例1和对比方法)检测下,结果一致,均为阳性。其余样本以实施例1的方法检测判定均为正常,与核型结果一致。而以对比方法进行检测判定结果出现了多处Z值异常(参见表中加粗的数据),可能由批次偏差导致,无法对待测样本结果直接进行判断。由此可见,本发明采用动态数据库的方法可以校正样本偏差,减少假阳性或者灰区样本。
表1
Figure BDA0002878168570000131
Figure BDA0002878168570000141
表2
Figure BDA0002878168570000142
表3
Figure BDA0002878168570000143
Figure BDA0002878168570000151
实施例3
本实施例利用实施例1所示的方法对待测样本进行测试。
(1)选择30例孕妇的外周血进行检测,编号为T1-T30,核型结果显示:19例21号染色体三体综合征,3例18号染色体三体综合征,1例13号染色体三体综合征,7例微缺失微重复综合征。
(2)利用实施例1对各样本进行检测。
表4为23例非整倍体异常样本检测结果(参见表中加粗的数据),全部与核型结果一致。表5为7例微缺失微重复综合征样本检测结果,全部与核型结果一致,从中可知胎儿浓度为0.052,片段大小约2M的区域也可准确检出。
表4非整倍体异常结果
样本编号 FF ratio_chr13 ratio_chr18 ratio_chr21 Z值_chr13 Z值_chr18 Z值_chr21 核型结果
T1 14.7% -0.002 0.007 0.158 -0.91 2.35 37.26 T21
T2 8.7% -0.003 -0.004 0.090 -1.32 -1.43 21.23 T21
T3 8.1% -0.008 -0.003 0.074 -2.18 -0.98 17.42 T21
T4 8.2% -0.002 -0.005 0.076 -0.59 -1.79 17.98 T21
T5 11.8% -0.003 -0.002 0.110 -1.26 -0.52 25.98 T21
T6 6.3% -0.001 -0.004 0.057 -0.40 -1.28 13.59 T21
T7 7.7% -0.001 -0.002 0.067 -0.21 -0.50 15.80 T21
T8 9.8% 0.001 -0.005 0.092 0.55 -1.55 21.85 T21
T9 12.8% 0.000 0.000 0.119 0.12 -0.01 28.12 T21
T10 7.9% 0.001 0.000 0.077 0.35 0.05 18.09 T21
T11 9.9% -0.012 -0.004 0.089 -2.55 -1.40 21.11 T21
T12 14.1% 0.002 -0.004 0.171 0.71 -1.31 40.39 T21
T13 8.9% -0.007 -0.003 0.070 -2.56 -0.95 16.66 T21
T14 6.3% -0.004 -0.005 0.049 -1.62 -1.71 11.56 T21
T15 12.1% -0.006 -0.001 0.118 -2.21 -0.30 27.97 T21
T16 7.3% -0.003 0.000 0.080 -1.26 -0.09 18.94 T21
T17 7.6% -0.003 -0.002 0.067 -0.97 -0.49 15.87 T21
T18 9.1% 0.002 0.003 0.100 0.91 1.23 23.67 T21
T19 10.6% -0.001 0.001 0.097 -0.43 0.40 22.86 T21
T20 14.8% -0.001 0.145 -0.006 -0.19 49.74 -1.38 T18
T21 6.3% -0.004 0.053 0.001 -1.53 18.18 0.22 T18
T22 6.0% -0.006 0.047 -0.007 -2.41 16.08 -1.59 T18
T23 9.0% 0.091 -0.005 0.000 35.65 -1.68 -0.10 T13
表5微缺失微重复样本检测结果
样本编号 染色体 起始位置 终止位置 长度 ratio Z值 FF 缺失/重复 核型结果
T24 chr22 18675000 21550000 2875000 0.11252 5.57 15.10% 重复 22q11重复综合征
T25 chr22 18675000 21550000 2875000 -0.04331 -3.34 5.80% 缺失 22q11缺失综合征(DiGeorge综合征)
T26 chr22 18275000 20500000 2225000 -0.07558 -4.64 9.00% 缺失 22q11缺失综合征(DiGeorge综合征)
T27 chr22 19150000 21550000 2400000 -0.09636 -4.81 12.90% 缺失 22q11缺失综合征(DiGeorge综合征)
T28 chr22 18600000 21550000 1950000 -0.04264 -3.12 5.20% 缺失 22q11缺失综合征(DiGeorge综合征)
T29 chr15 23700000 28725000 5025000 0.080876 3.56 10.20% 重复 15q11-q13重复综合征
T30 chr4 100000 14225000 14125000 -0.07789 -4.95 11.30% 缺失 Wolf-Hirschhom综合征
虽然,上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

Claims (10)

1.一种无创产前检测装置,其特征在于,所述装置包括:检测模块、数据质控及预处理模块、数据校正及处理模块和判断模块;
所述数据校正及处理模块:用于将待测孕妇样本基因组通过质控、窗口划分后获得的每个bin的ratio中的重复序列和群组CNV剔除后,进行GC校正和不同染色体基线带来的偏差校正,获得每个bin的含量x,并进一步根据动态数据库再次重新校正不同染色体基线带来的偏差;
所述动态数据库的构建方法如下:
根据整个待测样本批次中的t个待测样本S的每个bin的含量x对参考数据库中的所有样本R进行筛选,选择参考数据库中d(S,Rj)最小的男性样本a个和女性样本b个,组建针对本批次待测样本常染色体的动态数据库,其中男女性别比例无统计学差异,a+b不小于1000;选择参考数据库中d(S,Rj)最小的男性样本a个和女性样本b个,分别组建针对本批次待测样本性染色体的动态数据库;d(S,Rj)的计算公式如下:
Figure FDA0002878168560000011
其中,S代表所有待测样本,Rj代表参考数据库中的第j个样本,
Figure FDA0002878168560000012
代表t个待测样本中的第l个样本的第i条染色体bin的含量x的均值,
Figure FDA0002878168560000013
代表参考数据库中第j个样本的第i条染色体的bin的含量x的均值。
2.根据权利要求1所述的装置,其特征在于,所述数据校正及处理模块还用于在再次重新校正不同染色体基线带来的偏差后,进行PCA降噪;
所述PCA降噪方式为:
分别针对待测样本的常染色体和性染色体,以对应的动态数据库中的每一个阴性参考集样本的数据进行矩阵构建,具体以n个阴性参考集样本的m个bin构造一个n*m的矩阵X,其中每一项都是阴性参考集样本中bin的残差x,首先将X的每一行进行中心化,即减去每行的均值,计算中心化后矩阵X的协方差矩阵XXT,利用特征值分解矩阵得到特征值与特征向量W,将待测样本的残差x,构建1*e的矩阵T,旋转到相同的基上获得T′,T′=TW,通过减去前k个主成分重建测试集x′;e为待测样本的bin的个数,e=m;
k值的确定:
利用PCA降噪后数据的残差与降噪前数据的残差的比值计算信息损失量L,评估降噪后数据信息丢失的情况来确定k值,具体步骤如下:
将多例通过质控的已知核型结果的阳性样本基因组按100Kb进行窗口划分后合并临近窗口获得窗宽为2Mb的窗口,设置不同的k值,计算阳性区域的信息损失量L,损失量L的计算公式如下:
Figure FDA0002878168560000021
xi代表窗宽为2Mb时的bin的ratio的均值,x′i代表窗宽为2Mb时进行所述PCA降噪后bin的ratio的均值,N代表阳性区域为2Mb窗口的个数;当信息损失量小于0.05时,所对应的k值最终用于待测样本的PCA降噪。
3.根据权利要求2所述的装置,其特征在于,所述数据校正及处理模块进行不同染色体基线带来的偏差校正方式为:
通过计算相应数据库中全部正常对照样本的GC校正后的bin的含量的均值和标准差,构建加权线性回归模型,以对应位置校正后bin的ratio的标准差为权重,获得的残差x即为校正后的bin的含量x。
4.根据权利要求3所述的装置,其特征在于,所述数据校正及处理模块进一步用于在进行所述PCA降噪后,进行母源CNV识别并剔除不会遗传给后代的母源CNV;
具体识别方式为:当多个连续的经PCA降噪后的bin的含量x的绝对值abs(x)>0.5时,将这些bin合并确定为母源CNV位置,并计算所述母源CNV区域内所包含bin的含量的均值,即为所述母源CNV区域的杂合比hh;
具体剔除方式为:当所述母源CNV区域的杂合比hh=1-FF时,则将所述母源CNV区域予以剔除,当hh=1时,则将所述母源CNV区域予以保留;其中FF为待测样本的胎儿浓度。
5.根据权利要求4所述的装置,其特征在于,所述数据校正及处理模块还用于在剔除不会遗传给后代的母源CNV区域后,利用滑窗方法计算每个窗口的Z值,并利用CBS算法对每个窗口的Z值进行分割,检测CNV断点,再根据检测到的CNV断点获得分割后的CNV片段,依次计算所述分割后的CNV片段的杂合比和Z值。
6.根据权利要求5所述的装置,其特征在于,Z值的计算公式如下:
Figure FDA0002878168560000031
其中,Rsample代表待测样本每个窗口的ratio或分割后的CNV片段的ratio,每个窗口的ratio为该窗口包含的所有100kb的bin的含量的均值,每个分割后的CNV片段的ratio为该CNV片段包含的所有窗口的bin的含量的均值,meanRreference代表相应的动态数据库中阴性参考集样本与待测样本相对应的窗宽的ratio的均值,sd Rreference代表相应的动态数据库中阴性参考集样本与待测样本相对应的窗宽的ratio的标准差。
7.根据权利要求5或6所述的装置,其特征在于,每个窗口的窗宽为2Mb,步长为50kb。
8.根据权利要求7所述的装置,其特征在于,所述判断模块:用于根据所述数据校正及处理模块计算得到的分割后的CNV片段的杂合比和Z值进行判断;当分割后的CNV片段的杂合比超出阈值[-1/2*FF,1/2*FF],且该分割后的CNV片段的Z值的绝对值|Z|大于等于3时,判为异常,否则判定为无异常;当判为异常后,若该分割后的CNV片段的Z值大于等于3,则判定为重复,Z值小于等于-3,则判定为缺失。
9.根据权利要求8所述的装置,其特征在于,所述检测模块:用于对孕妇外周血游离DNA进行高通量测序,获得待测孕妇样本基因组。
10.根据权利要求9所述的装置,其特征在于,所述数据质控及预处理模块:用于将测序得到的待测孕妇样本基因组去除接头及低质量的reads,然后与人类基因组hg19进行比对,剔除未比对上、重复比对及比对到多个位置的reads,仅保留唯一比对上的reads,若uniquereads数大于35M,总的GC含量在38%~42%之间,则通过质控;之后,进行窗口划分,窗宽100kb,重叠区域为50kb。
CN202011629295.0A 2020-12-31 2020-12-31 一种无创产前检测装置 Active CN112712853B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011629295.0A CN112712853B (zh) 2020-12-31 2020-12-31 一种无创产前检测装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011629295.0A CN112712853B (zh) 2020-12-31 2020-12-31 一种无创产前检测装置

Publications (2)

Publication Number Publication Date
CN112712853A true CN112712853A (zh) 2021-04-27
CN112712853B CN112712853B (zh) 2023-11-21

Family

ID=75547716

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011629295.0A Active CN112712853B (zh) 2020-12-31 2020-12-31 一种无创产前检测装置

Country Status (1)

Country Link
CN (1) CN112712853B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113593629A (zh) * 2021-06-29 2021-11-02 广东博奥医学检验所有限公司 基于半导体测序的降低无创产前检测假阳性假阴性的方法
CN113643755A (zh) * 2021-08-11 2021-11-12 上海小海龟科技有限公司 一种nipt试剂盒阳性率校正方法、装置、计算机设备和介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004038602A1 (en) * 2002-10-24 2004-05-06 Warner-Lambert Company, Llc Integrated spectral data processing, data mining, and modeling system for use in diverse screening and biomarker discovery applications
US20090136139A1 (en) * 2005-11-17 2009-05-28 Kochi University Mobility Normalizer, Normalizing Method, Normalizing Program, Self-Organized Map, Substance Detecting Method, Detecting Program, Detection Rule Creating Method, and Data Structure
CN103843001A (zh) * 2011-04-14 2014-06-04 考利达基因组股份有限公司 复杂核酸序列数据的处理和分析
US20150339437A1 (en) * 2014-02-24 2015-11-26 Edico Genome, Corp. Dynamic genome reference generation for improved ngs accuracy and reproducibility
CN105483229A (zh) * 2015-12-21 2016-04-13 广东腾飞基因科技有限公司 一种检测胎儿染色体非整倍体的方法及系统
CN106096330A (zh) * 2016-05-31 2016-11-09 北京百迈客医学检验所有限公司 一种无创产前生物信息检测分析方法
CN107133495A (zh) * 2017-05-04 2017-09-05 北京医院 一种非整倍性生物信息的分析方法和分析系统
CN108256289A (zh) * 2018-01-17 2018-07-06 湖南大地同年生物科技有限公司 一种基于目标区域捕获测序基因组拷贝数变异的方法
CN108256296A (zh) * 2017-12-29 2018-07-06 北京科迅生物技术有限公司 数据处理方法及装置
WO2018161245A1 (zh) * 2017-03-07 2018-09-13 深圳华大基因研究院 一种染色体变异的检测方法及装置
WO2018170443A1 (en) * 2017-03-16 2018-09-20 Counsyl, Inc. Multi-dimensional sample-dependent and batch-dependent quality control
US20180300451A1 (en) * 2017-04-12 2018-10-18 Echelon Diagnostics, Inc. Techniques for fractional component fragment-size weighted correction of count and bias for massively parallel DNA sequencing
CN109192243A (zh) * 2018-08-13 2019-01-11 成都凡迪医学检验所有限公司 染色体比例的修正方法、装置、介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004038602A1 (en) * 2002-10-24 2004-05-06 Warner-Lambert Company, Llc Integrated spectral data processing, data mining, and modeling system for use in diverse screening and biomarker discovery applications
US20090136139A1 (en) * 2005-11-17 2009-05-28 Kochi University Mobility Normalizer, Normalizing Method, Normalizing Program, Self-Organized Map, Substance Detecting Method, Detecting Program, Detection Rule Creating Method, and Data Structure
CN103843001A (zh) * 2011-04-14 2014-06-04 考利达基因组股份有限公司 复杂核酸序列数据的处理和分析
US20150339437A1 (en) * 2014-02-24 2015-11-26 Edico Genome, Corp. Dynamic genome reference generation for improved ngs accuracy and reproducibility
CN105483229A (zh) * 2015-12-21 2016-04-13 广东腾飞基因科技有限公司 一种检测胎儿染色体非整倍体的方法及系统
CN106096330A (zh) * 2016-05-31 2016-11-09 北京百迈客医学检验所有限公司 一种无创产前生物信息检测分析方法
WO2018161245A1 (zh) * 2017-03-07 2018-09-13 深圳华大基因研究院 一种染色体变异的检测方法及装置
WO2018170443A1 (en) * 2017-03-16 2018-09-20 Counsyl, Inc. Multi-dimensional sample-dependent and batch-dependent quality control
US20180300451A1 (en) * 2017-04-12 2018-10-18 Echelon Diagnostics, Inc. Techniques for fractional component fragment-size weighted correction of count and bias for massively parallel DNA sequencing
CN107133495A (zh) * 2017-05-04 2017-09-05 北京医院 一种非整倍性生物信息的分析方法和分析系统
CN108256296A (zh) * 2017-12-29 2018-07-06 北京科迅生物技术有限公司 数据处理方法及装置
CN108256289A (zh) * 2018-01-17 2018-07-06 湖南大地同年生物科技有限公司 一种基于目标区域捕获测序基因组拷贝数变异的方法
CN109192243A (zh) * 2018-08-13 2019-01-11 成都凡迪医学检验所有限公司 染色体比例的修正方法、装置、介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
DINEIKA CHANDRANANDA,等: "Investigating and Correcting Plasma DNA Sequencing Coverage Bias to Enhance Aneuploidy Discovery", 《PLOS ONE》, vol. 9, no. 1, pages 86993 *
HANLI XU,等: "Informative priors on fetal fraction increase power of the noninvasive prenatal screen", 《GENETICS IN MEDICINE》, vol. 20, no. 8, pages 817 - 824, XP036826975, DOI: 10.1038/gim.2017.186 *
温祖佳: "精神和神经系统疾病遗传易感基因及无创产前诊断方法研究", 《中国博士学位论文全文数据库 医药卫生科技辑》, no. 08, pages 068 - 18 *
王明珠: "高通量测序技术检测染色体拷贝数变异方法的建立及应用", 《中国博士学位论文全文数据库 医药卫生科技辑》, no. 05, pages 060 - 16 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113593629A (zh) * 2021-06-29 2021-11-02 广东博奥医学检验所有限公司 基于半导体测序的降低无创产前检测假阳性假阴性的方法
CN113593629B (zh) * 2021-06-29 2024-02-13 广东博奥医学检验所有限公司 基于半导体测序的降低无创产前检测假阳性假阴性的方法
CN113643755A (zh) * 2021-08-11 2021-11-12 上海小海龟科技有限公司 一种nipt试剂盒阳性率校正方法、装置、计算机设备和介质
CN113643755B (zh) * 2021-08-11 2023-10-13 上海小海龟科技有限公司 一种nipt试剂盒阳性率校正方法、装置、计算机设备和介质

Also Published As

Publication number Publication date
CN112712853B (zh) 2023-11-21

Similar Documents

Publication Publication Date Title
CN112669901B (zh) 基于低深度高通量基因组测序的染色体拷贝数变异检测装置
CN108256296B (zh) 数据处理装置
CN108573125B (zh) 一种基因组拷贝数变异的检测方法及包含该方法的装置
CN107949845B (zh) 能够在多个下一代测序平台上区分胎儿性别和胎儿性染色体异常的计算机系统
CN105296606B (zh) 确定生物样本中游离核酸比例的方法、装置及其用途
CN109767810B (zh) 高通量测序数据分析方法及装置
CN110268044B (zh) 一种染色体变异的检测方法及装置
IL249095B1 (en) Detection of subchromosomal aneuploidy in the fetus and variations in the number of copies
CN108256292B (zh) 一种拷贝数变异检测装置
CN106096330B (zh) 一种无创产前生物信息检测分析方法
CN112712853B (zh) 一种无创产前检测装置
CN110016497B (zh) 一种检测肿瘤单细胞基因组拷贝数变异的方法
CN105844116A (zh) 测序数据的处理方法和处理装置
CN111919256A (zh) 检测染色体非整倍性的方法、装置及系统
CN116013419A (zh) 检测染色体拷贝数变异的方法
CN116356001B (zh) 一种基于血液循环肿瘤dna的双重背景噪声突变去除方法
CN108268752B (zh) 一种染色体异常检测装置
CN104951671A (zh) 基于单样本外周血检测胎儿染色体非整倍性的装置
CN108595912A (zh) 检测染色体非整倍性的方法、装置及系统
WO2024140881A1 (zh) 胎儿dna浓度的确定方法及装置
CN109461473B (zh) 胎儿游离dna浓度获取方法和装置
CN111696622B (zh) 一种校正和评估变异检测软件检测结果的方法
CN110970089B (zh) 胎儿浓度计算的预处理方法、预处理装置及其应用
KR102347463B1 (ko) 핵산 서열 분석에서 위양성 변이를 검출하는 방법 및 장치
US12073921B2 (en) System for increasing the accuracy of non invasive prenatal diagnostics and liquid biopsy by observed loci bias correction at single base resolution

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant