CN111091868B - 一种染色体非整倍体的分析方法及系统 - Google Patents
一种染色体非整倍体的分析方法及系统 Download PDFInfo
- Publication number
- CN111091868B CN111091868B CN201911334415.1A CN201911334415A CN111091868B CN 111091868 B CN111091868 B CN 111091868B CN 201911334415 A CN201911334415 A CN 201911334415A CN 111091868 B CN111091868 B CN 111091868B
- Authority
- CN
- China
- Prior art keywords
- chromosome
- sample
- value
- snp
- cutoff
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/10—Ploidy or copy number detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/10—Signal processing, e.g. from mass spectrometry [MS] or from PCR
Abstract
本发明提供一种染色体非整倍体分析方法及系统。本发明所述方法基于Zscore算法对样本测序深度进行统计分析,并结合样本SNP等位基因频率统计分析,综合判定染色体非整倍体情况。本发明所述方法准确度高,不受待测样本SNP位点数的影响,特异性、灵敏度高,可达到100%,还可判断异常染色体为缺失或扩增。
Description
技术领域
本发明涉及基因工程技术领域,特别是涉及一种染色体非整倍体的数据分析方法及系统。
背景技术
肿瘤,尤其是脑肿瘤病变过程中,细胞会发生非平衡易位,导致丢失/增加染色体某个长短臂,甚至是整个染色体。脑胶质瘤(Glioma)是最常见的颅内原发恶性肿瘤,在成年人中,胶质瘤是最常见的原发性颅内肿瘤,约占所有脑部肿瘤的30~40%。在原发性恶性中枢神经系统肿瘤中,胶质母细胞瘤(Glioblastoma)的发病率最高,占了46.1%。全球,胶质母细胞瘤的发病率或者新就诊数量约为每10万人里面有2至3人,中位发病年龄为65岁,中位生存期为14.6个月,整体治疗效果并不理想。
临床上,胶质母细胞瘤具有病程短、病状发展迅速、术后高复发性、低治愈率的特点。临床上多采用放射性核素扫描检查、脑部CT或者核磁共振检查的诊断方法,但是此类病人由于脑瘤血管内皮细胞结合较为紧密,趋于正常,血脑屏障较为良好,不发生或者较少发生造影剂血管外溢,因而头颅MRI效果不佳;并且此类疾病病情初期容易和其他疾病混淆,导致延误治疗时机。
目前,2016版WHO中枢神经系统肿瘤分类已经在组织学基础上加入了分子学特征,采用“综合诊断”去诊断胶质母细胞瘤,该“综合诊断”整合了组织病理和基因型参数,提高了胶质瘤分型、诊断、预后和治疗决策的准确性,其中1p/19q联合缺失(1p/19q LOH)是少突胶质瘤的重要分子指标,与O形态紧密相关,且影响患者预后和放/化疗疗效相关。
目前,常用于检测lp/19q LOH的方法包括:荧光原位杂交(fluorescent in situhybridization,FISH)和一代测序的方法。其中,荧光原位杂交是目前临床病理检胶质瘤样本中1p/19q联合缺失的金标准方法。但实体瘤染色体的制备和显带都比较困难,需要有丰富经验的专业人员操作,并且探针数量有限,通量小、时间长。只能检测1p、19q上小部分固定位置的缺失情况。
现有技术中很少有提出NGS检测1p19q LOH的方法,部分只涉及基于SNP的分布差异信号来检测染色体是否缺失,没有利用测序深度的信号,其缺点显著:1)只能判断染色体是否整倍体,而不能进一步判断异常染色体为缺失还是扩增;2)待测样本的杂合SNP位点数不固定,如果都是纯合SNP或者杂合SNP位点过少,将直接影响该样本的检测准确度。
因此,现有技术中亟需一种准确度更高的NGS检测1p19q LOH的方法。
发明内容
本发明的目的在于提供一种染色体非整倍体的检测方法,以至少缓解现有技术中存在的技术问题之一。
为实现上述目的,本发明采用如下技术方案:
一种染色体非整倍体的数据分析方法,所述方法为步骤1)基于Zscore算法对基因测序样本的测序深度进行统计分析;步骤2)对基因测序样本的SNP等位基因频率进行统计分析;结合步骤1)和2)判定染色体为/不为非整倍体。
在一些实施方式中,所述步骤1)为基于Zscore算法对样本测序深度进行统计分析得到信号值1(Sig_value);步骤2)对样本SNP等位基因频率进行统计分析得到信号值2(SNP_ratio);基于Cutoff值评价信号值1和2,判定目标染色体为/不为非整倍体;优选的,当样本信号值1(Sig_value)、信号值2(SNP_ratio)同时处于/未处于Cutoff范围内,判定目标染色体为/不为非整倍体。
在一些实施方式中,所述步骤1)包括将染色体目标区域每个基因位点测序深度参考阴性样本数据集进行标准化,标准化后的数据参考阴性样本数据集计算Zscore,信号值1(Sig_value)为目标染色体区域每个基因位点Zscore之和,即Sig_value计算方式为:
其中,N表示该检测区域的基因位点总数,j表示染色体目标区域第j位;
优选地,所述测序深度为去PCR重复后的测序深度。
在一些实施方式中,所述步骤2)包括:统计样本SNP等位基因频率在0.4~0.6范围的SNP个数N1以及样本SNP等位基因频率在0~0.9范围的SNP个数N2,信号值2(SNP_ratio)=N1/N2;优选地,样本SNP等位基因频率为样本SNP位点测序深度>100的等位基因频率。
在一些实施方式中,所述染色体为1p、7、10和/或19q,优选的为1p和19q。
在一些实施方式中,所述用于染色体19q非整倍体数据分析的步骤1)包括:将染色体19q以及染色体19p每个基因位点测序深度参考阴性样本数据集进行标准化,形成染色体19q标准化测序深度集、染色体19p标准化测序深度集,Zscore取标准化测序深度集中的中位数,信号值1(Sig_value)=Zscore19q-Zscore19p。
在一些实施方式中,所述染色体1p的Sig_value的Cutoff为-40,000~-15,000,SNP_ratio的Cutoff为0.1~0.6;所述染色体19q的Sig_value的Cutoff为-1~-0.7,SNP_ratio的Cutoff为0.4~0.7;优选的,1p和19q的cutoff值分别为CutoffSig_value-1p=-20000、CutoffSNP_ratio-1p=0.4、CutoffSig_value-19q=-0.9、CutoffSNP_ratio-19q=0.4。
本发明还涉及一种染色体非整倍体的数据分析系统,所述系统包括信息输入模块:将测序数据传输至Zscore分析模块、SNP等位基因频率分析模块;所述Zscore分析模块是基于Zscore算法对基因测序样本的测序深度进行统计分析得到信号值1(Sig_value);所述SNP等位基因频率分析模块是对基因测序样本的SNP等位基因频率进行统计分析得到信号值2(SNP_ratio);结果判断模块:基于Cutoff值评价信号值1和2,判定目标染色体为/不为非整倍体;优选的,当样本信号值1(Sig_value)、信号值2(SNP_ratio)同时处于/未处于Cutoff范围内,判定目标染色体为/不为非整倍体。
在一些实施方式中,所述Zscore分析模块包括将染色体目标区域每个基因位点测序深度参考阴性样本数据集进行标准化,标准化后的数据参考阴性样本数据集计算Zscore,信号值1(Sig_value)为目标染色体区域每个基因位点Zscore之和,即Sig_value计算方式为:
其中,N表示该检测区域的基因位点总数,j表示染色体目标区域第j位;
优选地,所述测序深度为去PCR重复后的测序深度。
所述SNP等位基因频率分析模块包括统计样本SNP等位基因频率在0.4~0.6范围的SNP个数N1以及样本SNP等位基因频率在0~0.9范围的SNP个数N2,信号值2(SNP_ratio)=N1/N2;
优选地,样本SNP等位基因频率为样本SNP位点测序深度>100的等位基因频率。
在一些实施方式中,所述染色体为1p、7、10和/或19q,优选的为1p和19q。
在一些实施方式中,所述用于染色体19q非整倍体数据分析包括:将染色体19q以及染色体19p每个基因位点测序深度参考阴性样本数据集进行标准化,形成染色体19q标准化测序深度集、染色体19p标准化测序深度集,Zscore取标准化测序深度集中的中位数,信号值1(Sig_value)=Zscore19q-Zscore19p。
在一些实施方式中,所述染色体1p的Cutoff值为:Sig_value的Cutoff为-40,000~-15,000,优选的为-20000,SNP_ratio的Cutoff为0.1~0.6,优选的为0.4;所述染色体19q的Cutoff值为:Sig_value的Cutoff为-1~-0.7,优选为-0.9,SNP_ratio的Cutoff为0.4~0.7,优选为0.4。
本发明还涉及一种染色体非整倍体的检测方法,包括对目标染色体区域捕获探针设计,捕获探针对样本目标基因杂交捕获,捕获基因序列测序,测序数据的数据分析,获得样本检测结果,所述测序数据的数据分析采用上述的染色体非整倍体的数据分析方法。
优选的,所述对染色体目标区域捕获探针的设计包括:在目标区域,保持每隔500Kbp距离,对包含SNP位点且Mappability=1的区域铺设捕获探针,所述捕获探针长度为100bp。
本发明有益的技术效果:
1、本发明所述方法和系统结合SNP等位基因频率和基于Zscore算法测序深度的数据处理方法对样本测序数据进行分析处理,该方法检测准确度高,并且不受待测样本SNP位点数的影响;特异性、灵敏度均达到了100%。
2、本发明基于Zscore算法对测序深度进行处理分析,综合染色体目标区域的测序深度信息,降低测序引入错误对结果判定的影响。
3、本发明所述检测方法有效选择比对可信度高的染色体区域,使得测序数据稳定,信号值更为准确。
4、本发明基于高通量测序,具有测序通量大,测序周期短,准确性高的特点。
5、本发明可以更大范围地检测整条染色体臂的情况,不仅可以判断染色体是否为整倍体,还可进一步判断异常染色体为缺失还是扩增。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1:UCSC中染色体上mappability的分布图;
图2:样本编号RD2319051519FP染色体1-22区域不同position上的Zscore结果图,该样本为1p、19q共同缺失的样本;
图3:sample1(阴性)在chr1p上的SNP位点等位基因频率的分布图;
图4:sample2(阳性)在chr1p上的SNP位点等位基因频率的分布图;
具体实施方式
下面将结合实施例对本发明的实施方案进行详细描述,但是本领域技术人员将会理解,下列实施例仅用于说明本发明,而不应视为限制本发明的范围。实施例中未注明具体条件者,按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者,均为可以通过市购买获得的常规产品。
实施例1Backbone区域探针设计及上机测序
1)选择对比准确性高的区域
本发明依据UCSC网站公开的序列信息选择Backbone区域,如图1,图1中的横坐标是chr1:q的参考序列位置,纵坐标是准确性值mappability,当mappability=1时,表示来自该区域的100bp序列可以唯一比对回该区域,说明比对准确性最高,这种区域在图中是黑色;当mappability<1时,表明比对准确性低,这种区域在图中是灰白色。
2)筛选SNP位点
根据公开的人群突变数据库gnomAD/exAC/千人基因组等数据库,筛选出人群频率大于5%的SNP位点。
3)探针设计
在Backbone的Mappability=1区域,保持每隔约500Kbp的距离,选择一个包含SNP位点,铺设跨度约100bp的捕获探针。
4)基于捕获探针进行FFPE样本的建库和杂交捕获,随后按照NGS常规实验流程进行上机测序,得到测序下机的fastq.gz序列数据。
实施例2基于NGS平台测序数据的质量控制
将得到测序下机的fastq.gz序列数据用fastp软件去接头,得到XXXFP.trim.R1.fastq.gz文件,将去接头后的XXXFP.trim.R1.fastq.gz文件和人源参考基因组用BWA mem进行比对,比对参数是bwa mem-Y-R,比对得到XXX.align.bam文件。对XXX.align.bam用sambamba软件按照比对位置对reads进行排序,得到XXX.align.sort.bam文件。用bamdst软件对XXX.align.sort.bam文件统计得到Mapped ratio,raw Q30 rate,target_ratio_base,median_umi_depth、median_insert_size等QC指标。
根据表1的标准,判定样本建库、测序质量是否合格;
表1.质控指标
实施例3基于Zscore的分析
1)构建阴性样本测序深度参考集
选择54例临床阴性FFPE样本,按照NGS样本上机测序实验流程进行建库、杂交捕获、上机测序,得到相应序列数据,并参考实施例2对测序数据进行质量控制,质控合格的样本数据进行以下的数据分析:
①提取去掉PCR重复后的测序深度数据:
用Bamdst软件对XXX.align.sort.bam文件进行分析得到depth.tsv.gz文件,depth.tsv.gz文件打开后可以得到如同表2的数据列表,其中第一列是染色体编号,第二列是碱基位置,第三列是原始的测序深度,第四列是去掉PCR重复后的测序深度,即Rmdupdepth,以下简写为RmD。
表2.depth.tsv.gz文件示例数据列表
②对RmD标准化处理:
对54例阴性样本所有基因位点的RmD进行标准化处理,得到标准化后的测序深度,即Norm_RmD,处理方法如下:
其中,RmDj为第i染色体上的第j个position的去掉PCR重复后的测序深度;median_RmDj为54例阴性样本的RmDj的中位数;Norm_RmDj为第i染色体上的第j个position标准化后的测序深度。
③计算Norm_RmD的平均值(μ)和方差(δ):
计算54例阴性样本目标染色体上的每个position的Norm_RmD的平均值(μ)和方差(δ),相关计算公式为:
其中,n表示阴性样本数54例;μj为第j个position所有阴性样本Norm_RmDj的平均值;δj为第j个position所有阴性样本Norm_RmDj的方差。
该实施例中54例阴性样本测序深度经过标准化处理后的Norm_RmDj的以及其μj、δj汇总如表3。
表3 54例阴性样本测序深度经过标准化处理后的数据
2)计算待测样本的Zscore
按照NGS样本上机测序实验流程进行杂交捕获、建库、上机测序,得到相应序列数据,并参考实施例2对测序数据进行质量控制,质控合格的样本数据用Bamdst软件对XXX.align.sort.bam文件进行分析得到depth.tsv.gz文件,从depth.tsv.gz文件得到样本RmD数据。
根据阴性样本测序深度参考集中的median_RmDj,对待测样本RmD数据进行标准化处理得到待测样本的Norm_RmDj;根据阴性样本测序深度参考集中的μj、δj,按照以下公式计算待测样本第j个position上的Zscorej:
图2是样本编号RD2319051519FP染色体1-22区域不同position上的Zscore结果图,该样本为1p、19q共同缺失的样本。
3)计算Backbone区域的信号值
Backbone区域的信号值以Sig_value表示,计算方式为:
基于该Backbone区域划定的Cutoff值,对Sig_value值进行判断以该区域是否有基因缺失/扩增的情况。
实施例4针对染色体19q缺失的Zscore分析
1)构建阴性样本测序深度参考集
参照实施例3中所述的构建阴性样本测序深度参考集的流程,对质控合格的样本数据进行提取去掉PCR重复后的测序深度数据处理,得到54例阴性样本的RmD数据。
2)计算待测样本的Zscore
按照NGS样本上机测序实验流程进行杂交捕获、建库、上机测序,得到相应序列数据,并参考实施例2对测序数据进行质量控制,质控合格的样本数据用Bamdst软件对XXX.align.sort.bam文件进行分析得到depth.tsv.gz文件,从depth.tsv.gz文件得到样本RmD数据。
根据阴性样本测序深度参考集中的median_RmDj,对待测样本RmDj数据进行标准化处理得到待测样本的Norm_RmDj,计算公式如下:
按照以下公式计算待测样本的Zscore:
Zscorei=median_Norm_RmDi
其中,Zscorej为j区域的Zscore值,median_Norm_RmDj为j区域所有positionNorm_RmD的中位数。
3)计算染色体19q区域的信号值
染色体19q区域的信号值以Sig_value19q表示,计算方式为:
Sig_value19q=Zscore19q-Zscore19p
基于染色体19q区域划定的Cutoff值,对Sig_value19q值进行判断以该区域是否有基因缺失/扩增的情况。
实施例5基于Zscore分析方式建立染色体1p、染色体19q、染色体7、染色体10区域Sig_value的Cutoff值
选择20例染色体1p缺失样本、20例染色体19q缺失样本、7例染色体7扩增样本、4例染色体10缺失样本以及54例阴性样本按照实施例3、4Zscore分析方法,计算阴性样本、阳性样本在待测区域(chr1p、chr19q、chr7、chr10)的Sig_value,结果如表4、5。
表4阴性样本在待测区域的Sig_value
表5阳性样本在对应待测区域的Sig_value
基于以上Sig_value数据,对染色体1p缺失、染色体19q缺失、染色体7扩增、染色体10缺失的情况划定Cutoff值,并采用ROC分析筛选出最优Cutoff值,作为Zscore分析方法的判断标准,表6、7、8、9分别为染色体1p缺失、染色体19q缺失、染色体7扩增、染色体10缺失的不同Cutoff值ROC分析结果。
表6 chr1p区域的不同Cutoff值ROC分析结果
Cutoff | 0 | -10000 | -15000 | -20000 | -40000 | -60000 | -80000 |
真阳 | 20 | 20 | 20 | 20 | 20 | 19 | 16 |
真阴 | 26 | 50 | 54 | 54 | 54 | 54 | 54 |
假阳 | 28 | 4 | 0 | 0 | 0 | 0 | 0 |
假阴 | 0 | 0 | 0 | 0 | 0 | 1 | 4 |
灵敏度 | 100% | 100% | 100% | 100% | 100% | 95% | 80% |
特异性 | 48% | 93% | 100% | 100% | 100% | 100% | 100% |
表7 chr19q区域的不同Cutoff值ROC分析结果
Cutoff | -0.3 | -0.5 | -0.7 | -0.9 | -1 | -1.2 | -1.5 |
真阳 | 20 | 20 | 20 | 20 | 19 | 17 | 15 |
真阴 | 50 | 51 | 52 | 53 | 54 | 54 | 54 |
假阳 | 4 | 3 | 2 | 1 | 0 | 0 | 0 |
假阴 | 0 | 0 | 0 | 0 | 1 | 3 | 5 |
灵敏度 | 100% | 100% | 100% | 100% | 95% | 85% | 75% |
特异性 | 93% | 94% | 96% | 98% | 100% | 100% | 100% |
表8 chr7区域的不同Cutoff值ROC分析结果
表9 chr10区域的不同Cutoff值ROC分析结果
Cutoff | -10000 | -20000 | -30000 | -40000 | -50000 | -60000 | -70000 |
真阳 | 4 | 4 | 4 | 4 | 3 | 1 | 1 |
真阴 | 52 | 53 | 54 | 54 | 54 | 54 | 54 |
假阳 | 2 | 1 | 0 | 0 | 0 | 0 | 0 |
假阴 | 0 | 0 | 0 | 0 | 1 | 3 | 3 |
灵敏度 | 100% | 100% | 100% | 100% | 75% | 25% | 25% |
特异性 | 96% | 98% | 100% | 100% | 100% | 100% | 100% |
根据上面ROC分析结果,为了保证检测的灵敏度和特异性,设定Cutoff值如下表10。
表10染色体1p、染色体19q、染色体7、染色体10区域Sig_value的Cutoff值
染色体 | 1p | chr7 | chr10 | 19q |
Cutoff | ≤-20000 | ≥100000 | ≤-40000 | ≤-0.9 |
真阳 | 20 | 7 | 4 | 20 |
真阴 | 54 | 54 | 54 | 52 |
假阳 | 0 | 0 | 0 | 2 |
假阴 | 0 | 0 | 0 | 0 |
灵敏度 | 100% | 100% | 100% | 100% |
特异性 | 100% | 100% | 100% | 96% |
当样本染色体1p区域的Sig_value≤-20000时,判定该样本染色体1p发生缺失;当样本染色体7区域的Sig_value≥100000时,判定该样本染色体7非整倍体;当样本染色体10区域的Sig_value≤-40000时,判定该样本染色体10发生缺失;当样本染色体19q区域的Sig_value≤-0.9时,判定该样本染色体19q发生缺失。
实施例6杂合SNP的等位基因频率分布异常检测
取临床FFPE样本,按照NGS样本上机测序实验流程进行杂交捕获、建库、上机测序,得到相应序列数据,并参考实施例2对测序数据进行质量控制,质控合格的样本数据进行以下的数据分析:
1)获取SNP位点信息:用verdict软件检测样本SNP位点的基因型和等位基因频率,SNP位点的筛选参考实施例1中SNP位点的筛选,将样本SNP位点基因信息整理如表11、表12。
表11示例样本sample1(阴性)在chr1p上的SNP位点检测结果
染色体 | 位置 | 参考基因 | 突变结果 | 支持突变序列数 | 等位基因频率 | 测序深度 |
chr1 | 861808 | A | G | 2115 | 0.9934 | 2129 |
chr1 | 1387726 | A | G | 642 | 0.4569 | 1405 |
chr1 | 1387764 | G | A | 706 | 0.4602 | 1534 |
chr1 | 2412279 | A | T | 1847 | 0.9978 | 1851 |
chr1 | 3526241 | C | T | 835 | 0.4827 | 1730 |
chr1 | 7449971 | G | A | 762 | 0.4482 | 1700 |
chr1 | 7450006 | C | G | 777 | 0.4402 | 1765 |
chr1 | 7982034 | T | C | 857 | 0.9988 | 858 |
chr1 | 8570456 | C | G | 383 | 0.4898 | 782 |
chr1 | 10318652 | C | G | 376 | 0.5095 | 738 |
chr1 | 11187893 | T | C | 1351 | 0.9978 | 1354 |
表12示例样本sample2(阳性)在chr1p上的SNP位点检测结果
染色体 | 位置 | 参考基因 | 突变结果 | 支持突变序列数 | 等位基因频率 | 测序深度 |
chr1 | 861808 | A | G | 371 | 0.258 | 1438 |
chr1 | 1387726 | A | G | 762 | 0.9909 | 769 |
chr1 | 1387764 | G | A | 879 | 0.9966 | 882 |
chr1 | 1887245 | G | A | 141 | 0.1783 | 791 |
chr1 | 2412225 | C | T | 272 | 0.2505 | 1086 |
chr1 | 2412279 | A | T | 1235 | 0.9928 | 1244 |
chr1 | 2938265 | C | T | 426 | 0.2496 | 1707 |
chr1 | 3526241 | C | T | 891 | 0.7185 | 1240 |
chr1 | 4716928 | G | C | 449 | 0.2227 | 2016 |
chr1 | 7449971 | G | A | 1343 | 1 | 1343 |
chr1 | 7450006 | C | G | 1352 | 0.9978 | 1355 |
chr1 | 7982034 | T | C | 193 | 0.2494 | 774 |
chr1 | 8570456 | C | G | 497 | 0.994 | 500 |
chr1 | 9009406 | C | T | 280 | 0.1991 | 1406 |
2)基因信息的筛选:对样本SNP位点基因信息根据测序深度>100进行一步筛选过滤,得到样本SNP位点测序深度>100的等位基因频率,将上述示例样本sample1(阴性)和示例样本sample2(阳性)按照测序深度>100筛选过滤,得到的样本等位基因频率数据呈现如图3、图4。
3)SNP_ratio的计算:
式中,N1为样本等位基因频率在0.4~0.6范围的杂合SNP个数;N2为样本等位基因频率在0~0.9之间的SNP个数;SNP_ration为判断杂合SNP等位基因频率分离的指标。
基于该目标区域划定的Cutoff值,对SNP_ratio值进行判断以该区域染色体是否为整倍体。
实施例7基于杂合SNP的等位基因频率分布异常检测方法建立Cutoff值
选择20例染色体1p缺失样本、20例染色体19q缺失样本、7例染色体7扩增样本、4例染色体10缺失样本以及54例阴性样本按照实施例6杂合SNP的等位基因频率分布异常检测方法进行分析,计算上述阴性样本、阳性样本的SNP_ratio,结果如表13、14。
表13阴性样本在目标区域的SNP_ratio值
表14阳性样本在目标区域的SNP_ratio值
sample | chr1p | sample | chr7 | sample | chr10 | sample | chr19 |
sample1 | 0.0244 | sample1 | 0.4286 | sample1 | 0.3537 | sample1 | 0.0400 |
sample2 | 0.0308 | sample2 | 0.4512 | sample2 | 0.2178 | sample2 | 0.0000 |
sample3 | 0.0114 | sample3 | 0.4690 | sample3 | 0.3116 | sample3 | 0.0000 |
sample4 | 0.0139 | sample4 | 0.4928 | sample4 | 0.4483 | sample4 | 0.0000 |
sample5 | 0.0000 | Sample5 | 0.4541 | sample5 | 0.0000 | ||
sample6 | 0.0000 | Sample6 | 0.5820 | sample6 | 0.0000 | ||
sample7 | 0.0625 | Sample7 | 0.5792 | sample7 | 0.3333 | ||
sample8 | 0.0000 | sample8 | 0.0000 | ||||
sample9 | 0.0104 | sample9 | 0.0303 | ||||
sample10 | 0.0000 | sample10 | 0.0000 | ||||
sample11 | 0.0196 | sample11 | 0.0000 | ||||
sample12 | 0.0217 | sample12 | 0.0000 | ||||
sample13 | 0.0000 | sample13 | 0.0000 | ||||
sample14 | 0.0000 | sample14 | 0.0500 | ||||
sample15 | 0.0000 | sample15 | 0.0000 | ||||
sample16 | 0.0233 | sample16 | 0.0323 | ||||
sample17 | 0.0096 | sample17 | 0.0000 | ||||
sample18 | 0.0122 | sample18 | 0.0000 | ||||
sample19 | 0.0000 | sample19 | 0.0000 | ||||
sample20 | 0.0000 | sample20 | 0.0370 |
基于以上样本SNP_ratio数据,对SNP_ratio划定Cutoff值,作为染色体1p、19q、7、10区域染色体是否为整倍体的判断标准,表15、16、17、18分别为染色体1p、19q、7、10区域SNP_ratio不同Cutoff值ROC分析结果。
表15 chr1p区域的SNP_ratio不同Cutoff值ROC分析结果
表16 chr19q区域的SNP_ratio不同Cutoff值ROC分析结果
Cutoff | 0.2 | 0.3 | 0.4 | 0.5 | 0.6 | 0.7 | 0.8 |
真阳 | 19 | 19 | 20 | 20 | 20 | 20 | 20 |
真阴 | 54 | 54 | 54 | 54 | 54 | 54 | 52 |
假阳 | 0 | 0 | 0 | 0 | 0 | 0 | 2 |
假阴 | 1 | 1 | 0 | 0 | 0 | 0 | 0 |
灵敏度 | 95% | 95% | 100% | 100% | 100% | 100% | 100% |
特异性 | 100% | 100% | 100% | 100% | 100% | 100% | 96% |
表17 chr7区域的SNP_ratio不同Cutoff值ROC分析结果
Cutoff | 0.2 | 0.3 | 0.4 | 0.5 | 0.6 | 0.7 | 0.8 |
真阳 | 0 | 0 | 0 | 5 | 7 | 7 | 7 |
真阴 | 54 | 54 | 54 | 54 | 53 | 53 | 52 |
假阳 | 0 | 0 | 0 | 0 | 1 | 1 | 2 |
假阴 | 7 | 7 | 7 | 2 | 0 | 0 | 0 |
灵敏度 | 0% | 0% | 0% | 71% | 100% | 100% | 100% |
特异性 | 100% | 100% | 100% | 100% | 98% | 98% | 96% |
表18 chr10区域的SNP_ratio不同Cutoff值ROC分析结果
Cutoff | 0.2 | 0.3 | 0.4 | 0.5 | 0.6 | 0.7 | 0.8 |
真阳 | 0 | 1 | 3 | 4 | 4 | 4 | 4 |
真阴 | 54 | 54 | 54 | 54 | 54 | 53 | 17 |
假阳 | 0 | 0 | 0 | 0 | 0 | 1 | 3 |
假阴 | 4 | 3 | 1 | 0 | 0 | 0 | 50 |
灵敏度 | 0% | 25% | 75% | 100% | 100% | 100% | 7% |
特异性 | 100% | 100% | 100% | 100% | 100% | 98% | 85% |
根据上面ROC分析结果,为了保证检测的特异性和灵敏度,设定Cutoff值如下表19。
表19染色体1p、19q、7、10区域SNP_ratio的Cutoff值
染色体 | 1p | chr7 | chr10 | 19q |
Cutoff | ≤0.4 | ≤0.7 | ≤0.6 | ≤0.4 |
真阳 | 20 | 7 | 4 | 20 |
真阴 | 54 | 53 | 54 | 54 |
假阳 | 0 | 1 | 0 | 0 |
假阴 | 0 | 0 | 0 | 0 |
灵敏度 | 100% | 100% | 100% | 100% |
特异性 | 100% | 98% | 100% | 100% |
当样本染色体1p区域的SNP_ratio≤0.4时,判定该样本染色体是非整倍体;当样本染色体7区域的SNP_ratio≤0.7时,判定该样本染色体7是非整倍体;当样本染色体10区域的SNP_ratio≤0.6时,判定该样本染色体10是非整倍体;当样本染色体19q区域的SNP_ratio≤0.4时,判定该样本染色体19q是非整倍体。
实施例8基于Zscore和SNP等位基因频率的非整倍体综合分析
本实施例将收集的54例临床阴性样本、20例染色体1p缺失临床阳性样本、20例染色体19q缺失临床阳性样本、7例染色体7异常扩增临床阳性样本、4例染色体10缺失临床阳性样本组成74例染色体1p检测组、74例染色体19q检测组、61例染色体7检测组、58例染色体10检测组,组内样本进行打乱,重新编号,进行盲测。
1)数据分析:
染色体1p检测组:
将74例染色体1p检测FFPE样本按照NGS样本上机测序实验流程进行杂交捕获、建库、上机测序,得到相应序列数据,并参照实施例2对测序数据进行质量控制,质控合格的样本数据进行实施例3所述的Zscore分析方法,得到检测样本的Sig_value,数据如表20;按照实施例6所述的杂合SNP的等位基因频率分布异常检测方法,得到检测样本的SNP_ratio,数据如表20。
表20染色体1p检测组样本检测数据
染色体19q检测组:
将74例染色体19q检测FFPE样本按照NGS样本上机测序实验流程进行杂交捕获、建库、上机测序,得到相应序列数据,并参照实施例2对测序数据进行质量控制,质控合格的样本数据进行实施例4所述的针对染色体19q缺失的Zscore分析方法,得到检测样本的Sig_value,数据如表21;按照实施例6所述的杂合SNP的等位基因频率分布异常检测方法,得到检测样本的SNP_ratio,数据如表21。
表21染色体19q检测组样本检测数据
染色体7检测组:
将61例染色体7检测FFPE样本按照NGS样本上机测序实验流程进行杂交捕获、建库、上机测序,得到相应序列数据,并参照实施例2对测序数据进行质量控制,质控合格的样本数据进行实施例3所述的Zscore分析方法,得到检测样本的Sig_value,数据如表22;按照实施例6所述的杂合SNP的等位基因频率分布异常检测方法,得到检测样本的SNP_ratio,数据如表22。
表22染色体7检测组样本检测数据
染色体10检测组:
将58例染色体10检测FFPE样本按照NGS样本上机测序实验流程进行杂交捕获、建库、上机测序,得到相应序列数据,并参照实施例2对测序数据进行质量控制,质控合格的样本数据进行实施例3所述的Zscore分析方法,得到检测样本的Sig_value,数据如表23;按照实施例6所述的杂合SNP的等位基因频率分布异常检测方法,得到检测样本的SNP_ratio,数据如表23。
表23染色体10检测组样本检测数据
2)结果判读:
当检测样本的Sig_value、SNP_ratio同时满足其判定要求时,可判断该样本为阳性。上述样本盲测结果如表24。
表24盲测结果汇总
由上述结果表明,通过本发明的方法全部检出20例染色体1p缺失临床阳性样本、20例染色体19q缺失临床阳性样本、7例染色体7异常扩增临床阳性样本和4例染色体10缺失临床阳性样本;同时检出54例临床阴性样本,且检测过程中假阳性假阴性率都为0,灵敏度和特异性均达到100%,显著优于现有技术。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,但本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (13)
1.一种染色体非整倍体分析方法,其特征在于,所述方法包括:
步骤1)基于Zscore算法对基因测序样本的测序深度进行统计分析;
步骤2)对基因测序样本的SNP等位基因频率进行统计分析;
结合步骤1)和2)判定染色体为/不为非整倍体;
其中,所述步骤1)基于Zscore算法对样本测序深度进行统计分析得到信号值1Sig_value,包括将染色体目标区域每个基因位点测序深度参考阴性样本数据集进行标准化,标准化后的数据参考阴性样本数据集计算Zscore,信号值1Sig_value为目标染色体区域每个基因位点Zscore之和,即Sig_value计算方式为:
其中,N表示所述目标区域的基因位点总数,j表示染色体目标区域第j位;
所述步骤2)对样本SNP等位基因频率进行统计分析得到信号值2SNP_ratio,包括统计样本SNP等位基因频率在0.4~0.6范围的SNP个数N1以及样本SNP等位基因频率在0~0.9范围的SNP个数N2,信号值2SNP_ratio=N1/N2;
基于Cutoff值评价信号值1和2,判定目标染色体为/不为非整倍体,当样本信号值1Sig_value、信号值2SNP_ratio同时处于/未处于Cutoff范围内,判定目标染色体为/不为非整倍体。
2.根据权利要求1所述的染色体非整倍体分析方法,其特征在于,所述步骤1)中的测序深度为去PCR重复后的测序深度。
3.根据权利要求1所述的染色体非整倍体分析方法,其特征在于,所述步骤2)中样本SNP等位基因频率为样本SNP位点测序深度>100的等位基因频率。
4.根据权利要求1-3任一所述的染色体非整倍体分析方法,其特征在于,所述染色体为1p、7、10和/或19q。
5.根据权利要求4所述的染色体非整倍体分析方法,其特征在于,所述染色体为1p和19q。
6.根据权利要求5所述的染色体非整倍体分析方法,其特征在于,所述染色体1p的Sig_value的Cutoff为-40,000~-15,000,SNP_ratio的Cutoff为0.1~0.6;所述染色体19q的Sig_value的Cutoff为-1~-0.7,SNP_ratio的Cutoff为0.4~0.7。
7.根据权利要求6所述的染色体非整倍体分析方法,其特征在于,所述染色体1p和19q的cutoff值分别为CutoffSig_value-1p=-20000、CutoffSNP_ratio-1p=0.4、CutoffSig_value-19q=-0.9、CutoffSNP_ratio-19q=0.4。
8.一种染色体非整倍体的数据分析系统,其特征在于,所述系统包括:
信息输入模块:将测序数据传输至Zscore分析模块、SNP等位基因频率分析模块;
所述Zscore分析模块是基于Zscore算法对基因测序样本的测序深度进行统计分析得到信号值1Sig_value;所述Zscore分析模块包括将染色体目标区域每个基因位点测序深度参考阴性样本数据集进行标准化,标准化后的数据参考阴性样本数据集计算Zscore,信号值1Sig_value为目标染色体区域每个基因位点Zscore之和,即Sig_value计算方式为:
其中,N表示所述目标区域的基因位点总数,j表示染色体目标区域第j位;
所述SNP等位基因频率分析模块是对基因测序样本的SNP等位基因频率进行统计分析得到信号值2SNP_ratio;所述SNP等位基因频率分析模块包括统计样本SNP等位基因频率在0.4~0.6范围的SNP个数N1以及样本SNP等位基因频率在0~0.9范围的SNP个数N2,信号值2SNP_ratio=N1/N2;
结果判断模块:基于Cutoff值评价信号值1和2,判定目标染色体为/不为非整倍体;
当样本信号值1Sig_value、信号值2SNP_ratio同时处于/未处于Cutoff范围内,判定目标染色体为/不为非整倍体。
9.权利要求8所述的染色体非整倍体的数据分析系统,其特征在于,所述Zscore分析模块中,测序深度为去PCR重复后的测序深度。
10.权利要求9所述的染色体非整倍体的数据分析系统,其特征在于,所述SNP等位基因频率分析模块中,样本SNP等位基因频率为样本SNP位点测序深度>100的等位基因频率。
11.权利要求8-10任一所述的染色体非整倍体的数据分析系统,其特征在于,所述染色体为1p和19q。
12.权利要求11所述的染色体非整倍体的数据分析系统,其特征在于,针对1p和19q的cutoff值分别为CutoffSig_value-1p=-20000、CutoffSNP_ratio-1p=0.4、CutoffSig_value-19q=-0.9、CutoffSNP_ratio-19q=0.4。
13.一种染色体非整倍体的检测方法,包括探针设计,建库测序和数据分析,其特征在于,所述数据分析采用权利要求1-7任一所述的染色体非整倍体的数据分析方法;所述探针设计为在目标区域,保持每隔500Kbp距离,对包含SNP位点且Mappability=1的区域铺设捕获探针,所述捕获探针长度为100bp。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911334415.1A CN111091868B (zh) | 2019-12-23 | 2019-12-23 | 一种染色体非整倍体的分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911334415.1A CN111091868B (zh) | 2019-12-23 | 2019-12-23 | 一种染色体非整倍体的分析方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111091868A CN111091868A (zh) | 2020-05-01 |
CN111091868B true CN111091868B (zh) | 2020-09-25 |
Family
ID=70395294
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911334415.1A Active CN111091868B (zh) | 2019-12-23 | 2019-12-23 | 一种染色体非整倍体的分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111091868B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113113081B (zh) * | 2020-08-31 | 2021-12-14 | 东莞博奥木华基因科技有限公司 | 基于CNV-seq测序数据检测多倍体和基因组纯合区域ROH的系统 |
CN112509638B (zh) * | 2020-12-04 | 2021-12-03 | 深圳荻硕贝肯精准医学有限公司 | 人类hla染色体区域杂合性缺失的分析方法和分析处理装置 |
CN113035276B (zh) * | 2021-03-11 | 2021-12-03 | 深圳荻硕贝肯精准医学有限公司 | 人类hla染色体区域杂合性缺失的分析方法和系统 |
CN113658638B (zh) * | 2021-08-20 | 2022-06-03 | 江苏先声医学诊断有限公司 | 一种基于ngs平台的同源重组缺陷的检测方法和质控体系 |
CN115948521A (zh) * | 2022-12-29 | 2023-04-11 | 东北林业大学 | 一种检测非整倍体缺失染色体信息的方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104232777A (zh) * | 2014-09-19 | 2014-12-24 | 天津华大基因科技有限公司 | 同时确定胎儿核酸含量和染色体非整倍性的方法及装置 |
CN106520940A (zh) * | 2016-11-04 | 2017-03-22 | 深圳华大基因研究院 | 一种染色体非整倍体和拷贝数变异检测方法及其应用 |
CN107622183A (zh) * | 2017-08-15 | 2018-01-23 | 上海派森诺生物科技股份有限公司 | 一种基于多重指标的胎儿染色体倍性检测分析方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3224382A1 (en) * | 2014-11-24 | 2017-10-04 | Shaare Zedek Medical Center | Fetal haplotype identification |
CN109971846A (zh) * | 2018-11-29 | 2019-07-05 | 时代基因检测中心有限公司 | 使用双等位基因snp靶向下一代测序的非侵入性产前测定非整倍体的方法 |
-
2019
- 2019-12-23 CN CN201911334415.1A patent/CN111091868B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104232777A (zh) * | 2014-09-19 | 2014-12-24 | 天津华大基因科技有限公司 | 同时确定胎儿核酸含量和染色体非整倍性的方法及装置 |
CN106520940A (zh) * | 2016-11-04 | 2017-03-22 | 深圳华大基因研究院 | 一种染色体非整倍体和拷贝数变异检测方法及其应用 |
CN107622183A (zh) * | 2017-08-15 | 2018-01-23 | 上海派森诺生物科技股份有限公司 | 一种基于多重指标的胎儿染色体倍性检测分析方法 |
Non-Patent Citations (1)
Title |
---|
Mass spectrometry-based assay for the molecular diagnosis of glioma:concomitant detection of chromosome 1p/19q codeletion,and IDH1,IDH2,and TERT mutation status;Chiara Pesenti 等;《Oncotarget》;20170708;第57134-57148页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111091868A (zh) | 2020-05-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111091868B (zh) | 一种染色体非整倍体的分析方法及系统 | |
CN106778073B (zh) | 一种评估肿瘤负荷变化的方法和系统 | |
US20060057618A1 (en) | Determining data quality and/or segmental aneusomy using a computer system | |
CN111304303B (zh) | 微卫星不稳定的预测方法及其应用 | |
CN113724791B (zh) | Cyp21a2基因ngs数据分析的方法、装置及应用 | |
CN113257360B (zh) | 癌症筛查模型、癌症筛查模型的构建方法及构建装置 | |
EP3859010A1 (en) | Second generation sequencing-based method for detecting microsatellite stability and genome changes by means of plasma | |
CN112592971B (zh) | 一种与系统性红斑狼疮相关的生物标志物及其应用 | |
CN113450871A (zh) | 基于低深度测序的鉴定样本同一性的方法 | |
CN105779435A (zh) | 试剂盒及其用途 | |
CN110592208B (zh) | 地中海贫血症三类亚型的捕获探针组合物及其应用方法和应用装置 | |
CN113025716A (zh) | 一种用于人肿瘤分级的基因组合及其用途 | |
Weedon et al. | Very rare pathogenic genetic variants detected by SNP-chips are usually false positives: implications for direct-to-consumer genetic testing | |
CN112201306A (zh) | 基于高通量测序的真假基因突变分析方法及应用 | |
CN117079723B (zh) | 一种与肌萎缩侧索硬化症相关的生物标志物、诊断模型及其应用 | |
CN111899789B (zh) | 二代测序鉴定brca1/2大片段重排的方法及系统 | |
CN116580768B (zh) | 一种基于定制化策略的肿瘤微小残留病灶检测方法 | |
CN112102944A (zh) | 一种基于ngs的脑肿瘤分子诊断的分析方法 | |
KR102472050B1 (ko) | 환자 맞춤형 패널을 이용한 암의 재발을 예측하는 방법 | |
US20090087848A1 (en) | Determining segmental aneusomy in large target arrays using a computer system | |
CN113724781A (zh) | 检测纯合缺失的方法和装置 | |
CN114093417B (zh) | 一种鉴定染色体臂杂合性缺失的方法和装置 | |
KR102617882B1 (ko) | 현미부수체 불안정성 측정 방법 | |
CN115472294B (zh) | 预测小细胞转化肺腺癌患者转化速度的模型及其构建方法 | |
CN114093428B (zh) | 一种ctDNA超高测序深度下低丰度突变的检测系统和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |