CN111091868B - 一种染色体非整倍体的分析方法及系统 - Google Patents

一种染色体非整倍体的分析方法及系统 Download PDF

Info

Publication number
CN111091868B
CN111091868B CN201911334415.1A CN201911334415A CN111091868B CN 111091868 B CN111091868 B CN 111091868B CN 201911334415 A CN201911334415 A CN 201911334415A CN 111091868 B CN111091868 B CN 111091868B
Authority
CN
China
Prior art keywords
chromosome
sample
value
snp
cutoff
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911334415.1A
Other languages
English (en)
Other versions
CN111091868A (zh
Inventor
吴增丁
邓望龙
肖念清
任用
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Xiansheng Medical Devices Co ltd
Nanjing Xiansheng Medical Testing Co ltd
Jiangsu Xiansheng Medical Diagnosis Co ltd
Original Assignee
Jiangsu Xiansheng Medical Devices Co ltd
Nanjing Xiansheng Medical Testing Co ltd
Jiangsu Xiansheng Medical Diagnosis Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Xiansheng Medical Devices Co ltd, Nanjing Xiansheng Medical Testing Co ltd, Jiangsu Xiansheng Medical Diagnosis Co ltd filed Critical Jiangsu Xiansheng Medical Devices Co ltd
Priority to CN201911334415.1A priority Critical patent/CN111091868B/zh
Publication of CN111091868A publication Critical patent/CN111091868A/zh
Application granted granted Critical
Publication of CN111091868B publication Critical patent/CN111091868B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR

Abstract

本发明提供一种染色体非整倍体分析方法及系统。本发明所述方法基于Zscore算法对样本测序深度进行统计分析,并结合样本SNP等位基因频率统计分析,综合判定染色体非整倍体情况。本发明所述方法准确度高,不受待测样本SNP位点数的影响,特异性、灵敏度高,可达到100%,还可判断异常染色体为缺失或扩增。

Description

一种染色体非整倍体的分析方法及系统
技术领域
本发明涉及基因工程技术领域,特别是涉及一种染色体非整倍体的数据分析方法及系统。
背景技术
肿瘤,尤其是脑肿瘤病变过程中,细胞会发生非平衡易位,导致丢失/增加染色体某个长短臂,甚至是整个染色体。脑胶质瘤(Glioma)是最常见的颅内原发恶性肿瘤,在成年人中,胶质瘤是最常见的原发性颅内肿瘤,约占所有脑部肿瘤的30~40%。在原发性恶性中枢神经系统肿瘤中,胶质母细胞瘤(Glioblastoma)的发病率最高,占了46.1%。全球,胶质母细胞瘤的发病率或者新就诊数量约为每10万人里面有2至3人,中位发病年龄为65岁,中位生存期为14.6个月,整体治疗效果并不理想。
临床上,胶质母细胞瘤具有病程短、病状发展迅速、术后高复发性、低治愈率的特点。临床上多采用放射性核素扫描检查、脑部CT或者核磁共振检查的诊断方法,但是此类病人由于脑瘤血管内皮细胞结合较为紧密,趋于正常,血脑屏障较为良好,不发生或者较少发生造影剂血管外溢,因而头颅MRI效果不佳;并且此类疾病病情初期容易和其他疾病混淆,导致延误治疗时机。
目前,2016版WHO中枢神经系统肿瘤分类已经在组织学基础上加入了分子学特征,采用“综合诊断”去诊断胶质母细胞瘤,该“综合诊断”整合了组织病理和基因型参数,提高了胶质瘤分型、诊断、预后和治疗决策的准确性,其中1p/19q联合缺失(1p/19q LOH)是少突胶质瘤的重要分子指标,与O形态紧密相关,且影响患者预后和放/化疗疗效相关。
目前,常用于检测lp/19q LOH的方法包括:荧光原位杂交(fluorescent in situhybridization,FISH)和一代测序的方法。其中,荧光原位杂交是目前临床病理检胶质瘤样本中1p/19q联合缺失的金标准方法。但实体瘤染色体的制备和显带都比较困难,需要有丰富经验的专业人员操作,并且探针数量有限,通量小、时间长。只能检测1p、19q上小部分固定位置的缺失情况。
现有技术中很少有提出NGS检测1p19q LOH的方法,部分只涉及基于SNP的分布差异信号来检测染色体是否缺失,没有利用测序深度的信号,其缺点显著:1)只能判断染色体是否整倍体,而不能进一步判断异常染色体为缺失还是扩增;2)待测样本的杂合SNP位点数不固定,如果都是纯合SNP或者杂合SNP位点过少,将直接影响该样本的检测准确度。
因此,现有技术中亟需一种准确度更高的NGS检测1p19q LOH的方法。
发明内容
本发明的目的在于提供一种染色体非整倍体的检测方法,以至少缓解现有技术中存在的技术问题之一。
为实现上述目的,本发明采用如下技术方案:
一种染色体非整倍体的数据分析方法,所述方法为步骤1)基于Zscore算法对基因测序样本的测序深度进行统计分析;步骤2)对基因测序样本的SNP等位基因频率进行统计分析;结合步骤1)和2)判定染色体为/不为非整倍体。
在一些实施方式中,所述步骤1)为基于Zscore算法对样本测序深度进行统计分析得到信号值1(Sig_value);步骤2)对样本SNP等位基因频率进行统计分析得到信号值2(SNP_ratio);基于Cutoff值评价信号值1和2,判定目标染色体为/不为非整倍体;优选的,当样本信号值1(Sig_value)、信号值2(SNP_ratio)同时处于/未处于Cutoff范围内,判定目标染色体为/不为非整倍体。
在一些实施方式中,所述步骤1)包括将染色体目标区域每个基因位点测序深度参考阴性样本数据集进行标准化,标准化后的数据参考阴性样本数据集计算Zscore,信号值1(Sig_value)为目标染色体区域每个基因位点Zscore之和,即Sig_value计算方式为:
Figure BDA0002330579780000021
其中,N表示该检测区域的基因位点总数,j表示染色体目标区域第j位;
优选地,所述测序深度为去PCR重复后的测序深度。
在一些实施方式中,所述步骤2)包括:统计样本SNP等位基因频率在0.4~0.6范围的SNP个数N1以及样本SNP等位基因频率在0~0.9范围的SNP个数N2,信号值2(SNP_ratio)=N1/N2;优选地,样本SNP等位基因频率为样本SNP位点测序深度>100的等位基因频率。
在一些实施方式中,所述染色体为1p、7、10和/或19q,优选的为1p和19q。
在一些实施方式中,所述用于染色体19q非整倍体数据分析的步骤1)包括:将染色体19q以及染色体19p每个基因位点测序深度参考阴性样本数据集进行标准化,形成染色体19q标准化测序深度集、染色体19p标准化测序深度集,Zscore取标准化测序深度集中的中位数,信号值1(Sig_value)=Zscore19q-Zscore19p
在一些实施方式中,所述染色体1p的Sig_value的Cutoff为-40,000~-15,000,SNP_ratio的Cutoff为0.1~0.6;所述染色体19q的Sig_value的Cutoff为-1~-0.7,SNP_ratio的Cutoff为0.4~0.7;优选的,1p和19q的cutoff值分别为CutoffSig_value-1p=-20000、CutoffSNP_ratio-1p=0.4、CutoffSig_value-19q=-0.9、CutoffSNP_ratio-19q=0.4。
本发明还涉及一种染色体非整倍体的数据分析系统,所述系统包括信息输入模块:将测序数据传输至Zscore分析模块、SNP等位基因频率分析模块;所述Zscore分析模块是基于Zscore算法对基因测序样本的测序深度进行统计分析得到信号值1(Sig_value);所述SNP等位基因频率分析模块是对基因测序样本的SNP等位基因频率进行统计分析得到信号值2(SNP_ratio);结果判断模块:基于Cutoff值评价信号值1和2,判定目标染色体为/不为非整倍体;优选的,当样本信号值1(Sig_value)、信号值2(SNP_ratio)同时处于/未处于Cutoff范围内,判定目标染色体为/不为非整倍体。
在一些实施方式中,所述Zscore分析模块包括将染色体目标区域每个基因位点测序深度参考阴性样本数据集进行标准化,标准化后的数据参考阴性样本数据集计算Zscore,信号值1(Sig_value)为目标染色体区域每个基因位点Zscore之和,即Sig_value计算方式为:
Figure BDA0002330579780000031
其中,N表示该检测区域的基因位点总数,j表示染色体目标区域第j位;
优选地,所述测序深度为去PCR重复后的测序深度。
所述SNP等位基因频率分析模块包括统计样本SNP等位基因频率在0.4~0.6范围的SNP个数N1以及样本SNP等位基因频率在0~0.9范围的SNP个数N2,信号值2(SNP_ratio)=N1/N2;
优选地,样本SNP等位基因频率为样本SNP位点测序深度>100的等位基因频率。
在一些实施方式中,所述染色体为1p、7、10和/或19q,优选的为1p和19q。
在一些实施方式中,所述用于染色体19q非整倍体数据分析包括:将染色体19q以及染色体19p每个基因位点测序深度参考阴性样本数据集进行标准化,形成染色体19q标准化测序深度集、染色体19p标准化测序深度集,Zscore取标准化测序深度集中的中位数,信号值1(Sig_value)=Zscore19q-Zscore19p
在一些实施方式中,所述染色体1p的Cutoff值为:Sig_value的Cutoff为-40,000~-15,000,优选的为-20000,SNP_ratio的Cutoff为0.1~0.6,优选的为0.4;所述染色体19q的Cutoff值为:Sig_value的Cutoff为-1~-0.7,优选为-0.9,SNP_ratio的Cutoff为0.4~0.7,优选为0.4。
本发明还涉及一种染色体非整倍体的检测方法,包括对目标染色体区域捕获探针设计,捕获探针对样本目标基因杂交捕获,捕获基因序列测序,测序数据的数据分析,获得样本检测结果,所述测序数据的数据分析采用上述的染色体非整倍体的数据分析方法。
优选的,所述对染色体目标区域捕获探针的设计包括:在目标区域,保持每隔500Kbp距离,对包含SNP位点且Mappability=1的区域铺设捕获探针,所述捕获探针长度为100bp。
本发明有益的技术效果:
1、本发明所述方法和系统结合SNP等位基因频率和基于Zscore算法测序深度的数据处理方法对样本测序数据进行分析处理,该方法检测准确度高,并且不受待测样本SNP位点数的影响;特异性、灵敏度均达到了100%。
2、本发明基于Zscore算法对测序深度进行处理分析,综合染色体目标区域的测序深度信息,降低测序引入错误对结果判定的影响。
3、本发明所述检测方法有效选择比对可信度高的染色体区域,使得测序数据稳定,信号值更为准确。
4、本发明基于高通量测序,具有测序通量大,测序周期短,准确性高的特点。
5、本发明可以更大范围地检测整条染色体臂的情况,不仅可以判断染色体是否为整倍体,还可进一步判断异常染色体为缺失还是扩增。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1:UCSC中染色体上mappability的分布图;
图2:样本编号RD2319051519FP染色体1-22区域不同position上的Zscore结果图,该样本为1p、19q共同缺失的样本;
图3:sample1(阴性)在chr1p上的SNP位点等位基因频率的分布图;
图4:sample2(阳性)在chr1p上的SNP位点等位基因频率的分布图;
具体实施方式
下面将结合实施例对本发明的实施方案进行详细描述,但是本领域技术人员将会理解,下列实施例仅用于说明本发明,而不应视为限制本发明的范围。实施例中未注明具体条件者,按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者,均为可以通过市购买获得的常规产品。
实施例1Backbone区域探针设计及上机测序
1)选择对比准确性高的区域
本发明依据UCSC网站公开的序列信息选择Backbone区域,如图1,图1中的横坐标是chr1:q的参考序列位置,纵坐标是准确性值mappability,当mappability=1时,表示来自该区域的100bp序列可以唯一比对回该区域,说明比对准确性最高,这种区域在图中是黑色;当mappability<1时,表明比对准确性低,这种区域在图中是灰白色。
2)筛选SNP位点
根据公开的人群突变数据库gnomAD/exAC/千人基因组等数据库,筛选出人群频率大于5%的SNP位点。
3)探针设计
在Backbone的Mappability=1区域,保持每隔约500Kbp的距离,选择一个包含SNP位点,铺设跨度约100bp的捕获探针。
4)基于捕获探针进行FFPE样本的建库和杂交捕获,随后按照NGS常规实验流程进行上机测序,得到测序下机的fastq.gz序列数据。
实施例2基于NGS平台测序数据的质量控制
将得到测序下机的fastq.gz序列数据用fastp软件去接头,得到XXXFP.trim.R1.fastq.gz文件,将去接头后的XXXFP.trim.R1.fastq.gz文件和人源参考基因组用BWA mem进行比对,比对参数是bwa mem-Y-R,比对得到XXX.align.bam文件。对XXX.align.bam用sambamba软件按照比对位置对reads进行排序,得到XXX.align.sort.bam文件。用bamdst软件对XXX.align.sort.bam文件统计得到Mapped ratio,raw Q30 rate,target_ratio_base,median_umi_depth、median_insert_size等QC指标。
根据表1的标准,判定样本建库、测序质量是否合格;
表1.质控指标
Figure BDA0002330579780000051
Figure BDA0002330579780000061
实施例3基于Zscore的分析
1)构建阴性样本测序深度参考集
选择54例临床阴性FFPE样本,按照NGS样本上机测序实验流程进行建库、杂交捕获、上机测序,得到相应序列数据,并参考实施例2对测序数据进行质量控制,质控合格的样本数据进行以下的数据分析:
①提取去掉PCR重复后的测序深度数据:
用Bamdst软件对XXX.align.sort.bam文件进行分析得到depth.tsv.gz文件,depth.tsv.gz文件打开后可以得到如同表2的数据列表,其中第一列是染色体编号,第二列是碱基位置,第三列是原始的测序深度,第四列是去掉PCR重复后的测序深度,即Rmdupdepth,以下简写为RmD。
表2.depth.tsv.gz文件示例数据列表
Figure BDA0002330579780000062
Figure BDA0002330579780000071
②对RmD标准化处理:
对54例阴性样本所有基因位点的RmD进行标准化处理,得到标准化后的测序深度,即Norm_RmD,处理方法如下:
Figure BDA0002330579780000072
其中,RmDj为第i染色体上的第j个position的去掉PCR重复后的测序深度;median_RmDj为54例阴性样本的RmDj的中位数;Norm_RmDj为第i染色体上的第j个position标准化后的测序深度。
③计算Norm_RmD的平均值(μ)和方差(δ):
计算54例阴性样本目标染色体上的每个position的Norm_RmD的平均值(μ)和方差(δ),相关计算公式为:
Figure BDA0002330579780000073
Figure BDA0002330579780000074
其中,n表示阴性样本数54例;μj为第j个position所有阴性样本Norm_RmDj的平均值;δj为第j个position所有阴性样本Norm_RmDj的方差。
该实施例中54例阴性样本测序深度经过标准化处理后的Norm_RmDj的以及其μj、δj汇总如表3。
表3 54例阴性样本测序深度经过标准化处理后的数据
Figure BDA0002330579780000075
Figure BDA0002330579780000081
2)计算待测样本的Zscore
按照NGS样本上机测序实验流程进行杂交捕获、建库、上机测序,得到相应序列数据,并参考实施例2对测序数据进行质量控制,质控合格的样本数据用Bamdst软件对XXX.align.sort.bam文件进行分析得到depth.tsv.gz文件,从depth.tsv.gz文件得到样本RmD数据。
根据阴性样本测序深度参考集中的median_RmDj,对待测样本RmD数据进行标准化处理得到待测样本的Norm_RmDj;根据阴性样本测序深度参考集中的μj、δj,按照以下公式计算待测样本第j个position上的Zscorej
Figure BDA0002330579780000082
图2是样本编号RD2319051519FP染色体1-22区域不同position上的Zscore结果图,该样本为1p、19q共同缺失的样本。
3)计算Backbone区域的信号值
Backbone区域的信号值以Sig_value表示,计算方式为:
Figure BDA0002330579780000083
基于该Backbone区域划定的Cutoff值,对Sig_value值进行判断以该区域是否有基因缺失/扩增的情况。
实施例4针对染色体19q缺失的Zscore分析
1)构建阴性样本测序深度参考集
参照实施例3中所述的构建阴性样本测序深度参考集的流程,对质控合格的样本数据进行提取去掉PCR重复后的测序深度数据处理,得到54例阴性样本的RmD数据。
2)计算待测样本的Zscore
按照NGS样本上机测序实验流程进行杂交捕获、建库、上机测序,得到相应序列数据,并参考实施例2对测序数据进行质量控制,质控合格的样本数据用Bamdst软件对XXX.align.sort.bam文件进行分析得到depth.tsv.gz文件,从depth.tsv.gz文件得到样本RmD数据。
根据阴性样本测序深度参考集中的median_RmDj,对待测样本RmDj数据进行标准化处理得到待测样本的Norm_RmDj,计算公式如下:
Figure BDA0002330579780000091
按照以下公式计算待测样本的Zscore:
Zscorei=median_Norm_RmDi
其中,Zscorej为j区域的Zscore值,median_Norm_RmDj为j区域所有positionNorm_RmD的中位数。
3)计算染色体19q区域的信号值
染色体19q区域的信号值以Sig_value19q表示,计算方式为:
Sig_value19q=Zscore19q-Zscore19p
基于染色体19q区域划定的Cutoff值,对Sig_value19q值进行判断以该区域是否有基因缺失/扩增的情况。
实施例5基于Zscore分析方式建立染色体1p、染色体19q、染色体7、染色体10区域Sig_value的Cutoff值
选择20例染色体1p缺失样本、20例染色体19q缺失样本、7例染色体7扩增样本、4例染色体10缺失样本以及54例阴性样本按照实施例3、4Zscore分析方法,计算阴性样本、阳性样本在待测区域(chr1p、chr19q、chr7、chr10)的Sig_value,结果如表4、5。
表4阴性样本在待测区域的Sig_value
Figure BDA0002330579780000092
Figure BDA0002330579780000101
Figure BDA0002330579780000111
表5阳性样本在对应待测区域的Sig_value
Figure BDA0002330579780000112
Figure BDA0002330579780000121
基于以上Sig_value数据,对染色体1p缺失、染色体19q缺失、染色体7扩增、染色体10缺失的情况划定Cutoff值,并采用ROC分析筛选出最优Cutoff值,作为Zscore分析方法的判断标准,表6、7、8、9分别为染色体1p缺失、染色体19q缺失、染色体7扩增、染色体10缺失的不同Cutoff值ROC分析结果。
表6 chr1p区域的不同Cutoff值ROC分析结果
Cutoff 0 -10000 -15000 -20000 -40000 -60000 -80000
真阳 20 20 20 20 20 19 16
真阴 26 50 54 54 54 54 54
假阳 28 4 0 0 0 0 0
假阴 0 0 0 0 0 1 4
灵敏度 100% 100% 100% 100% 100% 95% 80%
特异性 48% 93% 100% 100% 100% 100% 100%
表7 chr19q区域的不同Cutoff值ROC分析结果
Cutoff -0.3 -0.5 -0.7 -0.9 -1 -1.2 -1.5
真阳 20 20 20 20 19 17 15
真阴 50 51 52 53 54 54 54
假阳 4 3 2 1 0 0 0
假阴 0 0 0 0 1 3 5
灵敏度 100% 100% 100% 100% 95% 85% 75%
特异性 93% 94% 96% 98% 100% 100% 100%
表8 chr7区域的不同Cutoff值ROC分析结果
Figure BDA0002330579780000122
Figure BDA0002330579780000131
表9 chr10区域的不同Cutoff值ROC分析结果
Cutoff -10000 -20000 -30000 -40000 -50000 -60000 -70000
真阳 4 4 4 4 3 1 1
真阴 52 53 54 54 54 54 54
假阳 2 1 0 0 0 0 0
假阴 0 0 0 0 1 3 3
灵敏度 100% 100% 100% 100% 75% 25% 25%
特异性 96% 98% 100% 100% 100% 100% 100%
根据上面ROC分析结果,为了保证检测的灵敏度和特异性,设定Cutoff值如下表10。
表10染色体1p、染色体19q、染色体7、染色体10区域Sig_value的Cutoff值
染色体 1p chr7 chr10 19q
Cutoff ≤-20000 ≥100000 ≤-40000 ≤-0.9
真阳 20 7 4 20
真阴 54 54 54 52
假阳 0 0 0 2
假阴 0 0 0 0
灵敏度 100% 100% 100% 100%
特异性 100% 100% 100% 96%
当样本染色体1p区域的Sig_value≤-20000时,判定该样本染色体1p发生缺失;当样本染色体7区域的Sig_value≥100000时,判定该样本染色体7非整倍体;当样本染色体10区域的Sig_value≤-40000时,判定该样本染色体10发生缺失;当样本染色体19q区域的Sig_value≤-0.9时,判定该样本染色体19q发生缺失。
实施例6杂合SNP的等位基因频率分布异常检测
取临床FFPE样本,按照NGS样本上机测序实验流程进行杂交捕获、建库、上机测序,得到相应序列数据,并参考实施例2对测序数据进行质量控制,质控合格的样本数据进行以下的数据分析:
1)获取SNP位点信息:用verdict软件检测样本SNP位点的基因型和等位基因频率,SNP位点的筛选参考实施例1中SNP位点的筛选,将样本SNP位点基因信息整理如表11、表12。
表11示例样本sample1(阴性)在chr1p上的SNP位点检测结果
染色体 位置 参考基因 突变结果 支持突变序列数 等位基因频率 测序深度
chr1 861808 A G 2115 0.9934 2129
chr1 1387726 A G 642 0.4569 1405
chr1 1387764 G A 706 0.4602 1534
chr1 2412279 A T 1847 0.9978 1851
chr1 3526241 C T 835 0.4827 1730
chr1 7449971 G A 762 0.4482 1700
chr1 7450006 C G 777 0.4402 1765
chr1 7982034 T C 857 0.9988 858
chr1 8570456 C G 383 0.4898 782
chr1 10318652 C G 376 0.5095 738
chr1 11187893 T C 1351 0.9978 1354
表12示例样本sample2(阳性)在chr1p上的SNP位点检测结果
染色体 位置 参考基因 突变结果 支持突变序列数 等位基因频率 测序深度
chr1 861808 A G 371 0.258 1438
chr1 1387726 A G 762 0.9909 769
chr1 1387764 G A 879 0.9966 882
chr1 1887245 G A 141 0.1783 791
chr1 2412225 C T 272 0.2505 1086
chr1 2412279 A T 1235 0.9928 1244
chr1 2938265 C T 426 0.2496 1707
chr1 3526241 C T 891 0.7185 1240
chr1 4716928 G C 449 0.2227 2016
chr1 7449971 G A 1343 1 1343
chr1 7450006 C G 1352 0.9978 1355
chr1 7982034 T C 193 0.2494 774
chr1 8570456 C G 497 0.994 500
chr1 9009406 C T 280 0.1991 1406
2)基因信息的筛选:对样本SNP位点基因信息根据测序深度>100进行一步筛选过滤,得到样本SNP位点测序深度>100的等位基因频率,将上述示例样本sample1(阴性)和示例样本sample2(阳性)按照测序深度>100筛选过滤,得到的样本等位基因频率数据呈现如图3、图4。
3)SNP_ratio的计算:
Figure BDA0002330579780000151
式中,N1为样本等位基因频率在0.4~0.6范围的杂合SNP个数;N2为样本等位基因频率在0~0.9之间的SNP个数;SNP_ration为判断杂合SNP等位基因频率分离的指标。
基于该目标区域划定的Cutoff值,对SNP_ratio值进行判断以该区域染色体是否为整倍体。
实施例7基于杂合SNP的等位基因频率分布异常检测方法建立Cutoff值
选择20例染色体1p缺失样本、20例染色体19q缺失样本、7例染色体7扩增样本、4例染色体10缺失样本以及54例阴性样本按照实施例6杂合SNP的等位基因频率分布异常检测方法进行分析,计算上述阴性样本、阳性样本的SNP_ratio,结果如表13、14。
表13阴性样本在目标区域的SNP_ratio值
Figure BDA0002330579780000152
Figure BDA0002330579780000161
Figure BDA0002330579780000171
表14阳性样本在目标区域的SNP_ratio值
sample chr1p sample chr7 sample chr10 sample chr19
sample1 0.0244 sample1 0.4286 sample1 0.3537 sample1 0.0400
sample2 0.0308 sample2 0.4512 sample2 0.2178 sample2 0.0000
sample3 0.0114 sample3 0.4690 sample3 0.3116 sample3 0.0000
sample4 0.0139 sample4 0.4928 sample4 0.4483 sample4 0.0000
sample5 0.0000 Sample5 0.4541 sample5 0.0000
sample6 0.0000 Sample6 0.5820 sample6 0.0000
sample7 0.0625 Sample7 0.5792 sample7 0.3333
sample8 0.0000 sample8 0.0000
sample9 0.0104 sample9 0.0303
sample10 0.0000 sample10 0.0000
sample11 0.0196 sample11 0.0000
sample12 0.0217 sample12 0.0000
sample13 0.0000 sample13 0.0000
sample14 0.0000 sample14 0.0500
sample15 0.0000 sample15 0.0000
sample16 0.0233 sample16 0.0323
sample17 0.0096 sample17 0.0000
sample18 0.0122 sample18 0.0000
sample19 0.0000 sample19 0.0000
sample20 0.0000 sample20 0.0370
基于以上样本SNP_ratio数据,对SNP_ratio划定Cutoff值,作为染色体1p、19q、7、10区域染色体是否为整倍体的判断标准,表15、16、17、18分别为染色体1p、19q、7、10区域SNP_ratio不同Cutoff值ROC分析结果。
表15 chr1p区域的SNP_ratio不同Cutoff值ROC分析结果
Figure BDA0002330579780000172
Figure BDA0002330579780000181
表16 chr19q区域的SNP_ratio不同Cutoff值ROC分析结果
Cutoff 0.2 0.3 0.4 0.5 0.6 0.7 0.8
真阳 19 19 20 20 20 20 20
真阴 54 54 54 54 54 54 52
假阳 0 0 0 0 0 0 2
假阴 1 1 0 0 0 0 0
灵敏度 95% 95% 100% 100% 100% 100% 100%
特异性 100% 100% 100% 100% 100% 100% 96%
表17 chr7区域的SNP_ratio不同Cutoff值ROC分析结果
Cutoff 0.2 0.3 0.4 0.5 0.6 0.7 0.8
真阳 0 0 0 5 7 7 7
真阴 54 54 54 54 53 53 52
假阳 0 0 0 0 1 1 2
假阴 7 7 7 2 0 0 0
灵敏度 0% 0% 0% 71% 100% 100% 100%
特异性 100% 100% 100% 100% 98% 98% 96%
表18 chr10区域的SNP_ratio不同Cutoff值ROC分析结果
Cutoff 0.2 0.3 0.4 0.5 0.6 0.7 0.8
真阳 0 1 3 4 4 4 4
真阴 54 54 54 54 54 53 17
假阳 0 0 0 0 0 1 3
假阴 4 3 1 0 0 0 50
灵敏度 0% 25% 75% 100% 100% 100% 7%
特异性 100% 100% 100% 100% 100% 98% 85%
根据上面ROC分析结果,为了保证检测的特异性和灵敏度,设定Cutoff值如下表19。
表19染色体1p、19q、7、10区域SNP_ratio的Cutoff值
染色体 1p chr7 chr10 19q
Cutoff ≤0.4 ≤0.7 ≤0.6 ≤0.4
真阳 20 7 4 20
真阴 54 53 54 54
假阳 0 1 0 0
假阴 0 0 0 0
灵敏度 100% 100% 100% 100%
特异性 100% 98% 100% 100%
当样本染色体1p区域的SNP_ratio≤0.4时,判定该样本染色体是非整倍体;当样本染色体7区域的SNP_ratio≤0.7时,判定该样本染色体7是非整倍体;当样本染色体10区域的SNP_ratio≤0.6时,判定该样本染色体10是非整倍体;当样本染色体19q区域的SNP_ratio≤0.4时,判定该样本染色体19q是非整倍体。
实施例8基于Zscore和SNP等位基因频率的非整倍体综合分析
本实施例将收集的54例临床阴性样本、20例染色体1p缺失临床阳性样本、20例染色体19q缺失临床阳性样本、7例染色体7异常扩增临床阳性样本、4例染色体10缺失临床阳性样本组成74例染色体1p检测组、74例染色体19q检测组、61例染色体7检测组、58例染色体10检测组,组内样本进行打乱,重新编号,进行盲测。
1)数据分析:
染色体1p检测组:
将74例染色体1p检测FFPE样本按照NGS样本上机测序实验流程进行杂交捕获、建库、上机测序,得到相应序列数据,并参照实施例2对测序数据进行质量控制,质控合格的样本数据进行实施例3所述的Zscore分析方法,得到检测样本的Sig_value,数据如表20;按照实施例6所述的杂合SNP的等位基因频率分布异常检测方法,得到检测样本的SNP_ratio,数据如表20。
表20染色体1p检测组样本检测数据
Figure BDA0002330579780000191
Figure BDA0002330579780000201
Figure BDA0002330579780000211
Figure BDA0002330579780000221
染色体19q检测组:
将74例染色体19q检测FFPE样本按照NGS样本上机测序实验流程进行杂交捕获、建库、上机测序,得到相应序列数据,并参照实施例2对测序数据进行质量控制,质控合格的样本数据进行实施例4所述的针对染色体19q缺失的Zscore分析方法,得到检测样本的Sig_value,数据如表21;按照实施例6所述的杂合SNP的等位基因频率分布异常检测方法,得到检测样本的SNP_ratio,数据如表21。
表21染色体19q检测组样本检测数据
Figure BDA0002330579780000222
Figure BDA0002330579780000231
Figure BDA0002330579780000241
染色体7检测组:
将61例染色体7检测FFPE样本按照NGS样本上机测序实验流程进行杂交捕获、建库、上机测序,得到相应序列数据,并参照实施例2对测序数据进行质量控制,质控合格的样本数据进行实施例3所述的Zscore分析方法,得到检测样本的Sig_value,数据如表22;按照实施例6所述的杂合SNP的等位基因频率分布异常检测方法,得到检测样本的SNP_ratio,数据如表22。
表22染色体7检测组样本检测数据
Figure BDA0002330579780000242
Figure BDA0002330579780000251
Figure BDA0002330579780000261
染色体10检测组:
将58例染色体10检测FFPE样本按照NGS样本上机测序实验流程进行杂交捕获、建库、上机测序,得到相应序列数据,并参照实施例2对测序数据进行质量控制,质控合格的样本数据进行实施例3所述的Zscore分析方法,得到检测样本的Sig_value,数据如表23;按照实施例6所述的杂合SNP的等位基因频率分布异常检测方法,得到检测样本的SNP_ratio,数据如表23。
表23染色体10检测组样本检测数据
Figure BDA0002330579780000262
Figure BDA0002330579780000271
Figure BDA0002330579780000281
2)结果判读:
当检测样本的Sig_value、SNP_ratio同时满足其判定要求时,可判断该样本为阳性。上述样本盲测结果如表24。
表24盲测结果汇总
Figure BDA0002330579780000282
Figure BDA0002330579780000291
由上述结果表明,通过本发明的方法全部检出20例染色体1p缺失临床阳性样本、20例染色体19q缺失临床阳性样本、7例染色体7异常扩增临床阳性样本和4例染色体10缺失临床阳性样本;同时检出54例临床阴性样本,且检测过程中假阳性假阴性率都为0,灵敏度和特异性均达到100%,显著优于现有技术。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,但本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (13)

1.一种染色体非整倍体分析方法,其特征在于,所述方法包括:
步骤1)基于Zscore算法对基因测序样本的测序深度进行统计分析;
步骤2)对基因测序样本的SNP等位基因频率进行统计分析;
结合步骤1)和2)判定染色体为/不为非整倍体;
其中,所述步骤1)基于Zscore算法对样本测序深度进行统计分析得到信号值1Sig_value,包括将染色体目标区域每个基因位点测序深度参考阴性样本数据集进行标准化,标准化后的数据参考阴性样本数据集计算Zscore,信号值1Sig_value为目标染色体区域每个基因位点Zscore之和,即Sig_value计算方式为:
Figure FDA0002597268360000011
其中,N表示所述目标区域的基因位点总数,j表示染色体目标区域第j位;
所述步骤2)对样本SNP等位基因频率进行统计分析得到信号值2SNP_ratio,包括统计样本SNP等位基因频率在0.4~0.6范围的SNP个数N1以及样本SNP等位基因频率在0~0.9范围的SNP个数N2,信号值2SNP_ratio=N1/N2;
基于Cutoff值评价信号值1和2,判定目标染色体为/不为非整倍体,当样本信号值1Sig_value、信号值2SNP_ratio同时处于/未处于Cutoff范围内,判定目标染色体为/不为非整倍体。
2.根据权利要求1所述的染色体非整倍体分析方法,其特征在于,所述步骤1)中的测序深度为去PCR重复后的测序深度。
3.根据权利要求1所述的染色体非整倍体分析方法,其特征在于,所述步骤2)中样本SNP等位基因频率为样本SNP位点测序深度>100的等位基因频率。
4.根据权利要求1-3任一所述的染色体非整倍体分析方法,其特征在于,所述染色体为1p、7、10和/或19q。
5.根据权利要求4所述的染色体非整倍体分析方法,其特征在于,所述染色体为1p和19q。
6.根据权利要求5所述的染色体非整倍体分析方法,其特征在于,所述染色体1p的Sig_value的Cutoff为-40,000~-15,000,SNP_ratio的Cutoff为0.1~0.6;所述染色体19q的Sig_value的Cutoff为-1~-0.7,SNP_ratio的Cutoff为0.4~0.7。
7.根据权利要求6所述的染色体非整倍体分析方法,其特征在于,所述染色体1p和19q的cutoff值分别为CutoffSig_value-1p=-20000、CutoffSNP_ratio-1p=0.4、CutoffSig_value-19q=-0.9、CutoffSNP_ratio-19q=0.4。
8.一种染色体非整倍体的数据分析系统,其特征在于,所述系统包括:
信息输入模块:将测序数据传输至Zscore分析模块、SNP等位基因频率分析模块;
所述Zscore分析模块是基于Zscore算法对基因测序样本的测序深度进行统计分析得到信号值1Sig_value;所述Zscore分析模块包括将染色体目标区域每个基因位点测序深度参考阴性样本数据集进行标准化,标准化后的数据参考阴性样本数据集计算Zscore,信号值1Sig_value为目标染色体区域每个基因位点Zscore之和,即Sig_value计算方式为:
Figure FDA0002597268360000031
其中,N表示所述目标区域的基因位点总数,j表示染色体目标区域第j位;
所述SNP等位基因频率分析模块是对基因测序样本的SNP等位基因频率进行统计分析得到信号值2SNP_ratio;所述SNP等位基因频率分析模块包括统计样本SNP等位基因频率在0.4~0.6范围的SNP个数N1以及样本SNP等位基因频率在0~0.9范围的SNP个数N2,信号值2SNP_ratio=N1/N2;
结果判断模块:基于Cutoff值评价信号值1和2,判定目标染色体为/不为非整倍体;
当样本信号值1Sig_value、信号值2SNP_ratio同时处于/未处于Cutoff范围内,判定目标染色体为/不为非整倍体。
9.权利要求8所述的染色体非整倍体的数据分析系统,其特征在于,所述Zscore分析模块中,测序深度为去PCR重复后的测序深度。
10.权利要求9所述的染色体非整倍体的数据分析系统,其特征在于,所述SNP等位基因频率分析模块中,样本SNP等位基因频率为样本SNP位点测序深度>100的等位基因频率。
11.权利要求8-10任一所述的染色体非整倍体的数据分析系统,其特征在于,所述染色体为1p和19q。
12.权利要求11所述的染色体非整倍体的数据分析系统,其特征在于,针对1p和19q的cutoff值分别为CutoffSig_value-1p=-20000、CutoffSNP_ratio-1p=0.4、CutoffSig_value-19q=-0.9、CutoffSNP_ratio-19q=0.4。
13.一种染色体非整倍体的检测方法,包括探针设计,建库测序和数据分析,其特征在于,所述数据分析采用权利要求1-7任一所述的染色体非整倍体的数据分析方法;所述探针设计为在目标区域,保持每隔500Kbp距离,对包含SNP位点且Mappability=1的区域铺设捕获探针,所述捕获探针长度为100bp。
CN201911334415.1A 2019-12-23 2019-12-23 一种染色体非整倍体的分析方法及系统 Active CN111091868B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911334415.1A CN111091868B (zh) 2019-12-23 2019-12-23 一种染色体非整倍体的分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911334415.1A CN111091868B (zh) 2019-12-23 2019-12-23 一种染色体非整倍体的分析方法及系统

Publications (2)

Publication Number Publication Date
CN111091868A CN111091868A (zh) 2020-05-01
CN111091868B true CN111091868B (zh) 2020-09-25

Family

ID=70395294

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911334415.1A Active CN111091868B (zh) 2019-12-23 2019-12-23 一种染色体非整倍体的分析方法及系统

Country Status (1)

Country Link
CN (1) CN111091868B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113113081B (zh) * 2020-08-31 2021-12-14 东莞博奥木华基因科技有限公司 基于CNV-seq测序数据检测多倍体和基因组纯合区域ROH的系统
CN112509638B (zh) * 2020-12-04 2021-12-03 深圳荻硕贝肯精准医学有限公司 人类hla染色体区域杂合性缺失的分析方法和分析处理装置
CN113035276B (zh) * 2021-03-11 2021-12-03 深圳荻硕贝肯精准医学有限公司 人类hla染色体区域杂合性缺失的分析方法和系统
CN113658638B (zh) * 2021-08-20 2022-06-03 江苏先声医学诊断有限公司 一种基于ngs平台的同源重组缺陷的检测方法和质控体系
CN115948521A (zh) * 2022-12-29 2023-04-11 东北林业大学 一种检测非整倍体缺失染色体信息的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104232777A (zh) * 2014-09-19 2014-12-24 天津华大基因科技有限公司 同时确定胎儿核酸含量和染色体非整倍性的方法及装置
CN106520940A (zh) * 2016-11-04 2017-03-22 深圳华大基因研究院 一种染色体非整倍体和拷贝数变异检测方法及其应用
CN107622183A (zh) * 2017-08-15 2018-01-23 上海派森诺生物科技股份有限公司 一种基于多重指标的胎儿染色体倍性检测分析方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3224382A1 (en) * 2014-11-24 2017-10-04 Shaare Zedek Medical Center Fetal haplotype identification
CN109971846A (zh) * 2018-11-29 2019-07-05 时代基因检测中心有限公司 使用双等位基因snp靶向下一代测序的非侵入性产前测定非整倍体的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104232777A (zh) * 2014-09-19 2014-12-24 天津华大基因科技有限公司 同时确定胎儿核酸含量和染色体非整倍性的方法及装置
CN106520940A (zh) * 2016-11-04 2017-03-22 深圳华大基因研究院 一种染色体非整倍体和拷贝数变异检测方法及其应用
CN107622183A (zh) * 2017-08-15 2018-01-23 上海派森诺生物科技股份有限公司 一种基于多重指标的胎儿染色体倍性检测分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Mass spectrometry-based assay for the molecular diagnosis of glioma:concomitant detection of chromosome 1p/19q codeletion,and IDH1,IDH2,and TERT mutation status;Chiara Pesenti 等;《Oncotarget》;20170708;第57134-57148页 *

Also Published As

Publication number Publication date
CN111091868A (zh) 2020-05-01

Similar Documents

Publication Publication Date Title
CN111091868B (zh) 一种染色体非整倍体的分析方法及系统
CN106778073B (zh) 一种评估肿瘤负荷变化的方法和系统
US20060057618A1 (en) Determining data quality and/or segmental aneusomy using a computer system
CN111304303B (zh) 微卫星不稳定的预测方法及其应用
CN113724791B (zh) Cyp21a2基因ngs数据分析的方法、装置及应用
CN113257360B (zh) 癌症筛查模型、癌症筛查模型的构建方法及构建装置
EP3859010A1 (en) Second generation sequencing-based method for detecting microsatellite stability and genome changes by means of plasma
CN112592971B (zh) 一种与系统性红斑狼疮相关的生物标志物及其应用
CN113450871A (zh) 基于低深度测序的鉴定样本同一性的方法
CN105779435A (zh) 试剂盒及其用途
CN110592208B (zh) 地中海贫血症三类亚型的捕获探针组合物及其应用方法和应用装置
CN113025716A (zh) 一种用于人肿瘤分级的基因组合及其用途
Weedon et al. Very rare pathogenic genetic variants detected by SNP-chips are usually false positives: implications for direct-to-consumer genetic testing
CN112201306A (zh) 基于高通量测序的真假基因突变分析方法及应用
CN117079723B (zh) 一种与肌萎缩侧索硬化症相关的生物标志物、诊断模型及其应用
CN111899789B (zh) 二代测序鉴定brca1/2大片段重排的方法及系统
CN116580768B (zh) 一种基于定制化策略的肿瘤微小残留病灶检测方法
CN112102944A (zh) 一种基于ngs的脑肿瘤分子诊断的分析方法
KR102472050B1 (ko) 환자 맞춤형 패널을 이용한 암의 재발을 예측하는 방법
US20090087848A1 (en) Determining segmental aneusomy in large target arrays using a computer system
CN113724781A (zh) 检测纯合缺失的方法和装置
CN114093417B (zh) 一种鉴定染色体臂杂合性缺失的方法和装置
KR102617882B1 (ko) 현미부수체 불안정성 측정 방법
CN115472294B (zh) 预测小细胞转化肺腺癌患者转化速度的模型及其构建方法
CN114093428B (zh) 一种ctDNA超高测序深度下低丰度突变的检测系统和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant