CN117316271A - 基于二代测序技术筛查血液肿瘤标本拷贝数变异的方法及检测系统 - Google Patents
基于二代测序技术筛查血液肿瘤标本拷贝数变异的方法及检测系统 Download PDFInfo
- Publication number
- CN117316271A CN117316271A CN202311234530.8A CN202311234530A CN117316271A CN 117316271 A CN117316271 A CN 117316271A CN 202311234530 A CN202311234530 A CN 202311234530A CN 117316271 A CN117316271 A CN 117316271A
- Authority
- CN
- China
- Prior art keywords
- copy number
- number variation
- file
- screening
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012163 sequencing technique Methods 0.000 title claims abstract description 56
- 238000000034 method Methods 0.000 title claims abstract description 49
- 208000024200 hematopoietic and lymphoid system neoplasm Diseases 0.000 title claims abstract description 48
- 238000012216 screening Methods 0.000 title claims abstract description 47
- 238000005516 engineering process Methods 0.000 title claims abstract description 28
- 238000001514 detection method Methods 0.000 title claims description 38
- 239000000523 sample Substances 0.000 claims abstract description 46
- 238000004458 analytical method Methods 0.000 claims abstract description 14
- 238000003908 quality control method Methods 0.000 claims abstract description 14
- 239000013642 negative control Substances 0.000 claims abstract description 12
- 230000010076 replication Effects 0.000 claims abstract description 10
- 238000001712 DNA sequencing Methods 0.000 claims abstract description 8
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 238000004590 computer program Methods 0.000 claims description 11
- 238000001914 filtration Methods 0.000 claims description 11
- 108090000623 proteins and genes Proteins 0.000 claims description 9
- 230000001717 pathogenic effect Effects 0.000 claims description 5
- 201000010099 disease Diseases 0.000 claims description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 4
- 102000004169 proteins and genes Human genes 0.000 claims description 3
- 238000012217 deletion Methods 0.000 abstract description 9
- 230000037430 deletion Effects 0.000 abstract description 9
- 230000002559 cytogenic effect Effects 0.000 abstract description 4
- 230000004907 flux Effects 0.000 abstract description 4
- 238000004891 communication Methods 0.000 description 6
- 230000005856 abnormality Effects 0.000 description 5
- 210000000349 chromosome Anatomy 0.000 description 5
- 239000012634 fragment Substances 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000007481 next generation sequencing Methods 0.000 description 3
- 238000009609 prenatal screening Methods 0.000 description 3
- 210000003765 sex chromosome Anatomy 0.000 description 3
- 208000036878 aneuploidy Diseases 0.000 description 2
- 231100001075 aneuploidy Toxicity 0.000 description 2
- 230000002759 chromosomal effect Effects 0.000 description 2
- 210000004602 germ cell Anatomy 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000002864 sequence alignment Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012070 whole genome sequencing analysis Methods 0.000 description 2
- 206010000234 Abortion spontaneous Diseases 0.000 description 1
- 208000005623 Carcinogenesis Diseases 0.000 description 1
- 206010068051 Chimerism Diseases 0.000 description 1
- 208000032170 Congenital Abnormalities Diseases 0.000 description 1
- 206010010356 Congenital anomaly Diseases 0.000 description 1
- 208000026350 Inborn Genetic disease Diseases 0.000 description 1
- 231100000071 abnormal chromosome number Toxicity 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007622 bioinformatic analysis Methods 0.000 description 1
- 230000007698 birth defect Effects 0.000 description 1
- 210000001185 bone marrow Anatomy 0.000 description 1
- 230000036952 cancer formation Effects 0.000 description 1
- 231100000504 carcinogenesis Toxicity 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 208000016361 genetic disease Diseases 0.000 description 1
- 230000007614 genetic variation Effects 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 210000000265 leukocyte Anatomy 0.000 description 1
- 230000008774 maternal effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 230000007918 pathogenicity Effects 0.000 description 1
- 210000005259 peripheral blood Anatomy 0.000 description 1
- 239000011886 peripheral blood Substances 0.000 description 1
- 238000003793 prenatal diagnosis Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000000392 somatic effect Effects 0.000 description 1
- 208000000995 spontaneous abortion Diseases 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/10—Ontologies; Annotations
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Chemical & Material Sciences (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提供一种基于二代测序技术筛查血液肿瘤标本拷贝数变异的方法,包括:获取待测样本的全基因组DNA测序原始数据;对原始数据进行预处理,得到合格的reads;通过软件将合格的reads定位至基因组相应位置,并以存储为BAM格式的比对文件;根据比对文件计算相关参数,进行测序数据质控分析;通过软件将基因组划分成多个窗口,比较待测样本与阴性对照样本的每个窗口的对比参数来分析拷贝数变异,形成复制比率文件,根据复制比率文件生成拷贝数变异文件;对拷贝数变异文件进行注释。本发明首次利用CNV‑seq技术检测血液肿瘤的拷贝数变异,能检出血液肿瘤中的低比例嵌合缺失或重复,比传统细胞遗传学技术中的核型分析的分辨率更高、比FISH通量更高,比CMA成本更低。
Description
技术领域
本发明涉及二代测序技术测序技术领域,具体涉及基于二代测序技术筛查血液肿瘤标本拷贝数变异的方法及检测系统。
背景技术
拷贝数变异是遗传变异的主要来源,它属于染色体/基因组结构变异的一种,定义为:与参考基因组相比,存在1Kb以上的片段重复或缺失异常。然而,包括染色体数目异常、大片段缺失/重复的致病性基因组拷贝数变异(pathogenic copy number variations,pCNVs)是导致出生缺陷、自然流产及肿瘤发生等的重要原因。
目前检测拷贝数变异的技术包括细胞遗传学技术(染色体核型分析和FISH),也包括分子检测技术(Array CGH、SNP-array和CNV-seq)。其中,基于下一代测序(nextgeneration sequencing,NGS)的基因组拷贝数变异测序(copy number variationsequencing,CNV-seq)是2016年以来发展起来的新技术,是基于与CMA的方法(Array CGH/SNP array)比对验证后发展起来的低深度全基因组测序技术,将测序结果与人类参考基因组碱基序列进行比对,通过生物信息分析发现受检样本存在的CNVs(拷贝数变异,Copynumber variation)。
CNV-seq在极低测序深度(0.1~1X)的基础下即可准确进行全基因组水平的染色体拷贝数异常检测,可检测长度低至100kb、嵌合比例低至10%的染色体拷贝数异常。CNV-seq对于拷贝数异常的检测的准确性比CMA更高,并且由于CNV-seq的检测成本显著低于CMA方法,因此CNV-seq在产前筛查和遗传病筛查领域具有重要的地位。然而,CNV-seq技术更多见于妇幼标本的孕前、产前和产后的拷贝数变异筛查,对于血液肿瘤获得性拷贝数变异Copy-number abnormalities(CNAs)的筛查应用甚少,而血液肿瘤如MDS、MPN、AML、ALL、CLL、MM的发生和发展都与染色体拷贝数变异相关。
因此,综上,有必要开发了基于CNV-Seq技术筛查血液肿瘤标标本拷贝数变异的方法及检测系统,以促进血液肿瘤检测的发展。
发明内容
基于上述表述,本发明提供了一种基于二代测序技术筛查血液肿瘤标本拷贝数变异的方法及检测系统,以提高血液肿瘤获得性拷贝数变异的筛查技术。
本发明的关键是选建立了合适的拷贝数变异分析流程,提供了可视化的图表和数据,同时建立了常染色体和性染色体阳性拷贝数变异的报出阈值标准;本发明首次利用CNV-seq技术检测血液肿瘤的拷贝数变异,包括缺失或重复,关键是能检出血液肿瘤中的低比例嵌合缺失或重复,比传统细胞遗传学技术中的核型分析的分辨率更高、比FISH的通量更高,比CMA的成本更低。
本发明解决上述技术问题的技术方案如下:
本发明提供一种基于二代测序技术筛查血液肿瘤标本拷贝数变异的方法,包括以下步骤:
S1、获取待测样本的全基因组DNA测序的原始数据;
S2、对所述原始数据进行预处理,得到合格的reads;
S3、通过软件将所述合格的reads定位至基因组相应位置,并以存储为BAM格式的比对文件;
S3、根据所述比对文件计算相关参数,进行测序数据质控分析;
S5、通过软件将基因组划分成多个窗口,比较待测样本与阴性对照样本的每个窗口的对比参数来分析拷贝数变异,形成复制比率文件,根据所述复制比率文件生成拷贝数变异文件;
S6、对所述拷贝数变异文件进行注释。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步地,在步骤S2中;
所述对所述原始数据进行预处理,具体包括:根据质量值对所述原始数据进行过滤;
滤除判读为N的碱基占比达到10%或以上的reads;
滤除质量值低于5的碱基占比达到50%的reads;
滤除整条序列碱基平均质量值低于10的reads;
截取或去除含有接头序列的reads。
进一步地,在步骤S3中;
所述相关参数包括:覆盖度、平均深度、重复序列比例、比对到目标区域的read比例、Q20合格率、Q30合格率和GC含量。
进一步地,在步骤S5中;
所述比较待测样本与阴性对照样本的每个窗口的对比参数来分析拷贝数变异,具体包括:
通过比较待测样本与阴性对照样本的每个窗口的标准化读取计数或者归一化读取深度的平均值或中位数值来分析拷贝数变异,以log2Ration的形式体现;
其中,Log2 Ration代表待测标本与参考标本的拷贝数比值的对数值。
进一步地,在步骤S5中;
所述根据所述复制比率文件生成拷贝数变异文件,具体包括:
将相同或相近log2Ration值的相邻窗口连接合并起来,形成复制分段文件,即生成拷贝数变异文件。
进一步地,在所述生成拷贝数变异文件之后,还包括:
收集SNP array检测拷贝数变异结果为阳性的血液肿瘤基因组DNA标本,做基因组拷贝数变异测序检测,得到基因组拷贝数变异测序检测的拷贝数变异文件;
通过与CMA技术的检测结果进行对比,确定CMA阳性变异所对应的基因组拷贝数变异测序检测的log2Raito值,逐步筛查出基因组拷贝数变异测序检测的阳性筛选阈值。
进一步地,在步骤S6中,
所述对所述拷贝数变异文件进行注释,具体包括:
使用软件对拷贝数变异所在基因组坐标范围、变异类型做注释,包括变异区间包含的蛋白编码基因、致病基因、变异在正常人群中的频率,变异在疾病数据库的收录情况以及ACMG评分情况。
第二方面、本发明还提供一种基于二代测序技术筛查血液肿瘤标本拷贝数变异的检测系统,包括:
原始数据获取模块,用于获取待测样本的全基因组DNA测序的原始数据。
质控和过滤模块,用于对所述原始数据进行预处理,得到合格的reads。序列比对模块,用于通过软件将所述合格的reads定位至基因组相应位置,并以存储为BAM格式的比对文件。
测序数据质控模块,用于根据所述比对文件计算相关参数,进行测序数据质控分析;
拷贝数变异检测模块,用于通过软件将基因组划分成多个窗口,比较待测样本与阴性对照样本的每个窗口的对比参数来分析拷贝数变异,形成复制比率文件,根据所述复制比率文件生成拷贝数变异文件;
拷贝数变异注释模块,用于对所述拷贝数变异文件进行注释。
第三方面、本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面中任一项所述的基于二代测序技术筛第三方面、本发明还提供查血液肿瘤标本拷贝数变异的方法及阳性变异判读方法。
第四方面、本发明还提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如第一方面中任一项所述的基于二代测序技术筛查血液肿瘤标本拷贝数变异的方法。
与现有技术相比,本申请的技术方案具有以下有益技术效果:
本发明提供的基于二代测序技术筛查血液肿瘤标本拷贝数变异的方法建立了合适的拷贝数变异分析流程。本发明首次利用CNV-seq技术检测血液肿瘤的拷贝数变异,包括缺失或重复,关键是能检出血液肿瘤中的低比例嵌合缺失或重复,比传统细胞遗传学技术中的核型分析的分辨率更高、比FISH的通量更高,比CMA的成本更低。
附图说明
图1为本发明实施例提供的基于二代测序技术筛查血液肿瘤标本拷贝数变异的方法的流程示意图;
图2为本发明实施例提供的阳性案例的拷贝数变异散点图之一;
图3为本发明实施例提供的阳性案例的拷贝数变异散点图之二;
图4为本发明实施例提供的阳性案例的拷贝数变异散点图之三;
图5为本发明实施例提供的阳性案例的拷贝数变异散点图之四;
图6为本发明实施例提供的阳性案例的拷贝数变异散点图之五;
图7为本发明实施例提供的基于二代测序技术筛查血液肿瘤标本拷贝数变异的检测系统示意图;
图8为本发明实施例提供的电子设备的示意图。
具体实施方式
为了便于理解本申请,下面结合实施例对本发明的实施方式作进一步详细描述,以下实施例用于说明本发明,但不能用来限制本发明的范围。
2019年3月中华医学遗传学杂志也发布了低深度全基因组测序技术在产前诊断的应用专家共识。总结了CNV-seq相比其他技术的优势:(1)检测范围广、高通量:覆盖全染色体非整倍体、大片段缺失/重复及全基因组CNVs;(2)操作简便:实验流程简便、数据分析自动化程度高、质控标准清晰;(3)兼容性好:一台高通量测序仪可以同时进行无创产前筛查(noninvasive prenatal screening,NIPS)和CNV-seq检测,有效节约实验室空间和设备;(3)低比例嵌合体的检测,在理想条件下可检测低至5%的染色体非整倍体嵌合。(5)低DNA样本量的检测:CNV-seq技术可精确检测低至10-50ng的DNA样本,更具有临床适用性。
下面结合图1至图6描述本发明的基于二代测序技术筛查血液肿瘤标本拷贝数变异的方法。图1为本发明基于二代测序技术筛查血液肿瘤标本拷贝数变异的方法的流程示意图,如图1所示,该方法包括:
步骤S1:获取待测样本的全基因组DNA测序的原始数据。
具体地,可以采集预设个体的血液肿瘤骨髓或外周血标本,对采集的标本进行离心分离,在离心分离得到的白细胞中提取基因组DNA,以得到各预设个体的全基因组DNA测序的原始数据fastq文件。
需要说明的是,本发明提供的基于二代测序技术筛查血液肿瘤标本拷贝数变异的方法用于非疾病诊断治疗目的。
步骤S2、对原始数据进行预处理,得到合格的reads。
具体地,根据质量值对fastq文件数据进行过滤,滤除判读为N的碱基占比达到10%或以上的reads;滤除质量值低于5的碱基占比达到50%的reads;滤除整条序列碱基平均质量值低于10的reads;截取或去除含有接头序列的reads等。
步骤S3、通过软件将合格的reads定位至基因组相应位置,并以存储为BAM格式的比对文件。
具体地,将数据过滤后保留下来的合格reads通过软件定位至基因组相应位置。
步骤S4、根据比对文件计算相关参数,进行测序数据质控分析。
具体地,根据比对文件计算覆盖度、平均深度、重复序列比例、比对到目标区域的read比例、Q20合格率、Q30合格率、GC含量等。
步骤S5、通过软件将基因组划分成多个窗口,比较待测样本与阴性对照样本的每个窗口的对比参数来分析拷贝数变异,形成复制比率文件,根据复制比率文件生成拷贝数变异文件。
具体地,使用CNVkit软件(具体分析流程如下图1),将基因组划分成多个窗口(bin)(30Kb/bin),通过比较待检测样本与阴性对照样本的每个bin的标准化读取计数(normalized read count)或者归一化读取深度(normalized read depth)平均值或中位数值来分析拷贝数变异,以log2Ration的形式体现出来,形成复制比率Copy Ratios(.cnr)文件;将相同或相近log2Ration值的相邻bin连接合并起来,形成拷贝数变异Copysegments(.cns)文件,既生成拷贝数变异文件。
S6、对拷贝数变异文件进行注释。
具体地,使用AnnotSV软件对拷贝数变异所在基因组坐标范围、变异类型做注释,主要包括变异区间包含的蛋白编码基因、致病基因、变异在正常人群中的频率,变异在疾病数据库的收录情况,ACMG评分情况等。
进一步地,在上述实施例的基础中,本发明还提供了上述筛查出的拷贝数变异的阳性筛选阈值,只有满足阈值条件的才能算是阳性变异。
CNVkit软件分析出来的拷贝数变异,需要通过log2Ration的值来判断该变异是否为真阳性,对于胚系标本,这个比较好判断,但是对于阳性的血液肿瘤标本,会存在大量体细胞嵌合变异的情况,而且低频变异也非常常见,并不能按照胚系变异的方式来筛选,否则会漏掉大量阳性变异。
因为CMA技术检测拷贝数变异的金标准,因此,在一个具体示例中,通过收集200例SNP array检测拷贝数变异结果为阳性的血液肿瘤基因组DNA标本,做CNV-seq检测,按上述步骤进行分析,得到这200例的CNV-seq的Copy segments(.cns)文件,通过与CMA的结果进行对比,确定CMA阳性变异所对应的CNV-seq的log2Raito值,来逐步筛查出CNV-seq的阳性筛选阈值表1和表2所示的常染色体阳性拷贝数变异筛选阈值和性染色体阳性拷贝数变异筛选阈值。
表1常染色体的阳性拷贝数变异筛选阈值
表2性染色体的阳性拷贝数变异筛选阈值
需要说明的是:Log2 Ration代表待测标本与参考标本的拷贝数比值的对数值,该数值的绝对值越大,表明缺失或重复越明显;Probe代表了30Kb的bin的数目;750K markers代表CMA技术中的Cytoscan 750K芯片在所在拷贝数变异区间包含的探针数;SVlength代表阳性拷贝数变异必须满足的大小,Copy segments(.cns)文件中的segments只有同时满足图中的条件,才表示该拷贝数变异可信,可以进行后续的致病性解读。
本试验按照以上方法,对CMA已经检出的+8、11q+、12p-、13q-和+X的5例阳性拷贝数进行筛选鉴定,鉴定结果如下表3所示::
表3性染色体的阳性拷贝数变异筛选阈值
对应的,如图2至6分别为上述5例阳性案例的拷贝数变异散点图。
下面对本发明提供的基于二代测序技术筛查血液肿瘤标本拷贝数变异的检测系统进行描述,下文描述的基于二代测序技术筛查血液肿瘤标本拷贝数变异的检测系统与基于二代测序技术筛查血液肿瘤标本拷贝数变异的方法可相互对应参照。如图7所示,该检测系统包括:
原始数据获取模块701,用于获取待测样本的全基因组DNA测序的原始数据;
质控和过滤模块702,用于对原始数据进行预处理,得到合格的reads;
序列比对模块703,用于通过软件将合格的reads定位至基因组相应位置,并以存储为BAM格式的比对文件;
测序数据质控模块704,用于根据比对文件计算相关参数,进行测序数据质控分析;
拷贝数变异检测模块705,用于通过软件将基因组划分成多个窗口,比较待测样本与阴性对照样本的每个窗口的对比参数来分析拷贝数变异,形成复制比率文件,根据复制比率文件生成拷贝数变异文件;
拷贝数变异注释模块706,用于对拷贝数变异文件进行注释。
图8示例了一种电子设备的实体结构示意图,如图8所示,该电子设备可以包括:处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行基于二代测序技术筛查血液肿瘤标本拷贝数变异的方法,该方法可参照上述的基于二代测序技术筛查血液肿瘤标本拷贝数变异的方法的具体介绍,此处不再赘述。
上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行基于二代测序技术筛查血液肿瘤标本拷贝数变异的方法,该方法可参照上述的基于二代测序技术筛查血液肿瘤标本拷贝数变异的方法的具体介绍,此处不再赘述。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于二代测序技术筛查血液肿瘤标本拷贝数变异的方法,其特征在于,包括以下步骤:
S1、获取待测样本的全基因组DNA测序的原始数据;
S2、对所述原始数据进行预处理,得到合格的reads;
S3、通过软件将所述合格的reads定位至基因组相应位置,并以存储为BAM格式的比对文件;
S4、根据所述比对文件计算相关参数,进行测序数据质控分析;
S5、通过软件将基因组划分成多个窗口,比较待测样本与阴性对照样本的每个窗口的对比参数来分析拷贝数变异,形成复制比率文件,根据所述复制比率文件生成拷贝数变异文件;
S6、对所述拷贝数变异文件进行注释。
2.根据权利要求1所述的基于二代测序技术筛查血液肿瘤标本拷贝数变异的方法,其特征在于,在步骤S2中;
所述对所述原始数据进行预处理,具体包括:根据质量值对所述原始数据进行过滤;
滤除判读为N的碱基占比达到10%或以上的reads;
滤除质量值低于5的碱基占比达到50%的reads;
滤除整条序列碱基平均质量值低于10的reads;
截取或去除含有接头序列的reads。
3.根据权利要求1所述的基于二代测序技术筛查血液肿瘤标本拷贝数变异的方法,其特征在于,在步骤S3中;
所述相关参数包括:覆盖度、平均深度、重复序列比例、比对到目标区域的read比例、Q20合格率、Q30合格率和GC含量。
4.根据权利要求1所述的基于二代测序技术筛查血液肿瘤标本拷贝数变异的方法,其特征在于,在步骤S5中;
所述比较待测样本与阴性对照样本的每个窗口的对比参数来分析拷贝数变异,具体包括:
通过比较待测样本与阴性对照样本的每个窗口的标准化读取计数或者归一化读取深度的平均值或中位数值来分析拷贝数变异,以log2Ration的形式体现;
其中,Log2 Ration代表待测标本与参考标本的拷贝数比值的对数值。
5.根据权利要求3所述的基于二代测序技术筛查血液肿瘤标本拷贝数变异的方法,其特征在于,在步骤S5中;
所述根据所述复制比率文件生成拷贝数变异文件,具体包括:
将相同或相近log2Ration值的相邻窗口连接合并起来,形成复制分段文件,即生成拷贝数变异文件。
6.根据权利要求5所述的基于二代测序技术筛查血液肿瘤标本拷贝数变异的方法,其特征在于,
在所述生成拷贝数变异文件之后,还包括:
收集SNP array检测拷贝数变异结果为阳性的血液肿瘤基因组DNA标本,做基因组拷贝数变异测序检测,得到基因组拷贝数变异测序检测的拷贝数变异文件;
通过与CMA技术的检测结果进行对比,确定CMA阳性变异所对应的基因组拷贝数变异测序检测的log2Raito值,逐步筛查出基因组拷贝数变异测序检测的阳性筛选阈值。
7.根据权利要求1所述的基于二代测序技术筛查血液肿瘤标本拷贝数变异的方法,其特征在于,在步骤S6中,
所述对所述拷贝数变异文件进行注释,具体包括:
使用软件对拷贝数变异所在基因组坐标范围、变异类型做注释,包括变异区间包含的蛋白编码基因、致病基因、变异在正常人群中的频率,变异在疾病数据库的收录情况以及ACMG评分情况。
8.一种基于二代测序技术筛查血液肿瘤标本拷贝数变异的检测系统,其特征在于,包括:
原始数据获取模块,用于获取待测样本的全基因组DNA测序的原始数据;
质控和过滤模块,用于对所述原始数据进行预处理,得到合格的reads;
序列比对模块,用于通过软件将所述合格的reads定位至基因组相应位置,并以存储为BAM格式的比对文件;
测序数据质控模块,用于根据所述比对文件计算相关参数,进行测序数据质控分析;
拷贝数变异检测模块,用于通过软件将基因组划分成多个窗口,比较待测样本与阴性对照样本的每个窗口的对比参数来分析拷贝数变异,形成复制比率文件,根据所述复制比率文件生成拷贝数变异文件;
拷贝数变异注释模块,用于对所述拷贝数变异文件进行注释。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的基于二代测序技术筛查血液肿瘤标本拷贝数变异的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的基于二代测序技术筛查血液肿瘤标本拷贝数变异的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311234530.8A CN117316271A (zh) | 2023-09-21 | 2023-09-21 | 基于二代测序技术筛查血液肿瘤标本拷贝数变异的方法及检测系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311234530.8A CN117316271A (zh) | 2023-09-21 | 2023-09-21 | 基于二代测序技术筛查血液肿瘤标本拷贝数变异的方法及检测系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117316271A true CN117316271A (zh) | 2023-12-29 |
Family
ID=89284175
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311234530.8A Pending CN117316271A (zh) | 2023-09-21 | 2023-09-21 | 基于二代测序技术筛查血液肿瘤标本拷贝数变异的方法及检测系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117316271A (zh) |
-
2023
- 2023-09-21 CN CN202311234530.8A patent/CN117316271A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108319813B (zh) | 循环肿瘤dna拷贝数变异的检测方法和装置 | |
EP2926288B1 (en) | Accurate and fast mapping of targeted sequencing reads | |
CN111009286A (zh) | 对宿主样本进行微生物分析的方法和装置 | |
KR20190085667A (ko) | 무세포 dna를 포함하는 샘플에서 순환 종양 dna를 검출하는 방법 및 그 용도 | |
CN110993023B (zh) | 复杂突变的检测方法及检测装置 | |
CN110592208B (zh) | 地中海贫血症三类亚型的捕获探针组合物及其应用方法和应用装置 | |
Arteaga-Salas et al. | An overview of image-processing methods for Affymetrix GeneChips | |
CN114530199A (zh) | 基于双重测序数据检测低频突变的方法、装置及存储介质 | |
CN109712671B (zh) | 基于ctDNA的基因检测装置、存储介质及计算机系统 | |
CN113724781B (zh) | 检测纯合缺失的方法和装置 | |
CN109461473B (zh) | 胎儿游离dna浓度获取方法和装置 | |
CN111696622B (zh) | 一种校正和评估变异检测软件检测结果的方法 | |
CN112687341A (zh) | 一种以断点为中心的染色体结构变异鉴定方法 | |
CN112102944A (zh) | 一种基于ngs的脑肿瘤分子诊断的分析方法 | |
CN116469462A (zh) | 一种基于双重测序的超低频dna突变识别方法和装置 | |
CN114990202B (zh) | Snp位点在评估基因组异常的应用及评估基因组异常的方法 | |
CN114067908B (zh) | 一种评估单样本同源重组缺陷的方法、装置和存储介质 | |
CN117316271A (zh) | 基于二代测序技术筛查血液肿瘤标本拷贝数变异的方法及检测系统 | |
CN114898803A (zh) | 突变检测分析的方法、设备、可读介质及装置 | |
CN110970089B (zh) | 胎儿浓度计算的预处理方法、预处理装置及其应用 | |
EP3635138B1 (en) | Method for analysing cell-free nucleic acids | |
CN116646007B (zh) | 鉴定ctDNA测序数据中的真实突变或测序噪音的装置及计算机可读存储介质与应用 | |
CN111653312B (zh) | 一种利用基因组数据探究疾病亚型亲缘性的方法 | |
CN113969310B (zh) | 胎儿dna浓度的评估方法及应用 | |
RU2772912C1 (ru) | Способ анализа митохондриальной ДНК для неинвазивного пренатального тестирования |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |