CN112116956B - 一种基于二代测序的肿瘤单样本tmb检测方法及装置 - Google Patents
一种基于二代测序的肿瘤单样本tmb检测方法及装置 Download PDFInfo
- Publication number
- CN112116956B CN112116956B CN202011050601.5A CN202011050601A CN112116956B CN 112116956 B CN112116956 B CN 112116956B CN 202011050601 A CN202011050601 A CN 202011050601A CN 112116956 B CN112116956 B CN 112116956B
- Authority
- CN
- China
- Prior art keywords
- mutation
- result
- sequencing
- filtering
- tmb
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 206010028980 Neoplasm Diseases 0.000 title claims abstract description 72
- 238000012163 sequencing technique Methods 0.000 title claims abstract description 68
- 238000001514 detection method Methods 0.000 title claims abstract description 30
- 230000035772 mutation Effects 0.000 claims abstract description 134
- 210000004602 germ cell Anatomy 0.000 claims abstract description 29
- 206010069754 Acquired gene mutation Diseases 0.000 claims abstract description 21
- 230000037439 somatic mutation Effects 0.000 claims abstract description 21
- 230000036438 mutation frequency Effects 0.000 claims abstract description 12
- 239000000523 sample Substances 0.000 claims description 78
- 238000001914 filtration Methods 0.000 claims description 43
- 238000000034 method Methods 0.000 claims description 20
- 108020004414 DNA Proteins 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 12
- 239000012634 fragment Substances 0.000 claims description 11
- 239000002773 nucleotide Substances 0.000 claims description 11
- 125000003729 nucleotide group Chemical group 0.000 claims description 11
- 108700028369 Alleles Proteins 0.000 claims description 10
- 230000011218 segmentation Effects 0.000 claims description 9
- 108091026890 Coding region Proteins 0.000 claims description 7
- 230000000392 somatic effect Effects 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 6
- 210000001082 somatic cell Anatomy 0.000 claims description 6
- 238000002896 database filtering Methods 0.000 claims description 5
- 108090000623 proteins and genes Proteins 0.000 claims description 5
- 229920001184 polypeptide Polymers 0.000 claims description 4
- 108090000765 processed proteins & peptides Proteins 0.000 claims description 4
- 102000004196 processed proteins & peptides Human genes 0.000 claims description 4
- 108700026244 Open Reading Frames Proteins 0.000 claims description 2
- 238000012216 screening Methods 0.000 claims description 2
- 125000004122 cyclic group Chemical group 0.000 claims 2
- 201000011510 cancer Diseases 0.000 abstract description 10
- 239000003814 drug Substances 0.000 abstract description 3
- 239000000090 biomarker Substances 0.000 abstract description 2
- 238000002649 immunization Methods 0.000 abstract description 2
- 230000003053 immunization Effects 0.000 abstract description 2
- 238000013179 statistical model Methods 0.000 abstract description 2
- 210000001519 tissue Anatomy 0.000 description 25
- 210000004027 cell Anatomy 0.000 description 7
- 108010074708 B7-H1 Antigen Proteins 0.000 description 6
- 102000008096 B7-H1 Antigen Human genes 0.000 description 6
- 238000009169 immunotherapy Methods 0.000 description 5
- 229940076838 Immune checkpoint inhibitor Drugs 0.000 description 4
- 108091008026 Inhibitory immune checkpoint proteins Proteins 0.000 description 4
- 102000037984 Inhibitory immune checkpoint proteins Human genes 0.000 description 4
- 239000012274 immune-checkpoint protein inhibitor Substances 0.000 description 4
- 210000004369 blood Anatomy 0.000 description 3
- 239000008280 blood Substances 0.000 description 3
- 230000002596 correlated effect Effects 0.000 description 3
- 210000001744 T-lymphocyte Anatomy 0.000 description 2
- 230000000875 corresponding effect Effects 0.000 description 2
- 230000006378 damage Effects 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 230000037437 driver mutation Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000028993 immune response Effects 0.000 description 2
- 239000003446 ligand Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 210000001266 CD8-positive T-lymphocyte Anatomy 0.000 description 1
- 206010064571 Gene mutation Diseases 0.000 description 1
- 208000008839 Kidney Neoplasms Diseases 0.000 description 1
- 108700030875 Programmed Cell Death 1 Ligand 2 Proteins 0.000 description 1
- 102000043850 Programmed Cell Death 1 Ligand 2 Human genes 0.000 description 1
- 206010060862 Prostate cancer Diseases 0.000 description 1
- 208000000236 Prostatic Neoplasms Diseases 0.000 description 1
- 206010038389 Renal cancer Diseases 0.000 description 1
- 230000006044 T cell activation Effects 0.000 description 1
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000000259 anti-tumor effect Effects 0.000 description 1
- 210000000612 antigen-presenting cell Anatomy 0.000 description 1
- 230000005975 antitumor immune response Effects 0.000 description 1
- 210000003719 b-lymphocyte Anatomy 0.000 description 1
- 229940022399 cancer vaccine Drugs 0.000 description 1
- 238000009566 cancer vaccine Methods 0.000 description 1
- 230000004663 cell proliferation Effects 0.000 description 1
- 238000002659 cell therapy Methods 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000003828 downregulation Effects 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000012636 effector Substances 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000002519 immonomodulatory effect Effects 0.000 description 1
- 239000003112 inhibitor Substances 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 201000010982 kidney cancer Diseases 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 201000001441 melanoma Diseases 0.000 description 1
- 210000000066 myeloid cell Anatomy 0.000 description 1
- 208000002154 non-small cell lung carcinoma Diseases 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 102000054765 polymorphisms of proteins Human genes 0.000 description 1
- 150000003384 small molecules Chemical class 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
- 210000004881 tumor cell Anatomy 0.000 description 1
- 208000029729 tumor suppressor gene on chromosome 11 Diseases 0.000 description 1
- 231100000588 tumorigenic Toxicity 0.000 description 1
- 230000000381 tumorigenic effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6844—Nucleic acid amplification reactions
- C12Q1/6858—Allele-specific amplification
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/50—Mutagenesis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
Abstract
本发明公开了一种基于二代测序的肿瘤单样本TMB检测方法及装置,利用单肿瘤组织样本的二代测序数据,将测序数据与公共dbSNP数据库提供的位点信息和突变频率信息比对后,由统计模型估算不同区域胚系、体细胞突变频率以判断突变属性,最后计算TMB值,本方法达到了单样本数据准确检测TMB的目的。摒弃了以往需要在取病人癌组织的同时,摄取癌旁健康组织的需求,减轻了病人的身体负担、痛苦和风险,提高了检测效率,降低了检测成本,还可更精确地检测该生物标志物,指导病人的免疫用药。
Description
技术领域
本发明属于细胞生物学及生物信息学技术领域,涉及一种肿瘤突变负荷的检测方法及装置,具体地说涉及一种基于二代测序的肿瘤单样本TMB检测方法及装置。
背景技术
肿瘤是指机体在各种致瘤因子的作用下,局部组织细胞增生所形成的新生物,由于这种新生物多呈占位性块状突起,也称赘生物,目前肿瘤已成为世界第一大病,并且近些发病率有增无减。为解决肿瘤对人体健康的危害,近些年逐渐发展出一种肿瘤免疫治疗方法,其是一种通过重新启动并维持肿瘤-免疫循环、恢复机体正常的抗肿瘤免疫反应,从而控制与清除肿瘤的方法。该方法采用单克隆抗体类免疫检查点抑制剂、治疗性抗体、癌症疫苗、细胞治疗和小分子抑制剂等,近些年已在多种肿瘤如黑色素瘤、非小细胞肺癌、肾癌和前列腺癌等实体瘤的治疗中展现出了强大的抗肿瘤活性。
采用肿瘤抗程序性死亡蛋白1(programmed death 1,PD-1)抗体的疗法是目前研究最多、临床发展最快的一种免疫疗法,PD-1在免疫反应的效应阶段起作用,其表达于活化的T细胞、B细胞及髓系细胞。PD-1有两个配体,即程序性死亡分子配体-1(programmeddeath ligand 1,PD-L1)和程序性死亡分子配体-2(programmed death ligand 2,PD-L2)。PD-L1/L2在抗原提呈细胞都表达,PD-L1在多种组织也有表达。PD-1与PD-L1的结合介导T细胞活化的共抑制信号,抑制T细胞的杀伤功能,对人体免疫应答起到负调节作用。研究发现,PD-L1在肿瘤组织高表达,而且调节肿瘤浸润CD8+T细胞的功能。因此,以PD-1/PD-L1为靶点的免疫调节对抗肿瘤有重要的意义。并且目前市面已有相应药物,而想要有效利用肿瘤免疫疗法的一个重要依据就是肿瘤突变负荷(TMB)的检测,它是目前做过最多研究的重要的肿瘤免疫治疗标志物。
细胞的癌变通常是由体细胞中的基因突变长期积累的结果,但不是所有的体细胞突变都会导致细胞癌变。目前主流观点认为,只有在驱动基因上的特异突变才赋予细胞癌变的特性,这种突变叫做驱动突变(driver mutation)。而驱动突变又会引发其他的基因突变,这导致癌细胞中的基因突变数量往往高于正常的体细胞。肿瘤突变负荷(TMB)是反映肿瘤细胞中总的基因突变程度的一个指标,通常以每百万碱基(Mb)的肿瘤基因组区域中包含的肿瘤体细胞突变总数来表示。多个大规模临床研究发现,免疫检查点抑制剂的疗效很大程度上取决于患者癌细胞中所携带的基因突变的数量。在接受免疫检查点抑制剂治疗的患者中,TMB高与TMB低的患者对免疫疗法的疗效差异十分明显。因此,TMB的精确测量可以预测免疫检查点抑制剂的疗效,使癌症患者有机会获得更加精准的治疗。
最初的TMB采用全外显子组测序方法,对照患者的正常组织和癌组织,找出癌细胞特有的体细胞突变。可是对癌组织和正常组织同时测序成本较高,因此科学家开始探索只对癌症单个样本测序来测量TMB的可行性。对肿瘤单样本方法的探索不仅可以降低检测成本,而且能够减轻病人的痛苦,因为这样病人就无需额外取多一部分健康的癌旁组织,可以减轻对病人的伤害。但是目前还尚无准确性好、效率高的单个样本TMB检测方法。
发明内容
为此,本发明正是要解决上述技术问题,从而提出一种基于二代测序的肿瘤单样本TMB检测方法及装置。
为解决上述技术问题,本发明的技术方案为:
本发明第一方面提供一种基于二代测序的肿瘤单样本TMB检测方法,其包括如下步骤:
对由肿瘤组织样本中提取的DNA进行二代测序分析,得到测序结果;
对所述测序结果进行数据过滤,并与参考基因组进行比对,得到比对结果;
根据比对结果确定DNA样本中单个核苷酸和插入缺失变异结果;
对所述变异结果进行假阳性和胚系数据库过滤,得到过滤后的突变结果;
对所述突变结果进行数据过滤,得到体细胞突变结果;
根据所述体细胞突变结果计算TMB值。
作为优选,所述根据比对结果确定DNA样本中单个苷酸和插入缺失变异结果包括:
根据杂合多肽位点的突变频率和深度信息,得到肿瘤样本纯度、拷贝数和倍体数;
利用所述纯度、拷贝数和倍体数,通过式I、式II预测样本DNA各区域的胚系及细胞突变频率,其中,式I为:
式II为:
其中,C是拷贝数;Ψ是倍体数;p是纯度;Mi是突变型等位DNA片段的拷贝数;σri是CBS得到的片段Si中log值的标准差;σfi为片段Si中snp位点的频率。
作为优选,对所述测序结果进行数据过滤,并与参考基因组进行比对,得到比对结果包括:
利用正常组织样本突变结果构建参考基因组数据库;
将所述测序进行数据过滤,并与所述参考基因组数据库内的突变结果比对,统计出现次数大于或等于5次的突变结果,构建用于过滤假阳性突变的数据库。
作为优选,对所述变异结果进行假阳性和胚系数据库过滤,得到过滤后的突变结果包括:筛选出突变频率大于或等于5%的突变结果。
作为优选,对所述变异结果进行假阳性和胚系数据库过滤,得到过滤后的突变结果还包括:
去除在所述突变数据库中出现次数大于5次的突变结果;
去除被判定为生殖系的突变结果;
去除在HLA区域的突变结果。
作为优选,所述体细胞突变结果包括突变数和探针测序覆盖编码区域的大小,所述TMB值通过如下方式计算得到:TMB=突变数/探针测序覆盖编码区域的大小。本发明第二方面提供一种基于二代测序的肿瘤单样本TMB检测装置,其包括:
包括:
测序分析模块,对由肿瘤组织样本中提取的DNA进行二代测序分析,得到测序结果;
过滤比对模块,对所述测序结果进行数据过滤,并与参考基因组进行比对,得到比对结果;
变异结果确定模块,用于根据比对结果确定DNA样本中单个核苷酸和插入缺失变异结果;
变异结果过滤模块,用于对所述变异结果进行假阳性和胚系数据库过滤,得到过滤后的突变结果;
突变结果过滤模块,用于对突变结果进行数据过滤,得到体细胞突变结果;
计算模块,用于根据所述判定信息结果计算TMB值。
本发明第三方面提供一种终端,包括:存储装置及一个或多个处理器,所述存储装置用于存储一个或多个程序,其中,当一个或多个所述程序被一个或多个处理器执行时,使得一个或多个所述处理器执行所述的方法。
本发明第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有可执行指令,所述可执行指令被执行时执行所述的方法。
本发明的上述技术方案相比现有技术具有以下优点:
本发明所述的基于二代测序的肿瘤单样本TMB检测方法,利用单肿瘤组织样本的二代测序数据,将测序数据与公共dbSNP数据库提供的位点信息和突变频率信息比对后,由统计模型估算不同区域胚系、体细胞突变频率以判断突变属性,最后计算TMB值,本方法达到了单样本数据准确检测TMB的目的。摒弃了以往需要在取病人癌组织的同时,摄取癌旁健康组织的需求,减轻了病人的身体负担、痛苦和风险,提高了检测效率,降低了检测成本,还可更精确地检测该生物标志物,指导病人的免疫用药。
附图说明
为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明,其中
图1是本发明实施例1所述的基于二代测序的肿瘤单样本TMB检测方法的流程图;
图2是本发明实施例1所述的基于二代测序的肿瘤单样本TMB检测装置的示意图;
图3是本发明实施例2中单双样本TMB相关性图;
图4是本发明实施例3中单双样本TMB相关性图;
图5是本发明实施例4中单双样本TMB相关性图。
具体实施方式
实施例1
请参阅图1,本实施例提供一种基于二代测序的肿瘤单样本TMB检测方法,其包括如下步骤:
S10、对由肿瘤组织样本中提取的DNA进行二代测序分析,得到测序结果。
具体地,对由肿瘤组织中提取DNA进行二代测试分析或分析单核苷酸变异(SNV)、插入缺失(indel)突变相关的结果,分析结果具体包括:测序序列中的突变位置、突变频率、突变类型和突变所在链信息。
S20、对所述测序结果进行数据过滤,并与参考基因组进行比对,得到比对结果;。
具体地,首先利用正常样本突变结果构建一个突变数据库,本实施例中,通过收集147例以统一规范操作和统一试剂、条件下实施测序检测的患者正常样本的突变结果,作为参考基因组或对照数据。
分析获取在特定且统一的探针和实验条件下样本基因序列在捕获区域内测序得到的序列的偏向性分布作为后续分析模型的参考数据。统计出该突变数据库中出现次数大于或等于5次的突变结果,构建用于过滤人群假阳性突变和胚系突变的数据库。
将步骤S10得到的分析结果与突变数据库内的突变结果比对、第一次过滤,将出现在假阳性数据库和胚系突变数据库的突变信息去除,以去除多态位点、高发突变和假阳性结果。
S30、根据比对结果确定DNA样本中单个核苷酸和插入缺失变异结果。
具体地,根据样本比对结果的bam文件中的reads覆盖度信息和数千个异源性(heterogenous)单核苷酸多态性(SNP)频率信息,用循环二元分割算法(Circular BinarySegmentation,CBS)将reads覆盖的捕获区域分割为N个预期具有相似拷贝数(copynumber,CN)的区域集合,迭代至集合之前不再具有更大差异可能性,即将含有相同拷贝数(CN)的区域聚集在一起作为下一个计算单位。其中CBS算法的公式如下:
其中,Yij和Zij表示2片段i到j区域及1到i及j到m区域数据的平均值,Sij表示对应片段数据的平均差。
根据杂合多肽位点的突变频率和深度信息,得到肿瘤样本纯度、拷贝数和倍体数;根据分割(Segmentation)信息和SNP频率信息,采用吉布斯采样(Gibbs Sampling)参数估计方法,根据拷贝数和SNP位点频率求解高维方程,得到序列纯度(Purity)和倍体数(Ploidy),并将纯度和倍体数作为参数来进行预测,重复至得到最符合观测数据的纯度和倍体数值,结合预计CN值推断出各基因片段集合的体细胞(somatic)突变、胚系(germline)突变最小等位频率(Minor Allele Frequency,MAF),具体的计算方式为如下公式I-II:
式(I)、(II)中,C是拷贝数;Ψ是倍体数;p是纯度;Mi是突变型等位DNA片段的拷贝数;σri是CBS得到的片段Si中log值的标准差;σfi代表片段Si中snp位点的频率。
S40、对突变结果进行数据过滤,得到体细胞突变结果。
具体地,首先,利用构建的突变数据库对肿瘤组织突变结果进行第二次过滤,去除多态位点、高发突变和假阳性结果,筛选出突变结果中突变频率大于或等于5%的突变结果,过滤掉在所述突变数据库中出现次数大于5次的突变结果。
S50、对所述突变结果进行数据过滤,得到体细胞突变结果。
根据体细胞(somatic)突变、胚系(germline)突变判定依据,过滤掉胚系突变,去除在HLA区域的突变结果,从而得到突变数(Mutation Counts,MC)及突变类型、探针测序覆盖编码区域的大小作为判定信息结果。其中,MC是过滤后得到的体细胞突变的数目,
S60、根据所述判定信息结果计算TMB值。
所述TMB值计算方式如下:TMB=突变数(MC)/探针测序覆盖编码区域的大小(CS)。
请参阅图2,本实施例还提供一种基于二代测序的肿瘤单样本TMB检测装置,其包括:
测序分析模块701,对由肿瘤组织样本中提取的DNA进行二代测序分析,得到测序结果;
过滤比对模块702,对所述测序结果进行数据过滤,并与参考基因组进行比对,得到比对结果;
变异结果确定模块703,用于根据比对结果确定DNA样本中单个核苷酸和插入缺失变异结果;
变异结果过滤模块704,用于对所述变异结果进行假阳性和胚系数据库过滤,得到过滤后的突变结果;
突变结果过滤模块705,用于对突变结果进行数据过滤,得到体细胞突变结果;
计算模块706,用于根据所述判定信息结果计算TMB值。
本实施例还提供一种终端,其包括:存储装置及一个或多个处理器,所述存储装置用于存储一个或多个程序,其中,当一个或多个所述程序被一个或多个处理器执行时,使得一个或多个所述处理器执行所述的方法。
进一步地,本实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有可执行指令,所述可执行指令被执行时执行所述的方法。该计算机可存储介质还可以是U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
实施例2
本实施例中,采用103例临床肿瘤病人组织样本及血液对照样本,及实施例1中构建的突变数据库。
a、对肿瘤组织样本二代测序数据进行比对、第一次过滤,并采用VarScan2做变异检测,得到突变结果。
b、将比对得到的bam文件和突变结果中异源性SNP位点信息用于分析序列的拷贝数、纯度、倍体数及格区域germline,somatic的预期MAF。
c、将突变结果相对于突变数据库进行第二次过滤后,进行TMB计算,得到肿瘤组织单样本TMB结果。
将单样本TMB结果与双样本TMB结果比对,结果如图3所示。图3表明,本实施例所述的方法计算出的单样本TMB与双样本TMB高度相关、一致,可以用单样本TMB计算来替代双样本TMB。其中双样本TMB结果通过上述参考基因组(临床样本)做对照的双样本突变检测得到的体细胞突变数除以cs(编码区域大小得到。
实施例3
本实施例中,采用45例国家TMB标准组织样本及血液对照样本,及实施例1中构建的突变数据库。
a、对肿瘤组织样本二代测序数据进行比对、第一次过滤,并采用VarScan2做变异检测,得到突变结果。
b、将比对得到的bam文件和突变结果中异源性SNP位点信息用于分析序列的拷贝数、纯度、倍体数及格区域germline,somatic的预期MAF。
c、将突变结果相对于突变数据库进行第二次过滤后,进行TMB计算,得到肿瘤组织单样本TMB结果。
将单样本TMB结果与双样本TMB结果比对,结果如图4所示。图4表明,本实施例所述的方法计算出的单样本TMB与双样本TMB高度相关、一致,可以用单样本TMB计算来替代双样本TMB。其中双样本TMB结果通过上述参考基因组(临床样本)做对照的双样本突变检测得到的体细胞突变数除以cs(编码区域大小得到。
实施例4
本实施例中,采用21例临床肿瘤病人组织样本及血液对照样本,及实施例1中构建的突变数据库。
a、对肿瘤组织样本二代测序数据进行比对、第一次过滤,并采用VarScan2做变异检测,得到突变结果。
b、将比对得到的bam文件和突变结果中异源性SNP位点信息用于分析序列的拷贝数、纯度、倍体数及格区域germline,somatic的预期MAF。
c、将突变结果相对于突变数据库进行第二次过滤后,进行TMB计算,得到肿瘤组织单样本TMB结果。
将单样本TMB结果与双样本TMB结果比对,结果如图5所示。图5表明,本实施例所述的方法计算出的单样本TMB与双样本TMB高度相关、一致,可以用单样本TMB计算来替代双样本TMB。其中双样本TMB结果通过上述参考基因组(临床样本)做对照的双样本突变检测得到的体细胞突变数除以cs(编码区域大小得到。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
Claims (9)
1.一种基于二代测序的肿瘤单样本TMB检测方法,其特征在于,包括如下步骤:
对由肿瘤组织样本中提取的DNA进行二代测序分析,得到测序结果;
对所述测序结果进行数据过滤,并与参考基因组进行比对,得到比对结果;
根据比对结果确定DNA样本中单个核苷酸和插入缺失变异结果;包括:
根据样本比对结果的bam文件中的reads覆盖度信息和数千个异源性(heterogenous)单核苷酸多态性(SNP)频率信息,用循环二元分割算法(Circular Binary Segmentation,CBS)将reads覆盖的捕获区域分割为N个预期具有相似拷贝数(copy number,CN)的区域集合,迭代至集合之前不再具有更大差异可能性,即将含有相同拷贝数(CN)的区域聚集在一起作为下一个计算单位;其中CBS算法的公式如下:
;
其中,Yij和Zij表示2片段i到j区域及1到i及j到m区域数据的平均值,Sij表示对应片段数据的平均差;
根据杂合多肽位点的突变频率和深度信息,得到肿瘤样本纯度、拷贝数和倍体数;根据分割(Segmentation)信息和SNP频率信息,采用吉布斯采样(Gibbs Sampling)参数估计方法,根据拷贝数和SNP位点频率求解高维方程,得到序列纯度(Purity)和倍体数(Ploidy),并将纯度和倍体数作为参数来进行预测,重复至得到最符合观测数据的纯度和倍体数值,结合预计CN值推断出各基因片段集合的体细胞(somatic)突变、胚系(germline)突变最小等位频率(Minor Allele Frequency,MAF),具体的计算方式为如下公式I-II:式I为:
;
式II为:;
其中,C是拷贝数;Ψ是倍体数;p是纯度;Mi是突变型等位DNA片段的拷贝数;σri是CBS得到的片段Si中log值的标准差;σfi 为片段Si中snp位点的频率;
对所述变异结果进行假阳性和胚系数据库过滤,得到过滤后的突变结果;
对所述突变结果进行数据过滤,得到体细胞突变结果;
根据所述体细胞突变结果计算TMB值。
2.根据权利要求1所述的基于二代测序的肿瘤单样本TMB检测方法,其特征在于,对所述测序结果进行数据过滤,并与参考基因组进行比对,得到比对结果包括:
利用正常组织样本突变结果构建参考基因组数据库;
将所述测序进行数据过滤,并与所述参考基因组数据库内的突变结果比对,统计出现次数大于或等于5次的突变结果,构建用于过滤假阳性突变的数据库。
3.根据权利要求2所述的基于二代测序的肿瘤单样本TMB检测方法,其特征在于,对所述变异结果进行假阳性和胚系数据库过滤,得到过滤后的突变结果包括:筛选出突变频率大于或等于5%的突变结果。
4.根据权利要求3所述的基于二代测序的肿瘤单样本TMB检测方法,其特征在于,对所述变异结果进行假阳性和胚系数据库过滤,得到过滤后的突变结果还包括:
去除在所述突变数据库中出现次数大于5次的突变结果;
去除被判定为生殖系的突变结果;
去除在HLA区域的突变结果。
5.根据权利要求4所述的基于二代测序的肿瘤单样本TMB检测方法,其特征在于,所述体细胞突变结果包括突变数和探针测序覆盖编码区域的大小,所述TMB值通过如下方式计算得到:TMB=突变数/探针测序覆盖编码区域的大小。
6.根据权利要求5所述的基于二代测序的肿瘤单样本TMB检测方法,其特征在于,所述分析得到的测序结果包括突变位置、突变频率、突变类型、突变所在链信息中的至少一种。
7.一种基于二代测序的肿瘤单样本TMB检测装置,其特征在于,包括:
测序分析模块,对由肿瘤组织样本中提取的DNA进行二代测序分析,得到测序结果;
过滤比对模块,对所述测序结果进行数据过滤,并与参考基因组进行比对,得到比对结果;
变异结果确定模块,用于根据比对结果确定DNA样本中单个核苷酸和插入缺失变异结果;包括:
根据样本比对结果的bam文件中的reads覆盖度信息和数千个异源性(heterogenous)单核苷酸多态性(SNP)频率信息,用循环二元分割算法(Circular Binary Segmentation,CBS)将reads覆盖的捕获区域分割为N个预期具有相似拷贝数(copy number,CN)的区域集合,迭代至集合之前不再具有更大差异可能性,即将含有相同拷贝数(CN)的区域聚集在一起作为下一个计算单位;其中CBS算法的公式如下:
;
其中,Yij和Zij表示2片段i到j区域及1到i及j到m区域数据的平均值,Sij表示对应片段数据的平均差;
根据杂合多肽位点的突变频率和深度信息,得到肿瘤样本纯度、拷贝数和倍体数;根据分割(Segmentation)信息和SNP频率信息,采用吉布斯采样(Gibbs Sampling)参数估计方法,根据拷贝数和SNP位点频率求解高维方程,得到序列纯度(Purity)和倍体数(Ploidy),并将纯度和倍体数作为参数来进行预测,重复至得到最符合观测数据的纯度和倍体数值,结合预计CN值推断出各基因片段集合的体细胞(somatic)突变、胚系(germline)突变最小等位频率(Minor Allele Frequency,MAF),具体的计算方式为如下公式I-II:式I为:
;
式II为:;
其中,C是拷贝数;Ψ是倍体数;p是纯度;Mi是突变型等位DNA片段的拷贝数;σri是CBS得到的片段Si中log值的标准差;σfi 为片段Si中snp位点的频率;
变异结果过滤模块,用于对所述变异结果进行假阳性和胚系数据库过滤,得到过滤后的突变结果;
突变结果过滤模块,用于对突变结果进行数据过滤,得到体细胞突变结果;
计算模块,用于根据所述体细胞突变结果计算TMB值。
8.一种终端,其特征在于,包括:存储装置及一个或多个处理器,所述存储装置用于存储一个或多个程序,其中,当一个或多个所述程序被一个或多个处理器执行时,使得一个或多个所述处理器执行如权利要求1-6任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有可执行指令,所述可执行指令被执行时执行如权利要求1-6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011050601.5A CN112116956B (zh) | 2020-09-29 | 2020-09-29 | 一种基于二代测序的肿瘤单样本tmb检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011050601.5A CN112116956B (zh) | 2020-09-29 | 2020-09-29 | 一种基于二代测序的肿瘤单样本tmb检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112116956A CN112116956A (zh) | 2020-12-22 |
CN112116956B true CN112116956B (zh) | 2024-04-19 |
Family
ID=73797350
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011050601.5A Active CN112116956B (zh) | 2020-09-29 | 2020-09-29 | 一种基于二代测序的肿瘤单样本tmb检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112116956B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116959579B (zh) * | 2023-09-19 | 2023-12-22 | 北京求臻医学检验实验室有限公司 | 一种用于降低二代测序系统错误的系统 |
CN117253546A (zh) * | 2023-10-11 | 2023-12-19 | 北京博奥医学检验所有限公司 | 一种降低靶向二代测序背景噪音的方法、系统及可存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108470114A (zh) * | 2018-04-27 | 2018-08-31 | 元码基因科技(北京)股份有限公司 | 基于单样本的二代测序数据分析肿瘤突变负荷的方法 |
CN108733975A (zh) * | 2018-03-29 | 2018-11-02 | 深圳裕策生物科技有限公司 | 基于二代测序的肿瘤克隆变异检测方法、装置和存储介质 |
CN109033749A (zh) * | 2018-06-29 | 2018-12-18 | 深圳裕策生物科技有限公司 | 一种肿瘤突变负荷检测方法、装置和存储介质 |
CN110570904A (zh) * | 2019-08-27 | 2019-12-13 | 深圳百诺精准医疗科技有限公司 | 一种肿瘤突变分析方法、系统、终端及可读存储介质 |
CA3107983A1 (en) * | 2018-07-23 | 2020-01-30 | Guardant Health, Inc. | Methods and systems for adjusting tumor mutational burden by tumor fraction and coverage |
WO2020076900A1 (en) * | 2018-10-09 | 2020-04-16 | Genecentric Therapeutics, Inc. | Detecting tumor mutation burden with rna substrate |
CN111321140A (zh) * | 2020-03-03 | 2020-06-23 | 苏州吉因加生物医学工程有限公司 | 一种基于单样本的肿瘤突变负荷检测方法和装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3665308A1 (en) * | 2017-08-07 | 2020-06-17 | The Johns Hopkins University | Methods and materials for assessing and treating cancer |
WO2020046784A1 (en) * | 2018-08-28 | 2020-03-05 | Life Technologies Corporation | Methods for detecting mutation load from a tumor sample |
-
2020
- 2020-09-29 CN CN202011050601.5A patent/CN112116956B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108733975A (zh) * | 2018-03-29 | 2018-11-02 | 深圳裕策生物科技有限公司 | 基于二代测序的肿瘤克隆变异检测方法、装置和存储介质 |
CN108470114A (zh) * | 2018-04-27 | 2018-08-31 | 元码基因科技(北京)股份有限公司 | 基于单样本的二代测序数据分析肿瘤突变负荷的方法 |
CN109033749A (zh) * | 2018-06-29 | 2018-12-18 | 深圳裕策生物科技有限公司 | 一种肿瘤突变负荷检测方法、装置和存储介质 |
CA3107983A1 (en) * | 2018-07-23 | 2020-01-30 | Guardant Health, Inc. | Methods and systems for adjusting tumor mutational burden by tumor fraction and coverage |
WO2020076900A1 (en) * | 2018-10-09 | 2020-04-16 | Genecentric Therapeutics, Inc. | Detecting tumor mutation burden with rna substrate |
CN110570904A (zh) * | 2019-08-27 | 2019-12-13 | 深圳百诺精准医疗科技有限公司 | 一种肿瘤突变分析方法、系统、终端及可读存储介质 |
CN111321140A (zh) * | 2020-03-03 | 2020-06-23 | 苏州吉因加生物医学工程有限公司 | 一种基于单样本的肿瘤突变负荷检测方法和装置 |
Non-Patent Citations (2)
Title |
---|
Accurate measurement of tumor mutation burden through tumor-only sequencing using a 500-gene panel;Kaplan. S等;《Annual Meeting of the American-Association-for-Cancer-Research (AACR)》;第78卷(第13期);1 * |
Fast Bayesian Inference of Copy Number Variants using Hidden Markov Models with Wavelet Compression;John Wiedenhoeft等;《PLoS Computational Biology》;第12卷(第5期);1-28 * |
Also Published As
Publication number | Publication date |
---|---|
CN112116956A (zh) | 2020-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7145907B2 (ja) | 疾患細胞不均一性を示す疾患の検出および処置、ならびに通信試験結果のためのシステムおよび方法 | |
JP7022188B2 (ja) | 無細胞核酸の多重解像度分析のための方法 | |
CN104662168B (zh) | 用于癌症检测的血浆dna突变分析 | |
CN112116956B (zh) | 一种基于二代测序的肿瘤单样本tmb检测方法及装置 | |
KR20190026837A (ko) | 무세포 핵산의 프래그멘톰 프로파일링을 위한 방법 | |
CN111192634A (zh) | 用于处理基因组数据的方法 | |
CN112088220B (zh) | 替代标志物及用于肿瘤突变负荷测定的方法 | |
JP2015500034A5 (zh) | ||
JP2015531240A (ja) | 腫瘍クローン性解析のためのシステムおよび方法 | |
CN113337600B (zh) | 一种基于低深度测序法检测染色体中三倍体、roh的方法 | |
CN114694750B (zh) | 一种基于ngs平台的单样本肿瘤体细胞突变判别及tmb检测方法 | |
WO2018064547A1 (en) | Methods for classifying somatic variations | |
EP3811365A1 (en) | A noise measure for copy number analysis on targeted panel sequencing data | |
CN114627962A (zh) | 一种预测肿瘤患者对免疫疗法的敏感性的方法和装置 | |
CN112592976B (zh) | 一种检测met基因扩增的方法及装置 | |
CN106906220A (zh) | 一种突变的col4a5基因及其应用 | |
CN116580768B (zh) | 一种基于定制化策略的肿瘤微小残留病灶检测方法 | |
CN113168885A (zh) | 用于体细胞突变的方法和系统及其用途 | |
KR20210083208A (ko) | 체세포 변이 검출을 위한 방법 및 조성물 | |
KR101818103B1 (ko) | 동반진단 예측 장치 및 그 방법 | |
CN113234825A (zh) | 癌症预后方法 | |
CN114517223A (zh) | 一种用于筛选snp位点的方法及其应用 | |
WO2021041968A1 (en) | Systems and methods for predicting and monitoring treatment response from cell-free nucleic acids | |
Chen et al. | DeBreak: Deciphering the exact breakpoints of structural variations using long sequencing reads | |
CN111201572A (zh) | 用于提高精确度的癌症患者的综合基因组转录组肿瘤-正常样基因组套分析 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |