CN113913518B - 成熟b细胞肿瘤的分型标志物及其应用 - Google Patents

成熟b细胞肿瘤的分型标志物及其应用 Download PDF

Info

Publication number
CN113913518B
CN113913518B CN202111013754.7A CN202111013754A CN113913518B CN 113913518 B CN113913518 B CN 113913518B CN 202111013754 A CN202111013754 A CN 202111013754A CN 113913518 B CN113913518 B CN 113913518B
Authority
CN
China
Prior art keywords
variation
grade
typing
mature
mutation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111013754.7A
Other languages
English (en)
Other versions
CN113913518A (zh
Inventor
穆亚飞
李桂彬
蒙裕欢
陈禹欣
范喜杰
王冀
黄晓强
缪夏萍
陈涛
陈娜
林俊维
袁杰铖
夏阳
宋月
彭梓月
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Jinyu Translational Medical Research Institute Co ltd
Guangzhou Kingmed Diagnostics Central Co Ltd
Original Assignee
Guangzhou Jinyu Translational Medical Research Institute Co ltd
Guangzhou Kingmed Diagnostics Central Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Jinyu Translational Medical Research Institute Co ltd, Guangzhou Kingmed Diagnostics Central Co Ltd filed Critical Guangzhou Jinyu Translational Medical Research Institute Co ltd
Priority to CN202111013754.7A priority Critical patent/CN113913518B/zh
Publication of CN113913518A publication Critical patent/CN113913518A/zh
Application granted granted Critical
Publication of CN113913518B publication Critical patent/CN113913518B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/112Disease subtyping, staging or classification
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Biotechnology (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Genetics & Genomics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Molecular Biology (AREA)
  • Organic Chemistry (AREA)
  • Immunology (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Hospice & Palliative Care (AREA)
  • Epidemiology (AREA)
  • Oncology (AREA)
  • Databases & Information Systems (AREA)
  • Microbiology (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及一种成熟B细胞肿瘤的分型标志物及其应用,属于生物医学技术领域。该分型标志物包括175个血液肿瘤相关基因中的至少16个基因的组合,采用该分型标志物,能够在兼顾控制成本和分型诊断准确性的基础上,解决临床上部分疑难病例亚型诊断困难的情况并在初诊时辅助预后评估,对成熟B细胞肿瘤的分型诊断和分层精准治疗有十分重要的临床意义。

Description

成熟B细胞肿瘤的分型标志物及其应用
技术领域
本发明涉及生物医学技术领域,具体涉及一种成熟B细胞肿瘤的分型标志物及其应用。
背景技术
成熟B细胞肿瘤是一类成熟B细胞克隆增殖性疾病,是淋巴瘤中最常见和发病率最高的亚类,约占所有淋巴瘤病例的80%以上。根据2016年世界卫生组织造血和淋巴组织肿瘤分类,成熟B细胞肿瘤包括40余种亚型,其诊断依据形态学(Morphology)、免疫学(Immunology)、遗传学(Cytogenetics)及分子生物学(Molecular biology)分型(MICM分型)。形态学是临床上成熟B细胞肿瘤亚型诊断的金标准,免疫学、遗传学和分子生物学则在亚型分类、精准治疗和预后评估上有重要的作用。
然而,成熟B细胞肿瘤无论从临床表现还是从形态学上观察都是一类高度异质性的疾病,其临床表现复杂,形态特征和结果差异大,许多疑难病例的出现使成熟B细胞肿瘤的亚型鉴别诊断成为临床工作中的重点和难点。
例如,形态学作为临床上成熟B细胞肿瘤亚型诊断的金标准,其在临床诊断应用过程中存在亚型诊断模糊、亚型鉴别不清等问题,有一些病例可以通过免疫学、遗传学的方法来辅助形态学进行成熟B细胞肿瘤亚型鉴别诊断,但仍然有许多临床疑难病例无法通过以上方法进行明确的亚型诊断,从而影响后续的精准治疗,且利用NGS肿瘤亚型之间突变谱差异对诊断的辅助作用还尚待开发。
并且,形态学诊断和病理医生的水平一般有直接的关系,对病理医生的临床经验有较大的依赖性,某些淋巴瘤亚型依赖病理形态和免疫组化无法明确鉴别区分,诊断不清甚至误诊的情况时有发生。
近年来随着二代测序(NGS)的广泛应用和肿瘤基因组学研究的日益深入,许多成熟B细胞肿瘤亚型的重现性亚显微异常和血液肿瘤相关致病基因被不断发现和研究。然而,二代测序在成熟B细胞肿瘤的分型诊断应用上一直是临床工作中的重点和难点,血液肿瘤临床诊断共识指南中也只仅有少数单个基因对诊断的作用被写入,如何对NGS数据进行合适的清洗、筛选以及其临床意义的挖掘,利用肿瘤亚型之间突变谱的差异对诊断的辅助作用还有巨大的空间尚待开发。
NGS目前在临床上已得到广泛应用,在淋巴瘤中以预后评估和靶向治疗占应用主流,但随着临床检测NGS panel的不断扩大,患者医疗成本也不断增高,如何寻找分型的关键基因以减少无效医疗成本,利用突变谱对诊断的辅助作用尚待开发。
发明内容
基于此,有必要针对上述问题,提供一种成熟B细胞肿瘤的分型标志物,采用该分型标志物,能够在兼顾控制成本和分型诊断准确性的基础上,解决临床上部分疑难病例亚型诊断困难的情况并在初诊时辅助预后评估,对成熟B细胞肿瘤的分型诊断和分层精准治疗有十分重要的临床意义。
一种成熟B细胞肿瘤的分型标志物,包括以下基因中的至少16种基因的组合:ABCB1,ABL1,ANKRD26,APC,ARID1A,ARID1B,ARID2,ASXL1,ATG2B,ATM,ATRX,B2M,BCL10,BCL2,BCL6,BCOR,BCORL1,BIRC3,BLM,BPGM,BRAF,BRCA1,BRCA2,BRIP1,BTG1,BTK,CALR,CARD11,CBL,CBLB,CBLC,CCND1,CCND3,CD28,CD58,CD79A,CD79B,CDKN1A,CDKN2A,CDKN2B,CEBPA,CHD8,CIITA,CREBBP,CRLF2,CSF1R,CSF3R,CTCF,CUX1,CXCR4,DDX41,DIS3,DKC1,DNM2,DNMT3A,EED,EGFR,EGLN1,ELANE,EP300,EPHA7,EPOR,ETV6,EZH2,FAS,FAT1,FBXO11,FBXW7,FLT3,FOXO1,GATA1,GATA2,GFI1,GNA13,GNAI2,GNAS,GNB1,GSKIP,HAX1,HRAS,ID3,IDH1,IDH2,IKZF1,IKZF2,IRF8,ITPKB,JAK1,JAK2,JAK3,KDM6A,KIT,KMT2A,KMT2B,KMT2C,KMT2D,KRAS,KRT20,LMO2,LYN,MAP2K1,MCL1,MEF2B,MFHAS1,MPL,MTOR,MYC,MYD88,MYOM2,NF1,NOTCH1,NOTCH2,NPM1,NRAS,NSD2,NT5C2,PALB2,PAX5,PDGFRA,PDGFRB,PHF6,PIGA,PIK3CA,PIK3CD,PIM1,PLCG2,PPM1D,PRDM1,PRF1,PRKDC,PRPF8,PTEN,PTPN11,RAD21,RELN,RHOA,RUNX1,SBDS,SETBP1,SETD2,SETDB1,SF3B1,SGK1,SH2B3,SMC1A,SMC3,SOCS1,SRP72,SRSF2,STAG2,STAT3,STAT5B,STAT6,SUZ12,SYK,TAL1,TCF3,TENT5C,TERC,TERT,TET2,TNFAIP3,TNFRSF14,TP53,TPMT,TRAF3,U2AF1,VHL,WT1,XPO1,ZAP70,ZRSR2。
本领域中,如何将NGS应用于成熟B细胞肿瘤分型诊断一直是临床工作中的重点和难点,本发明人在充分分析NGS在肿瘤基因组学研究中所取得的进展,并结合目前临床工作中存在的问题,利用机器学习的方法,经过对NGS数据进行处理后,通过对关键分型相关基因(或基因位点)的寻找和筛选,建立一种利用二代测序和机器学习对成熟B细胞肿瘤亚型诊断模型的方法,可在兼顾控制成本和分型诊断准确性的基础上,解决临床上部分疑难病例亚型诊断困难的情况并在初诊时辅助预后评估,对成熟B细胞肿瘤的分型诊断和分层精准治疗有十分重要的临床意义。
在其中一个实施例中,该分型标志物至少包括以下基因:B2M,BRAF,CCND1,CD79B,CDKN2A,CXCR4,EZH2,ID3,KMT2D,MYC,MYD88,NOTCH1,NOTCH2,SF3B1,SOCS1,TNFAIP3。
在其中一个实施例中,该分型标志物包括以下基因:B2M,BRAF,CCND1,CD79B,CDKN2A,CXCR4,EZH2,ID3,KMT2D,MYC,MYD88,NOTCH1,NOTCH2,SF3B1,SOCS1,TNFAIP3。
本发明还公开了上述的分型标志物在制备用于成熟B细胞肿瘤分型诊断的试剂或设备中的应用。
本发明还公开了一种用于成熟B细胞肿瘤分型诊断的试剂盒,包括用于检测上述分型标志物的试剂。
本发明还公开了一种成熟B细胞肿瘤分型诊断模型的建立方法,包括以下步骤:
数据清洗:取若干已知分型的成熟B细胞肿瘤样本数据集A,进行变异清洗和筛选,获得数据集B;
变异分级:按照肿瘤变异分类标准与指南,对上述数据集B进行变异分类分级,将有害变异和可能有害变异分为I-II类,意义未明确变异分为III类,良性变异或可能良性变异分为IV类,获得数据集C;
机器学习:将上述数据集C中I类和II类变异作为机器学习的结果数据,并以上述的分型标志物作为模型预测因子,以随机森林模型建立机器学习模型,即得成熟B细胞肿瘤分型诊断模型。
在其中一个实施例中,所述数据清洗步骤中,按照以下步骤进行变异清洗和筛选:
1)去除所有变异中的低质量变异;
2)去除所有变异中的内含子区或非翻译区变异;
3)去除所有变异中的同义突变变异;
4)去除所有变异中同批次出现频率大于50%或出现次数大于10次的变异;
在其中一个实施例中,所述变异分级数据中,按照以下标准进行变异分类分级:
1)按照肿瘤变异分类标准与指南记载标准,有A级、B级、C级和D级证据中至少一项证据的变异分类为I-II类变异;
2)群体遗传学数据库中人群等位基因频率小于2‰且无A级、B级、C级和D级证据中至少一项证据的变异分类为III类变异;
3)体细胞突变数据库中人群等位基因频率小于2‰且无A级、B级、C级和D级证据中至少一项证据的变异分类为III类变异;
4)胚系突变数据库中人群等位基因频率小于2‰且无A级、B级、C级和D级证据中至少一项证据的变异分类为III类变异;
5)群体遗传学数据库中人群等位基因频率大于2‰的变异分类为IV类变异;
6)体细胞突变数据库中人群等位基因频率大于2‰的变异分类为IV类变异;
7)在胚系突变数据库中人群等位基因频率大于2‰的变异分类为IV类变异。
在其中一个实施例中,所述群体遗传学数据库包括:ESP、dbSNP、1000Genome、ExAC数据库,所述体细胞突变数据库包括:COSMIC、My Cancer Genome、TCGA数据库,所述胚系突变数据库包括:HGMD、ClinVar数据库,可以理解的,根据不同的需求和各数据库特点,本领域技术人员可对所参考数据库进行筛选和调整。
本发明还公开了一种上述的建立方法得到的成熟B细胞肿瘤分型诊断模型。
本发明还公开了一种成熟B细胞肿瘤分型诊断系统,包括:
检测模块,用于检测待测样品中上述基因序列;
分析模块,获取上述检测模块得到的基因序列数据,按照上述的模型进行数据分析,获得待测样本分型结果;
输出模块,用于将上述分型结果输出。
与现有技术相比,本发明具有以下有益效果:
本发明的一种成熟B细胞肿瘤的分型标志物,是针对形态学及其他辅助诊断方法在成熟B细胞肿瘤亚型诊断中存在的一些问题,利用二代测序和机器学习对成熟B细胞肿瘤亚型诊断模型的建立后得到。
本发明通过大量文献学习和整理之后,结合临床工作经验,选取了175个血液肿瘤相关基因作为模型建立预测因子,通过对成熟B细胞肿瘤不同亚型患者的NGS结果进行收集汇总、清洗筛选以及后续的因子筛选和随机验证,得到Accuracy最佳模型(175个基因作为预测因子,模型A)和效率最佳模型(16个基因作为预测因子,模型B),为不同诊疗水平地区和不同收入患者群体利用NGS辅助成熟B细胞肿瘤分型诊断提供了不同的方法思路,利用机器学习建立亚型诊断模型,对形态学亚型鉴别不清或亚型诊断模糊的疑难病例进行辅助诊断。
并且,本发明采用机器学习的方法辅助形态学诊断使成熟B细胞肿瘤亚型的鉴别诊断更具有客观性,克服了对病理医生临床经验的依赖。
同时,对临床上一些无法通过形态学、免疫学及遗传学方法进行明确亚型诊断的疑难病例,本方法提供了一种新的辅助诊断思路。
NGS除了可以对成熟B细胞肿瘤进行亚型鉴别诊断外,其对疾病预后方面的指导意义也十分重要,如其中部分标志物(如TP53基因)突变往往预示患者预后较差,利用NGS检测做分型诊断的同时,可以提示临床医生注意患者的用药及预后评估。结合NGS辅助形态学不仅对疾病进行了亚型鉴别诊断,也为患者的治疗及预后提供了评估价值,利于后续的精准治疗。
附图说明
图1为实施例1中模型变量筛选示意图。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的较佳实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
以下实施例所用试剂,如非特别说明,均为市售可得,以下实施例所用方法,如非特别说明,均为常规方法可实现。
实施例1
成熟B细胞肿瘤的分型标志物的筛选。
1、调研选取候选标志物。
在PubMed数据库中进行全面搜索与筛选,结合发明人在临床实践中的经验,选取下表所示175个与血液肿瘤相关基因作为NGS检测Panel并预设为模型预测因子。
表1.血液肿瘤相关基因
Figure BDA0003239194190000051
Figure BDA0003239194190000061
2、数据收集及清洗。
1)在COSMIC(the Catalogue Of Somatic Mutations In Cancer)数据库中进行全面搜索与筛选,收集COMSIC数据库中诊断为成熟B细胞肿瘤病例的亚型诊断数据(COMSIC数据库数据收集截止日期:2020.5.20),结果见下表。
表2.COSMIC数据库病例收集情况及变异分级后病例保留情况
Figure BDA0003239194190000071
2)收集上述COSMIC数据库中诊断为成熟B细胞肿瘤病例的原始NGS结果数据并建立数据集(数据集TA);
3)对上述获得的数据集TA进行变异清洗和筛选,获得数据集TB,步骤如下:
①去除所有变异中的低质量变异,具体如下:
对于组织、骨髓及外周血样本,要求去除低质量变异重复后,靶标区域序列50X≥99%,平均测序深度>200X,Q30≥0.85,目标区域捕获≥99%;
对于血液样本检测血浆游离DNA,要求去重复除低质量变异后,靶标区域序列500X≥99%,平均测序深度>2000X,Q30≥0.85,目标区域捕获≥99%;
对符合上述标准的变异进行IGV变异确认;
②去除所有变异中的内含子区/非翻译区(Intron/UTR)变异;
③去除所有变异中的同义突变(Synonymous)变异;
④去除所有变异中同批次NGS检测出现频率大于50%或出现次数大于10次的变异(即要求This batch<50%或n<10samples);
4)按照肿瘤变异分类标准与指南(Standards and Guidelines for theInterpretation and Reporting of Sequence Variants in Cance,2017),对上述获得的数据集TB进行变异分类分级,获得数据集TC,步骤如下:
①按照《肿瘤变异分类标准与指南》标准,有A级、B级、C级和D级证据中至少一项证据的变异分类为I-II类变异(有害变异或可能有害变异);
②群体遗传学数据库(ESP、dbSNP、1000Genome、ExAC数据库)中人群等位基因频率小于2‰且无A级、B级、C级和D级证据中至少一项证据的变异分类为Ⅲ类变异(意义未明变异);
③体细胞突变数据库(COSMIC、My Cancer Genome、TCGA数据库)中人群等位基因频率小于2‰且无A级、B级、C级和D级证据中至少一项证据的变异分类为Ⅲ类变异(意义未明变异);
④胚系突变数据库(HGMD、ClinVar数据库)中人群等位基因频率小于2‰且无A级、B级、C级和D级证据中至少一项证据的变异分类为Ⅲ类变异(意义未明变异);
⑤群体遗传学数据库(ESP、dbSNP、1000Genome、ExAC数据库)中人群等位基因频率大于2‰的变异分类为IV类变异(良性变异或可能良性变异);
⑥体细胞突变数据库(COSMIC、My Cancer Genome、TCGA数据库)中人群等位基因频率大于2‰的变异分类为IV类变异(良性变异或可能良性变异);
⑦在胚系突变数据库(HGMD、ClinVar数据库)中人群等位基因频率大于2‰的变异分类为IV类变异(良性变异或可能良性变异)。
5)保留上述获得的数据集TC中分类为I/II类的变异作为用于机器学习模型评估的NGS结果数据,得到数据集T,备用。
3、模型建立及模型因子优化。
1)对数据集T进行数据0、1转换(I-II类变异标记为1,其他标记为0);并对数据集T以随机森林(Random Forest)模型采用5次10折交叉验证网格搜索进行机器学习模型建立。
2)对数据集T采用递归式特征消除法(Recursive feature elimination)进行模型变量筛选,结果如图1所示。
从图中可以看到,随着检测基因数的增加,模型Accuracy值不断提高。当选择全部变量(即175个基因,A点)时,模型Accuracy值最高(accuracy=0.73);当选择16个变量时(即16个基因,B点)时,模型效率最高(accuracy=0.69)。
即上述结果表明,当选取所有175个基因进行分型评估时,Accuracy值最高,但选择16个基因进行分型评估时,模型效率最高,且效率最高时Accuracy值与选取所有基因时,相比较于基因数量的差异,Accuracy值差异不大,因而,可根据不同诊疗水平地区和不同收入患者群体利用NGS辅助成熟B细胞肿瘤分型诊断选择适用,即选择至少16个基因的组合作为分型标志物。
4、模型因子优化。
发明人根据文献报道及临床实践经验,进一步选取了15组不同的基因组合对上述模型筛选结果进行验证。
表3. 15组不同基因组合及Accuracy值
Figure BDA0003239194190000091
Figure BDA0003239194190000101
验证结果如上表所示,与模型变量筛选结果一致。根据Accuracy值,选取第9种组合,包含的基因为:B2M,BRAF,CCND1,CD79B,CDKN2A,CXCR4,EZH2,ID3,KMT2D,MYC,MYD88,NOTCH1,NOTCH2,SF3B1,SOCS1,TNFAIP3,在此组合情况下,具有效率最佳的优势,且其Accuracy值可达到0.69,甚至高于变量选择更多的10-15组。
实施例2
模型评估。
1、外部数据收集。
1)采集受试者样本(外周血、骨髓、组织/淋巴结等)及受试者临床亚型诊断数据,结果见下表。
表4.病例收集情况及变异分级后病例保留情况
Figure BDA0003239194190000111
2)数据获取。
采用QIAsymphony DSP DNA Mini Kit试剂盒对受试者的样本进行DNA提取,采用QIAGEN QIAseq FX DNA Library Kit试剂盒构建文库及纯化,基于实施例1中所述175基因,按照常规实验室方法,建立NGS检测panel,采用探针杂交的方法进行捕获,选用Illumina Novaseq6000测序仪作为NGS测序平台,获得各样本的原始NGS检测结果数据并建立数据集(即数据集PA);
将数据集PA按照实施例1中的方法进行变异清洗和筛选,获得数据集PB,并按照实施例1的方法对上述获得的数据集PB进行变异分类分级,获得数据集PC,再按照实施例1的方法,将数据集PC中分类为I/II类的变异作为用于机器学习模型评估的NGS结果数据,得到数据集P(外部数据集P),备用。
2、模型间对比验证评估。
1)方法:对实施例1中数据集T采用分层随机采样进行数据分割,取80%作为训练集,20%作为测试集;选择A点和B点分别建立分型诊断模型,进行模型间对比验证评估。
2)结果:
选取A点作为模型预测因子,对数据集T以随机森林(Random Forest)模型采用5次10折交叉验证网格搜索进行机器学习模型建立,以Accuracy值为评估指标,得到模型A内部验证评估,结果如下表。
表5.模型A内部验证结果
Figure BDA0003239194190000112
Figure BDA0003239194190000121
选取B点作为模型预测因子,对数据集T以随机森林(Random Forest)模型采用5次10折交叉验证网格搜索进行机器学习模型建立,以Accuracy值为评估指标,得到模型B内部验证评估,结果如下表。
表6.模型B内部验证结果
Figure BDA0003239194190000122
3、模型间对比验证评估。
1)用上述外部数据集P对成熟B细胞肿瘤亚型诊断模型A进行外部模型评估,结果见下表。
表7.模型A外部验证结果
Figure BDA0003239194190000123
2)用上述外部数据集P对成熟B细胞肿瘤亚型诊断模型B进行外部模型评估,结果见下表。
表8.模型A外部验证结果
Figure BDA0003239194190000124
上述结果表明,无论是模型内部验证,或是外部验证,本发明的基因组合形成的分型标志物,均可达到较好的成熟B细胞肿瘤分型效果。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (6)

1.一种成熟B细胞肿瘤的分型标志物,其特征在于,由以下基因组成:B2M,BRAF,CCND1,CD79B,CDKN2A,CXCR4,EZH2,ID3,KMT2D,MYC,MYD88,NOTCH1,NOTCH2,SF3B1,SOCS1,TNFAIP3。
2.权利要求1所述的分型标志物作为靶标在制备用于成熟B细胞肿瘤分型诊断的试剂中的应用。
3.一种成熟B细胞肿瘤分型诊断模型的建立方法,其特征在于,包括以下步骤:
数据清洗:取若干已知分型的成熟B细胞肿瘤样本数据集A,进行变异清洗和筛选,获得数据集B;
变异分级:按照肿瘤变异分类标准与指南,对上述数据集B进行变异分类分级,将有害变异和可能有害变异分为I-II类,意义未明确变异分为III类,良性变异或可能良性变异分为IV类,获得数据集C;
机器学习:将上述数据集C中I-II类变异作为机器学习的结果数据,并以权利要求1所述的分型标志物作为模型预测因子,以随机森林模型建立机器学习模型,即得成熟B细胞肿瘤分型诊断模型。
4.根据权利要求3所述的成熟B细胞肿瘤分型诊断模型的建立方法,其特征在于,所述数据清洗步骤中,按照以下步骤进行变异清洗和筛选:
1)去除所有变异中的低质量变异;
2)去除所有变异中的内含子区或非翻译区变异;
3)去除所有变异中的同义突变变异;
4)去除所有变异中同批次NGS检测出现频率大于50%或出现次数大于10次的变异。
5.根据权利要求4所述的成熟B细胞肿瘤分型诊断模型的建立方法,其特征在于,所述变异分级数据中,按照以下标准进行变异分类分级:
1)按照肿瘤变异分类标准与指南记载标准,有A级、B级、C级和D级证据中至少一项证据的变异分类为I-II类变异;
2)群体遗传学数据库中人群等位基因频率小于2‰且无A级、B级、C级和D级证据中至少一项证据的变异分类为III类变异;
3)体细胞突变数据库中人群等位基因频率小于2‰且无A级、B级、C级和D级证据中至少一项证据的变异分类为III类变异;
4)胚系突变数据库中人群等位基因频率小于2‰且无A级、B级、C级和D级证据中至少一项证据的变异分类为III类变异;
5)群体遗传学数据库中人群等位基因频率大于2‰的变异分类为IV类变异;
6)体细胞突变数据库中人群等位基因频率大于2‰的变异分类为IV类变异;
7)在胚系突变数据库中人群等位基因频率大于2‰的变异分类为IV类变异。
6.一种成熟B细胞肿瘤分型诊断系统,其特征在于,包括:
检测模块,用于检测待测样品中权利要求1所述基因序列;
分析模块,获取上述检测模块得到的基因序列数据,按照权利要求3-5任一项所述的成熟B细胞肿瘤分型诊断模型的建立方法得到的模型进行数据分析,获得待测样本分型结果;
输出模块,用于将上述分型结果输出。
CN202111013754.7A 2021-08-31 2021-08-31 成熟b细胞肿瘤的分型标志物及其应用 Active CN113913518B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111013754.7A CN113913518B (zh) 2021-08-31 2021-08-31 成熟b细胞肿瘤的分型标志物及其应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111013754.7A CN113913518B (zh) 2021-08-31 2021-08-31 成熟b细胞肿瘤的分型标志物及其应用

Publications (2)

Publication Number Publication Date
CN113913518A CN113913518A (zh) 2022-01-11
CN113913518B true CN113913518B (zh) 2022-08-16

Family

ID=79233713

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111013754.7A Active CN113913518B (zh) 2021-08-31 2021-08-31 成熟b细胞肿瘤的分型标志物及其应用

Country Status (1)

Country Link
CN (1) CN113913518B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116312778B (zh) * 2023-01-19 2024-02-13 广州医科大学 成熟b细胞肿瘤的辅助诊断预测方法、装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108823640A (zh) * 2018-06-06 2018-11-16 珠海铂华生物工程有限公司 一种构建基于淋巴瘤基因检测的高通量测序文库的方法及其应用
CN109609647A (zh) * 2019-01-25 2019-04-12 臻悦生物科技江苏有限公司 基于二代测序的用于泛癌种靶向、化疗及免疫用药的检测Panel、检测试剂盒及其应用
CN111105842A (zh) * 2018-10-29 2020-05-05 立森印迹诊断技术(无锡)有限公司 一种用于检测淋巴瘤、淋巴转移癌良恶性程度的分级模型及其应用
CN111662983A (zh) * 2020-07-06 2020-09-15 北京吉因加科技有限公司 一种用于检测淋巴瘤基因变异的试剂盒及其应用
CN112766428A (zh) * 2021-04-08 2021-05-07 臻和(北京)生物科技有限公司 肿瘤分子分型方法及装置、终端设备及可读存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2785656A1 (en) * 2009-12-29 2011-07-07 Cancer Genetics, Inc. Tool for diagnosis and prognosis of mature b-cell neoplasms
US20200270702A1 (en) * 2016-12-23 2020-08-27 Trustees Of Boston University Classification of diffuse large b-cell lymphoma
WO2020006547A1 (en) * 2018-06-30 2020-01-02 20/20 Genesystems, Inc Cancer classifier models, machine learning systems and methods of use

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108823640A (zh) * 2018-06-06 2018-11-16 珠海铂华生物工程有限公司 一种构建基于淋巴瘤基因检测的高通量测序文库的方法及其应用
CN111105842A (zh) * 2018-10-29 2020-05-05 立森印迹诊断技术(无锡)有限公司 一种用于检测淋巴瘤、淋巴转移癌良恶性程度的分级模型及其应用
CN109609647A (zh) * 2019-01-25 2019-04-12 臻悦生物科技江苏有限公司 基于二代测序的用于泛癌种靶向、化疗及免疫用药的检测Panel、检测试剂盒及其应用
CN111662983A (zh) * 2020-07-06 2020-09-15 北京吉因加科技有限公司 一种用于检测淋巴瘤基因变异的试剂盒及其应用
CN112766428A (zh) * 2021-04-08 2021-05-07 臻和(北京)生物科技有限公司 肿瘤分子分型方法及装置、终端设备及可读存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Arantza Onaindia等.Clinical utility of recently identified diagnostic, prognostic, and predictive molecular biomarkers in mature B-cell neoplasms.《Modern Pathology》.2017,第30卷(第10期),第1338-1366页. *
Clinical utility of recently identified diagnostic, prognostic, and predictive molecular biomarkers in mature B-cell neoplasms;Arantza Onaindia等;《Modern Pathology》;20170630;第30卷(第10期);第1341页表2-3,第1354页左栏第2段至右栏第2段,第1356页右栏第2-4段 *
头颈部非霍奇金淋巴瘤138例临床分析;刘华蔚等;《上海口腔医学》;20110415;第20卷(第2期);第179-182页 *

Also Published As

Publication number Publication date
CN113913518A (zh) 2022-01-11

Similar Documents

Publication Publication Date Title
CN109033749B (zh) 一种肿瘤突变负荷检测方法、装置和存储介质
AU2019228512B2 (en) Systems and methods for detection of residual disease
CN106947830B (zh) 用于诊断、预测肝癌疗效和预后的基因甲基化面板
CN113257350B (zh) 基于液体活检的ctDNA突变程度分析方法和装置、ctDNA性能分析装置
CN112766428B (zh) 肿瘤分子分型方法及装置、终端设备及可读存储介质
CN112289376B (zh) 一种检测体细胞突变的方法及装置
CN111748632A (zh) 一种特征lincRNA表达谱组合及肝癌早期预测方法
CN116580768B (zh) 一种基于定制化策略的肿瘤微小残留病灶检测方法
CN106021994A (zh) 一种肿瘤突变位点筛选及互斥基因挖掘的方法
CN113913518B (zh) 成熟b细胞肿瘤的分型标志物及其应用
CN116356001B (zh) 一种基于血液循环肿瘤dna的双重背景噪声突变去除方法
CN111584001B (zh) 一种用于淋巴瘤预后判断的方法、试剂盒及应用
CN106156541B (zh) 分析个体两类状态的免疫差异的方法和装置
CN111763738A (zh) 一种特征mRNA表达谱组合及肝癌早期预测方法
CN112837748A (zh) 一种区分不同解剖学起源肿瘤的系统及其方法
CN114974552A (zh) 一种建立乳腺癌早期筛查模型的方法
Mauguen et al. Estimating the probability of clonal relatedness of pairs of tumors in cancer patients
CN111733251A (zh) 一种特征miRNA表达谱组合及肾透明细胞癌早期预测方法
CN111748634A (zh) 一种特征lincRNA表达谱组合及结肠癌的早期预测方法
CN111944902A (zh) 一种基于lincRNA表达谱组合特征的肾乳头状细胞癌早期预测方法
Subramanian et al. Novel multisample scheme for inferring phylogenetic markers from whole genome tumor profiles
EP3635138B1 (en) Method for analysing cell-free nucleic acids
CN113393901B (zh) 一种基于单核细胞采集肿瘤核酸的胶质瘤分检装置
CN117393171B (zh) 直肠癌术后lars发展轨迹预测模型构建方法及系统
CN118298917A (zh) 一种判别中国人群弥漫大b细胞淋巴瘤分子亚型的方法、储存介质和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant