CN113913518B

CN113913518B - 成熟b细胞肿瘤的分型标志物及其应用

Info

Publication number: CN113913518B
Application number: CN202111013754.7A
Authority: CN
Inventors: 穆亚飞; 李桂彬; 蒙裕欢; 陈禹欣; 范喜杰; 王冀; 黄晓强; 缪夏萍; 陈涛; 陈娜; 林俊维; 袁杰铖; 夏阳; 宋月; 彭梓月
Original assignee: Guangzhou Jinyu Translational Medical Research Institute Co ltd; Guangzhou Kingmed Diagnostics Central Co Ltd
Current assignee: Guangzhou Jinyu Translational Medical Research Institute Co ltd; Guangzhou Kingmed Diagnostics Central Co Ltd
Priority date: 2021-08-31
Filing date: 2021-08-31
Publication date: 2022-08-16
Anticipated expiration: 2041-08-31
Also published as: CN113913518A

Abstract

本发明涉及一种成熟B细胞肿瘤的分型标志物及其应用，属于生物医学技术领域。该分型标志物包括175个血液肿瘤相关基因中的至少16个基因的组合，采用该分型标志物，能够在兼顾控制成本和分型诊断准确性的基础上，解决临床上部分疑难病例亚型诊断困难的情况并在初诊时辅助预后评估，对成熟B细胞肿瘤的分型诊断和分层精准治疗有十分重要的临床意义。

Description

成熟B细胞肿瘤的分型标志物及其应用

技术领域

本发明涉及生物医学技术领域，具体涉及一种成熟B细胞肿瘤的分型标志物及其应用。

背景技术

成熟B细胞肿瘤是一类成熟B细胞克隆增殖性疾病，是淋巴瘤中最常见和发病率最高的亚类，约占所有淋巴瘤病例的80％以上。根据2016年世界卫生组织造血和淋巴组织肿瘤分类，成熟B细胞肿瘤包括40余种亚型，其诊断依据形态学(Morphology)、免疫学(Immunology)、遗传学(Cytogenetics)及分子生物学(Molecular biology)分型(MICM分型)。形态学是临床上成熟B细胞肿瘤亚型诊断的金标准，免疫学、遗传学和分子生物学则在亚型分类、精准治疗和预后评估上有重要的作用。

然而，成熟B细胞肿瘤无论从临床表现还是从形态学上观察都是一类高度异质性的疾病，其临床表现复杂，形态特征和结果差异大，许多疑难病例的出现使成熟B细胞肿瘤的亚型鉴别诊断成为临床工作中的重点和难点。

例如，形态学作为临床上成熟B细胞肿瘤亚型诊断的金标准，其在临床诊断应用过程中存在亚型诊断模糊、亚型鉴别不清等问题，有一些病例可以通过免疫学、遗传学的方法来辅助形态学进行成熟B细胞肿瘤亚型鉴别诊断，但仍然有许多临床疑难病例无法通过以上方法进行明确的亚型诊断，从而影响后续的精准治疗，且利用NGS肿瘤亚型之间突变谱差异对诊断的辅助作用还尚待开发。

并且，形态学诊断和病理医生的水平一般有直接的关系，对病理医生的临床经验有较大的依赖性，某些淋巴瘤亚型依赖病理形态和免疫组化无法明确鉴别区分，诊断不清甚至误诊的情况时有发生。

近年来随着二代测序(NGS)的广泛应用和肿瘤基因组学研究的日益深入，许多成熟B细胞肿瘤亚型的重现性亚显微异常和血液肿瘤相关致病基因被不断发现和研究。然而，二代测序在成熟B细胞肿瘤的分型诊断应用上一直是临床工作中的重点和难点，血液肿瘤临床诊断共识指南中也只仅有少数单个基因对诊断的作用被写入，如何对NGS数据进行合适的清洗、筛选以及其临床意义的挖掘，利用肿瘤亚型之间突变谱的差异对诊断的辅助作用还有巨大的空间尚待开发。

NGS目前在临床上已得到广泛应用，在淋巴瘤中以预后评估和靶向治疗占应用主流，但随着临床检测NGS panel的不断扩大，患者医疗成本也不断增高，如何寻找分型的关键基因以减少无效医疗成本，利用突变谱对诊断的辅助作用尚待开发。

发明内容

基于此，有必要针对上述问题，提供一种成熟B细胞肿瘤的分型标志物，采用该分型标志物，能够在兼顾控制成本和分型诊断准确性的基础上，解决临床上部分疑难病例亚型诊断困难的情况并在初诊时辅助预后评估，对成熟B细胞肿瘤的分型诊断和分层精准治疗有十分重要的临床意义。

一种成熟B细胞肿瘤的分型标志物，包括以下基因中的至少16种基因的组合：ABCB1，ABL1，ANKRD26，APC，ARID1A，ARID1B，ARID2，ASXL1，ATG2B，ATM，ATRX，B2M，BCL10，BCL2，BCL6，BCOR，BCORL1，BIRC3，BLM，BPGM，BRAF，BRCA1，BRCA2，BRIP1，BTG1，BTK，CALR，CARD11，CBL，CBLB，CBLC，CCND1，CCND3，CD28，CD58，CD79A，CD79B，CDKN1A，CDKN2A，CDKN2B，CEBPA，CHD8，CIITA，CREBBP，CRLF2，CSF1R，CSF3R，CTCF，CUX1，CXCR4，DDX41，DIS3，DKC1，DNM2，DNMT3A，EED，EGFR，EGLN1，ELANE，EP300，EPHA7，EPOR，ETV6，EZH2，FAS，FAT1，FBXO11，FBXW7，FLT3，FOXO1，GATA1，GATA2，GFI1，GNA13，GNAI2，GNAS，GNB1，GSKIP，HAX1，HRAS，ID3，IDH1，IDH2，IKZF1，IKZF2，IRF8，ITPKB，JAK1，JAK2，JAK3，KDM6A，KIT，KMT2A，KMT2B，KMT2C，KMT2D，KRAS，KRT20，LMO2，LYN，MAP2K1，MCL1，MEF2B，MFHAS1，MPL，MTOR，MYC，MYD88，MYOM2，NF1，NOTCH1，NOTCH2，NPM1，NRAS，NSD2，NT5C2，PALB2，PAX5，PDGFRA，PDGFRB，PHF6，PIGA，PIK3CA，PIK3CD，PIM1，PLCG2，PPM1D，PRDM1，PRF1，PRKDC，PRPF8，PTEN，PTPN11，RAD21，RELN，RHOA，RUNX1，SBDS，SETBP1，SETD2，SETDB1，SF3B1，SGK1，SH2B3，SMC1A，SMC3，SOCS1，SRP72，SRSF2，STAG2，STAT3，STAT5B，STAT6，SUZ12，SYK，TAL1，TCF3，TENT5C，TERC，TERT，TET2，TNFAIP3，TNFRSF14，TP53，TPMT，TRAF3，U2AF1，VHL，WT1，XPO1，ZAP70，ZRSR2。

本领域中，如何将NGS应用于成熟B细胞肿瘤分型诊断一直是临床工作中的重点和难点，本发明人在充分分析NGS在肿瘤基因组学研究中所取得的进展，并结合目前临床工作中存在的问题，利用机器学习的方法，经过对NGS数据进行处理后，通过对关键分型相关基因(或基因位点)的寻找和筛选，建立一种利用二代测序和机器学习对成熟B细胞肿瘤亚型诊断模型的方法，可在兼顾控制成本和分型诊断准确性的基础上，解决临床上部分疑难病例亚型诊断困难的情况并在初诊时辅助预后评估，对成熟B细胞肿瘤的分型诊断和分层精准治疗有十分重要的临床意义。

在其中一个实施例中，该分型标志物至少包括以下基因：B2M，BRAF，CCND1，CD79B，CDKN2A，CXCR4，EZH2，ID3，KMT2D，MYC，MYD88，NOTCH1，NOTCH2，SF3B1，SOCS1，TNFAIP3。

在其中一个实施例中，该分型标志物包括以下基因：B2M，BRAF，CCND1，CD79B，CDKN2A，CXCR4，EZH2，ID3，KMT2D，MYC，MYD88，NOTCH1，NOTCH2，SF3B1，SOCS1，TNFAIP3。

本发明还公开了上述的分型标志物在制备用于成熟B细胞肿瘤分型诊断的试剂或设备中的应用。

本发明还公开了一种用于成熟B细胞肿瘤分型诊断的试剂盒，包括用于检测上述分型标志物的试剂。

本发明还公开了一种成熟B细胞肿瘤分型诊断模型的建立方法，包括以下步骤：

数据清洗：取若干已知分型的成熟B细胞肿瘤样本数据集A，进行变异清洗和筛选，获得数据集B；

变异分级：按照肿瘤变异分类标准与指南，对上述数据集B进行变异分类分级，将有害变异和可能有害变异分为I-II类，意义未明确变异分为III类，良性变异或可能良性变异分为IV类，获得数据集C；

机器学习：将上述数据集C中I类和II类变异作为机器学习的结果数据，并以上述的分型标志物作为模型预测因子，以随机森林模型建立机器学习模型，即得成熟B细胞肿瘤分型诊断模型。

在其中一个实施例中，所述数据清洗步骤中，按照以下步骤进行变异清洗和筛选：

1)去除所有变异中的低质量变异；

2)去除所有变异中的内含子区或非翻译区变异；

3)去除所有变异中的同义突变变异；

4)去除所有变异中同批次出现频率大于50％或出现次数大于10次的变异；

在其中一个实施例中，所述变异分级数据中，按照以下标准进行变异分类分级：

1)按照肿瘤变异分类标准与指南记载标准，有A级、B级、C级和D级证据中至少一项证据的变异分类为I-II类变异；

2)群体遗传学数据库中人群等位基因频率小于2‰且无A级、B级、C级和D级证据中至少一项证据的变异分类为III类变异；

3)体细胞突变数据库中人群等位基因频率小于2‰且无A级、B级、C级和D级证据中至少一项证据的变异分类为III类变异；

4)胚系突变数据库中人群等位基因频率小于2‰且无A级、B级、C级和D级证据中至少一项证据的变异分类为III类变异；

5)群体遗传学数据库中人群等位基因频率大于2‰的变异分类为IV类变异；

6)体细胞突变数据库中人群等位基因频率大于2‰的变异分类为IV类变异；

7)在胚系突变数据库中人群等位基因频率大于2‰的变异分类为IV类变异。

在其中一个实施例中，所述群体遗传学数据库包括：ESP、dbSNP、1000Genome、ExAC数据库，所述体细胞突变数据库包括：COSMIC、My Cancer Genome、TCGA数据库，所述胚系突变数据库包括：HGMD、ClinVar数据库，可以理解的，根据不同的需求和各数据库特点，本领域技术人员可对所参考数据库进行筛选和调整。

本发明还公开了一种上述的建立方法得到的成熟B细胞肿瘤分型诊断模型。

本发明还公开了一种成熟B细胞肿瘤分型诊断系统，包括：

检测模块，用于检测待测样品中上述基因序列；

分析模块，获取上述检测模块得到的基因序列数据，按照上述的模型进行数据分析，获得待测样本分型结果；

输出模块，用于将上述分型结果输出。

与现有技术相比，本发明具有以下有益效果：

本发明的一种成熟B细胞肿瘤的分型标志物，是针对形态学及其他辅助诊断方法在成熟B细胞肿瘤亚型诊断中存在的一些问题，利用二代测序和机器学习对成熟B细胞肿瘤亚型诊断模型的建立后得到。

本发明通过大量文献学习和整理之后，结合临床工作经验，选取了175个血液肿瘤相关基因作为模型建立预测因子，通过对成熟B细胞肿瘤不同亚型患者的NGS结果进行收集汇总、清洗筛选以及后续的因子筛选和随机验证，得到Accuracy最佳模型(175个基因作为预测因子，模型A)和效率最佳模型(16个基因作为预测因子，模型B)，为不同诊疗水平地区和不同收入患者群体利用NGS辅助成熟B细胞肿瘤分型诊断提供了不同的方法思路，利用机器学习建立亚型诊断模型，对形态学亚型鉴别不清或亚型诊断模糊的疑难病例进行辅助诊断。

并且，本发明采用机器学习的方法辅助形态学诊断使成熟B细胞肿瘤亚型的鉴别诊断更具有客观性，克服了对病理医生临床经验的依赖。

同时，对临床上一些无法通过形态学、免疫学及遗传学方法进行明确亚型诊断的疑难病例，本方法提供了一种新的辅助诊断思路。

NGS除了可以对成熟B细胞肿瘤进行亚型鉴别诊断外，其对疾病预后方面的指导意义也十分重要，如其中部分标志物(如TP53基因)突变往往预示患者预后较差，利用NGS检测做分型诊断的同时，可以提示临床医生注意患者的用药及预后评估。结合NGS辅助形态学不仅对疾病进行了亚型鉴别诊断，也为患者的治疗及预后提供了评估价值，利于后续的精准治疗。

附图说明

图1为实施例1中模型变量筛选示意图。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的较佳实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

以下实施例所用试剂，如非特别说明，均为市售可得，以下实施例所用方法，如非特别说明，均为常规方法可实现。

实施例1

成熟B细胞肿瘤的分型标志物的筛选。

1、调研选取候选标志物。

在PubMed数据库中进行全面搜索与筛选，结合发明人在临床实践中的经验，选取下表所示175个与血液肿瘤相关基因作为NGS检测Panel并预设为模型预测因子。

表1.血液肿瘤相关基因

2、数据收集及清洗。

1)在COSMIC(the Catalogue Of Somatic Mutations In Cancer)数据库中进行全面搜索与筛选，收集COMSIC数据库中诊断为成熟B细胞肿瘤病例的亚型诊断数据(COMSIC数据库数据收集截止日期：2020.5.20)，结果见下表。

表2.COSMIC数据库病例收集情况及变异分级后病例保留情况

2)收集上述COSMIC数据库中诊断为成熟B细胞肿瘤病例的原始NGS结果数据并建立数据集(数据集TA)；

3)对上述获得的数据集TA进行变异清洗和筛选，获得数据集TB，步骤如下：

①去除所有变异中的低质量变异，具体如下：

对于组织、骨髓及外周血样本，要求去除低质量变异重复后，靶标区域序列50X≥99％，平均测序深度>200X，Q30≥0.85，目标区域捕获≥99％；

对于血液样本检测血浆游离DNA，要求去重复除低质量变异后，靶标区域序列500X≥99％，平均测序深度>2000X，Q30≥0.85，目标区域捕获≥99％；

对符合上述标准的变异进行IGV变异确认；

②去除所有变异中的内含子区/非翻译区(Intron/UTR)变异；

③去除所有变异中的同义突变(Synonymous)变异；

④去除所有变异中同批次NGS检测出现频率大于50％或出现次数大于10次的变异(即要求This batch＜50％或n＜10samples)；

4)按照肿瘤变异分类标准与指南(Standards and Guidelines for theInterpretation and Reporting of Sequence Variants in Cance，2017)，对上述获得的数据集TB进行变异分类分级，获得数据集TC，步骤如下：

①按照《肿瘤变异分类标准与指南》标准，有A级、B级、C级和D级证据中至少一项证据的变异分类为I-II类变异(有害变异或可能有害变异)；

②群体遗传学数据库(ESP、dbSNP、1000Genome、ExAC数据库)中人群等位基因频率小于2‰且无A级、B级、C级和D级证据中至少一项证据的变异分类为Ⅲ类变异(意义未明变异)；

③体细胞突变数据库(COSMIC、My Cancer Genome、TCGA数据库)中人群等位基因频率小于2‰且无A级、B级、C级和D级证据中至少一项证据的变异分类为Ⅲ类变异(意义未明变异)；

④胚系突变数据库(HGMD、ClinVar数据库)中人群等位基因频率小于2‰且无A级、B级、C级和D级证据中至少一项证据的变异分类为Ⅲ类变异(意义未明变异)；

⑤群体遗传学数据库(ESP、dbSNP、1000Genome、ExAC数据库)中人群等位基因频率大于2‰的变异分类为IV类变异(良性变异或可能良性变异)；

⑥体细胞突变数据库(COSMIC、My Cancer Genome、TCGA数据库)中人群等位基因频率大于2‰的变异分类为IV类变异(良性变异或可能良性变异)；

⑦在胚系突变数据库(HGMD、ClinVar数据库)中人群等位基因频率大于2‰的变异分类为IV类变异(良性变异或可能良性变异)。

5)保留上述获得的数据集TC中分类为I/II类的变异作为用于机器学习模型评估的NGS结果数据，得到数据集T，备用。

3、模型建立及模型因子优化。

1)对数据集T进行数据0、1转换(I-II类变异标记为1，其他标记为0)；并对数据集T以随机森林(Random Forest)模型采用5次10折交叉验证网格搜索进行机器学习模型建立。

2)对数据集T采用递归式特征消除法(Recursive feature elimination)进行模型变量筛选，结果如图1所示。

从图中可以看到，随着检测基因数的增加，模型Accuracy值不断提高。当选择全部变量(即175个基因，A点)时，模型Accuracy值最高(accuracy＝0.73)；当选择16个变量时(即16个基因，B点)时，模型效率最高(accuracy＝0.69)。

即上述结果表明，当选取所有175个基因进行分型评估时，Accuracy值最高，但选择16个基因进行分型评估时，模型效率最高，且效率最高时Accuracy值与选取所有基因时，相比较于基因数量的差异，Accuracy值差异不大，因而，可根据不同诊疗水平地区和不同收入患者群体利用NGS辅助成熟B细胞肿瘤分型诊断选择适用，即选择至少16个基因的组合作为分型标志物。

4、模型因子优化。

发明人根据文献报道及临床实践经验，进一步选取了15组不同的基因组合对上述模型筛选结果进行验证。

表3. 15组不同基因组合及Accuracy值

验证结果如上表所示，与模型变量筛选结果一致。根据Accuracy值，选取第9种组合，包含的基因为：B2M，BRAF，CCND1，CD79B，CDKN2A，CXCR4，EZH2，ID3，KMT2D，MYC，MYD88，NOTCH1，NOTCH2，SF3B1，SOCS1，TNFAIP3，在此组合情况下，具有效率最佳的优势，且其Accuracy值可达到0.69，甚至高于变量选择更多的10-15组。

实施例2

模型评估。

1、外部数据收集。

1)采集受试者样本(外周血、骨髓、组织/淋巴结等)及受试者临床亚型诊断数据，结果见下表。

表4.病例收集情况及变异分级后病例保留情况

2)数据获取。

采用QIAsymphony DSP DNA Mini Kit试剂盒对受试者的样本进行DNA提取，采用QIAGEN QIAseq FX DNA Library Kit试剂盒构建文库及纯化，基于实施例1中所述175基因，按照常规实验室方法，建立NGS检测panel，采用探针杂交的方法进行捕获，选用Illumina Novaseq6000测序仪作为NGS测序平台，获得各样本的原始NGS检测结果数据并建立数据集(即数据集PA)；

将数据集PA按照实施例1中的方法进行变异清洗和筛选，获得数据集PB，并按照实施例1的方法对上述获得的数据集PB进行变异分类分级，获得数据集PC，再按照实施例1的方法，将数据集PC中分类为I/II类的变异作为用于机器学习模型评估的NGS结果数据，得到数据集P(外部数据集P)，备用。

2、模型间对比验证评估。

1)方法：对实施例1中数据集T采用分层随机采样进行数据分割，取80％作为训练集，20％作为测试集；选择A点和B点分别建立分型诊断模型，进行模型间对比验证评估。

2)结果：

选取A点作为模型预测因子，对数据集T以随机森林(Random Forest)模型采用5次10折交叉验证网格搜索进行机器学习模型建立，以Accuracy值为评估指标，得到模型A内部验证评估，结果如下表。

表5.模型A内部验证结果

选取B点作为模型预测因子，对数据集T以随机森林(Random Forest)模型采用5次10折交叉验证网格搜索进行机器学习模型建立，以Accuracy值为评估指标，得到模型B内部验证评估，结果如下表。

表6.模型B内部验证结果

3、模型间对比验证评估。

1)用上述外部数据集P对成熟B细胞肿瘤亚型诊断模型A进行外部模型评估，结果见下表。

表7.模型A外部验证结果

2)用上述外部数据集P对成熟B细胞肿瘤亚型诊断模型B进行外部模型评估，结果见下表。

表8.模型A外部验证结果

上述结果表明，无论是模型内部验证，或是外部验证，本发明的基因组合形成的分型标志物，均可达到较好的成熟B细胞肿瘤分型效果。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种成熟B细胞肿瘤的分型标志物，其特征在于，由以下基因组成：B2M，BRAF，CCND1，CD79B，CDKN2A，CXCR4，EZH2，ID3，KMT2D，MYC，MYD88，NOTCH1，NOTCH2，SF3B1，SOCS1，TNFAIP3。

2.权利要求1所述的分型标志物作为靶标在制备用于成熟B细胞肿瘤分型诊断的试剂中的应用。

3.一种成熟B细胞肿瘤分型诊断模型的建立方法，其特征在于，包括以下步骤：

机器学习：将上述数据集C中I-II类变异作为机器学习的结果数据，并以权利要求1所述的分型标志物作为模型预测因子，以随机森林模型建立机器学习模型，即得成熟B细胞肿瘤分型诊断模型。

4.根据权利要求3所述的成熟B细胞肿瘤分型诊断模型的建立方法，其特征在于，所述数据清洗步骤中，按照以下步骤进行变异清洗和筛选：

1）去除所有变异中的低质量变异；

2）去除所有变异中的内含子区或非翻译区变异；

3）去除所有变异中的同义突变变异；

4）去除所有变异中同批次NGS检测出现频率大于50%或出现次数大于10次的变异。

5.根据权利要求4所述的成熟B细胞肿瘤分型诊断模型的建立方法，其特征在于，所述变异分级数据中，按照以下标准进行变异分类分级：

1）按照肿瘤变异分类标准与指南记载标准，有A级、B级、C级和D级证据中至少一项证据的变异分类为I-II类变异；

2）群体遗传学数据库中人群等位基因频率小于2‰且无A级、B级、C级和D级证据中至少一项证据的变异分类为III类变异；

3）体细胞突变数据库中人群等位基因频率小于2‰且无A级、B级、C级和D级证据中至少一项证据的变异分类为III类变异；

4）胚系突变数据库中人群等位基因频率小于2‰且无A级、B级、C级和D级证据中至少一项证据的变异分类为III类变异；

5）群体遗传学数据库中人群等位基因频率大于2‰的变异分类为IV类变异；

6）体细胞突变数据库中人群等位基因频率大于2‰的变异分类为IV类变异；

7）在胚系突变数据库中人群等位基因频率大于2‰的变异分类为IV类变异。

6.一种成熟B细胞肿瘤分型诊断系统，其特征在于，包括：

检测模块，用于检测待测样品中权利要求1所述基因序列；

分析模块，获取上述检测模块得到的基因序列数据，按照权利要求3-5任一项所述的成熟B细胞肿瘤分型诊断模型的建立方法得到的模型进行数据分析，获得待测样本分型结果；

输出模块，用于将上述分型结果输出。