CN117233389A - 用于快速鉴定急性髓系白血病中cebpa双突变的标志物 - Google Patents
用于快速鉴定急性髓系白血病中cebpa双突变的标志物 Download PDFInfo
- Publication number
- CN117233389A CN117233389A CN202210632649.XA CN202210632649A CN117233389A CN 117233389 A CN117233389 A CN 117233389A CN 202210632649 A CN202210632649 A CN 202210632649A CN 117233389 A CN117233389 A CN 117233389A
- Authority
- CN
- China
- Prior art keywords
- score
- points
- mpo
- expressed
- hla
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000035772 mutation Effects 0.000 title claims abstract description 88
- 102100034808 CCAAT/enhancer-binding protein alpha Human genes 0.000 title claims abstract description 86
- 101000945515 Homo sapiens CCAAT/enhancer-binding protein alpha Proteins 0.000 title claims abstract description 86
- 208000031261 Acute myeloid leukaemia Diseases 0.000 title claims abstract description 45
- 208000033776 Myeloid Acute Leukemia Diseases 0.000 title claims abstract description 41
- 239000003550 marker Substances 0.000 title claims abstract description 38
- 101000914496 Homo sapiens T-cell antigen CD7 Proteins 0.000 claims description 57
- 102100027208 T-cell antigen CD7 Human genes 0.000 claims description 57
- 102000006354 HLA-DR Antigens Human genes 0.000 claims description 54
- 108010058597 HLA-DR Antigens Proteins 0.000 claims description 54
- 102100031573 Hematopoietic progenitor cell antigen CD34 Human genes 0.000 claims description 53
- 101000777663 Homo sapiens Hematopoietic progenitor cell antigen CD34 Proteins 0.000 claims description 53
- 102100024222 B-lymphocyte antigen CD19 Human genes 0.000 claims description 52
- 101000980825 Homo sapiens B-lymphocyte antigen CD19 Proteins 0.000 claims description 52
- 108090000623 proteins and genes Proteins 0.000 claims description 27
- 230000010354 integration Effects 0.000 claims description 25
- 238000000034 method Methods 0.000 claims description 19
- 239000000523 sample Substances 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 4
- 238000004393 prognosis Methods 0.000 claims description 4
- 238000013480 data collection Methods 0.000 claims description 2
- 238000002360 preparation method Methods 0.000 claims description 2
- 238000012360 testing method Methods 0.000 claims description 2
- 230000035945 sensitivity Effects 0.000 abstract description 19
- 238000007477 logistic regression Methods 0.000 abstract description 10
- 238000000684 flow cytometry Methods 0.000 abstract description 5
- 238000010801 machine learning Methods 0.000 abstract description 4
- 238000012549 training Methods 0.000 description 19
- 238000001514 detection method Methods 0.000 description 14
- 238000007637 random forest analysis Methods 0.000 description 10
- 238000010200 validation analysis Methods 0.000 description 10
- 239000000090 biomarker Substances 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 9
- 238000012795 verification Methods 0.000 description 7
- 238000012952 Resampling Methods 0.000 description 4
- 210000004027 cell Anatomy 0.000 description 4
- 239000003153 chemical reaction reagent Substances 0.000 description 4
- 230000004069 differentiation Effects 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 210000003719 b-lymphocyte Anatomy 0.000 description 3
- 238000002790 cross-validation Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- YBJHBAHKTGYVGT-ZKWXMUAHSA-N (+)-Biotin Chemical compound N1C(=O)N[C@@H]2[C@H](CCCCC(=O)O)SC[C@@H]21 YBJHBAHKTGYVGT-ZKWXMUAHSA-N 0.000 description 2
- 108050006227 Haem peroxidases Proteins 0.000 description 2
- 238000011088 calibration curve Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- GNBHRKFJIUUOQI-UHFFFAOYSA-N fluorescein Chemical compound O1C(=O)C2=CC=CC=C2C21C1=CC=C(O)C=C1OC1=CC(O)=CC=C21 GNBHRKFJIUUOQI-UHFFFAOYSA-N 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 150000003278 haem Chemical class 0.000 description 2
- 108091070501 miRNA Proteins 0.000 description 2
- 210000001616 monocyte Anatomy 0.000 description 2
- 210000000066 myeloid cell Anatomy 0.000 description 2
- 108020004707 nucleic acids Proteins 0.000 description 2
- 102000039446 nucleic acids Human genes 0.000 description 2
- 150000007523 nucleic acids Chemical class 0.000 description 2
- 108090000765 processed proteins & peptides Proteins 0.000 description 2
- 102000004196 processed proteins & peptides Human genes 0.000 description 2
- 102000004169 proteins and genes Human genes 0.000 description 2
- 238000007480 sanger sequencing Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 230000004083 survival effect Effects 0.000 description 2
- 102100031585 ADP-ribosyl cyclase/cyclic ADP-ribose hydrolase 1 Human genes 0.000 description 1
- 206010000830 Acute leukaemia Diseases 0.000 description 1
- 230000004544 DNA amplification Effects 0.000 description 1
- 102000004190 Enzymes Human genes 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- 206010064571 Gene mutation Diseases 0.000 description 1
- 102000003886 Glycoproteins Human genes 0.000 description 1
- 108090000288 Glycoproteins Proteins 0.000 description 1
- 102000018713 Histocompatibility Antigens Class II Human genes 0.000 description 1
- 108010027412 Histocompatibility Antigens Class II Proteins 0.000 description 1
- 101000777636 Homo sapiens ADP-ribosyl cyclase/cyclic ADP-ribose hydrolase 1 Proteins 0.000 description 1
- 108091092195 Intron Proteins 0.000 description 1
- 102000004895 Lipoproteins Human genes 0.000 description 1
- 108090001030 Lipoproteins Proteins 0.000 description 1
- 206010025323 Lymphomas Diseases 0.000 description 1
- 108091027974 Mature messenger RNA Proteins 0.000 description 1
- 108091005804 Peptidases Proteins 0.000 description 1
- 239000004365 Protease Substances 0.000 description 1
- 238000011529 RT qPCR Methods 0.000 description 1
- 102100037486 Reverse transcriptase/ribonuclease H Human genes 0.000 description 1
- 102000004389 Ribonucleoproteins Human genes 0.000 description 1
- 108010081734 Ribonucleoproteins Proteins 0.000 description 1
- 210000001744 T-lymphocyte Anatomy 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 235000001014 amino acid Nutrition 0.000 description 1
- 150000001413 amino acids Chemical class 0.000 description 1
- 239000012491 analyte Substances 0.000 description 1
- 239000000427 antigen Substances 0.000 description 1
- 102000036639 antigens Human genes 0.000 description 1
- 108091007433 antigens Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 229960002685 biotin Drugs 0.000 description 1
- 235000020958 biotin Nutrition 0.000 description 1
- 239000011616 biotin Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 150000001720 carbohydrates Chemical class 0.000 description 1
- 235000014633 carbohydrates Nutrition 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002559 cytogenic effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 235000014113 dietary fatty acids Nutrition 0.000 description 1
- 210000003979 eosinophil Anatomy 0.000 description 1
- 210000003426 epidermal langerhans cell Anatomy 0.000 description 1
- 210000003386 epithelial cell of thymus gland Anatomy 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 229930195729 fatty acid Natural products 0.000 description 1
- 239000000194 fatty acid Substances 0.000 description 1
- 150000004665 fatty acids Chemical class 0.000 description 1
- 239000005556 hormone Substances 0.000 description 1
- 229940088597 hormone Drugs 0.000 description 1
- 238000003365 immunocytochemistry Methods 0.000 description 1
- 238000010166 immunofluorescence Methods 0.000 description 1
- 208000032839 leukemia Diseases 0.000 description 1
- 150000002632 lipids Chemical class 0.000 description 1
- 210000001165 lymph node Anatomy 0.000 description 1
- 210000004698 lymphocyte Anatomy 0.000 description 1
- 229920002521 macromolecule Polymers 0.000 description 1
- 210000002540 macrophage Anatomy 0.000 description 1
- 239000002207 metabolite Substances 0.000 description 1
- 125000000896 monocarboxylic acid group Chemical group 0.000 description 1
- 210000000440 neutrophil Anatomy 0.000 description 1
- 239000002777 nucleoside Substances 0.000 description 1
- 125000003835 nucleoside group Chemical group 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000003752 polymerase chain reaction Methods 0.000 description 1
- 229920001184 polypeptide Polymers 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000003762 quantitative reverse transcription PCR Methods 0.000 description 1
- 238000003753 real-time PCR Methods 0.000 description 1
- 210000000952 spleen Anatomy 0.000 description 1
- 210000000130 stem cell Anatomy 0.000 description 1
- 150000003431 steroids Chemical class 0.000 description 1
- 235000000346 sugar Nutrition 0.000 description 1
- 150000008163 sugars Chemical class 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000001262 western blot Methods 0.000 description 1
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种用于快速鉴定急性髓系白血病中CEBPA双突变的标志物。本发明通过机器学习及logistic回归建立了临床可以操作的、基于免疫表型预测急性髓系白血病患者CEBPA双突变的积分系统,并且对积分系统进行了验证,拥有较高的敏感性及特异性。同时,基于流式细胞仪的免疫表型进行鉴定,能够快速鉴定出CEBPA双突变急性髓系白血病,为临床医生迅速精准地进行治疗提供了依据。
Description
技术领域
本发明涉及诊断技术领域,特别涉及用于快速鉴定急性髓系白血病中CEBPA双突变的标志物。
背景技术
大约在10%~15%的急性髓系白血病患者中能检测到CEBPA双突变或单突变,其主要包括两类:COOH末端BZIP结构域的突变和NH2末端TAD结构域的突变。CEBPA双突变最常见于M1型或M2型急性髓系白血病患者及中等细胞遗传学风险的患者。CEBPA双突变患者的预后相对于CEBPA单突变或无突变患者要好,总生存率和无事件生存率都有所提高。在临床上,流式细胞检测或PCR检测结果回报较快,而基因测序结果回报往往需要等待较长的时间。CEBPA突变的急性髓系白血病患者及其白血病细胞的免疫表型之间的关系尚不十分清楚。尽管有研究探索了CEBPA双突变与免疫表型之间的关系,但是并没有筛选出能够鉴定CEBPA双突变的免疫表型,也并没有给出各个免疫表型相对应的权重分数。因此,为了解决上述问题,急需要寻找新的用于快速鉴定急性髓系白血病中CEBPA双突变的标志物。
发明内容
本发明的一个方面,是针对现有技术中缺少快速鉴定急性髓系白血病中CEBPA双突变的技术的问题,提供了一种用于快速鉴定急性髓系白血病中CEBPA双突变的标志物。
本发明通过机器学习中的随机森林分类及xgboost算法,对多种抗原鉴定CEBPA双突变急性髓系白血病的重要性进行了评估,然后通过logistic回归建立了易于操作的评分系统,并对积分系统进行了验证,同时筛选出了用于快速鉴定急性髓系白血病中CEBPA双突变的标志物,拥有较高的敏感性及特异性。
本发明中的所有统计均在RStudio(4.1.2版)中进行。
本发明提供的技术方案为:
一种用于快速鉴定急性髓系白血病中CEBPA双突变的标志物,所述标志物包括以下可检测的免疫表型的组合:
a)CD7、HLA-DR和MPO;或
b)CD7、CD19和MPO;或
c)CD7、HLA-DR和CD19;或
d)CD7和CD34;或
e)CD7、HLA-DR、CD19和MPO;或
f)CD7、CD34和MPO;或
g)CD7、CD34和HLA-DR;或
h)CD7、CD34和CD19;或
i)CD7、CD34、HLA-DR和MPO;或
j)CD7、CD34、CD19和MPO;或
k)CD7、CD34、HLA-DR和CD19;或
l)CD7、CD34、HLA-DR、CD19和MPO。
在本发明中,本领域技术人员可以通过检测患者血液样本中包含上述标志物的组合物来实现本发明的目的。除了上述标志物的组合物以外,本领域技术人员还可以增加检测其他合适的标志物,这些组合也视为包含在本发明的保护范围之内。
作为优选,在本发明的某些实施方式中,上述标志物的组合物中只需要包含a)~l)中任意的标志物组合物,即能实现本发明的目的。具体地,所述标志物由以下可检测的免疫表型的组合组成:
a)CD7、HLA-DR和MPO;或
b)CD7、CD19和MPO;或
c)CD7、HLA-DR和CD19;或
d)CD7和CD34;或
e)CD7、HLA-DR、CD19和MPO;或
f)CD7、CD34和MPO;或
g)CD7、CD34和HLA-DR;或
h)CD7、CD34和CD19;或
i)CD7、CD34、HLA-DR和MPO;或
j)CD7、CD34、CD19和MPO;或
k)CD7、CD34、HLA-DR和CD19;或
l)CD7、CD34、HLA-DR、CD19和MPO。
在本发明中,上述“可检测”可以为通过任意合适的方法进行样本中免疫表型的检测。例如,抗体致敏细胞花环法、免疫细胞化学法、免疫荧光法、流式细胞分析法,等。作为优选,在本发明的实施方式中,利用流式细胞仪对样本的免疫表型进行检测。
在本发明的另一些实施方式中,还可以对上述免疫表型对应的编码基因或其转录本进行检测,同样也可以实现快速鉴定急性髓系白血病中CEBPA双突变的目的。上述编码基因可以通过本领域常规手段获得,例如,上述编码基因的碱基序列的信息可通过检索已知文献或NCBI(https://www.ncbi.nlm.nih.gov/)等数据库来获得。
在本发明中,对上述编码基因或其转录本的检测可以利用本领域的常规技术进行。例如,常规PCR、实时荧光定量PCR、RT-PCR、RT-qPCR、基因芯片,等。
在本发明的实施方式中,利用上述标志物鉴定急性髓系白血病患者是否存在CEBPA双突变的参数为所述免疫表型或所述编码基因或其转录本的表达情况和/或其表达水平。例如,检测所述免疫表型在样本中是否表达、是否高表达、所述编码基因或其转录本是否进行了表达。上述检测的参数可以为定性指标,也可以为定量指标。例如,在本发明的某些实施方式中,通过检测所述标志物的表达情况来进行积分。
本发明的另一个方面,是提供了一种鉴定急性髓系白血病中CEBPA双突变的方法,包括以下步骤:
步骤1)检测受试者的急性髓系白血病细胞中的标志物,获得参数结果,所述标志物为选自CD7、CD34、HLA-DR、CD19或MPO中的一种或几种;
步骤2)根据受试者标志物的参数结果,按照以下标准进行积分:CD7表达得4分,不表达得0分;CD34表达得2分,不表达得0分;HLA-DR表达得1分,不表达得0分;CD19表达得0分,不表达得1分;MPO表达得1分,不表达得0分;
步骤3)对于5种步骤2)中所述的标志物均检测了的受试者,积分达到8分及以上的认为存在CEBPA双突变;对于存在以上部分标志物未检测时的情况,应用以下积分系统判断:
a)积分最高分为9分,且受试者的实际积分为8分及以上的认为存在CEBPA双突变;
b)积分最高分在6分到8分之间,且受试者的实际得分为最高分的认为存在CEBPA双突变;
c)积分最高得分在5分及以下时,不能通过此积分系统鉴定受试者是否存在CEBPA双突变。
在本发明中,上述积分最高分是指受试者实际检测的标志物所对应的积分的最高分。例如,最高分为以下分数时对应的检测标志物为:9分:所有表型均检测;8分:CD19未检测或HLA-DR未检测或MPO未检测;7分:CD34未检测或CD19和HLA-DR未检测或MPO和CD19未检测或MPO和HLA-DR未检测;6分:CD34和CD19未检测或CD34和HLA-DR未检测或CD34和MPO未检测或MPO和HLA-DR及CD19未检测;5分:CD7未检测或CD34和CD19和HLA-DR未检测或CD34和CD19和MPO未检测或CD34和MPO和HLA-DR未检测;4分:CD7和MPO未检测或CD7和HLA-DR未检测或CD7和CD19未检测或CD34和MPO、HLA-DR和CD19未检测。
在本发明中,对于存在以上部分标志物未检测时的情况时的积分方法,例如,在本发明的一个实施方式中,受试者所检测的标志物对应的最高分为8分且受试者的实际得分也为8分,则判定该受试者存在CEBPA双突变;在本发明的另一个实施方式中,受试者所检测的标志物对应的最高分为8分,但受试者的实际得分为6分,则判定该受试者不存在CEBPA双突变。
在本发明中,发明人发现基于logistic回归分析上述标志物对于检测急性髓系白血病中CEBPA双突变的重要性/权重依次为:CD7>CD34>MPO>HLA-DR>CD19。
本发明的另一个方面,是提供了一种试剂盒,所述试剂盒包括检测上述标志物的表达情况或表达水平的产品。
作为优选,在本发明的某些实施方式中,所述产品为特异性结合所述免疫表型的抗体、特异性扩增所述编码基因的引物或特异性识别所述编码基因或其转录本的探针。
上述抗体优选为单克隆抗体。所述抗体可以通过合适的标记物标记从而检测所述标志物,例如,荧光素、生物素、酶标记、放射性核素,等。在本发明的某些实施方式中,流式细胞仪中的抗体使用荧光素进行标记。
在本发明的某些实施方式中,上述试剂盒中还可以包括,例如,核酸抽提试剂;和/或聚合酶链反应试剂;和/或蛋白免疫印迹试剂;和/或酶链免疫反应试剂,以及试剂盒说明书,等。
上述试剂盒可以实现本发明中所述的鉴定急性髓系白血病中CEBPA双突变的方法。
本发明的另一个方面,是提供了一种基因芯片,所述基因芯片包括特异性识别所述编码基因或其转录本的探针。
上述基因芯片可以实现本发明中所述的鉴定急性髓系白血病中CEBPA双突变的方法。
本发明的另一个方面,是提供了一种用于鉴定急性髓系白血病中CEBPA双突变的系统,所述系统实现上述方法,所述系统包括:
(1)数据收集模块,用于收集受试者急性髓系白血病细胞中的标志物的测试结果,所述标志物为选自CD7、CD34、HLA-DR、CD19或MPO中的一种或几种;
(2)积分模块,根据受试者标志物的参数结果,按照以下标准进行积分:CD7表达得4分,不表达得0分;CD34表达得2分,不表达得0分;HLA-DR表达得1分,不表达得0分;CD19表达得0分,不表达得1分;MPO表达得1分,不表达得0分;
(3)判断模块,对于5种(2)中所述的标志物均检测了的受试者,积分达到8分及以上的认为存在CEBPA双突变;对于存在以上部分标志物未检测时的情况,应用以下积分系统判断:
a)积分最高分为9分,且受试者的实际积分为8分及以上的认为存在CEBPA双突变;
b)积分最高分在6分到8分之间,且受试者的实际得分为最高分的认为存在CEBPA双突变;
c)积分最高得分在5分及以下时,不能通过此积分系统鉴定受试者是否存在CEBPA双突变。
在本发明的某些实施方式中,上述系统的实现方法可以为,例如,通过计算机软件的方式植入带有处理器、存储器的终端设备,例如,手机、计算机、免疫表型检测设备、基因扩增设备,等。
本发明的另一个方面,是提供了一种终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现上述方法。
本发明的另一个方面,是提供了上述标志物、上述试剂盒、上述基因芯片、上述系统和上述终端设备在制备鉴定急性髓系白血病患者是否存在CEBPA双突变的产品中的用途。
本发明的另一个方面,是提供了上述标志物、上述试剂盒、上述基因芯片、上述系统和上述终端设备在评估急性髓系白血病患者预后中的用途。
本发明的有益效果为:
本发明通过机器学习及logistic回归建立了基于免疫表型预测急性髓系白血病患者CEBPA双突变的积分系统,建立了临床可以操作的积分系统,并且对积分系统进行了验证,拥有较高的敏感性及特异性。同时,基于流式细胞仪的免疫表型进行鉴定,能够快速鉴定出CEBPA双突变急性髓系白血病,为临床医生迅速精准地进行治疗提供了依据。
附图说明
图1为本发明实施例中随机森林免疫表型重要性排序结果图;
图2为本发明实施例中ROC曲线图,其中,A为随机森林训练集ROC曲线图,B为随机森林验证数据集ROC曲线图;
图3为本发明实施例中应用xgboost算法对数据进行分析的结果图,其中,A为xgboost预测模型中免疫表型特征重要性的结果图,B为xgboost构建的预测模型中预测因子SHAP值的结果图;
图4为本发明实施例中应用xgboost算法对数据进行分析的ROC曲线图,其中,A为xgboost训练集ROC曲线图,B为xgboost验证数据集ROC曲线图;
图5为本发明实施例中基于积分系统的CEBPA突变与CEBPA非突变之间的ROC曲线图,其中,A为基于积分系统的训练集CEBPA突变与CEBPA非双突变之间的ROC曲线图,B为基于积分系统的全部患者CEBPA双突变与CEBPA-BZIP单突变之间的ROC曲线图,C为基于积分系统的全部患者CEBPA双突变与CEBPA-TAD单突变之间的ROC曲线图,D为基于积分系统的全部患者CEBPA双突变与CEBPA野生型之间的ROC曲线图;
图6为本发明实施例中应用10折交叉验证和Bootstrap重抽样对训练集进行内部验证得到的校准曲线图,其中,A为训练集10折交叉验证校准曲线图,B为训练集Bootstrap重抽样校准曲线图;
图7为本发明实施例中应用积分系统对验证数据集进行验证得到的校准曲线图,其中,A为验证集10折交叉验证校准曲线图,B为验证集Bootstrap重抽样校准曲线图;
图8为本发明实施例中基于积分系统的验证数据集CEBPA双突变与CEBPA非双突变之间的ROC曲线图。
具体实施方式
本发明公开了一种用于快速鉴定急性髓系白血病中CEBPA双突变的标志物,本领域技术人员可以借鉴本文内容,适当改进工艺参数实现。需要特别指出的是,所有类似的替换和改动对本领域技术人员来说是显而易见的,它们都被视为包括在本发明,并且相关人员明显能在不脱离本发明内容、精神和范围的基础上对本文所述内容进行改动或适当变更与组合,来实现和应用本发明技术。
在本发明中,除非另有说明,否则本文中使用的科学和技术名词具有本领域技术人员所通常理解的含义。除非另有其它明确表示,否则在整个说明书和权利要求书中,术语“包括”或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或组成部分,而并未排除其它元件或其它组成部分。术语“如”、“例如”等旨在指示例性实施方案,而不意图限制本公开的范围。
下面就本发明中出现的部分术语作以解释。
术语“标志物”,即生物标志物(biomarker),是指其变化和/或检测可以与特定身体状况或状态相关联的生物分子、生物分子片段或临床变量。在整个发明公开中,术语“标志物”和“生物标志物”是可互换使用的。这些生物标志物包括任何适合的分析物,但不限于生物分子,其包括核苷酸、核酸、核苷、氨基酸、糖、脂肪酸、类固醇、代谢产物、肽、多肽、蛋白质、碳水化合物、脂质、激素、抗体、用作生物大分子的替代物的所关心的区域及其组合(例如,糖蛋白、核糖核蛋白、脂蛋白)。该术语还涵盖miRNA和miRNA的部分或片段。
术语“组”是指包含一个或多个生物标志物的组合物,如阵列或集合。该术语也可以表示本文所述的一个或多个生物标志物的表达模式谱或指数。对于生物标志物组有用的生物标志物数目基于生物标志物值的特定组合的灵敏度和特异性值。
术语“转录本”,是由一条基因通过转录形成的一种或多种可供编码蛋白质的成熟的mRNA。一条基因通过内含子的不同剪接可构成不同的转录本。
术语“MPO”,即髓体过氧化物酶是血红素辅基的血红素蛋白酶,是血红素过氧化物酶超家族成员之一。存在于髓系细胞(主要是中性粒细胞和单核细胞)的嗜苯胺蓝颗粒中,是髓细胞的特异性标志。
术语“HLA-DR”是MHC-II类分子,含有2个分子量分别为36kD和27kD的亚基(α亚基和β亚基)。HLA-DR表达于B淋巴细胞、单核细胞、巨噬细胞、活化T淋巴细胞、活化NK淋巴细胞和人祖细胞上。它也表达于胸腺上皮细胞、脾和淋巴结的B淋巴细胞依赖区及B淋巴细胞淋巴瘤。HLA-DR与CD1a共同表达于表皮朗格汉斯细胞。
为了使本领域的技术人员更好地理解本发明的技术方案,下面结合具体实施例对本发明作进一步的详细说明。
实施例1:应用随机森林算法对数据集进行分析
本实施例收集了从2011年1月至2021年6月在中国医学科学院血液病医院初治的494例急性髓系白血病患者用作数据集构建模型,这些患者均进行了基因突变检测及免疫表型检测。其中,CEBPA双突变的患者165例,CEBPA-BZIP单突变的患者40例,CEBPA-TAD单突变的患者46例,CEBPA野生型243例。494例患者的免疫表型表达情况如表1所示。本实施例将所有的患者分为两类:CEBPA双突变型和CEBPA非双突变型。本发明中所有统计均在RStudio(4.1.2版)中进行。随机森林采用的是randomForest包中的randomForest函数,xgboost算法应用的是xgboost包中的xgb.train函数,logistic回归应用的是stats包glm函数,使用多重插补法对少部分的MPO缺失值进行处理。首先应用随机森林算法对数据集进行分析,将数据集中的70%作为训练数据集,30%作为验证数据集。训练集得出特征重要性排序如图1所示,其中免疫表型CD7重要性最高,CD34、MPO、CD19重要性排序均靠前。应用ROC曲线(如图2的A)查看了训练集上模型的区分度,曲线下面积(area under the curve,AUC)值越高,表明模型的区分度越高。训练集ROC曲线下面积AUC(95%CI)为0.883(0.845-0.922),敏感性为87.9%,特异性为87.0%。此模型在验证集上的ROC曲线如图2的B,曲线下面积AUC(95%CI)为0.881(0.828-0.933),敏感性为79.6%,特异性为78.6%。表明随机森林算法构建的模型在训练集及验证数据集上均有良好的区分度。
表1 494例患者CEBPA突变及免疫表型的表达情况
实施例2:应用xgboost算法对数据进行分析
将数据集中的70%作为训练数据集,30%作为验证数据集。得到的免疫表型特征重要性如图3的A,其中表型CD7重要性最高,其次为MPO、CD34、CD19、CD38、HLA-DR等。Xgboost构建的预测模型中,预测因子的重要性还可以通过SHAP(Shapley AdditiveExplanation)值体现,SHAP值越高,预测因子越重要。训练集SHAP值如图3的B所示,重要性最高的为表型CD7,其次为MPO、CD34、CD19、HLA-DR。训练集ROC曲线(图4的A)AUC(95%CI)为0.873(0.834-0.913),敏感性为97%,特异性为75.9%。此模型在验证集上的ROC曲线如图4的B,曲线下面积AUC(95%CI)为0.919(0.876-0.961),敏感性为98%,特异性为74.5%。表明模型在训练集及验证数据集上均有良好的区分度。
实施例3:应用logistic回归进行模型预测
将数据集中的75%作为训练数据集,25%作为验证数据集。训练集结果如表2。考虑到模型的简便性和易用性,将上述logistic回归模型中的11个免疫表型,根据p值是否有统计学意义并结合在两种机器学习算法中构建出的重要性排序,筛选出CD7、CD34、MPO、CD19以及HLA-DR这5个免疫表型构建积分系统。根据各变量的β值建立积分系统,即各变量分值为(各变量β值的绝对值)/(各变量β值绝对值的最小值)的整数值,如表3所示。每位患者根据5种表型的表达情况都能得到一个相应的分数。通过ROC曲线选出区分CEBPA双突变与CEBPA非双突变的最佳的临界值为7.5分。如图5的A所示。对于5种免疫表型均检测了的患者,积分系统达到7.5分以上的可认为存在CEBPA双突变。训练集ROC曲线下面积(95%CI)为0.896(0.864-0.927),说明Logistic回归模型有良好的区分度。根据模型结果查看了积分系统区分CEBPA双突变与CEBPA非双突变的敏感性和特异性,敏感性为93.5%,特异性为78.1%。基于此评分系统,分别使用ROC曲线对全部的急性髓系白血病患者CEBPA双突变与其他三种类型做了分析,结果如图5的B、C、D所示。显示了CEBPA双突变与CEBPA无突变以及CEBPA-TAD单突变能够得到较好的区分,CEBPA双突变与CEBPA-BZIP单突变区分度较差,与现有研究显示的CEBPA-BZIP单突变患者的预后与CEBPA双突变相似的结果相符。
表2多因素logistic回归结果
表3基于免疫表型预测急性髓系白血病患者CEBPA双突变的积分系统
实施例4:对预测模型的区分度及校准度进行评估
分别使用10折交叉验证和Bootstrap重抽样对训练集进行了内部验证,得到的校准曲线如图6。将积分系统应用于验证数据集进行验证,得到了区分CEBPA双突变与CEBPA非双突变的敏感性及特异性分别为97.6%和76.8%。验证数据集的校准曲线如图7。其ROC曲线(如图8所示)AUC(95%CI)为0.871(0.809-0.932)。说明基于logistic回归构建的积分系统具有较好的区分度和校准度。
考虑到了不是所有的患者都检测了这5个表型,所以在全部的数据上分析了存在某个或某些表型未检测的情况时积分系统应用下的敏感性和特异性。如表4所示。在最高分为6分及以上时,它们具有可接受的敏感性和特异性。在最高分为9分时,其敏感性和特异性分别为94.5%和77.8%。在最高分为8分时,其敏感性和特异性分别为81.2%和83.7%。在最高分为7分时,敏感性和特异性分别为85.2%和80.5%。在最高分为6分时,敏感性和特异性分别为86.5%和77.7%。
对于上述5种免疫表型均检测了的AML患者,积分系统得分为8分及以上可以认为存在CEBPA双突变。对于存在以上部分免疫表型未检测时的情况,应用此积分系统:
(1)最高分为9分时,AML患者的实际积分为8分及以上可以认为存在CEBPA双突变。
(2)最高分在6分到8分之间时,AML患者的实际得分为最高分,可以认为存在CEBPA双突变。
(3)最高得分在5分及以下时,不能通过此积分系统鉴定AML患者是否存在CEBPA双突变。
表4部分表型未检测时的敏感性和特异性
其中,9分:所有表型均检测;8分:CD19未检测或HLA-DR未检测或MPO未检测;7分:CD34未检测或CD19和HLA-DR未检测或MPO和CD19未检测或MPO和HLA-DR未检测;6分:CD34和CD19未检测或CD34和HLA-DR未检测或CD34和MPO未检测或MPO和HLA-DR及CD19未检测;5分:CD7未检测或CD34和CD19和HLA-DR未检测或CD34和CD19和MPO未检测或CD34和MPO和HLA-DR未检测;4分:CD7和MPO未检测或CD7和HLA-DR未检测或CD7和CD19未检测或CD34和MPO、HLA-DR和CD19未检测。最高分在6分及以上,它们的敏感性和特异性都是可以接受的。
常规的PCR联合sanger测序的检测方法,连续操作需要8个小时得到结果,临床实验室进行批量检测,需要3到5个工作日得到结果。二代测序方法连续操作需要48小时,临床实验室进行批量检测,需要5到6个工作日得到结果。
应用本实施例中的积分系统,通过检测流式细胞仪免疫表型进行鉴定,连续操作需要1.5个小时得到结果。临床实验室进行批量检测,2个工作日得到结果,要比常规检测方法早。
临床上,医生在得到流式细胞仪免疫表型的结果后,开始急性白血病的治疗,这是PCR联合sanger测序不能提供鉴定信息。但本发明方法可以在医生开始治疗前,同时鉴定是否是CEBPA双突变急性髓系白血病,为临床医生进行精准治疗提供了依据。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种用于快速鉴定急性髓系白血病中CEBPA双突变的标志物,其特征在于,所述标志物包括以下可检测的免疫表型的组合:
a)CD7、HLA-DR和MPO;或
b)CD7、CD19和MPO;或
c)CD7、HLA-DR和CD19;或
d)CD7和CD34;或
e)CD7、HLA-DR、CD19和MPO;或
f)CD7、CD34和MPO;或
g)CD7、CD34和HLA-DR;或
h)CD7、CD34和CD19;或
i)CD7、CD34、HLA-DR和MPO;或
j)CD7、CD34、CD19和MPO;或
k)CD7、CD34、HLA-DR和CD19;或
l)CD7、CD34、HLA-DR、CD19和MPO。
2.根据权利要求1所述的标志物,其特征在于,所述标志物为所述免疫表型对应的编码基因或其转录本。
3.根据权利要求1或2所述的标志物,其特征在于,利用所述标志物鉴定急性髓系白血病患者是否存在CEBPA双突变的参数为所述免疫表型或所述编码基因或其转录本的表达情况和/或其表达水平。
4.一种鉴定急性髓系白血病中CEBPA双突变的方法,其特征在于,包括以下步骤:
步骤1)检测受试者的急性髓系白血病细胞中的标志物,获得参数结果,所述标志物为选自CD7、CD34、HLA-DR、CD19或MPO中的一种或几种;
步骤2)根据受试者标志物的参数结果,按照以下标准进行积分:CD7表达得4分,不表达得0分;CD34表达得2分,不表达得0分;HLA-DR表达得1分,不表达得0分;CD19表达得0分,不表达得1分;MPO表达得1分,不表达得0分;
步骤3)对于5种步骤2)中所述的标志物均检测了的受试者,积分达到8分及以上的认为存在CEBPA双突变;对于存在以上部分标志物未检测时的情况,应用以下积分系统判断:
a)积分最高分为9分,且受试者的实际积分为8分及以上的认为存在CEBPA双突变;
b)积分最高分在6分到8分之间,且受试者的实际得分为最高分的认为存在CEBPA双突变;
c)积分最高得分在5分及以下时,不能通过此积分系统鉴定受试者是否存在CEBPA双突变。
5.一种试剂盒,其特征在于,所述试剂盒包括检测如权利要求1、2或3所述标志物的表达情况或表达水平的产品;
优选地,所述产品为特异性结合所述免疫表型的抗体、特异性扩增所述编码基因的引物或特异性识别所述编码基因或其转录本的探针。
6.一种基因芯片,其特征在于,所述基因芯片包括特异性识别所述编码基因或其转录本的探针。
7.一种用于鉴定急性髓系白血病中CEBPA双突变的系统,其特征在于,所述系统实现如权利要求4所述的方法,所述系统包括:
(1)数据收集模块,用于收集受试者急性髓系白血病细胞中的标志物的测试结果,所述标志物为选自CD7、CD34、HLA-DR、CD19或MPO中的一种或几种;
(2)积分模块,根据受试者标志物的参数结果,按照以下标准进行积分:CD7表达得4分,不表达得0分;CD34表达得2分,不表达得0分;HLA-DR表达得1分,不表达得0分;CD19表达得0分,不表达得1分;MPO表达得1分,不表达得0分;
(3)判断模块,对于5种(2)中所述的标志物均检测了的受试者,积分达到8分及以上的认为存在CEBPA双突变;对于存在以上部分标志物未检测时的情况,应用以下积分系统判断:
a)积分最高分为9分,且受试者的实际积分为8分及以上的认为存在CEBPA双突变;
b)积分最高分在6分到8分之间,且受试者的实际得分为最高分的认为存在CEBPA双突变;
c)积分最高得分在5分及以下时,不能通过此积分系统鉴定受试者是否存在CEBPA双突变。
8.一种终端设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求4所述的方法。
9.如权利要求1~3任意一项中所述的标志物、如权利要求5所述的试剂盒、如权利要求6所述的基因芯片、如权利要求7所述的系统和如权利要求8所述的终端设备在制备鉴定急性髓系白血病患者是否存在CEBPA双突变的产品中的用途。
10.如权利要求1~3任意一项中所述的标志物、如权利要求5所述的试剂盒、如权利要求6所述的基因芯片、如权利要求7所述的系统和如权利要求8所述的终端设备在评估急性髓系白血病患者预后中的用途。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210632649.XA CN117233389A (zh) | 2022-06-07 | 2022-06-07 | 用于快速鉴定急性髓系白血病中cebpa双突变的标志物 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210632649.XA CN117233389A (zh) | 2022-06-07 | 2022-06-07 | 用于快速鉴定急性髓系白血病中cebpa双突变的标志物 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117233389A true CN117233389A (zh) | 2023-12-15 |
Family
ID=89086723
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210632649.XA Pending CN117233389A (zh) | 2022-06-07 | 2022-06-07 | 用于快速鉴定急性髓系白血病中cebpa双突变的标志物 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117233389A (zh) |
-
2022
- 2022-06-07 CN CN202210632649.XA patent/CN117233389A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101743327B (zh) | 黑色素瘤的预后预测 | |
US10670610B2 (en) | Biomarker test for prediction or early detection of preeclampsia and/or HELLP syndrome | |
JP2009509502A (ja) | 原発不明がんの原発巣を同定するための方法および材料 | |
JP2019502384A (ja) | 疾患の不均一性を特徴づけるための転移性疾患における、循環腫瘍細胞(ctc)の単一細胞ゲノムプロファイリング | |
US20170059581A1 (en) | Methods for diagnosis and prognosis of inflammatory bowel disease using cytokine profiles | |
JP2018512160A (ja) | 肺がんのタイピングのための方法 | |
CN107208131A (zh) | 用于肺癌分型的方法 | |
CN116287220B (zh) | 用于快速诊断川崎病的分子生物标志物和分析方法 | |
WO2012033999A2 (en) | Biomarkers for predicting kidney and glomerular pathologies | |
CN118207336B (zh) | 一种诊断和评估肺结节癌症风险的血液基因表达生物标志物组 | |
CN115144599A (zh) | 蛋白组合在制备对儿童甲状腺癌进行预后分层的试剂盒中的用途及其试剂盒、系统 | |
CN117925835A (zh) | 一种结直肠癌肝转移标记物模型及其在预后及免疫治疗响应预测的应用 | |
CN115128285B (zh) | 一种蛋白质组合对甲状腺滤泡性肿瘤鉴别评估的试剂盒、系统 | |
CN117265092A (zh) | 用于预测重症急性胰腺炎的标志物组合及其应用 | |
CN115044665A (zh) | Arg1在制备脓毒症诊断、严重程度判断或预后评估试剂或试剂盒中的应用 | |
CN117233389A (zh) | 用于快速鉴定急性髓系白血病中cebpa双突变的标志物 | |
CN117965728B (zh) | 用于肾透明细胞癌免疫治疗预后预测的生物标志物及应用 | |
CN113718032B (zh) | 生物标志物在早期检测宫颈癌中的应用 | |
CN117476097B (zh) | 一种基于三级淋巴结构特征基因的结直肠癌预后和治疗反应预测模型及其构建方法和应用 | |
AU2018100578A4 (en) | Method for detection & diagnosis of oral cancer in a sample | |
EP2607494A1 (en) | Biomarkers for lung cancer risk assessment | |
CN118667937A (zh) | 一种克罗恩病的生物标志物及其应用 | |
WO2023059854A1 (en) | Lung cancer prediction and uses thereof | |
CN113943802A (zh) | Golt1b在肾癌的预后中的应用 | |
CN113584158A (zh) | 生物标志物在诊断糖尿病肾病中的用途 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |