CN118652978A - 用于在局部晚期直肠癌中预测淋巴结转移的分子标志物组合 - Google Patents
用于在局部晚期直肠癌中预测淋巴结转移的分子标志物组合 Download PDFInfo
- Publication number
- CN118652978A CN118652978A CN202410787390.5A CN202410787390A CN118652978A CN 118652978 A CN118652978 A CN 118652978A CN 202410787390 A CN202410787390 A CN 202410787390A CN 118652978 A CN118652978 A CN 118652978A
- Authority
- CN
- China
- Prior art keywords
- rna
- hsa
- group
- lymph node
- molecular markers
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000003147 molecular marker Substances 0.000 title claims description 43
- 208000007433 Lymphatic Metastasis Diseases 0.000 title abstract description 96
- 206010038038 rectal cancer Diseases 0.000 title abstract description 62
- 208000020615 rectal carcinoma Diseases 0.000 title description 4
- 108091032973 (ribonucleotides)n+m Proteins 0.000 claims description 119
- 108091070501 miRNA Proteins 0.000 claims description 74
- 108020004999 messenger RNA Proteins 0.000 claims description 59
- 230000014509 gene expression Effects 0.000 claims description 53
- 108020005198 Long Noncoding RNA Proteins 0.000 claims description 51
- 239000003550 marker Substances 0.000 claims description 44
- 239000000523 sample Substances 0.000 claims description 42
- 238000012163 sequencing technique Methods 0.000 claims description 33
- 101000976376 Homo sapiens Zinc finger protein 587 Proteins 0.000 claims description 27
- 102100023891 Zinc finger protein 587 Human genes 0.000 claims description 27
- 102100033715 Apolipoprotein A-I Human genes 0.000 claims description 20
- 101000733802 Homo sapiens Apolipoprotein A-I Proteins 0.000 claims description 20
- 102100026661 Activity-dependent neuroprotector homeobox protein 2 Human genes 0.000 claims description 19
- 102100035493 E3 ubiquitin-protein ligase NEDD4-like Human genes 0.000 claims description 19
- 101000690901 Homo sapiens Activity-dependent neuroprotector homeobox protein 2 Proteins 0.000 claims description 19
- 101001023703 Homo sapiens E3 ubiquitin-protein ligase NEDD4-like Proteins 0.000 claims description 19
- 101000653374 Homo sapiens Methylcytosine dioxygenase TET2 Proteins 0.000 claims description 19
- 101000787882 Homo sapiens Transmembrane protein 255B Proteins 0.000 claims description 19
- 101000582993 Homo sapiens Unconventional myosin-Vb Proteins 0.000 claims description 19
- 102100030803 Methylcytosine dioxygenase TET2 Human genes 0.000 claims description 19
- 102100025927 Transmembrane protein 255B Human genes 0.000 claims description 19
- 102100030366 Unconventional myosin-Vb Human genes 0.000 claims description 19
- 101000880790 Homo sapiens Protein SSUH2 homolog Proteins 0.000 claims description 18
- 102100037719 Protein SSUH2 homolog Human genes 0.000 claims description 18
- 239000003153 chemical reaction reagent Substances 0.000 claims description 15
- -1 DCUN D2 Proteins 0.000 claims description 11
- 102100026985 DCN1-like protein 2 Human genes 0.000 claims description 9
- 101000911740 Homo sapiens DCN1-like protein 2 Proteins 0.000 claims description 9
- 210000004369 blood Anatomy 0.000 claims description 3
- 239000008280 blood Substances 0.000 claims description 3
- 208000015634 Rectal Neoplasms Diseases 0.000 abstract description 59
- 201000001275 rectum cancer Diseases 0.000 abstract description 58
- 238000000034 method Methods 0.000 abstract description 30
- 239000002679 microRNA Substances 0.000 description 48
- 108700011259 MicroRNAs Proteins 0.000 description 47
- 206010028980 Neoplasm Diseases 0.000 description 27
- 238000012549 training Methods 0.000 description 22
- 208000001333 Colorectal Neoplasms Diseases 0.000 description 15
- 201000011510 cancer Diseases 0.000 description 14
- 206010009944 Colon cancer Diseases 0.000 description 13
- 206010027476 Metastases Diseases 0.000 description 13
- 238000004458 analytical method Methods 0.000 description 13
- 230000009401 metastasis Effects 0.000 description 13
- 108090000623 proteins and genes Proteins 0.000 description 12
- 102100039398 C-X-C motif chemokine 2 Human genes 0.000 description 11
- 101000889128 Homo sapiens C-X-C motif chemokine 2 Proteins 0.000 description 11
- 230000035945 sensitivity Effects 0.000 description 11
- 210000001165 lymph node Anatomy 0.000 description 10
- 238000012216 screening Methods 0.000 description 10
- 238000012360 testing method Methods 0.000 description 10
- 239000000090 biomarker Substances 0.000 description 9
- 210000001519 tissue Anatomy 0.000 description 8
- 238000003384 imaging method Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 6
- 238000001514 detection method Methods 0.000 description 6
- 239000000047 product Substances 0.000 description 6
- 238000010200 validation analysis Methods 0.000 description 6
- 238000002512 chemotherapy Methods 0.000 description 5
- 238000009099 neoadjuvant therapy Methods 0.000 description 5
- 238000001959 radiotherapy Methods 0.000 description 5
- 239000000126 substance Substances 0.000 description 5
- 108091046869 Telomeric non-coding RNA Proteins 0.000 description 4
- 238000010276 construction Methods 0.000 description 4
- 230000036210 malignancy Effects 0.000 description 4
- 230000001575 pathological effect Effects 0.000 description 4
- 238000003753 real-time PCR Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 239000003795 chemical substances by application Substances 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 239000013610 patient sample Substances 0.000 description 3
- 210000005259 peripheral blood Anatomy 0.000 description 3
- 239000011886 peripheral blood Substances 0.000 description 3
- 238000004445 quantitative analysis Methods 0.000 description 3
- 210000000664 rectum Anatomy 0.000 description 3
- 238000001356 surgical procedure Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 102000040650 (ribonucleotides)n+m Human genes 0.000 description 2
- 108020004414 DNA Proteins 0.000 description 2
- 239000013614 RNA sample Substances 0.000 description 2
- 238000009098 adjuvant therapy Methods 0.000 description 2
- 230000000259 anti-tumor effect Effects 0.000 description 2
- 210000000436 anus Anatomy 0.000 description 2
- 230000033228 biological regulation Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 238000002405 diagnostic procedure Methods 0.000 description 2
- 238000009261 endocrine therapy Methods 0.000 description 2
- 229940034984 endocrine therapy antineoplastic and immunomodulating agent Drugs 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012165 high-throughput sequencing Methods 0.000 description 2
- 238000009169 immunotherapy Methods 0.000 description 2
- 108091027963 non-coding RNA Proteins 0.000 description 2
- 102000042567 non-coding RNA Human genes 0.000 description 2
- 239000002773 nucleotide Substances 0.000 description 2
- 125000003729 nucleotide group Chemical group 0.000 description 2
- JMANVNJQNLATNU-UHFFFAOYSA-N oxalonitrile Chemical compound N#CC#N JMANVNJQNLATNU-UHFFFAOYSA-N 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011127 radiochemotherapy Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000002626 targeted therapy Methods 0.000 description 2
- 238000002560 therapeutic procedure Methods 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000011282 treatment Methods 0.000 description 2
- 238000011269 treatment regimen Methods 0.000 description 2
- 108091032955 Bacterial small RNA Proteins 0.000 description 1
- 108020004705 Codon Proteins 0.000 description 1
- 238000000585 Mann–Whitney U test Methods 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 238000002123 RNA extraction Methods 0.000 description 1
- 238000003559 RNA-seq method Methods 0.000 description 1
- 206010038019 Rectal adenocarcinoma Diseases 0.000 description 1
- 108091036066 Three prime untranslated region Proteins 0.000 description 1
- 238000002835 absorbance Methods 0.000 description 1
- 238000011226 adjuvant chemotherapy Methods 0.000 description 1
- 150000001413 amino acids Chemical class 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004166 bioassay Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013211 curve analysis Methods 0.000 description 1
- 210000000805 cytoplasm Anatomy 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000012502 diagnostic product Substances 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000001861 endoscopic biopsy Methods 0.000 description 1
- 238000001839 endoscopy Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010195 expression analysis Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000000968 intestinal effect Effects 0.000 description 1
- 230000009545 invasion Effects 0.000 description 1
- 210000002429 large intestine Anatomy 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 108091043222 miR-181b stem-loop Proteins 0.000 description 1
- 108091039097 miR-193b stem-loop Proteins 0.000 description 1
- 108091024082 miR-32 stem-loop Proteins 0.000 description 1
- 108091023805 miR-411 stem-loop Proteins 0.000 description 1
- 210000004400 mucous membrane Anatomy 0.000 description 1
- 238000011227 neoadjuvant chemotherapy Methods 0.000 description 1
- 230000001613 neoplastic effect Effects 0.000 description 1
- 230000005311 nuclear magnetism Effects 0.000 description 1
- 150000007523 nucleic acids Chemical group 0.000 description 1
- 238000010827 pathological analysis Methods 0.000 description 1
- 210000004197 pelvis Anatomy 0.000 description 1
- 230000035515 penetration Effects 0.000 description 1
- 229920001184 polypeptide Polymers 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000001124 posttranscriptional effect Effects 0.000 description 1
- 239000002243 precursor Substances 0.000 description 1
- 108091007428 primary miRNA Proteins 0.000 description 1
- 102000004196 processed proteins & peptides Human genes 0.000 description 1
- 108090000765 processed proteins & peptides Proteins 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 201000001281 rectum adenocarcinoma Diseases 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000022532 regulation of transcription, DNA-dependent Effects 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 238000013058 risk prediction model Methods 0.000 description 1
- 235000019515 salmon Nutrition 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 239000003381 stabilizer Substances 0.000 description 1
- 230000000087 stabilizing effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 238000002604 ultrasonography Methods 0.000 description 1
- 108700026220 vif Genes Proteins 0.000 description 1
- 238000012049 whole transcriptome sequencing Methods 0.000 description 1
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及用于在患有局部晚期直肠癌的患者中预测淋巴转移(LNM)风险的分子标志物组合,以及使用所述分子标志物组合进行预测的方法。
Description
本发明要求中国专利申请:用于在局部晚期直肠癌中预测淋巴结转移的分子标志物组合(申请号202310745036.1,申请日2023年06月21日)作为优先权。其全部内容通过引用并入此说明书。
技术领域
本发明涉及肿瘤医学生物检测领域,具体涉及用于预测局部晚期直肠癌淋巴结转移风险的分子标志物组合(molecular marker panel)及其用途。本发明的分子标志物组合包含多种类RNA分子标志物,由此能够提供更加准确的基于分子生物学的预测系统。
背景技术
结直肠癌是世界上第三常见恶性肿瘤,并且是导致肿瘤相关死亡的第四大原因,其中淋巴结转移(lymph-node metastasis,LNM)是结直肠癌的重要预后因素。
当前结直肠癌术前的主要预测手段基于影像学评估进行。NCCN指南推荐对直肠癌患者行胸腹盆增强CT、直肠核磁和超声内镜以准确评估患者的临床T分期(恶性肿瘤原发灶的情况)和N分期(淋巴结受累的情况)。但这3种影像学手段用来预测淋巴结转移的敏感性和特异性分别为55%及74%,67%及78%,66%及76%,判断术前淋巴结转移的准确率不高。另外,影像学评估很大程度上依赖于操作者的经验,进一步引入了不确定性。
新辅助治疗是手术前的抗肿瘤治疗。根据患者的病情,新辅助治疗可以是化疗、内分泌治疗、靶向治疗、免疫治疗甚至是放疗,新辅助化疗一般更常用。目前根据NCCN指南(美国国立综合癌症网络,National Comprehensive Cancer Network)推荐,应对分级T3以上和/或淋巴结阳性的患者进行术前新辅助同步放化疗。因此,如何在术前准确预测淋巴结状态,是影响直肠癌患者临床治疗决策的关键,其决定了患者接受手术的根治程度(根治性或姑息性)以及是否需要接受新辅助治疗。
高通量测序技术的发展将医学带入分子时代。在既往研究中,Ozawa,T等开发了用于预测结直肠癌T1患者淋巴结转移情况的5个微小RNA(microRNA,miRNA)分子标志物组合(panel),通过5个miRNA,Ozawa,T等特征性识别了具有淋巴结侵犯的T1期癌症,所述分子标志物组合在TCGA训练集和验证集中的ROC(受试者工作特征,Receiver OperatingCharacteristic)在训练集和验证集中可达到0.83和0.74(非专利文献1)。
此外,Kandimalla,R等报告的一项结合了多个信使RNA(messenger RNA,mRNA)分子和临床特征的T1期结直肠预测模型,其预测效果高于目前的基于临床病理特征和影像学的预测结果(非专利文献2)。
这里的缩写ROC指接收者操作特征曲线(receiver operating characteristiccurve),AUROC指ROC曲线下面积(area under the receiver operating characteristiccurve),也称为AUC。AUC值越接近1,表示模型的分类器性能越好。TCGA指肿瘤与癌症基因组图谱(The Cancer Genome Atlas),LNM指淋巴结转移(lymph-node metastasis)。
对于局部晚期直肠癌,直肠周围淋巴结转移与否的判断是目前的难点,明确的病理诊断有利于制定最合适的治疗策略。上述背景研究都是以预测早期(T1-T2)期结直肠癌淋巴结转移为目的开展的研究,未涉及对局部晚期直肠癌淋巴结转移的预测。当将非专利文献1、2的模型用于TCGA(The Cancer Genome Atlas;肿瘤与癌症基因组图谱)局部晚期直肠癌中,非专利文献1-2所述的模型的预测效能不高。
综上,为了满足临床需求,本领域仍然需要一种预测准确率高、方便易用的分子标志物预测方法,用于评估局部晚期直肠癌患者的淋巴结转移风险。
相关文献
非专利文献1:Ozawa,T.等,AMicroRNASignature Associated With Metastasisof T1 Colorectal Cancers to Lymph Nodes.Gastroenterology 2018,154(4),844-848.e7.
非专利文献2:Kandimalla,R.等,Gene Expression Signature in SurgicalTissues and Endoscopic Biopsies Identifies High-Risk T1 ColorectalCancers.Gastroenterology.2019,156(8),2338-2341.e3.
发明内容
发明人结合了多种RNA组学的研究方法,联合mRNA、lncRNA及miRNA等组学进行了分子标志物筛选研究,筛选出了三类共15种局部晚期直肠癌淋巴结转移的分子标志物,组成了多组学预测模型(多组学分子panel)。
具体地,发明人通过TCGA的训练集或TCGA总集对局部晚期直肠癌的LNM阳性相关的RNA分子标志物构建数学模型,并利用TCGA的训练集和验证集以及临床样本进行了标志物组合的筛选及验证。
发明人发现,在使用上述标志物组合的信息通过多组学预测模型预测局部晚期直肠癌患者的转移风险时,获得的预测结果具有理想的灵敏度、特异性和准确率,由此完成了本发明。
因此,第一方面,本发明涉及多种RNA分子标志物的组合在患有局部晚期直肠癌的受试者中预测淋巴结转移风险的用途,所述多种RNA分子标志物选自如下第1组RNA分子标志物、第2组RNA分子标志物和第3组RNA分子标志物中的至少两组,其中,
所述第1组RNA分子标志物选自如下一种或多种mRNA:ADNP2、APOA1、DCUN1D2、MYO5B、NEDD4L、SSUH2、TET2、TMEM255B和ZNF587;第2组RNA分子标志物选自如下一种或多种lncRNA:RP11-547D24.1、RP11-67K19.3和RP11-79H23.3;第3组RNA分子标志物选自如下一种或多种miRNA:hsa.mir.1248、hsa.mir.1.2和hsa.let.7c。
第二方面,本发明涉及用于测定多种RNA分子标志物的表达水平的试剂、所述试剂在制备用于在患有局部晚期直肠癌的受试者中预测淋巴结转移风险的诊断产品中的用途,包含所述试剂的试剂盒或芯片,其中所述多种RNA分子标志物选自如下第1组RNA分子标志物、第2组RNA分子标志物和第3组RNA分子标志物中的至少两组,其中,
i)所述第1组RNA分子标志物选自如下一种或多种mRNA:ADNP2、APOA1、DCUN1D2、MYO5B、NEDD4L、SSUH2、TET2、TMEM255B和ZNF587;第2组RNA分子标志物选自如下一种或多种lncRNA:RP11-547D24.1、RP11-67K19.3和RP11-79H23.3;第3组RNA分子标志物选自如下一种或多种miRNA:hsa.mir.1248、hsa.mir.1.2和hsa.let.7c;或
ii)所述第1组RNA分子标志物选自如下mRNA:CXCL2、ZNF587;第2组RNA分子标志物选自如下lncRNA:RP11-547D24.1、AC079922.3;第3组RNA分子标志物选自如下miRNA:hsa.mir.1、hsa.let.7c。
所述用于测定所述多种RNA分子标志物的表达水平的试剂是用于二代测序的试剂。
本发明的另一个方面提供一种局部晚期直肠癌的淋巴结转移风险预测产品,如诊断局部晚期直肠癌的淋巴结转移风险的试剂盒,其包括针对以下RNA分子的引物和探针:
ai)ADNP2、APOA1、DCUN1D2、MYO5B、NEDD4L、SSUH2、TET2、TMEM255B、ZNF587、RP11-547D24.1、RP11-67K19.3、RP11-79H23.3、hsa.mir.1248、hsa.mir.1.2和hsa.let.7c;或
aii)CXCL2、ZNF587、RP11-547D24.1、AC079922.3、hsa.mir.1、hsa.let.7c。
第三方面,本发明涉及一种用于在患有局部晚期直肠癌的受试者中预测淋巴结转移风险的方法,所述方法包括:
(a)检测所述受试者中多种RNA分子标志物的表达水平,所述多种RNA分子由如下第1组RNA分子标志物、第2组RNA分子标志物和第3组RNA分子标志物组成,其中所述第1组RNA分子标志物选自如下一种或多种mRNA:ADNP2、APOA1、DCUN1D2、MYO5B、NEDD4L、SSUH2、TET2、TMEM255B和ZNF587;第2组RNA分子标志物选自如下一种或多种lncRNA:RP11-547D24.1、RP11-67K19.3和RP11-79H23.3;第3组RNA分子标志物选自如下一种或多种miRNA:hsa.mir.1248、hsa.mir.1.2和hsa.let.7c;或
所述第1组RNA分子标志物选自如下一种或多种mRNA:CXCL2、ZNF587;第2组RNA分子标志物选自如下一种或多种lncRNA:RP11-547D24.1、AC079922.3;第3组RNA分子标志物选自如下一种或多种miRNA:hsa.mir.1、hsa.let.7c。
(b)根据对应的算式计算淋巴结转移风险评分:
淋巴结转移风险评分=(-0.644026×ADNP2)+(0.935351×APOA1)+(0.912359×DCUN1D2)+(-0.452681×MYO5B)+(-0.166583×NEDD4L)+(0.396114×SSUH2)+(-0.185574×TET2)+(0.206386×TMEM255B)+(-0.425483×ZNF587)+(0.955920×RP11-547D24.1)+(-1.130643×RP11-67K19.3)+(-0.999909×RP11-79H23.3)+(0.456175×hsa.mir.1248)+(0.341427×hsa.mir.1.2)+(0.188743×hsa.let.7c)-3.012739(数学式1);或
淋巴结转移风险评分=(0.4428×CXCL2)+(-0.6506×ZNF587)+(-0.2310×RP11-547D24.1)+(-0.0200×AC079922.3)+(0.0290×hsa.mir.1)+(-0.5416×hsa.let.7c)+3.7278(数学式5)
(c)将步骤(b)计算出的淋巴结转移风险评分与分类阈值进行比较,从而预测患者的淋巴结转移风险。
通过数学式1计算风险评分时,风险评分大于-2.757(分类阈值)的受试者被判定为局部晚期直肠癌的LNM阳性的高风险。
通过数学式5计算风险评分时,风险评分大于0.582(分类阈值)的受试者被判定为局部晚期直肠癌的LNM阳性的高风险。
本发明的另一个方面提供一种RNA分子标志物组合,所述标志物组合用于本发明的多组学预测模型与简化模型。所述标志物组合包括RNA分子的表达水平值,所述RNA分子由mRNA分子、lncRNA分子和miRNA分子组成,所述表达水平值的单位为RPKM,其中,
所述mRNA分子包含:ZNF587;
所述lncRNA分子包含:RP11-547D24.1;
所述miRNA分子包含:hsa.mir.1和hsa.let.7c,且
(1)所述mRNA分子进一步包含ADNP2、APOA1、DCUN1D2、MYO5B、NEDD4L、SSUH2、TET2和TMEM255B,所述lncRNA分子进一步包含RP11-67K19.3和RP11-79H23.3,所述miRNA分子进一步包含hsa.mir.1248和hsa.let.7c,且所述hsa.mir.1为hsa.mir.1.2;或
(2)所述mRNA分子进一步包含CXCL2,所述lncRNA分子进一步包含AC079922.3。
本发明具有如下优势:
1.目前缺少对局部晚期直肠癌患者淋巴结转移风险的术前分子生物学评价指标,本发明填补了该空白,为患者提供了除影像学判断之外的风险预测手段,为临床手术方案的选择、术前治疗方案的指定提供了支持;实现了对局部晚期直肠癌患者的淋巴结转移风险的术前分子生物学评价。
2.本发明的分子标志物组合和模型在局部晚期直肠癌患者中预测淋巴结转移风险时具有理想的特异性和灵敏度;
3.本发明的分子标志物组合可以利用选自mRNA、lncRNA、miRNA三种RNA分子标志物中的两类以上进行预测,信息来源的层次更立体。多组学模型和简化模型的敏感性和特异性均高于仅使用单种RNA分子作为分子标志物时的预测结果,这是因为本发明的分子标志物组合避免了单个分子或单种类分子的偏向性,增加了预测模型的稳定性;
4.以本发明的多组学预测模型评估局部晚期直肠癌患者淋巴结转移风险时,本发明的标志物组合的样品容易获得,样本可以为肿瘤手术组织标本,也可以为受试者的外周血。
5.本发明的简化模型仅需检测6个RNA特征分子的表达量,在检测时间、费用上具有优势。
附图说明
图1中,图1a显示了建模过程中不同λ值的取值下的误分类误差;图1b为使用mRNA模型(数学式2)用TCGA样本和本中心样本(图中记作NCC,下同)验证的ROC曲线图;图1c为选出的9种mRNA生物标志物分子在TCGA数据集和本中心数据集的淋巴结转移(LNM)阳性和阴性样本中的表达水平差异。
图2中,图2a显示了建模过程中不同λ值的取值下的误分类误差;图2b为使用lncRNA模型(数学式3)用TCGA样本和NCC样本验证的ROC曲线图;图2c为选出的3种lncRNA生物标志物分子在TCGA数据集和本中心数据集的淋巴结转移阳性和阴性样本中的表达水平差异。
图3中,图3a显示了建模过程中不同λ值的取值下的误分类误差;图3b为使用miRNA模型(数学式4)用TCGA样本和NCC样本验证的ROC曲线图;图3c为选出的3种miRNA生物标志物分子TCGA数据集和本中心数据集的淋巴结转移阳性和阴性样本中的表达水平差异。
图4中,图4a为多组学预测模型(数学式1,标记为combine)、3种单种RNA预测模型(mRNA、lncRNA和miRNA)用TCGA样本验证的ROC曲线;图4b为使用多组学预测模型(combine)、3种单种RNA预测模型(mRNA、lncRNA和miRNA)用NCC样本验证的ROC曲线汇总。
图5为数学式5在本中心样本的50名患者数据集中验证的ROC曲线。
发明详述
I.定义
术语“mRNA”意指信使RNA,其为转录过程中从DNA模板生成的产物,其携带DNA的信息进入细胞质,这些信息之后被读取并基于密码子规则翻译成对应的氨基酸以用于多肽合成。mRNA是转录组(transcriptome)的重要组成部分。mRNA的表达存在时空特性,即体内不同位置、不同时间的mRNA表达会有差异,因此具有重要意义。
术语“miRNA”意指微小RNA,有时也称为微RNA,其为一种小型非编码RNA。miRNA的大小通常在22个核苷酸左右。大多数miRNA首先从DNA序列转录成初级miRNA(pri-miRNA),然后加工成前体miRNA(pre-miRNA)并最终称为成熟miRNA。miRNA通常与目标mRNA的3’UTR产生相互作用以抑制其表达。在文中,miRNA命名(如hsa.let.7c)中的“.”与中间以“-”连接的形式(hsa-let-7c)意义相同。
术语“lncRNA”意指长非编码RNA。与miRNA一样,其也为非编码RNA,但长度通常长于200个核苷酸。lncRNA被认为在转录调控、转录后调控、翻译调控等方面具有一定功能。
术语“组合(panel)”在本发明中指多种分子标志物的组合。
ROC曲线(receiver operating characteristic curve,ROC)翻译成接收者操作特征曲线或受试者操作特征曲线。ROC曲线也称感受性曲线,是以不同诊断标准的诊断试验的灵敏度(Sensitivity)为纵坐标,并以假阳性率(1-特异性(Specificity))为横坐标所得出的曲线。灵敏度是正确预测的比例,表示的是实际阳性例中被分为阳性的比例。特异性表示的是实际阴性例被分为阴性的比例。AUC是一个在0至1之间的值,一般不会低于0.5,越接近于1说明诊断准确率越高。
ROC曲线及曲线下面积(AUC)考虑了不同诊断标准下以上指标的变化情况,因此可更全面地反映诊断试验的准确性。
II.直肠癌
直肠癌(rectal cancer)是直肠组织的恶性肿瘤。直肠是大肠的最后一段,起始于结肠的末端,结束于通往肛门的短而窄的通道之前。
在本发明的上下文中,采用TNM分期系统(恶性肿瘤的TNM分类系统)对直肠癌进行分期。TNM分期系统是由国际癌症控制联盟(UICC)颁布的癌症分期系统。在TNM分期系统中的T代表肿瘤,N代表淋巴结,M代表转移灶。有时TNM分期前标有前缀c或p,前缀c的TNM分期指临床分期,前缀p的TNM指病理分期。顾名思义,该系统从肿瘤大小、状态,淋巴结中的转移情况,以及远端转移情况这三个方面来评价肿瘤的恶性程度。
在本发明的上下文中,局部晚期直肠癌指肿瘤浸润深度达到固有肌层或以下(T3-T4),或出现了直肠周围淋巴结转移,但没有出现远处转移的直肠癌。本发明的受试者可以是经影像学或病理检查发现的原发肿瘤侵出肠壁肌层直至周围有名结构(c/pT3-4b)或系膜内,及真骨盆范围内出现淋巴结转移(c/pN1-2)而无远处转移(M0)的距肛门12cm以内的直肠癌患者。
新辅助治疗是手术前的抗肿瘤治疗。根据患者的病情,新辅助治疗可以是化疗、内分泌治疗、靶向治疗、免疫治疗甚至是放疗。对于局部晚期直肠癌患者而言,术前新辅助放、化疗可以在术前降低肿瘤和淋巴结的分期,使肿瘤获得不同程度消退(王仲照等,局部晚期中低位直肠癌新辅助同步放化疗58例分析,DOI:CNKI:SUN:XHON.0.2009-01-010),争取根治性切除,并带来保肛率上的获益。临床上,已有提出全程新辅助治疗(total neoadjuvanttherapy,TNT)的概念,TNT可视为新辅助化疗与同步放化疗的整合。
对于局部晚期直肠癌患者而言,较为准确地预测淋巴结转移状态有助于选择更加合理的治疗方案,从而改进治疗效果。
III.多组学分子标志物组合
本发明提供基于多组学分子标志物组合的预测系统,用于在患有局部晚期直肠癌的患者中用于预测淋巴结转移风险。所述系统包括分子标志物组合和利用分子标志物组合预测局部晚期直肠癌LNM风险水平的方法。所述的预测系统,其中所述分子标志物组合中包含RNA分子的表达水平。
本发明的分子标志物组合中包括多种RNA分子标志物,具体而言包括mRNA分子标志物、lncRNA分子标志物和miRNA分子标志物中的两种或全部三种,并且每种分子标志物选自经过本发明的方法筛选的特定分子标志物中的一种或多种。
在一个实施方案中,本发明的分子标志物组合中的mRNA分子标志物包含选自如下一种或多种:ADNP2、APOA1、DCUN1D2、MYO5B、NEDD4L、SSUH2、TET2、TMEM255B和ZNF587。在优选的实施方案中,本发明的分子标志物组合中的mRNA分子标志物为ADNP2、APOA1、DCUN1D2、MYO5B、NEDD4L、SSUH2、TET2、TMEM255B和ZNF587。
在一个实施方案中,本发明的分子标志物组合中的lncRNA分子标志物包含选自如下一种或多种:RP11-547D24.1、RP11-67K19.3和RP11-79H23.3。在优选的实施方案中,本发明的分子标志物组合中的lncRNA分子标志物为RP11-547D24.1、RP11-67K19.3和RP11-79H23.3。
在一个实施方案中,本发明的分子标志物组合中的miRNA分子标志物包含选自如下一种或多种:hsa.mir.1248、hsa.mir.1.2和hsa.let.7c。在优选的实施方案中,本发明的分子标志物组合中的miRNA分子标志物为hsa.mir.1248、hsa.mir.1.2和hsa.let.7c。
在一个实施方案中,本发明的分子标志物组合为:ZNF587、CXCL2、RP11-547D24.1、AC079922.3、hsa.mir.1和hsa.let.7c。所述hsa.mir.1包含hsa.mir.1.2。
一个实施方案中,本发明提供一种利用分子标志物组合预测局部晚期直肠癌LNM风险水平的方法,所述分子标志物组合为上述分子标志物组合中的一种。所述方法包括:
步骤a)从受试者的样本获得RNA样品;
步骤b)定量检测分子标志物组合中各RNA分子在样本中的含量;
步骤c)将所述含量用数学式(1)-数学式(5)中任一项计算出风险评分;
步骤d)将风险评分与阈值进行比较,如高于阈值则将受试者确定为高风险,低于或等于阈值则将受试者确定为低风险;
在步骤a)后,可以检测样品中RNA的完整性,确定该样本是否符合进行后续的定量检测的要求。
在优选的实施方案中,所述分子标志物在具有淋巴结转移和不具有淋巴结转移的局部晚期直肠癌的患者中具有显著的差异化表达。在优选的实施方案中,所述分子标志物的表达量是稳定且易于检测的。
在将上述分子标志物用于本发明的预测用途时,所述预测基于所述分子标志物在受试者中的表达水平进行。可以使用本领域已知的常规方法来测定所述分子标志物在受试者中的表达水平,例如转录组测序。用于转录组测序的样品可以来自受试者的细胞、组织,如血液,特别是外周血。本发明的方法可以使用任何本领域已知的建库和测序方法来获得对应的表达水平数据。
因此,本发明提供用于测定所述分子标志物的表达水平的试剂在制备用于在局部晚期直肠癌的患者中预测淋巴结转移风险的产品中的用途。例如,所述试剂包括但不限于转录组测序中使用的试剂。
在可选的实施方案中,所述试剂可以不来自全转录组测序,而来自特定针对所述分子标志物的测定方法。在这种情况下,所述试剂包括例如用于测定所述分子标志物的引物和/或探针。基于已知核酸序列设计引物、探针的方法是本领域已知的。
IV.基于分子标志物组合的风险评分模型
在一个实施方案中,通过将所述分子标志物的表达水平换算为淋巴结转移风险评分来预测患者的LNM转移风险。通过生物统计学建模来建立所述换算模型。本发明在建模过程中希望确定不同的标志物分子在预测算法中所占权重,以生成预测模型。
在一个实施方案中,本发明通过Lasso分析来建立模型,特别是确定特征性标志物分子。Lasso分析是一种统计学分析方法,常用于变量的筛选。Lasso分析包括数据降维方法,该方法不仅适用于线性情况,也适用于非线性情况。Lasso是基于惩罚方法对样本数据进行变量选择,通过对原本的系数进行压缩,将原本很小的系数直接压缩至0,从而将这部分系数所对应的变量视为非显著性变量,将不显著的变量直接舍弃。
Lasso回归中,模型的均方误差随着Log(λ)的变化而变化。在显示所述变化的图中,横坐标显示对应模型所需变量数目,从左到右逐渐减少;横坐标是惩罚系数λ的对数;纵坐标表示均方误差(MSE,mean squared error)指预测值与真实值的差异程度,每个MSE都有对应的误差棒表示MSE的置信区间。
在一个具体的实施方案中,本发明提供如下风险评估计算公式(数学式1),用于在患有局部晚期直肠癌的患者中用于预测淋巴结转移风险:
淋巴结转移风险评分=(-0.644026×ADNP2)+(0.935351×APOA1)+(0.912359×DCUN1D2)+(-0.452681×MYO5B)+(-0.166583×NEDD4L)+(0.396114×SSUH2)+(-0.185574×TET2)+(0.206386×TMEM255B)+(-0.425483×ZNF587)+(0.955920×RP11-547D24.1)+(-1.130643×RP11-67K19.3)+(-0.999909×RP11-79H23.3)+(0.456175×hsa.mir.1248)+(0.341427×hsa.mir.1.2)+(0.188743×hsa.let.7c)-3.012739(数学式1);
其中每个标志物分子的名称代表该标志物分子通过转录组测序测定的在所述患者样本中的表达量,3.012739为通过lasso分析获得的截距值。
淋巴结转移风险评分=(0.4428×CXCL2)+(-0.6506×ZNF587)+(-0.2310×RP11-547D24.1)+(-0.0200×AC079922.3)+(0.0290×hsa.mir.1)+(-0.5416×hsa.let.7c)+3.7278(数学式5)
其中每个标志物分子的名称代表该标志物分子通过转录组测序测定的在所述患者样本中的表达量。
所述表达量可通过转录组测序测定,单位为RPKM(Reads Per KilobaseMillion),指每千个碱基的转录每百万映射读取的reads。
应该理解的是,通过上述算式计算的风险评分代表了患者在相关人群中的风险水平。例如,可以通过将淋巴结转移状态已知的患者数据代入上式来划定判断被测患者的风险评分值是否属于高风险或低风险。这些已知患者的数据可以从各个已有数据集获得。
在用ROC曲线的曲线下面积衡量时,本发明的模型能够实现较高的预测准确率。本领域通过影像学预测局部晚期直肠癌淋巴结转移风险的准确率约为70%,而本发明的分子标志物组合能够实现至少相当,甚至更高的准确率,例如ROC曲线的AUC高于0.7(70%准确率),甚至可以达到0.9(90%准确率)以上。
阈值
本发明的各模型的区分LNM阳性风险高低的分类阈值(临界值)可通过计算数学式的约登指数而确定。
本领域技术人员了解,分类阈值不是绝对固定的,也可以通过中位数风险评分、设定灵敏度(例如85%、90%)、或将淋巴结转移状态已知的患者RNA表达的大量数据代入上式来划定。
使用
采集局部晚期直肠癌患者术前的外周血或癌旁/肿瘤组织样本中上述RNA分子的表达数据,依据数学式1-5中任一项计算风险评分并分别与该数学式的阈值进行比较。
将与阈值相比,风险评分更低者划入低风险组,预测为淋巴结转移阴性;与阈值相比,风险评分更高者划入高风险组,预测为淋巴结转移阳性,建议术前进行新辅助同步放化疗。
作为本发明的分子标志物组合的使用方法,可以包括获得淋巴结转移状态未知的患者的RNA表达数据的步骤,将数据代入本发明的预测模型的步骤,划定被测患者的淋巴结转移风险属于LNM高风险或低风险的步骤。
本发明包括以下内容。
1.一种用于测定多种RNA分子标志物的表达水平的试剂在制备诊断产品中的用途,所述诊断产品用于在患有局部晚期直肠癌的受试者中预测淋巴结转移风险,所述多种RNA分子标志物选自如下第1组RNA分子标志物、第2组RNA分子标志物和第3组RNA分子标志物中的至少两组,
其中所述第1组RNA分子标志物选自如下一种或多种mRNA:ADNP2、APOA1、DCUN1D2、MYO5B、NEDD4L、SSUH2、TET2、TMEM255B和ZNF587;
第2组RNA分子标志物选自如下一种或多种lncRNA:RP11-547D24.1、RP11-67K19.3和RP11-79H23.3;且
第3组RNA分子标志物选自如下一种或多种miRNA:hsa.mir.1248、hsa.mir.1.2和hsa.let.7c;或
所述第1组RNA分子标志物选自如下一种或多种mRNA:CXCL2、ZNF587;且第2组RNA分子标志物选自如下一种或多种lncRNA:RP11-547D24.1、AC079922.3;且第3组RNA分子标志物选自如下一种或多种miRNA:hsa.mir.1、hsa.let.7c。
2.项1所述的用途,其中所述多种RNA分子标志物选自所述第1组RNA分子标志物、所述第2组RNA分子标志物和所述第3组RNA分子标志物中的全部三种。
3.项1或2所述的用途,其中所述第1组RNA分子标志物由ADNP2、APOA1、DCUN1D2、MYO5B、NEDD4L、SSUH2、TET2、TMEM255B和ZNF587组成。
4.项1-3中任一项所述的用途,其中所述第2组RNA分子标志物由RP11-547D24.1、RP11-67K19.3和RP11-79H23.3组成。
5.项1-4中任一项所述的用途,其中所述第3组RNA分子标志物由hsa.mir.1248、hsa.mir.1.2和hsa.let.7c组成。
6.项1-5中任一项所述的用途,其中所述多种RNA分子标志物包含:ADNP2、APOA1、DCUN1D2、MYO5B、NEDD4L、SSUH2、TET2、TMEM255B、ZNF587、RP11-547D24.1、RP11-67K19.3、RP11-79H23.3、hsa.mir.1248、hsa.mir.1.2和hsa.let.7c。
7.项1-6中任一项所述的用途,其中所述用于测定多种RNA分子标志物的表达水平的试剂选自:用于进行转录组测序的试剂、特异性针对所述RNA分子标志物的引物和探针。
8.项1-7中任一项所述的用途,所述表达水平是所述受试者的血液样品中所述RNA分子标志物的表达水平。
9.RNA分子标志物组合在制备局部晚期直肠癌的淋巴结转移风险预测产品中的用途,所述RNA分子标志物组合包含mRNA、lncRNA、miRNA三种类型的RNA分子,其中
所述RNA分子标志物组合包含:
ai)ADNP2、APOA1、DCUN1D2、MYO5B、NEDD4L、SSUH2、TET2、TMEM255B、ZNF587、RP11-547D24.1、RP11-67K19.3、RP11-79H23.3、hsa.mir.1248、hsa.mir.1.2和hsa.let.7c,或
aii)CXCL2、ZNF587、RP11-547D24.1、AC079922.3、hsa.mir.1、hsa.let.7c。
10.上述用途,其中,所述局部晚期直肠癌的淋巴结转移风险预测产品包含检测所述RNA分子标志物组合含量的试剂。
11.上述用途,其中,所述试剂包含引物和探针。
具体实施方式
下面通过实施例对本申请进一步详细说明。通过这些说明,本申请的特点和优点将变得更为清楚明确。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
此外,下面所描述的本申请不同实施方式中涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
实施例1.直肠癌淋巴结转移文库构建
本实施例描述了基于已知淋巴结转移状态的局部晚期直肠癌患者数据建立模型的过程。
1.取样
本实施例的研究共纳入了94名TCGA数据库中的直肠癌患者的转录组测序数据,其中N0(淋巴结转移阴性)患者61名,N1(淋巴结转移阳性,具体为1-3枚区域淋巴结转移)患者33名。TCGA直肠癌转录组测序数据中同时包含mRNA和lncRNA的测序数据。全部94名患者中的89名测得了miRNA测序数据,其中N0患者57名,N1患者32名。
表1纳入的TCGA数据库中的直肠癌患者组成
人数 | mRNA | lncRNA | miRNA |
N0(LNM阴性) | 61 | 61 | 57 |
N1(LNM阳性) | 33 | 33 | 32 |
总人数 | 94 | 94 | 89 |
本实施例的研究还纳入了中国医学科学院肿瘤医院(简称“本中心”或“NCC”)的21名临床局部晚期直肠癌患者(受试者),其中N0患者8名,N1患者13名。分别收取位于直肠且在术后通过病理检验证实为直肠腺癌的手术组织标本,置于RNAlater(货号AM7020,RNAlaterTM稳定液,ThermoFisher)中保存。
表2纳入的临床的直肠癌患者组成
人数 | mRNA | lncRNA | miRNA |
N0(LNM阴性) | 8 | 8 | 8 |
N1(LNM阴性) | 13 | 13 | 13 |
总数 | 21 | 21 | 21 |
以下的RNA提取和建库步骤仅涉及本中心的患者样品。TCGA的患者数据已经包含三种RNA的测序数据,被直接使用。
2.提取RNA
使用Trizol法提取上述手术组织标本的总RNA,提取后将RNA样本保存在-80℃。使用Nanodrop分光光度计检测总RNA的浓度及纯度,并使用2100Bioanalyzer检测RNA的完整性(RNAintegrity number,RIN)。所有样品RNA的A260/A280吸光度比值大于1.8,RIN值大于7。样本RNA的完整性符合测序需求。
3.建库测序
3.1mRNA/lncRNA文库的构建
采用去核糖体RNA法使用如上提取的总RNA构建了链特异性RNA测序文库,作为本中心数据的mRNA和lncRNA文库,并使用该文库获得了本中心样本的转录组测序数据,其中包括mRNA测序原始数据和lncRNA测序原始数据。
3.2miRNA测序文库构建
使用如上提取的总RNA,采用Multiplex Small RNA建库试剂盒使用如上提取的总RNA构建了miRNA测序文库,并使用TruSeq PE簇生成试剂盒v3-cBot-HS(Illumina生产)在高通量测序平台Illumina X Ten上进行测序,获得本中心样本的miRNA测序原始数据。
4.数据清洗和处理
4.1清洁数据的获得
分别将本中心样本的mRNA和lncRNA测序数据,以及miRNA测序原始数据经过FastQC软件进行严格质控。获得的数据经cutadapt软件切除掺杂的3’测序接头序列。然后,获得的数据用sickle软件过滤低质量测序读段,由此分别获得本中心样本的mRNA和lncRNA测序数据以及miRNA测序数据的清洁数据。
4.2定量数据的获得
将4.1中获得的清洁数据用salmon软件分别进行mRNA和lncRNA转录本的表达定量,并用miRDeep 2.0.1.2软件进行miRNA定量,由此获得了本中心样本的mRNA和lncRNA以及miRNA的定量数据。
5.数据分析
5.1mRNA模型特征性标志物分子筛选
划分TCGA训练集(TCGAtrain)和TCGA测试集(TCGAtest)
由于TCGA数据库的样品量更大,且同时具有三种RNA类型的测序数据,发明人首先将TCGA直肠癌样本数据按照8:2的比例随机划分为TCGA训练集和TCGA测试集,其中训练集75人,验证集19人。随机种子数为12345678。
从TCGA训练集获得特征性标志物分子后,使用TCGA训练集、TCGA测试集和本中心样本的数据对这些分子进行ROC曲线分析,具体如下。
1)为确保生物标记物分子同时具有区分度及稳健性,随机选择了70%的TCGA训练集样本用于计算单个基因对淋巴结转移与否的区分度,并以ROC曲线下面积(AUC)表示。重复以上计算过程1000次。
2)选择AUC在0.7且出现800次以上的基因作为lasso分析模型的输入分子。将上述基因的数据输入lasso分析模型,将均方误差随Log(λ)的变化示于图1a。
3)总共获得了9个mRNA特征性标志物分子,分别为ADNP2、APOA1、DCUN1D2、MYO5B、NEDD4L、SSUH2、TET2、TMEM255B、ZNF587。
4)lasso分析为每个标志物分子赋予不同的权重,由此获得了对应的mRNA淋巴结转移风险预测模型(数学式2)。
mRNA淋巴结转移风险评分=(-0.644026×ADNP2)+(0.935351×APOA1)+(0.912359×DCUN1D2)+(-0.452681×MYO5B)+(-0.166583×NEDD4L)+(0.396114×SSUH2)+(-0.185574×TET2)+(0.206386×TMEM255B)+(-0.425483×ZNF587)-1.134543(数学式2)
在如上算式中,每个标志物分子代表该标志物分子在转录组测序中的表达量,1.134543为本预测模型的截取值。
5)通过使用不同的数据集中的已知数据来验证该模型的预测准确率。
具体而言,计算数据集中每个样本的上述风险评分,并且将整个数据集中的样本根据上述风险评分排序,并与该样本已知的转移情况信息进行比对。
结果显示,上述mRNA模型在TCGA训练集(TCGAtrain)的AUC为0.914,在TCGA测试集(TCGAtest)和本中心样本数据(NCC)的AUC分别为0.75和0.74如图1b所示。
说明通过TCGA训练集获得的模型在该数据集中具有很高的预测准确率,而在两个用于检验该模型的效果的数据集中也获得了0.7以上的AUC,说明该模型能够较为准确地对直肠癌转移进行预测。
使用mRNA模型预测风险时,例如可以将风险评分大于-0.068(分类阈值)判定为高风险,小于等于-0.068判定为低风险。
6)将预测模型中的9个标志物分子在TCGA数据集和NCC数据集的N0样本组(Neg,淋巴结转移阴性)以及N1样本组(Pos,淋巴结转移阳性)间的表达差异显示于图1c。
从图中可知,在TCGA数据集中,9个标志物分子在淋巴结转移阴性和阳性的样本中的表达有显著区别,表明了这些标志物分子能够区分这两类患者,验证了模型的合理性。
在NCC数据集中,有少数标志物分子如APOA1在淋巴结转移阴性和阳性的样本中表达区别不显著,这可能是因为NCC数据集本身样本数量较小导致的。尽管如此,NCC数据集中的表达数据还是大体上支持了模型中选取的分子标志物的区分能力。
5.2lncRNA模型特征性标志物分子筛选
对于lncRNA组生物标志物分子,发明人采取了与mRNA相似的数据筛选方法。考虑到TCGA直肠癌转录组数据同时包含mRNA和lncRNA,发明人选用了与mRNA相同的TCGA训练集和TCGA测试集划分方案。
lncRNA组标志物分子的数据筛选方法与mRNA相似。其中,TCGA训练集和TCGA测试集的划分与mRNA完全相同。具体而言,将TCGA直肠癌样本数据按照8:2的比例随机划分为TCGA训练集和TCGA测试集,其中训练集75人,验证集19人。随机种子数为12345678。图2a中展示了参数选择的依据。
1)以与mRNA模型相同的步骤对TCGA训练集进行了随机测序并以相同标准选择lasso分析的输入分子。
2)将上述基因输入lasso分析模型。
3)总共获得3个lncRNA生物标志物分子,即RP11-547D24.1、RP11-67K19.3、RP11-79H23.3,构成一个lncRNA分子panel。
4)lasso分析为每个标志物分子赋予不同的权重,由此获得了对应的lncRNA模型(数学式3)。
lncRNA淋巴结转移风险评分=(0.955920×RP11-547D24.1)+(-1.130643×RP11-67K19.3)+(-0.999909×RP11-79H23.3)-1.244434(数学式3)
5)通过使用不同的数据集中的已知数据来验证该模型的预测准确率。
结果显示,上述lncRNA模型在TCGA训练集的AUC为0.909,在TCGA测试集和本中心数据(NCC)的AUC分别为0.773和0.692,如图2b所示。
结果显示,通过TCGA训练集获得的模型在该数据集中具有很高的预测准确率,而在两个用于检验该模型的效果的数据集中也获得了0.7以上或大约为0.7的AUC,上述lncRNA模型在TCGA训练集的AUC为0.909,在TCGA测试集和NCC数据的AUC分别为0.773和0.692,说明该模型能够较为准确地对直肠癌转移进行预测。
使用lncRNA模型预测风险时,例如可以将风险评分大于-0.466(分类阈值)判定为高风险,小于等于-0.466判定为低风险。
6)将预测模型中的3个标志物分子在TCGA数据集和NCC数据集的N0样本组(Neg,淋巴结转移阴性)以及N1样本组(Pos,淋巴结转移阳性)间的表达差异显示于图2c。
从图中可知,在TCGA数据集和NCC数据集中,3个标志物分子在淋巴结转移阴性和阳性的样本中的表达均有显著区别,表明了这些标志物分子能够区分这两类患者,验证了模型的合理性。
5.3miRNA模型分子筛选
发明人对TCGA直肠癌数据集的miRNA数据采取与上述mRNA和lncRNA同样的特征筛选方法筛选特征性基因,并用本中心数据的miRNA数据进行独立验证时,没有获得稳定且趋势一致的结果。以下,本实施例的miRNA模型参照了非专利文献1的miRNA模型建立方法。
1)采取非专利文献1中记载的miRNA模型建立方法(例如,可参见非专利文献1的图1所述流程),不再区分TCGA训练集及验证集,在TCGA全部晚期直肠癌样本(N=89名)中对1881个miRNA进行了差异基因筛选。在差异基因筛选中,将log2 FC大于0.5且p值小于0.1的基因确定为差异基因,其中FC代表在N0(无转移)和N1(有转移)的局部晚期直肠癌(不伴有远处转移)样本中miRNA表达水平的倍数变化。
2)在进行差异基因筛选后,去除结果中的低表达基因。miRNA在所有样本中的平均表达量应大于2.5,否则认为是低表达,予以去除。去除低表达基因之后,总共获得了6个基因作为lasso分析的输入分子。
3)将这6个基因输入lasso分析模型后,共获得3个miRNA分子(图3a)。所述3个miRNA分子分别为hsa.mir.1248、hsa.mir.1.2、hsa.let.7c。
4)lasso分析为每个标志物分子赋予不同的权重,由此获得了对应的miRNA模型(数学式4)。
miRNA淋巴结转移风险评分=(0.4561749×hsa.mir.1248)+(0.3414271×hsa.mir.1.2)+(0.1887434×hsa.let.7c)-0.6337621(数学式4)
5)通过使用不同的数据集中的已知数据来验证该模型的预测准确率。
结果显示,上述miRNA模型在TCGA数据集和本中心数据集中的AUC分别为0.741和0.692(图3b)。这说明该模型能够较为准确地对直肠癌转移进行预测。
使用miRNA模型预测风险时,例如可以将风险评分大于-0.129(分类阈值)判定为高风险,小于等于-0.129判定为低风险。
6)统计预测模型中的3个标志物分子在TCGA数据集和NCC数据集的N0样本组(Neg,淋巴结转移阴性)以及N1样本组(Pos,淋巴结转移阳性)间的表达差异,示于图3c。
从图中可知,在TCGA数据集和NCC数据集中,3个标志物分子在淋巴结转移阴性和阳性的样本中的表达均有显著区别,表明了这些标志物分子能够区分这两类患者,验证了模型的合理性。
实施例2.联合mRNA、lncRNA、miRNA的多组学预测模型
在本实施例中,发明人联合了和实施例1中获得的mRNA/lncRNA/miRNA三种组学数据,将从实施例1获得的不同数据集的特征性生物标志物分子组合成一个分子组合(panel),获得了如下针对局部晚期直肠癌淋巴结转移风险的多组学预测模型(数学式1)。
淋巴结转移风险评分=(-0.644026×ADNP2)+(0.935351×APOA1)+(0.912359×DCUN1D2)+(-0.452681×MYO5B)+(-0.166583×NEDD4L)+(0.396114×SSUH2)+(-0.185574×TET2)+(0.206386×TMEM255B)+(-0.425483×ZNF587)+(0.955920×RP11-547D24.1)+(-1.130643×RP11-67K19.3)+(-0.999909×RP11-79H23.3)+(0.456175×hsa.mir.1248)+(0.341427×hsa.mir.1.2)+(0.188743×hsa.let.7c)-3.012739(数学式1)
在如上算式中,每个标志物分子代表该标志物分子使用二代测序从被测试样本中获得的表达量,3.012739为通过lasso分析获得的截距值。
2)通过使用不同的数据集中的已知数据来验证上述多组学预测模型的预测能力,并与仅使用mRNA、lncRNA或miRNA这三种模型中单独一种的预测结果进行了比较。
经计算,mRNA模型、lncRNA模型、miRNA模型及多组学预测模型在TCGA数据集和本中心数据集中的AUC如图4b和下表3所示。
表3单RNA模型与组合模型的预测准确度(以AUC表示)比较
TCGA数据集 | 本中心(NCC)数据集 | |
mRNA模型 | 0.882 | 0.74 |
lncRNA模型 | 0.873 | 0.692 |
miRNA模型 | 0.741 | 0.692 |
多组学组合预测模型 | 0.962 | 0.731 |
使用:使用多组学预测模型(数学式1)预测风险时,例如可以将风险评分大于-2.757(分类阈值)判定为高风险,小于等于-2.757判定为低风险。
检验:将多组学预测模型代入本中心局部晚期直肠癌患者数据集(N=20),特异性设为0.5,实际分类的结果示于表4。
表4多组学预测模型的本中心结果(阈值=-5.100)
本中心数据集 | 真实N1 | 真实N0 |
预测N1 | 12 | 4 |
预测N0 | 1 | 4 |
灵敏度(%) | 0.923 | 0.923 |
特异性(%) | 0.5 | 0.5 |
从结果可知,当特异性设为0.5时,多组学预测模型的灵敏度达到0.923。
根据数据量更大的TCGA数据集中的结果,可以看出相较于单种RNA模型,本发明的多组学预测模型对TCGA数据的预测能力明显更高。对于NCC数据集而言,多组学组合预测模型也优于单独的lncRNA模型和单独的miRNA模型。整体上,多组学组合预测模型具有更高的预测准确率。
实施例3简化的多组学预测模型
在上述研究获得的分子生物标志物组合的基础上,发明人通过TaqMan探针实时定量聚合酶链式反应(qPCR)技术定量分析对感兴趣的RNA分子进行了进一步筛选,并获得了仅需利用6种分子标志物的简化预测模型。
具体地,首先将来自TCGA的CRC(Colorectal Cancer,结直肠癌)患者数据按照7:3划分为TCGA训练集及TCGA验证集,进行了转录组差异表达分析,获得具有差异表达的RNA分子。
而后,从所述差异表达的RNA分子中,筛选在N0和N1患者中的表达在TCGA训练集及TCGA验证集中均具有差异的RNA分子。选择其中表达水平差异较大的7个,与实施例1获得的15个特征性生物标志物分子一起,共22个作为感兴趣分子。使用本中心的局部晚期直肠癌患者数据,对22个感兴趣分子进行基于qPCR定量分析的筛选。
基于qPCR定量分析的筛选
本筛选纳入了中国医学科学院肿瘤医院(简称“本中心”或“NCC”)的临床局部晚期直肠癌患者(受试者)50名,其中N0患者25名,N1患者25名。收取位置、方法同实施例1,置于RNAlater(货号AM7020,RNAlaterTM稳定液,ThermoFisher)中保存。
表5
人数 | mRNA | lncRNA | miRNA |
N0(LNM阴性) | 25 | 25 | 25 |
N1(LNM阳性) | 25 | 25 | 25 |
总人数 | 50 | 50 | 50 |
1)分别针对上述22个RNA分子设计特异性引物和探针,使用TaqMan探针法定量测定所述分子在上述术前组织标本中的表达水平。
2)使用Mann-Whitney U检验比较了两组患者中22个RNA分子的表达差异。选择出在N0和N1的结直肠癌患者之间表达具有显著差异(该RNA分子表达水平的差异趋势与其在TCGA数据中的趋势一致、且p值小于0.1)的RNA分子,获得了6个RNA分子:
mRNA:CXCL2和ZNF587;
lncRNA:RP11-547D24.1和AC079922.3;
miRNA:hsa.mir.1和hsa.let.7c。
3)通过logistic回归分析,以LNM的有无作为因变量,以上述6个RNA分子作为自变量,建立了预测结直肠癌LNM阳性风险的模型(数学式5)
风险评分=(0.4428×CXCL2)+(-0.6506×ZNF587)+(-0.2310×RP11-547D24.1)+(-0.0200×AC079922.3)+(0.0290×hsa.mir.1)+(-0.5416×hsa.let.7c)+3.7278(数学式5)
4)验证。计算数学式5在本中心50名患者数据集中的AUC。所述AUC为0.78,其中95%置信区间为0.70-0.85,将所述ROC曲线示于图5。
使用简化模型(数学式5)预测风险时,例如可以将风险评分大于0.582(分类阈值)判定为高风险,小于等于0.582判定为低风险。
从结果可知,横向比较,简化预测模型在本中心样本中的预测能力(AUC 0.78)优于mRNA模型(AUC 0.74),lncRNA模型(AUC 0.692)和miRNA模型(AUC 0.692)。
本发明的简化预测模型所需要检测的特征分子数量少,仅需检测6个RNA分子。本发明的简化模型优势在于采用不同种类RNA分子克服了RNA分子偏向性的同时,保证更少的检测项目,减轻了检验工作量,同时也减轻患者可能负担的检测费用,经济上具有优势。
比较例1
在本比较例中,在TCGA数据集的局部晚期直肠癌中计算了非专利文献1的模型的分类能力。根据文献,该模型为:
Logit(P)=(-4.065*MIR32)+(2.323*MIR181b)+(8.355*MIR193b)+(0.733*MIR195)+(-0.583*MIR411)+0.889
经计算,在TCGA数据集的局部晚期直肠癌中,所述模型的AUC为0.529。非专利文献1中记载将该模型LNM风险评分的临界(cutoff)值定为0.06。
结果显示,现有文献的针对T1期LNM阳性风险的预测模型在晚期直肠癌群体中的预测效能并不理想。AUC趋近于0.5,意味着分类性极差,模型趋于随机预测,无应用价值。
本发明的预测模型数学式1-5的AUC均高于非专利文献1的T1期模型,可知本发明的预测模型对局部晚期直肠癌患者的预测性能均优于该早期模型。
以上结合了优选的实施方式对本申请进行了说明,不过这些实施方式仅是范例性的,仅起到说明性的作用。在此基础上,可以对本申请进行多种替换和改进,这些均落入本申请的保护范围内。
Claims (8)
1.一种用于测定多种RNA分子标志物的表达水平的试剂在制备诊断产品中的用途,所述诊断产品用于在患有局部晚期直肠癌的受试者中预测淋巴结转移风险,所述多种RNA分子标志物选自如下第1组RNA分子标志物、第2组RNA分子标志物和第3组RNA分子标志物中的至少两组,
其中所述第1组RNA分子标志物选自如下一种或多种mRNA:ADNP2、APOA1、DCUN1D2、MYO5B、NEDD4L、SSUH2、TET2、TMEM255B和ZNF587;
第2组RNA分子标志物选自如下一种或多种lncRNA:RP11-547D24.1、RP11-67K19.3和RP11-79H23.3;且
第3组RNA分子标志物选自如下一种或多种miRNA:hsa.mir.1248、hsa.mir.1.2和hsa.let.7c。
2.权利要求1所述的用途,其中所述多种RNA分子标志物选自所述第1组RNA分子标志物、所述第2组RNA分子标志物和所述第3组RNA分子标志物中的全部三种。
3.权利要求1或2所述的用途,其中所述第1组RNA分子标志物由ADNP2、APOA1、DCUN1D2、MYO5B、NEDD4L、SSUH2、TET2、TMEM255B和ZNF587组成。
4.权利要求1-3中任一项所述的用途,其中所述第2组RNA分子标志物由RP11-547D24.1、RP11-67K19.3和RP11-79H23.3组成。
5.权利要求1-4中任一项所述的用途,其中所述第3组RNA分子标志物由hsa.mir.1248、hsa.mir.1.2和hsa.let.7c组成。
6.权利要求1-5中任一项所述的用途,其中所述多种RNA分子标志物包含:ADNP2、APOA1、DCUN1D2、MYO5B、NEDD4L、SSUH2、TET2、TMEM255B、ZNF587、RP11-547D24.1、RP11-67K19.3、RP11-79H23.3、hsa.mir.1248、hsa.mir.1.2和hsa.let.7c。
7.权利要求1-6中任一项所述的用途,其中所述用于测定多种RNA分子标志物的表达水平的试剂选自:用于进行转录组测序的试剂、特异性针对所述RNA分子标志物的引物和探针。
8.权利要求1-7中任一项所述的用途,所述表达水平是所述受试者的血液样品中所述RNA分子标志物的表达水平。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2023107450361 | 2023-06-21 | ||
CN202310745036 | 2023-06-21 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118652978A true CN118652978A (zh) | 2024-09-17 |
Family
ID=92701547
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410787390.5A Pending CN118652978A (zh) | 2023-06-21 | 2024-06-18 | 用于在局部晚期直肠癌中预测淋巴结转移的分子标志物组合 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118652978A (zh) |
-
2024
- 2024-06-18 CN CN202410787390.5A patent/CN118652978A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yokoi et al. | A combination of circulating miRNAs for the early detection of ovarian cancer | |
Chang et al. | MicroRNA-223 and microRNA-92a in stool and plasma samples act as complementary biomarkers to increase colorectal cancer detection | |
JP6203209B2 (ja) | 早期結腸直腸癌の検出のための血漿マイクロrna | |
CN107532208B (zh) | 用于测定子宫内膜癌预后的组合物和方法 | |
ES2829415T3 (es) | Algoritmo de perfil de expresión génica para calcular una puntuación de recurrencia para un paciente con cáncer de riñón | |
CN104140967A (zh) | 与结直肠癌肝转移相关的长链非编码rna clmat1及其应用 | |
CN111139300B (zh) | 一组结肠癌预后相关基因的应用 | |
KR20140125239A (ko) | 조기 유방암 예후 예측 진단용 유전자 마커 및 이의 용도 | |
CN113444804B (zh) | 宫颈癌预后相关基因及其在制备宫颈癌预后预测诊断产品中的应用 | |
CN109337978B (zh) | miRNA在制备高级浆液性上皮性卵巢癌化疗耐药性评价试剂盒中的应用 | |
JP2021506326A (ja) | Pde4d7発現及び術前臨床変数に基づく術前リスクの層別化 | |
JP2023524016A (ja) | 結腸細胞増殖性障害を特定するためのrnaマーカと方法 | |
JP2022524382A (ja) | 前立腺がんを予測するための方法およびその使用 | |
CN102325902A (zh) | 对包括结肠直肠癌细胞的样品进行分型的方法和装置 | |
Chen et al. | MicroRNA-based signature for diagnosis and prognosis of colorectal cancer using residuum of fecal immunochemical test | |
CN111763740B (zh) | 基于lncRNA分子模型预测食管鳞癌患者新辅助放化疗的疗效和预后的系统 | |
JP2020500527A (ja) | ヒトホスホジエステラーゼ4dバリアント7の発現に基づくリスクスコア | |
JP2022541169A (ja) | 結腸直腸癌および/またはその前癌段階の診断またはスクリーニングのための非侵襲的方法 | |
US11732305B2 (en) | Method and kit for diagnosing early stage pancreatic cancer | |
JP2022512634A (ja) | Pde4d7及びdhx9発現に基づく術前のリスク層別化 | |
WO2019245587A1 (en) | Methods and compositions for the analysis of cancer biomarkers | |
CN118043484A (zh) | 用于乳腺癌早期检测的循环微rna组及其方法 | |
CN114457160A (zh) | miRNA分子作为早期肺癌检测标志物的应用 | |
CN118652978A (zh) | 用于在局部晚期直肠癌中预测淋巴结转移的分子标志物组合 | |
Chen et al. | Fecal miRNAs as potential biomarkers for early detection of colorectal cancer: An updated review |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination |