CN112626218A - 一种用于预测胰腺癌转移风险的基因表达分类器、体外诊断试剂盒 - Google Patents
一种用于预测胰腺癌转移风险的基因表达分类器、体外诊断试剂盒 Download PDFInfo
- Publication number
- CN112626218A CN112626218A CN202110020856.5A CN202110020856A CN112626218A CN 112626218 A CN112626218 A CN 112626218A CN 202110020856 A CN202110020856 A CN 202110020856A CN 112626218 A CN112626218 A CN 112626218A
- Authority
- CN
- China
- Prior art keywords
- gene expression
- gene
- risk
- metastasis
- pancreatic cancer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000014509 gene expression Effects 0.000 title claims abstract description 95
- 206010027476 Metastases Diseases 0.000 title claims abstract description 68
- 230000009401 metastasis Effects 0.000 title claims abstract description 68
- 206010061902 Pancreatic neoplasm Diseases 0.000 title claims abstract description 64
- 208000015486 malignant pancreatic neoplasm Diseases 0.000 title claims abstract description 64
- 201000002528 pancreatic cancer Diseases 0.000 title claims abstract description 64
- 208000008443 pancreatic carcinoma Diseases 0.000 title claims abstract description 64
- 238000000338 in vitro Methods 0.000 title claims abstract description 9
- 238000003745 diagnosis Methods 0.000 title abstract description 12
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 67
- 101150096316 5 gene Proteins 0.000 claims abstract description 27
- 102100029641 E3 ubiquitin-protein ligase DTX4 Human genes 0.000 claims abstract description 15
- 102000049982 HMGA2 Human genes 0.000 claims abstract description 15
- 108700039143 HMGA2 Proteins 0.000 claims abstract description 15
- 101150073387 Hmga2 gene Proteins 0.000 claims abstract description 15
- 101000865806 Homo sapiens E3 ubiquitin-protein ligase DTX4 Proteins 0.000 claims abstract description 15
- 101000694030 Homo sapiens Periplakin Proteins 0.000 claims abstract description 15
- 101001120469 Legionella pneumophila Peptidoglycan-associated lipoprotein Proteins 0.000 claims abstract description 15
- 102100024153 Cadherin-15 Human genes 0.000 claims abstract description 13
- 101000762242 Homo sapiens Cadherin-15 Proteins 0.000 claims abstract description 13
- 101000714553 Homo sapiens Cadherin-3 Proteins 0.000 claims abstract description 13
- 102100027184 Periplakin Human genes 0.000 claims abstract description 13
- 230000001394 metastastic effect Effects 0.000 claims abstract description 12
- 206010061289 metastatic neoplasm Diseases 0.000 claims abstract description 12
- 102100031970 Alpha-N-acetylgalactosaminide alpha-2,6-sialyltransferase 2 Human genes 0.000 claims abstract description 9
- 101000703723 Homo sapiens Alpha-N-acetylgalactosaminide alpha-2,6-sialyltransferase 2 Proteins 0.000 claims abstract description 9
- 238000012549 training Methods 0.000 claims description 22
- 238000012795 verification Methods 0.000 claims description 13
- 238000000034 method Methods 0.000 claims description 11
- 239000003153 chemical reaction reagent Substances 0.000 claims description 9
- 238000012216 screening Methods 0.000 claims description 9
- 206010052747 Adenocarcinoma pancreas Diseases 0.000 claims description 7
- 201000002094 pancreatic adenocarcinoma Diseases 0.000 claims description 7
- 238000013106 supervised machine learning method Methods 0.000 claims description 6
- 208000007433 Lymphatic Metastasis Diseases 0.000 claims description 5
- 238000001514 detection method Methods 0.000 claims description 5
- 238000009007 Diagnostic Kit Methods 0.000 claims description 4
- 230000002596 correlated effect Effects 0.000 claims description 3
- 210000004027 cell Anatomy 0.000 claims description 2
- 238000007477 logistic regression Methods 0.000 claims description 2
- 238000003757 reverse transcription PCR Methods 0.000 claims description 2
- 206010028980 Neoplasm Diseases 0.000 abstract description 17
- 239000003814 drug Substances 0.000 abstract description 6
- 238000011160 research Methods 0.000 abstract description 6
- 230000003449 preventive effect Effects 0.000 abstract description 3
- 229940079593 drug Drugs 0.000 abstract description 2
- 238000010837 poor prognosis Methods 0.000 abstract description 2
- 238000004458 analytical method Methods 0.000 description 16
- 201000011510 cancer Diseases 0.000 description 11
- 238000012546 transfer Methods 0.000 description 10
- 238000004393 prognosis Methods 0.000 description 9
- 238000010200 validation analysis Methods 0.000 description 8
- 238000010276 construction Methods 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 6
- 230000004083 survival effect Effects 0.000 description 5
- 238000012163 sequencing technique Methods 0.000 description 4
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 3
- 238000009098 adjuvant therapy Methods 0.000 description 3
- 239000000090 biomarker Substances 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 201000005202 lung cancer Diseases 0.000 description 3
- 208000020816 lung neoplasm Diseases 0.000 description 3
- 208000002154 non-small cell lung carcinoma Diseases 0.000 description 3
- 230000000683 nonmetastatic effect Effects 0.000 description 3
- 230000001105 regulatory effect Effects 0.000 description 3
- 208000029729 tumor suppressor gene on chromosome 11 Diseases 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 230000036210 malignancy Effects 0.000 description 2
- 230000003211 malignant effect Effects 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 230000001575 pathological effect Effects 0.000 description 2
- 238000002271 resection Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 102000009012 HMGA Proteins Human genes 0.000 description 1
- 108010049069 HMGA Proteins Proteins 0.000 description 1
- 210000000577 adipose tissue Anatomy 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000003766 bioinformatics method Methods 0.000 description 1
- 230000004791 biological behavior Effects 0.000 description 1
- 230000009702 cancer cell proliferation Effects 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000003828 downregulation Effects 0.000 description 1
- 238000013399 early diagnosis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 210000000981 epithelium Anatomy 0.000 description 1
- 210000001035 gastrointestinal tract Anatomy 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 210000004907 gland Anatomy 0.000 description 1
- 230000011132 hemopoiesis Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000009545 invasion Effects 0.000 description 1
- 201000010985 invasive ductal carcinoma Diseases 0.000 description 1
- 210000004185 liver Anatomy 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 210000001165 lymph node Anatomy 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 108020004999 messenger RNA Proteins 0.000 description 1
- 239000003147 molecular marker Substances 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 231100000590 oncogenic Toxicity 0.000 description 1
- 230000002246 oncogenic effect Effects 0.000 description 1
- 230000002018 overexpression Effects 0.000 description 1
- 210000000496 pancreas Anatomy 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 210000003240 portal vein Anatomy 0.000 description 1
- 230000002980 postoperative effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000031877 prophase Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000019491 signal transduction Effects 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000007473 univariate analysis Methods 0.000 description 1
- 230000003827 upregulation Effects 0.000 description 1
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
- C12Q1/6886—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/118—Prognosis of disease development
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/158—Expression markers
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Engineering & Computer Science (AREA)
- Organic Chemistry (AREA)
- Physics & Mathematics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Wood Science & Technology (AREA)
- Zoology (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Genetics & Genomics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Pathology (AREA)
- Biotechnology (AREA)
- Immunology (AREA)
- Databases & Information Systems (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Hospice & Palliative Care (AREA)
- Evolutionary Biology (AREA)
- Oncology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Software Systems (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Microbiology (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioethics (AREA)
- Artificial Intelligence (AREA)
- Biochemistry (AREA)
- General Engineering & Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种用于预测胰腺癌转移风险的基因表达分类器、体外诊断试剂盒。所述基因表达分类器为5‑基因表达分类器,5个基因分别为HMGA2、PPL、DTX4、CDH3和ST6GALNAC2。本发明基因表达分类器能作为一种有效的预后诊断手段将胰腺癌中具有不良预后的转移患者分离出来,能预测胰腺癌患者的转移风险,研究成果可对术后仍有转移风险患者进行检测从而预防性用药,对肿瘤复发转移病人进行靶向药物治疗。
Description
技术领域
本发明涉及生物医学检测技术领域,特别是涉及一种用于预测胰腺癌转移风险的基因表达分类器、体外诊断试剂盒。
背景技术
胰腺癌是一种恶性程度很高,极易转移的消化道恶性肿瘤,90%起源于腺管上皮的导管腺癌。其发病率和死亡率近年来明显上升,是预后最差的恶性肿瘤之一。胰腺癌早期的确诊率不高,手术死亡率较高,治愈率很低。胰腺癌极具侵袭性且被确诊时已存在高转移风险,因此,研究胰腺癌转移发生、发展及其机制就有重要的价值。胰腺癌恶性生物学行为的一个重要特点就是具有明显的侵袭和转移性,在胰腺癌早期就可以发生胰外播散,浸润至局部淋巴结、肠系膜血管、门静脉、胰周脏器和脂肪组织以及腹膜后神经丛等,或通过血行性转移至肺、肝等远处器官,导致3/4以上的胰腺癌患者就诊时丧失了根治性手术治疗的机会,使胰腺癌有较高的死亡率,5年生存率低于5%。现如今,癌症已经成为人类生命安全的最大威胁因素,造成了全球每年大概有700多万人因恶性肿瘤而死亡的局面。其中,胰腺恶性肿瘤是当今最难诊断,最难治疗的恶性肿瘤之一,因此,早期发现、早期干预胰腺恶性肿瘤非常重要。
目前,在世界各地的许多实验室都在探寻利用基因生物标志物更早确诊胰腺癌,并提供预后信息。随着组学技术的高速发展,以基因组学,转录组学,蛋白质组学,代谢组学为主的多组学技术结合生物信息学方法被用来探索肿瘤甚至转移的生物标志物。同时,计算机处理能力的提升和相关医疗数据的发展促使AI被普遍应用于医疗,卫生和健康领域,而机器学习作为人工智能领域中最能体现智能的一个分支,其针对智能医疗领域的研究,尤其是辅助疾病诊断领域的研究工作在不断加深,医生逐渐开始将机器学习的手段应用于辅助癌症的诊断。应用范围主要包括癌症的前期诊断、癌症预后和复发的判断。研究表明,机器学习方法在辅助诊断方面的应用已使癌症诊断与预测的准确率相比于过去的几年,提高了15%-20%。
公开号为CN107292127A的发明专利申请公开了一种预测肺癌病人预后的基因表达分类器的构建方法,包括:数据训练阶段和验证阶段,所述训练阶段包括第一阶段和第二阶段,所述第一阶段使用有监督的机器学习方法建立能预测肺癌病人预后的基因表达分类器雏形,所述第二阶段进一步使用机器学习的方法获得预测肺癌病人预后的基因表达分类器。本发明运用了有监督的机器学习方法获得了一种基因表达分类器,可以精准地预测非小细胞肺癌病人的预后。该基因表达分类器具有非常强的临床转化价值。通过进行基因群组(panel)的基因表达检测,高风险的基因风险评分的非小细胞肺癌病人应该接受辅助治疗,而低风险的基因风险评分的非小细胞肺癌病人应该接受低剂量或免于辅助治疗。
然而,现有技术中还缺少预测患者胰腺癌转移风险的基因表达分类器。
发明内容
本发明针对现有技术中存在的上述问题,从TCGA公共数据库内胰腺癌患者的转录组测序数据及其临床预后信息出发,运用监督机器学习方法,从整个转录组中获得一种5-基因表达分类器,准确预测胰腺癌患者转移风险的情况。
本发明首先提供了一种用于预测胰腺癌转移风险的基因表达分类器,为5-基因表达分类器,5个基因分别为HMGA2、PPL、DTX4、CDH3和ST6GALNAC2。
其中,所述的基因表达分类器,HMGA2、PPL、DTX4、CDH3和ST6GALNAC2的权重系数分别为:0.2056、0.1985、0.1366、0.1209和0.0688。
本发明又提供了一种基因表达分类器的构建方法,所述基因表达分类器用于预测胰腺癌转移风险,所述构建方法包括:
(1)使用TCGA数据库中胰腺腺癌患者的基因表达信息和临床信息,以及GEO数据库中关于转移的胰腺癌细胞株的数据集,采用有监督的机器学习方法来筛选与转移风险高度相关的基因;
(2)筛选R0切除后发生转移和未发生转移的患者作为转移组和非转移组,获得训练集;
(3)在训练集中,数据输入中胰腺癌转移组赋值1,胰腺癌非转移组赋值0,根据风险评分公式如下:
使用LASSO算法筛选最佳的基因类别和数目,并通过logistic回归建立所述基因表达分类器。
所述的构建方法,还包括:筛选TNM分期中T3期时发生淋巴结转移和未发生淋巴结转移的患者作为转移组和非转移组,获得验证集;在验证集上验证构建的基因表达分类器的准确性。为了排除原发灶肿瘤大小不一致导致转移程度不同的问题,我们设置了统一的起点,筛选TNM分期中T3期时发生淋巴结转移和未发生淋巴结转移的患者作为转移性胰腺癌患者组和非转移性胰腺癌患者组。
使用基因表达分类器计算用于验证的患者的风险系数,预测其转移风险,通过比较真实转移情况和预测转移风险的一致性,验证所述基因表达分类器的性能。
使用GEO数据库内的胰腺癌患者的基因表达芯片数据集验证以上所获得基因表达分类器;在一个独立的数据集中,那些分数值高于最佳截断值的病人被划为高风险组,而其余为低风险组;KM分析用来比较高风险组和低风险组的生存曲线;时序检验p值<0.05表示有统计学差异。
对训练数据和验证数据,通过单因素和多因素的Cox比例风险回归模型计算相关临床指标的p值,按照p值从小到大对临床指标重新排序,排在越前面的临床指标,Cox回归p值越小,与预后的相关性越大。
本发明还提供了一种用于预测胰腺癌转移风险的体外诊断试剂盒,包括分别用于检测HMGA2、PPL、DTX4、CDH3和ST6GALNAC2这5个基因表达量的检测试剂。
本发明还提供了检测基因标签组表达量的试剂在制备用于预测胰腺癌转移风险的体外诊断试剂盒中的应用,基因标签组包括HMGA2、PPL、DTX4、CDH3和ST6GALNAC2。优选的,HMGA2、PPL、DTX4、CDH3和ST6GALNAC2的权重系数分别为:0.2056、0.1985、0.1366、0.1209和0.0688;其中Coefi是各基因的权重系数,xi是各基因的表达量,n是基因表达分类器中基因的数量;风险评分越高,则胰腺癌转移风险越高。
检测基因标签组表达量的试剂包括用RT-PCR方法检测基因标签组中各基因表达量的试剂。当然,也可以通过其他任何能够用于检测基因表达量的方法和试剂和进行检测。
本发明提供一种基因表达分类器,能作为一种有效的预后诊断手段将胰腺癌中具有不良预后的转移患者分离出来。
发明运用有监督的机器学习的方法建立了一种基因表达分类器来精准预测胰腺癌患者转移的风险。该基因表达分类器具有以下几种明显的优点:能预测胰腺癌患者的转移风险。研究成果可对术后仍有转移风险患者进行检测从而预防性用药,对肿瘤复发转移病人进行靶向药物治疗。
另一方面,本发明是基于机器学习来预测胰腺癌转移患者风险的基因表达分类器的构建方法,通过LASSO回归可以筛选出对胰腺癌转移影响较大的属性,采用Logistic构建胰腺癌转移风险预测方法,能达到相比于其他预测方法更好的预测效果。
附图说明
图1是本发明预测胰腺癌转移风险的5-基因表达分类器方法流程图。
图2是训练集(A)和验证集(B)的分类器的ROC示意图。
图3是在训练集(A)和验证集(B)中,TCGA胰腺腺癌患者的高5-基因风险评分和低5-基因风险评分患者的KM分析图。
图4是对5-基因风险评分和临床指标的单变量和多变量COX分析的森林图。对训练集和验证集合的5-基因风险评分、年龄、性别、组织学分级和TNM分期(如果有)进行单变量和多变量COX分析。横线上的绿色方格表示危险比(HR),红色横线表示95%CI。风险评分和年龄是连续变量,性别、组织学分级和TNM分期是不连续变量。图4A是训练集的单变量COX分析,分析的指标分别是5-基因风险评分、年龄、性别、组织学分级和TNM分期;图4B是训练集的多变量COX分析;图4C和D分别是验证集的单变量和多变量COX分析。
具体实施方式
实施例1
图1是本发明预测胰腺癌转移风险的5-基因表达分类器方法流程图。
1、研究材料和方法
1.1、TCGA(The Cancer Genome Altas)和GEO(Gene ExpressionOmnibus)数据集的下载
1.2、转移差异基因筛选
在GEO、TCGA数据库下载基因芯片数据和胰腺癌患者测序数据后,芯片数据通过R软件3.6.2(https://www.r-project.org/)的“limma”软件包,测序数据通过R软件3.6.2(https://www.r-project.org/)的“Deseq”软件包,筛选了不同组别之间差异表达的mRNA。|log2FC|>1和P<0.05设置为截止标准。提取以上调和下调为特征的GEO和TCGA等测序数据集的配对样本中的重叠DEG。
1.3、基因表达分类器的构建
基因表达分类器的构建方法分为训练和验证两个阶段。
1.3.1、训练阶段
分组:TCGA的胰腺腺癌(PAAD)患者的基因表达数据和临床数据被用来进行第一阶段的特征降维。为了排除因手术没切干净而导致转移程度不同的问题,我们筛选R0切除后发生转移和未发生转移的患者作为转移组和非转移组,满足条件的胰腺腺癌病人共96位,作为训练集。在验证集筛选中,同样我们为了排除原发灶肿瘤大小不一致导致转移程度不同的问题,我们设置了统一的起点,筛选TNM分期中T3期(原发灶都是一样大小的肿瘤)时发生淋巴结转移和未发生淋巴结转移的患者作为转移组和非转移组。
在训练集中,数据输入中胰腺癌转移组赋值1,胰腺癌非转移组赋值0,应用最小绝对收缩选择算子(LASSO)回归算法。以最低标准选择特征基因来构建风险特征,模型给定筛选后的特征基因及其系数,根据风险评分公式如下:
其中是Coefi系数,xi是每个特征选定基因的表达量。
计算TGGA训练集中每个样本的风险得分,并根据最佳截断值分为低风险组和高风险组。计算模型的AUC值为0.781(图2A)。同时KM分析用来比较高低风险组的生存曲线,高风险组和低风险组之间的OS有显着差异(图3A)。
1.3.2、验证阶段
在验证集上,我们对每位患者计算风险评分,计算模型AUC为0.821(图2B)。同时高风险组和低风险组之间的OS也有显着差异(图3B)。验证是否风险评分高的组更倾向于定义的转移组从而验证预测胰腺癌转移模型的准确性,对训练集和验证集应用风险评分进行热图分析,并将两组的病理等级,是否转移等临床因素考虑进来。这些分析可以评估我们选择的基因和构建的风险模型是否有良好的预测价值。
2、研究结果
2.1、胰腺癌转移风险模型的建立
在转移差异基因筛选阶段,将TCGA胰腺腺癌患者基因表达数据与数据集GSE21654、GSE23952的差异基因取交集,得到32个差异基因,分别是14个上调差异基因和18个下调差异基因(表1和表2)。
为了建立更加简洁有效的分类器,进一步通过最小绝对收缩和选择算子(LASSO)回归算法对上述32个基因筛选,根据最低标准获得了5-基因表达分类器模型。5个基因分别是HMGA2,PPL,DTX4,CDH3,ST6GALNAC2。每个基因的系数如表3。每个病人可计算出相应的5-基因表达风险评分值。KM生存分析的结果发现,在TCGA的训练集和验证集中,低5-基因表达风险评分的生存时间明显比高5-基因表达风险评分的生存时间长。
表1是14个上调差异基因的差异倍数和PValue。
表2是18个上调差异基因的差异倍数和PValue。
表3是最终5-基因表达分类器模型中的基因及其系数
2.2、5-基因表达分类器诊断预测效能验证
为了验证5-基因表达分类器的好坏,作ROC曲线图,根据AUC值的大小来评估模型,训练集和验证集的AUC值分别为0.781和0.821,结果证明了利用5个基因构建的胰腺癌转移风险的模型是一个很好的分类器。对训练集和验证集应用风险评分进行热图分析,结果显示TCGA数据集中高风险组里,筛选出的特征基因是高表达的。两组的病理等级(P<0.05),性别(P<0.05),是否转移(P<0.01)这些因素的有显著意义。这些分析表明我们选择的基因和构建的风险模型有良好的预测价值。
2.3、5-基因表达分类器是胰腺癌独立的预后指标
为了独立于临床病理特征来验证五个特征基因的预后价值,我们进行了COX单变量和多变量分析,其中包括风险评分,年龄,性别,组织学分级和TNM分期。通过COX分析发现这些因素均是危险因素,风险比都大于1,在单变量分析中,发现无论是训练集还是验证集中只有5-基因表达分类器的p值小于0.05(图4A、B),多变量COX分析也显示即使在每个数据集中考虑了其他临床因素后,5-基因表达分类器确实与OS显著相关(图4C、D)。这些发现表明,从EMT相关基因获得的5-基因表达分类器是胰腺癌患者的独立预后指标。
3、讨论
本发明为了准确预测胰腺癌患者的转移风险,通过监督学习的机器学习算法确定了5个EMT相关差异基因来预测胰腺癌转移的情况,且这五个特征基因得出的风险评分也是独立的预后风险指标。
本发明开发的5-基因分类器可以将TCGA病人的高转移风险组和低转移风险组有效区分开,说明该5-基因表达分类器可以开发成为一种体外诊断产品,研究成果可对术后仍有转移风险患者进行检测从而预防性用药,对肿瘤复发转移病人进行靶向药物治疗。
本发明构建的5-基因表达分类器提供了一种新型的评分系统,其中基因的表达值是相对表达量。5-基因分别是HMGA2,PPL,DTX4,CDH3,ST6GALNAC2,其中HMGA2具有最高的系数值,表明该基因的重要性可能与肿瘤的转移有关。据报道,HMGA2与致癌RAS/MEK信号通路相关,是维持胰腺癌细胞增殖和间充质状态所必需的,且HMGA蛋白的过表达与癌症的进展和转移有关,可以作为诊断分子标记。对于PPL,DTX4,T6GALNAC2这三个生物标记物,先前研究没有提到它们是胰腺癌转移相关的基因。所以这是我们首次发现PPL,DTX4,T6GALNAC2与胰腺癌转移有密切联系。
本发明不仅证明了基于5-基因表达分类器的风险评分模型预测胰腺癌转移的有效性,还证实了与其他已知的特征相比,它是胰腺癌患者OS预后的独立有效因素。与其他的预测模型相比,我们的模型是从更全面的数据库中获得的,更具有普遍性,且基因数量较少。
综上所述,本发明构建了一种5-基因表达分类器系统可准确预测胰腺癌病人的转移风险,并可为胰腺癌患者术后辅助治疗的选择提供精准判断依据。
Claims (9)
1.一种用于预测胰腺癌转移风险的基因表达分类器,其特征在于,为5-基因表达分类器,5个基因分别为HMGA2、PPL、DTX4、CDH3和ST6GALNAC2。
2.根据权利要求1所述的基因表达分类器,其特征在于,HMGA2、PPL、DTX4、CDH3和ST6GALNAC2的权重系数分别为:0.2056、0.1985、0.1366、0.1209和0.0688。
4.一种基因表达分类器的构建方法,所述基因表达分类器用于预测胰腺癌转移风险,其特征在于,所述构建方法包括
(1)使用TCGA数据库中胰腺腺癌患者的基因表达信息和临床信息,以及GEO数据库中关于转移的胰腺癌细胞株的数据集,采用有监督的机器学习方法来筛选与转移风险高度相关的基因;
(2)筛选R0切除后发生转移和未发生转移的患者作为转移组和非转移组,获得训练集;
(3)在训练集中,数据输入中胰腺癌转移组赋值1,胰腺癌非转移组赋值0,根据风险评分公式如下:
使用LASSO算法筛选最佳的基因类别和数目,并通过logistic回归建立所述基因表达分类器。
5.根据权利要求4所述的构建方法,其特征在于,还包括:筛选TNM分期中T3期时发生淋巴结转移和未发生淋巴结转移的患者作为转移组和非转移组,获得验证集;在验证集上验证构建的基因表达分类器的准确性。
6.一种用于预测胰腺癌转移风险的体外诊断试剂盒,其特征在于,包括分别用于检测HMGA2、PPL、DTX4、CDH3和ST6GALNAC2这5个基因表达量的检测试剂。
7.检测基因标签组表达量的试剂在制备用于预测胰腺癌转移风险的体外诊断试剂盒中的应用,其特征在于,基因标签组包括HMGA2、PPL、DTX4、CDH3和ST6GALNAC2。
9.根据权利要求7所述的应用,其特征在于,检测基因标签组表达量的试剂包括用RT-PCR方法检测基因标签组中各基因表达量的试剂。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110020856.5A CN112626218A (zh) | 2021-01-07 | 2021-01-07 | 一种用于预测胰腺癌转移风险的基因表达分类器、体外诊断试剂盒 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110020856.5A CN112626218A (zh) | 2021-01-07 | 2021-01-07 | 一种用于预测胰腺癌转移风险的基因表达分类器、体外诊断试剂盒 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112626218A true CN112626218A (zh) | 2021-04-09 |
Family
ID=75291085
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110020856.5A Pending CN112626218A (zh) | 2021-01-07 | 2021-01-07 | 一种用于预测胰腺癌转移风险的基因表达分类器、体外诊断试剂盒 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112626218A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113430267A (zh) * | 2021-06-29 | 2021-09-24 | 复旦大学附属中山医院 | 一种化疗相关基因表达特征在预测胰腺癌预后中的应用 |
CN114317757A (zh) * | 2022-01-10 | 2022-04-12 | 广东省人民医院 | 用于预测胰腺癌预后的评估基因集、试剂盒、应用及系统 |
CN115527614A (zh) * | 2022-04-12 | 2022-12-27 | 洛兮医疗科技(杭州)有限公司 | 肺动脉高压患者基因表达分类器 |
WO2023143326A1 (zh) * | 2022-01-28 | 2023-08-03 | 臻智达生物技术(上海)有限公司 | 用于预测胰腺癌发生风险的生物标志物、方法和诊断设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110145176A1 (en) * | 2008-05-30 | 2011-06-16 | Perou Charles M | Gene expression profiles to predict breast cancer outcomes |
CN107292127A (zh) * | 2017-06-08 | 2017-10-24 | 南京高新生物医药公共服务平台有限公司 | 预测肺癌病人预后的基因表达分类器及其构建方法 |
CN107463798A (zh) * | 2017-08-02 | 2017-12-12 | 南京高新生物医药公共服务平台有限公司 | 预测结肠腺癌预后的12‑基因表达分类器及其构建方法 |
-
2021
- 2021-01-07 CN CN202110020856.5A patent/CN112626218A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110145176A1 (en) * | 2008-05-30 | 2011-06-16 | Perou Charles M | Gene expression profiles to predict breast cancer outcomes |
CN107292127A (zh) * | 2017-06-08 | 2017-10-24 | 南京高新生物医药公共服务平台有限公司 | 预测肺癌病人预后的基因表达分类器及其构建方法 |
CN107463798A (zh) * | 2017-08-02 | 2017-12-12 | 南京高新生物医药公共服务平台有限公司 | 预测结肠腺癌预后的12‑基因表达分类器及其构建方法 |
Non-Patent Citations (3)
Title |
---|
SALVATORE PISCUOGLIO 等: "HMGA1 and HMGA2 protein expression correlates with advanced tumour grade and lymphnode metastasis in pancreatic adenocarcinoma", 《ISTOPATHOLOGY》 * |
WENHUA LIANG等: "Development and Validation of a Clinical Risk Score to Predict the Occurrence of Critical Illness in Hospitalized Patients With COVID-19", 《JAMA INTERNAL MEDICINE 》 * |
ZEFANG TANG等: "GEPIA: a web server for cancer and normal gene expression profiling and interactive analyses", 《NUCLEIC ACIDS RESEARCH》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113430267A (zh) * | 2021-06-29 | 2021-09-24 | 复旦大学附属中山医院 | 一种化疗相关基因表达特征在预测胰腺癌预后中的应用 |
CN113430267B (zh) * | 2021-06-29 | 2023-03-10 | 复旦大学附属中山医院 | 一种化疗相关基因表达特征在预测胰腺癌预后中的应用 |
CN114317757A (zh) * | 2022-01-10 | 2022-04-12 | 广东省人民医院 | 用于预测胰腺癌预后的评估基因集、试剂盒、应用及系统 |
CN114317757B (zh) * | 2022-01-10 | 2024-02-23 | 广东省人民医院 | 用于预测胰腺癌预后的评估基因集、试剂盒、应用及系统 |
WO2023143326A1 (zh) * | 2022-01-28 | 2023-08-03 | 臻智达生物技术(上海)有限公司 | 用于预测胰腺癌发生风险的生物标志物、方法和诊断设备 |
CN115527614A (zh) * | 2022-04-12 | 2022-12-27 | 洛兮医疗科技(杭州)有限公司 | 肺动脉高压患者基因表达分类器 |
CN115527614B (zh) * | 2022-04-12 | 2023-12-26 | 陈恩国 | 一种肺动脉高压的基因表达分类器 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112626218A (zh) | 一种用于预测胰腺癌转移风险的基因表达分类器、体外诊断试剂盒 | |
Milanez-Almeida et al. | Cancer prognosis with shallow tumor RNA sequencing | |
Connell et al. | A four‐group urine risk classifier for predicting outcomes in patients with prostate cancer | |
Wang et al. | Identification and validation of a prognostic 9-genes expression signature for gastric cancer | |
Patel et al. | A highly predictive autoantibody-based biomarker panel for prognosis in early-stage NSCLC with potential therapeutic implications | |
WO2012040784A1 (en) | Gene marker sets and methods for classification of cancer patients | |
CN113066585A (zh) | 一种基于免疫基因表达特征谱对ⅱ期结直肠癌患者预后进行高效快捷评估的方法 | |
Dong et al. | Identification of a Pyroptosis‐Related Gene Signature for Prediction of Overall Survival in Lung Adenocarcinoma | |
Gilhodes et al. | Comparison of variable selection methods for high-dimensional survival data with competing events | |
Xu et al. | Identification of a novel tumor microenvironment prognostic signature for bladder urothelial carcinoma | |
Shigemizu et al. | The prediction models for postoperative overall survival and disease‐free survival in patients with breast cancer | |
Wei et al. | Construction of a ferroptosis-related signature based on seven lncRNAs for prognosis and immune landscape in clear cell renal cell carcinoma | |
Lai et al. | Protein-based prognostic signature for predicting the survival and immunotherapeutic efficiency of endometrial carcinoma | |
Zhang et al. | Hallmark guided identification and characterization of a novel immune-relevant signature for prognostication of recurrence in stage I–III lung adenocarcinoma | |
Peixoto et al. | Identification of biomarkers predictive of metastasis development in early-stage colorectal cancer using network-based regularization | |
CN114360721A (zh) | 代谢相关子宫内膜癌的预后模型及构建方法 | |
Peng et al. | Identification of disulfidptosis-related subtypes and development of a prognosis model based on stacking framework in renal clear cell carcinoma | |
Shi et al. | Development and validation of lymph node ratio-based nomograms for primary duodenal adenocarcinoma after surgery | |
Zhu et al. | Identification of Pyroptosis‐Relevant Signature in Tumor Immune Microenvironment and Prognosis in Skin Cutaneous Melanoma Using Network Analysis | |
Yang et al. | An integrated model of clinical information and gene expression for prediction of survival in ovarian cancer patients | |
Ran et al. | Developing metabolic gene signatures to predict intrahepatic cholangiocarcinoma prognosis and mining a miRNA regulatory network | |
JP2024512540A (ja) | 人工知能基盤の無細胞DNAの腫瘍由来変異の検出方法及びこれを用いたがんの早期診断方法{Method for detecting tumor derived mutation from cell-free DNA based on artificial intelligence and Method for early diagnosis of cancer using the same} | |
Salehi et al. | Reiterative modeling of combined transcriptomic and proteomic features refines and improves the prediction of early recurrence in squamous cell carcinoma of head and neck | |
Guo et al. | Establishment and verification of a prognostic tumor microenvironment-based and immune-related gene signature in colon cancer | |
Tang et al. | Prognostic model of kidney renal clear cell carcinoma using aging-related long noncoding RNA signatures identifies THBS1-IT1 as a potential prognostic biomarker for multiple cancers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210409 |