CN113421609A - 一种基于lncRNA对的结肠癌预后预测模型及其构建方法 - Google Patents
一种基于lncRNA对的结肠癌预后预测模型及其构建方法 Download PDFInfo
- Publication number
- CN113421609A CN113421609A CN202110905153.0A CN202110905153A CN113421609A CN 113421609 A CN113421609 A CN 113421609A CN 202110905153 A CN202110905153 A CN 202110905153A CN 113421609 A CN113421609 A CN 113421609A
- Authority
- CN
- China
- Prior art keywords
- lncrna
- colon cancer
- model
- prediction model
- prognosis prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 206010009944 Colon cancer Diseases 0.000 title claims abstract description 45
- 238000004393 prognosis Methods 0.000 title claims abstract description 39
- 108020005198 Long Noncoding RNA Proteins 0.000 title claims abstract description 17
- 238000010276 construction Methods 0.000 title claims abstract description 9
- 208000001333 Colorectal Neoplasms Diseases 0.000 title description 2
- 208000029742 colonic neoplasm Diseases 0.000 claims abstract description 43
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 23
- 238000012216 screening Methods 0.000 claims abstract description 16
- 230000014509 gene expression Effects 0.000 claims abstract description 10
- 206010028980 Neoplasm Diseases 0.000 claims abstract description 9
- 238000010219 correlation analysis Methods 0.000 claims abstract description 8
- 238000006243 chemical reaction Methods 0.000 claims abstract description 5
- 238000007781 pre-processing Methods 0.000 claims abstract description 3
- 238000000034 method Methods 0.000 claims description 22
- 238000012549 training Methods 0.000 claims description 22
- 238000012795 verification Methods 0.000 claims description 12
- 230000004083 survival effect Effects 0.000 claims description 11
- 238000001793 Wilcoxon signed-rank test Methods 0.000 claims description 5
- 238000010200 validation analysis Methods 0.000 claims description 5
- 238000000638 solvent extraction Methods 0.000 claims description 4
- 238000013517 stratification Methods 0.000 abstract description 3
- 108091046869 Telomeric non-coding RNA Proteins 0.000 description 5
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000001225 therapeutic effect Effects 0.000 description 3
- 102000001301 EGF receptor Human genes 0.000 description 2
- 108060006698 EGF receptor Proteins 0.000 description 2
- 201000011510 cancer Diseases 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 230000002496 gastric effect Effects 0.000 description 2
- 230000036210 malignancy Effects 0.000 description 2
- 102000004169 proteins and genes Human genes 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- CCEKAJIANROZEO-UHFFFAOYSA-N sulfluramid Chemical group CCNS(=O)(=O)C(F)(F)C(F)(F)C(F)(F)C(F)(F)C(F)(F)C(F)(F)C(F)(F)C(F)(F)F CCEKAJIANROZEO-UHFFFAOYSA-N 0.000 description 2
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 1
- 206010006187 Breast cancer Diseases 0.000 description 1
- 208000026310 Breast neoplasm Diseases 0.000 description 1
- 108091008064 CDKN2B-AS1 Proteins 0.000 description 1
- 208000005623 Carcinogenesis Diseases 0.000 description 1
- 108020004414 DNA Proteins 0.000 description 1
- 201000003741 Gastrointestinal carcinoma Diseases 0.000 description 1
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 1
- 108700019961 Neoplasm Genes Proteins 0.000 description 1
- 102000048850 Neoplasm Genes Human genes 0.000 description 1
- 206010061309 Neoplasm progression Diseases 0.000 description 1
- 102000043276 Oncogene Human genes 0.000 description 1
- 108700020796 Oncogene Proteins 0.000 description 1
- 102000044209 Tumor Suppressor Genes Human genes 0.000 description 1
- 108700025716 Tumor Suppressor Genes Proteins 0.000 description 1
- 208000006593 Urologic Neoplasms Diseases 0.000 description 1
- 239000000427 antigen Substances 0.000 description 1
- 108091007433 antigens Proteins 0.000 description 1
- 102000036639 antigens Human genes 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000036952 cancer formation Effects 0.000 description 1
- 231100000504 carcinogenesis Toxicity 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000002512 chemotherapy Methods 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 210000001035 gastrointestinal tract Anatomy 0.000 description 1
- 201000005787 hematologic cancer Diseases 0.000 description 1
- 208000024200 hematopoietic and lymphoid system neoplasm Diseases 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 201000002313 intestinal cancer Diseases 0.000 description 1
- 201000005202 lung cancer Diseases 0.000 description 1
- 208000020816 lung neoplasm Diseases 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 108020004999 messenger RNA Proteins 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000009456 molecular mechanism Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008506 pathogenesis Effects 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 238000001959 radiotherapy Methods 0.000 description 1
- 229920002477 rna polymer Polymers 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 238000011277 treatment modality Methods 0.000 description 1
- 230000005751 tumor progression Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
- C12Q1/6886—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/118—Prognosis of disease development
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/158—Expression markers
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/178—Oligonucleotides characterized by their use miRNA, siRNA or ncRNA
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Organic Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Analytical Chemistry (AREA)
- Genetics & Genomics (AREA)
- Pathology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Immunology (AREA)
- Public Health (AREA)
- Bioethics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Hospice & Palliative Care (AREA)
- Epidemiology (AREA)
- Oncology (AREA)
- Microbiology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Biochemistry (AREA)
- General Engineering & Computer Science (AREA)
- Physiology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
一种基于lncRNA对的结肠癌预后预测模型,从分子和免疫相关水平实现了结肠癌患者预后的风险分层。本发明公开了上述模型和模型构建方法,包括以下步骤:1)数据预处理,收集结肠癌原始基因表达数据和相对应临床数据,结合人类基因注释文件进行id转换,提取其中的lncRNA,再结合人免疫基因进行相关性分析,筛选出免疫相关的lncRNA;2)划分正常样品和肿瘤样本,进行差异性分析,提出具有差异的lncRNA,建立lncRNA对;3)使用单因素cox、lasso回归,多因素cox筛选预后预测模型参数,建立模型方程,并计算风险分数(riskscore),得到结肠癌预后预测模型;4)验证模型的优劣性。本发明可以显著地将高低风险的患者分开,进而可以预测结肠癌的临床结果,具有较高的临床应用价值。
Description
技术领域
本发明属于生物信息学领域,使用机器学习方法根据已有的数据建立模型,具体涉及一种结肠癌预后预测模型及其构建方法。
背景
结肠癌(colon cancer)是发生于结肠部位的消化道恶性肿瘤,是最常见的消化道恶性肿瘤之一。目前,传统的治疗手段包括手术、化疗和放疗,但对于结肠癌患者生存期没有明显改善。近年来,随着分子靶向药物的出现,例如针对表皮生长因子受体(EGFR)的单克隆抗体对肠癌晚期患者有明显疗效,使其中位生存期达到2年,但由于KRAS等的突变导致抗-EGRF单克隆抗体耐药的发生使得该靶向药物治疗效果大大降低。因此,迫切需要理解结肠癌的分子机制并发现新的治疗靶标和治疗方法。
长链非编码RNA(lncrnRNA)是一种缺乏编码蛋白潜力的转录本,具有超过200个核苷酸的长非编码RNA(lncRNA),可以通过mountainous mechanisms修饰与多种基因和蛋白质相互作用来发挥功能。通过参与基本的发病机制,许多lncRNA作为致癌基因或肿瘤抑制基因被鉴定为与癌变有关,包括消化道癌、造血癌、泌尿系癌、肺癌和乳腺癌。它能显示出关键位置,如抗原暴露、识别和免疫渗透。因此,免疫相关的lncRNAs对预测肿瘤进展和预后的潜力引起了越来越多的关注。
生物信息学是生物学与计算机科学以及应用数学等学科相互交叉而形成的一门新兴学科。它综合运用生物学、计算机科学和数学等多方面知识与方法,可以进行有效的数据挖掘,对不同的生物学数据(基因表达、DNA、RNA等)都有很好的分析和解释能力。
综上,本发明在生物信息学的基础上,对数据进行挖掘分析,使用机器学习手段进行优化建模,建立出一个基于lncRNA对的结肠癌预后预测模型。
发明内容
本发明的目的是克服现有技术和方法的不足,提供一种基于lncRNA对的结肠癌预后预测模型及其构建方法,从分子和免疫相关水平实现结肠癌患者预后的风险分层。
为实现上述目的,本发明采用如下技术方案:
一种基于lncRNA对的结肠癌预后预测模型构建方法,包括以下步骤:
数据预处理,收集结肠癌原始基因表达数据和相对应临床数据,结合人类基因注释文件进行id转换,提取其中的lncRNA,再结合人免疫基因进行相关性分析,筛选出免疫相关的lncRNA;
对数据划分训练集和验证集,划分训练集正常样本和肿瘤样本,进行差异性分析,提出具有差异的lncRNA,建立lncRNA对;
使用单因素cox和lasso回归,多因素cox筛选预后预测模型参数,建立模型方程,并计算风险分数(riskscore),得到结肠癌预后预测模型;
验证模型的优劣性。
优选地,所述结肠癌原始基因表达数据和相应临床数据是在TCGA数据库下载得到;人类基因注释文件是在Gencode下载得到;人免疫基因是在IMMPORT下载得到。
优选地,所述提取lncRNA是使用Strawberry Perl编写程序完成,所述筛选lncRNA是使用R语言编写程序完成。
优选地,所述对数据划分训练集和验证集使用随机划分的方法。
优选地,所述相关性分析使用皮尔逊相关系数(Pearson correlationcoefficient),参数设置范围为0.4<|PCCs|<1,p-value<0.001。
优选地,所述差异性分析使用威尔科克森符号秩检验(Wilcoxon SignedRankTest),参数设置范围为FDR<0.05,|log2FC|>1。
优选地,所述单因素cox和多因素cox参数设置范围为p-value<0.001。
优选地,所述验证模型的优劣性,使用指标包括受试者工作曲线(ROC)、AUC、生存曲线以及临床特征比较;
所述ROC曲线横坐标是false positive rate(FPR),纵坐标是true positiverate(TPR),划分高低风险的值(cutoff)使用约登指数(Youden index=TPR-FPR);
所述AUC为ROC曲线下面积,并且绘制连续三年的ROC;
所述生存曲线使用Kaplan-Meier法,绘制各临床特征的ROC并结合模型使用单因素cox和多因素cox进行模型独立预后分析,验证模型优劣性。
本发明还包括一种结肠癌预后预测模型,模型采用本发明提供的构建方法构建而成。
本发明具有以下有益效果:
本发明使用lncRNA对,目的在于不受数据的影响,仅仅是患者lncRNA量之间的比较,避免对于临床其它数据(芯片,PCR)需要进行模型批次矫正。构建了可作为独立预后的结肠癌预测模型,在分子和免疫相关水平实现了结肠癌患者预后的风险分层,可以显著地将高低风险的患者分开,进而可以预测结肠癌的临床结果,具有较高的临床应用价值。
附图(6)
图1是结肠癌预后预测模型的流程图;
图2为差异性分析后选择的lncRNA图,A是差异基因热图;B是火山图,其中Log2FC>0区域的灰色部分表示上调基因,Log2FC<0区域的灰色部分表示下调基因;
图3为单因素cox,lasso,多因素cox选择建立模型的lncRNA对图,A是单因素cox筛选的预后lncRNA对;B是多因素cox筛选的预后lncRNA对;C是lasso的λ选择图;D是lncRNA对的lasso系数图;
图4是ROC曲线和AUC值,A是训练集的预测结果和截止时间;B是1、2、3年内训练集的预测结果;C是验证集预测结果;D是结肠癌患者的预后风险模型及临床相关病理信息的预后预测结果;
图5是生存曲线,A是训练集;B是验证集;
图6是独立于后分析图,A是单变量cox;B是多变量cox。
具体实施方式
下面结合实施例及附图对本发明作进一步详细描述,但本发明的实施方式不限于此。
本发明,一种基于lncRNA对的结肠癌预后预测模型的构建方法包括以下步骤:
1)对结肠癌数据进行预处理:从TCGA下载385个病人共437个样本,其中39个正常组织和398个肿瘤组织。将这些样本结合人类基因注释文件进行基因id转换,提取其中的lncRNA,再结合人免疫基因进行相关性分析,筛选出免疫相关的lncRNA,共1229个。
2)使用随机划分方法将病人划分为265个病人的训练集和120个病人的验证集,将训练集病人的正常和肿瘤组织分开,进行差异分析,提取共226个具有差异的lncRNA;
3)对步骤2中最后得到的差异lncRNA两两配对,前一个含量比后一个含量高,值为1,反之值为0。将这些lncRNA对先进行单因素cox筛选,得到11个预后相关lncRNA对,再进行lasso筛选,得到9个预后相关lncRNA对,最后进行多因素cox筛选,得到8个lncRNA对,基于这8个lncRNA对建立cox风险回归模型。
4)绘制训练集和验证集的ROC曲线,对于训练集,另外计算最优风险得分、连续三年的ROC曲线和各临床特征的ROC曲线。基于最优风险得分分类出病人的高低风险预测结果,绘制训练集和验证集的生存曲线。最后,结合临床特征通过单因素cox和多因素cox验证模型的独立预后性。
进一步地,上述步骤1中,所述相关性分析使用皮尔逊相关系数,参数设置为0.4<|PCCs|<1,p-value<0.001。
进一步地,上述步骤2中,所述差异性分析使用威尔科克森符号秩检验,参数设置为FDR<0.05,|log2FC|>1。
进一步地,上述步骤3中,所述的单因素cox和多因素cox参数设置为p-value<0.001。
进一步地,所述ROC曲线横坐标是false positive rate(FPR),纵坐标是truepositive rate(TPR),划分高低风险的值(cutoff)使用约登指数(Youden index=TPR-FPR);AUC为ROC曲线下面积,并且绘制连续三年的ROC;生存曲线使用Kaplan-Meier法。
以下结合附图对本发明作进一步的描述。
按照图1开展建模,首先在TCGA数据库中下载结肠癌基因表达数据和对应患者临床文件,共385个病人437个样本,结合从Gencode下载的人类基因注释文件进行基因id转换,转换成标准的基因名称,随后分开mrna和lncRNA,并提取lncRNA,结合IMMPORT下载的人免疫基因进行相关性分析,筛选出免疫相关的lncRNA,共1229个。
然后通过随机分割数据的方法分割出训练集和验证集,比例为265:120,将训练集病人的正常和肿瘤样本分开,使用皮尔逊相关系数进行差异分析,最后得到226个具有差异的免疫相关lncRNA,并进行两两配对,如果前一个含量高于后一个则值为1,反之为0。
图2展示了差异分析的结果,A是差异热图,B是火山图,其中log2FC>0区域的灰色部分表示上调的lncRNA,log2FC<0区域的灰色部分表示下调的lncRNA。
得到了lncRNA对后,进行筛选,依次使用单因素cox、lasso回归和多因素cox进行筛选,依次得到的结果为11个、9个和8个。其中设置cox回归p值小于0.001,最终8个lncRNA对为CDKN2B-AS1|AL442125.2,LINC00525|AC104823.1,AC008735.2|AC021218.1,LINC02038|AC007128.1,PIK3IP1-AS1|AC073283.1,AC073283.1|LINC01357,AL136115.2|ARHGEF38-IT1和AC104964.1|LINC02474,并建立了cox风险回归模型。
图3展示了筛选的结果,其中C图为lasso中λ的选择图,使用最小标准和最小标准误差(1-SE标准)找到最优的λ,值为0.018,D图展示了11个lncRNA对的系数情况。
最后进行模型的验证以及独立性分析,分别绘制了训练集ROC曲线(1-3年)和验证集ROC曲线,通过训练集找到的最优风险评分划分训练集和验证集的高低风险情况,并分别绘制了生存曲线,其中训练集去除了16个没有生存状态和时间的病人,验证集去除了6个病人,训练集p值小于0.001,验证集p值为0.022。最后结合临床特征绘制ROC曲线和单变量cox、多变量cox分析独立性,发现模型评分小于0.001,故可作为独立预后的方法。
图4、5、6分别展示了上述内容,其中训练集3年AUC分别为0.805、0.831和0.863,验证集的AUC为0.745,最优的中间风险评分为0.979。通过模型和各个临床特征相比,模型准确率高于临床特征的准确率。以上结果再次证实了基于lncRNA对的结肠癌预后预测模型效果良好。
以上所述,仅是本发明的较佳实施例,并非对本发明的技术范围作任何限制。本行业的技术人员,在本技术方案的启迪下,可以做出一些变形与修改。凡是依据本发明的技术实质对以上的实施例所作的任何修改、等同变化与修饰,均仍属于本发明技术方案的范围内。
Claims (10)
1.一种基于lncRNA对的结肠癌预后预测模型构建方法,其特征在于,包括以下步骤:
数据预处理,收集结肠癌原始基因表达数据和相对应临床数据,结合人类基因注释文件进行id转换,提取其中的lncRNA,再结合人免疫基因进行相关性分析,筛选出免疫相关的lncRNA;
对数据划分训练集和验证集,划分训练集正常样本和肿瘤样本,进行差异性分析,提出具有差异的lncRNA,建立lncRNA对;
使用单因素cox和lasso回归,多因素cox筛选预后预测模型参数,建立模型方程,并计算风险分数(riskscore),得到结肠癌预后预测模型;
验证模型的优劣性。
2.根据权利要求1所述的结肠癌预后预测模型构建方法,其特征在于,所述结肠癌原始基因表达数据和相应临床数据在TCGA数据库下载得到;所述人类基因注释文件在Gencode数据库下载得到;所述人免疫基因在IMMPORT数据库下载得到。
3.根据权利要求1所述的结肠癌预后预测模型构建方法,其特征在于,所述提取lncRNA是使用Strawberry Perl编写程序完成,所述筛选lncRNA是使用R语言编写程序完成。
4.根据权利要求1所述的结肠癌预后预测模型构建方法,其特征在于,所述对数据划分训练集和验证集使用随机划分的方法。
5.根据权利要求1所述的结肠癌预后预测模型构建方法,其特征在于,所述相关性分析使用皮尔逊相关系数(Pearson correlation coefficient),参数设置范围为0.4<|PCCs|<1,p-value<0.001。
6.根据权利要求1所述的结肠癌预后预测模型构建方法,其特征在于,所述差异性分析使用威尔科克森符号秩检验(Wilcoxon Signed Rank Test),参数设置范围为FDR<0.05,|log2FC|>1。
7.根据权利要求1所述的结肠癌预后预测模型构建方法,其特征在于,所述单因素cox和多因素cox参数设置范围为p-value<0.001。
8.根据权利要求1所述的结肠癌预后预测模型构建方法,其特征在于,所述模型方程使用cox风险回归模型,具体方程为exp^(xiβi),xi是模型中lncRNA对的系数,βi是模型中lncRNA对。
9.根据权利要求1所述的结肠癌预后预测模型构建方法,其特征在于,所述验证模型的优劣性,使用指标包括受试者工作曲线(ROC)、AUC、生存曲线以及临床特征比较;
所述ROC曲线横坐标是falsepositiverate(FPR),纵坐标是truepositive rate(TPR),划分高低风险的值(cutoff)使用约登指数(Youden index=TPR-FPR);
所述AUC为ROC曲线下面积,并且绘制连续三年的ROC;
所述生存曲线使用Kaplan-Meier法,绘制各临床特征的ROC并结合模型使用单因素cox和多因素cox进行模型独立预后分析,验证模型优劣性。
10.一种基于lncRNA对的结肠癌预后预测模型,其特征在于,采用权利要求1-9任一项所述的构建方法构建而成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110905153.0A CN113421609A (zh) | 2021-08-08 | 2021-08-08 | 一种基于lncRNA对的结肠癌预后预测模型及其构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110905153.0A CN113421609A (zh) | 2021-08-08 | 2021-08-08 | 一种基于lncRNA对的结肠癌预后预测模型及其构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113421609A true CN113421609A (zh) | 2021-09-21 |
Family
ID=77718915
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110905153.0A Pending CN113421609A (zh) | 2021-08-08 | 2021-08-08 | 一种基于lncRNA对的结肠癌预后预测模型及其构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113421609A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110564726A (zh) * | 2019-08-15 | 2019-12-13 | 南昌大学 | 草莓长链非编码rna-frilair及其在果实成熟中的应用 |
CN113921079A (zh) * | 2021-12-06 | 2022-01-11 | 四川省肿瘤医院 | 基于免疫相关基因的msi预测模型构建方法 |
CN114203254A (zh) * | 2021-12-02 | 2022-03-18 | 杭州艾沐蒽生物科技有限公司 | 一种基于人工智能分析免疫特征相关tcr的方法 |
CN115346656A (zh) * | 2022-06-10 | 2022-11-15 | 江门市中心医院 | 基于CAFs、WSIs和临床信息的三组学IDC预后模型建立方法及预后模型系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105316402A (zh) * | 2015-04-02 | 2016-02-10 | 复旦大学附属肿瘤医院 | 一种预测三阴性乳腺癌预后及化疗敏感性的mRNA联合lncRNA模型及应用 |
CN110004226A (zh) * | 2019-02-14 | 2019-07-12 | 辽宁省肿瘤医院 | 一种基于直肠癌转录组基因及甲基化联合分析预测预后的方法及模型应用 |
CN111139298A (zh) * | 2018-11-05 | 2020-05-12 | 王辉云 | 4-LncRNA分子标签在肺癌预后评估中的应用 |
CN112048559A (zh) * | 2020-09-10 | 2020-12-08 | 辽宁省肿瘤医院 | 基于m6A相关的IncRNA网络胃癌预后的模型构建及临床应用 |
CN112725455A (zh) * | 2021-02-05 | 2021-04-30 | 中南大学湘雅三医院 | m6A关键基因及风险模型预测肾上腺皮质腺癌预后的应用 |
-
2021
- 2021-08-08 CN CN202110905153.0A patent/CN113421609A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105316402A (zh) * | 2015-04-02 | 2016-02-10 | 复旦大学附属肿瘤医院 | 一种预测三阴性乳腺癌预后及化疗敏感性的mRNA联合lncRNA模型及应用 |
CN111139298A (zh) * | 2018-11-05 | 2020-05-12 | 王辉云 | 4-LncRNA分子标签在肺癌预后评估中的应用 |
CN110004226A (zh) * | 2019-02-14 | 2019-07-12 | 辽宁省肿瘤医院 | 一种基于直肠癌转录组基因及甲基化联合分析预测预后的方法及模型应用 |
CN112048559A (zh) * | 2020-09-10 | 2020-12-08 | 辽宁省肿瘤医院 | 基于m6A相关的IncRNA网络胃癌预后的模型构建及临床应用 |
CN112725455A (zh) * | 2021-02-05 | 2021-04-30 | 中南大学湘雅三医院 | m6A关键基因及风险模型预测肾上腺皮质腺癌预后的应用 |
Non-Patent Citations (3)
Title |
---|
杨国栋: "长链非编码RNA-linc01977对结直肠癌患者预后及结直肠癌细胞功能的影响", 《中国优秀硕士学位论文全文数据库 医药卫生科技辑》 * |
汪苗苗 等: "免疫相关lncRNA预测结肠腺癌预后分析", 《临床医学进展》 * |
闫军浩 等: "基于癌症基因组图谱数据分析筛选结肠癌预后相关长链非编码RNA", 《现代肿瘤医学》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110564726A (zh) * | 2019-08-15 | 2019-12-13 | 南昌大学 | 草莓长链非编码rna-frilair及其在果实成熟中的应用 |
CN110564726B (zh) * | 2019-08-15 | 2022-06-14 | 南昌大学 | 草莓长链非编码rna-frilair及其在果实成熟中的应用 |
CN114203254A (zh) * | 2021-12-02 | 2022-03-18 | 杭州艾沐蒽生物科技有限公司 | 一种基于人工智能分析免疫特征相关tcr的方法 |
CN114203254B (zh) * | 2021-12-02 | 2023-05-23 | 杭州艾沐蒽生物科技有限公司 | 一种基于人工智能分析免疫特征相关tcr的方法 |
CN113921079A (zh) * | 2021-12-06 | 2022-01-11 | 四川省肿瘤医院 | 基于免疫相关基因的msi预测模型构建方法 |
CN113921079B (zh) * | 2021-12-06 | 2022-03-18 | 四川省肿瘤医院 | 基于免疫相关基因的msi预测模型构建方法 |
CN115346656A (zh) * | 2022-06-10 | 2022-11-15 | 江门市中心医院 | 基于CAFs、WSIs和临床信息的三组学IDC预后模型建立方法及预后模型系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113421609A (zh) | 一种基于lncRNA对的结肠癌预后预测模型及其构建方法 | |
CN110800063B (zh) | 使用无细胞dna片段大小检测肿瘤相关变体 | |
CN110706749B (zh) | 一种基于组织器官分化层次关系的癌症类型预测系统和方法 | |
CN113186287B (zh) | 用于非小细胞肺癌分型的生物标志物及其应用 | |
CN112204666A (zh) | 用于癌症侦测的多重化验预测模型 | |
JP2023156402A (ja) | ターゲットシーケンシングのためのモデル | |
CN110958853A (zh) | 用于鉴定或监测肺病的方法和系统 | |
CN108021788B (zh) | 基于细胞游离dna的深度测序数据提取生物标记物的方法和装置 | |
CN112218957A (zh) | 用于确定在无细胞核酸中的肿瘤分数的系统及方法 | |
CN109859796B (zh) | 一种关于胃癌的dna甲基化谱的降维分析方法 | |
CN115527681A (zh) | 一种结直肠癌预后预测模型构建方法及装置 | |
CN115699205A (zh) | 根据性能度量生成癌症检测分析组 | |
CN115807089B (zh) | 肝细胞肝癌预后生物标志物及应用 | |
CN112330596A (zh) | 一种基于机器学习算法的用于预测crc转移的影像组学(ra)模型 | |
CN113853444A (zh) | 癌症患者生存率的预测方法 | |
JP2023530463A (ja) | ヒトパピローマウイルス関連癌の検出および分類 | |
CN116385441A (zh) | 一种基于mri对少突胶质细胞瘤进行风险分层的方法及系统 | |
Li et al. | Utilizing phenotypic characteristics of metastatic brain tumors to improve the probability of detecting circulating tumor DNA from cerebrospinal fluid in non-small-cell lung cancer patients: development and validation of a prediction model in a prospective cohort study | |
CN115691813A (zh) | 基于基因组学和微生物组学的遗传性胃癌评估方法及系统 | |
CN114360721A (zh) | 代谢相关子宫内膜癌的预后模型及构建方法 | |
CN110408706A (zh) | 一种评估鼻咽癌复发的生物标志物及其应用 | |
TW201928797A (zh) | 針對標靶定序的定點雜訊模型 | |
KR20220160805A (ko) | 조직 특이적 조절지역의 무세포 dna 분포를 이용한 인공지능 기반 암 조기진단 방법 | |
CN113159529A (zh) | 一种肠道息肉的风险评估模型及相关系统 | |
Quan et al. | Lrt-cluster: a new clustering algorithm based on likelihood ratio test to identify driving genes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210921 |