CN117079804A - 一种消化系统肿瘤临床结果预测模型的构建方法及系统 - Google Patents
一种消化系统肿瘤临床结果预测模型的构建方法及系统 Download PDFInfo
- Publication number
- CN117079804A CN117079804A CN202311052063.7A CN202311052063A CN117079804A CN 117079804 A CN117079804 A CN 117079804A CN 202311052063 A CN202311052063 A CN 202311052063A CN 117079804 A CN117079804 A CN 117079804A
- Authority
- CN
- China
- Prior art keywords
- data
- model
- constructing
- learning
- prediction model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 208000002699 Digestive System Neoplasms Diseases 0.000 title claims abstract description 41
- 239000011159 matrix material Substances 0.000 claims abstract description 93
- 238000012549 training Methods 0.000 claims abstract description 30
- 206010028980 Neoplasm Diseases 0.000 claims description 34
- 238000010276 construction Methods 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 15
- 239000013598 vector Substances 0.000 claims description 12
- 239000000126 substance Substances 0.000 claims description 10
- 230000004927 fusion Effects 0.000 claims description 8
- 230000014759 maintenance of location Effects 0.000 claims description 3
- 210000002249 digestive system Anatomy 0.000 claims 7
- 238000011282 treatment Methods 0.000 abstract description 11
- 230000006870 function Effects 0.000 description 21
- 239000003814 drug Substances 0.000 description 20
- 108020004999 messenger RNA Proteins 0.000 description 19
- 229940079593 drug Drugs 0.000 description 17
- 108090000623 proteins and genes Proteins 0.000 description 17
- 108091070501 miRNA Proteins 0.000 description 16
- 238000004393 prognosis Methods 0.000 description 14
- 230000004044 response Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 238000003745 diagnosis Methods 0.000 description 11
- 230000007067 DNA methylation Effects 0.000 description 10
- 239000002679 microRNA Substances 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 8
- 201000011510 cancer Diseases 0.000 description 7
- 238000004590 computer program Methods 0.000 description 7
- 238000010201 enrichment analysis Methods 0.000 description 7
- 230000015556 catabolic process Effects 0.000 description 6
- 238000006731 degradation reaction Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000004083 survival effect Effects 0.000 description 6
- -1 DNA methylation Proteins 0.000 description 5
- 238000005096 rolling process Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 101150044508 key gene Proteins 0.000 description 4
- 208000001333 Colorectal Neoplasms Diseases 0.000 description 3
- 239000000090 biomarker Substances 0.000 description 3
- 230000034994 death Effects 0.000 description 3
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 230000035945 sensitivity Effects 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 206010009944 Colon cancer Diseases 0.000 description 2
- 208000000461 Esophageal Neoplasms Diseases 0.000 description 2
- 206010061534 Oesophageal squamous cell carcinoma Diseases 0.000 description 2
- 206010061902 Pancreatic neoplasm Diseases 0.000 description 2
- 206010038019 Rectal adenocarcinoma Diseases 0.000 description 2
- 208000036765 Squamous cell carcinoma of the esophagus Diseases 0.000 description 2
- 208000005718 Stomach Neoplasms Diseases 0.000 description 2
- 238000002679 ablation Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 231100000504 carcinogenesis Toxicity 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- HVYWMOMLDIMFJA-DPAQBDIFSA-N cholesterol Chemical compound C1C=C2C[C@@H](O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2 HVYWMOMLDIMFJA-DPAQBDIFSA-N 0.000 description 2
- 201000010897 colon adenocarcinoma Diseases 0.000 description 2
- 208000029742 colonic neoplasm Diseases 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000007876 drug discovery Methods 0.000 description 2
- 208000007276 esophageal squamous cell carcinoma Diseases 0.000 description 2
- 206010017758 gastric cancer Diseases 0.000 description 2
- 210000001035 gastrointestinal tract Anatomy 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 239000000092 prognostic biomarker Substances 0.000 description 2
- 201000001281 rectum adenocarcinoma Diseases 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 201000011549 stomach cancer Diseases 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000011426 transformation method Methods 0.000 description 2
- 238000011269 treatment regimen Methods 0.000 description 2
- 102000018746 Apelin Human genes 0.000 description 1
- 108010052412 Apelin Proteins 0.000 description 1
- 206010006187 Breast cancer Diseases 0.000 description 1
- 208000026310 Breast neoplasm Diseases 0.000 description 1
- 230000004568 DNA-binding Effects 0.000 description 1
- 206010059866 Drug resistance Diseases 0.000 description 1
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 1
- 206010061309 Neoplasm progression Diseases 0.000 description 1
- 206010030155 Oesophageal carcinoma Diseases 0.000 description 1
- 108020000411 Toll-like receptor Proteins 0.000 description 1
- 102000002689 Toll-like receptor Human genes 0.000 description 1
- 239000002246 antineoplastic agent Substances 0.000 description 1
- 229940041181 antineoplastic drug Drugs 0.000 description 1
- BWVPHIKGXQBZPV-QKFDDRBGSA-N apelin Chemical group NCC(=O)N[C@@H](CO)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CCSC)C(=O)N1CCC[C@H]1C(=O)N[C@@H](CC(C)C)C(=O)N1[C@H](C(=O)N[C@@H](CC(O)=O)C(=O)NCC(=O)N[C@@H](CC(N)=O)C(=O)NCC(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CCC(O)=O)C(=O)N[C@@H](CC(O)=O)C(=O)NCC(=O)N[C@@H](CC(N)=O)C(=O)N[C@@H](C(C)C)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CC=2NC=NC=2)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](C(C)C)C(=O)N[C@@H](CCC(N)=O)C(=O)N2[C@@H](CCC2)C(=O)N[C@@H](CCCNC(N)=N)C(=O)NCC(=O)N[C@@H](CO)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CC(N)=O)C(=O)NCC(=O)N2[C@@H](CCC2)C(=O)NCC(=O)N2[C@@H](CCC2)C(=O)N[C@@H](CC=2C3=CC=CC=C3NC=2)C(=O)N[C@@H](CCC(N)=O)C(=O)NCC(=O)NCC(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CCCCN)C(=O)N[C@@H](CC=2C=CC=CC=2)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N2[C@@H](CCC2)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CO)C(=O)N[C@@H](CC=2NC=NC=2)C(=O)N[C@@H](CCCCN)C(=O)NCC(=O)N2[C@@H](CCC2)C(=O)N[C@@H](CCSC)C(=O)N2[C@@H](CCC2)C(=O)N[C@@H](CC=2C=CC=CC=2)C(O)=O)CCC1 BWVPHIKGXQBZPV-QKFDDRBGSA-N 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008827 biological function Effects 0.000 description 1
- 230000031018 biological processes and functions Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 235000012000 cholesterol Nutrition 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000002405 diagnostic procedure Methods 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 208000035475 disorder Diseases 0.000 description 1
- 238000007877 drug screening Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 201000004101 esophageal cancer Diseases 0.000 description 1
- 208000021045 exocrine pancreatic carcinoma Diseases 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 201000006585 gastric adenocarcinoma Diseases 0.000 description 1
- 230000002496 gastric effect Effects 0.000 description 1
- 230000002440 hepatic effect Effects 0.000 description 1
- 206010073071 hepatocellular carcinoma Diseases 0.000 description 1
- 231100000844 hepatocellular carcinoma Toxicity 0.000 description 1
- 238000000338 in vitro Methods 0.000 description 1
- 238000001727 in vivo Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 210000004185 liver Anatomy 0.000 description 1
- 208000014018 liver neoplasm Diseases 0.000 description 1
- 238000001325 log-rank test Methods 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 201000005202 lung cancer Diseases 0.000 description 1
- 208000020816 lung neoplasm Diseases 0.000 description 1
- 210000001165 lymph node Anatomy 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000037353 metabolic pathway Effects 0.000 description 1
- 230000004060 metabolic process Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 201000002528 pancreatic cancer Diseases 0.000 description 1
- 208000008443 pancreatic carcinoma Diseases 0.000 description 1
- 230000008506 pathogenesis Effects 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 238000010837 poor prognosis Methods 0.000 description 1
- 230000029279 positive regulation of transcription, DNA-dependent Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000022532 regulation of transcription, DNA-dependent Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 230000019491 signal transduction Effects 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 230000005751 tumor progression Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Public Health (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Probability & Statistics with Applications (AREA)
- Pathology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Genetics & Genomics (AREA)
- Biotechnology (AREA)
- Bioethics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种消化系统肿瘤临床结果预测模型的构建方法及系统。获取多组学数据;构建各组学数据的邻接矩阵;通过公式计算得到矩阵Q1;通过公式计算得到矩阵Q2;通过公式A(l)=D‑1Q1Q2计算得到图表示A(l);通过各组学数据和图表示A(l)分别构建预测模型中各组学特征学习子模型;对各组学特征学习子模型进行学习,得到各组学输出特征;对各组学输出特征进行融合,得到融合后的特征C;通过公式L=∑LCE(VCDN(c),y),计算得到预测模型的损失值L;对预测模型进行迭代训练,使得损失值L达到最小,得到最终的消化系统肿瘤临床结果预测模型,通过最终的消化系统肿瘤临床结果预测模型能够实现对消化系统肿瘤临床结果的预测,解决了现有技术中既昂贵又费力的技术问题。
Description
技术领域
本发明涉及医疗和生物医药技术领域,尤其涉及一种消化系统肿瘤临床结果预测模型的构建方法及系统。
背景技术
消化系统肿瘤有食道、胃、肝、结直肠及胰腺肿瘤等。据世卫组织报道,2018年全球消化道系统肿瘤新增病例约350万例。每年约有3万人死于消化系统肿瘤,消化系统肿瘤是世界上第四大死因。尽管食管癌的发病率相对较低,但胃癌(GC)是第五大最常见的癌症类型,也是癌症死亡的第三大原因。结直肠癌(CRC)是世界上仅次于肺癌和乳腺癌的第三大最常见的癌症,但却是癌症死亡的第二大原因。基于2012年至2018年间被诊断患有DST的数据,在没有迹象表明肿瘤发生扩散的情况下,肝癌、食管癌和胰腺癌的5年生存率只有36%、47%和44%,而在肿瘤扩散到附近的结构或淋巴结的情况下,胃癌、食管癌、胰腺癌和肝癌的5年生存率只有33%、26%、15%和13%。
尽管存在各种预测性和预后性的生物标志物,但消化道系统肿瘤的高死亡率表明,仍有潜力改进诊断方法,为更多的个性化治疗策略铺平道路,导致更好的预后和/或更少的副作用。大量研究显示,早期癌症诊断可以预测癌症治疗结果和改善生存率。所以早期筛查并在症状发生前确定癌症类型对社会及经济有明显影响。DST高死亡率和糟糕的预后强调了需要采用有效的策略来设计强大的预后系统,为更个性化的治疗策略铺平道路,从而获得更好的预后和/或更少的副作用。药物发现在癌症治疗和精准医疗中起着至关重要的作用。传统的抗癌药物发现方法主要基于体内动物实验和体外药物筛选,但这些方法既昂贵又费力。因此,根据每个患者的基因组图谱特征预测每个患者对药物的反应具有重要的临床意义。
发明内容
本发明通过提供一种消化系统肿瘤临床结果预测模型的构建方法及系统,解决了现有技术中既昂贵又费力的技术问题。
本发明提供了一种消化系统肿瘤临床结果预测模型的构建方法,包括:
获取多组学数据;
构建所述各组学数据的邻接矩阵;
通过公式计算得到矩阵Q1;其中,φ()是模型训练过程中自动生成的第一卷积层参数,conv1是与φ()对应的卷积层,/>是由所述邻接矩阵拼接得到的候选邻接矩阵;
通过公式计算得到矩阵Q2;其中,φ()是模型训练过程中自动生成的第二卷积层参数,conv2是与φ()对应的卷积层;
通过公式A()=D-1Q1Q2计算得到图表示A();
通过所述各组学数据和所述图表示A()分别构建预测模型中各组学特征学习子模型;
对所述各组学特征学习子模型进行学习,得到各组学输出特征;
对所述各组学输出特征进行融合,得到融合后的特征C;
通过公式L=∑LCE(VCDN(c),),计算得到所述预测模型的损失值L;其中,y是样本的实际标签向量;
对所述预测模型进行迭代训练,使得所述损失值L达到最小,得到最终的消化系统肿瘤临床结果预测模型。
具体来说,所述构建所述各组学数据的邻接矩阵,包括:
通过公式计算样本间的余弦相似性;其中,xi和xj分别是样本i和样本j相对应的各组学数据的特征向量;
如果两个样本间的余弦相似性大于阈值,将邻接矩阵的相应位置取1,否则取为0,最终为每种组学数据生成一个邻接矩阵。
具体来说,在所述获取多组学数据之后,还包括:
使用数据集中找到的k邻域的平均值对所述多组学数据中的缺失值进行插补,得到插值之后的数据。
具体来说,在所述得到插值之后的数据之后,还包括:
计算所述插值之后的数据的方差;
将所述方差与预设的方差阈值进行比较;
若所述方差等于或者大于所述预设的方差阈值,保留数据;
若所述方差小于所述预设的方差阈值,删除数据。
本发明还提供了一种消化系统肿瘤临床结果预测模型的构建系统,包括:
数据获取模块,用于获取多组学数据;
邻接矩阵构建模块,用于构建所述各组学数据的邻接矩阵;
矩阵计算模块,用于通过公式计算得到矩阵Q1;其中,φ()是模型训练过程中自动生成的第一卷积层参数,conv1是与φ()对应的卷积层,/>是由所述邻接矩阵拼接得到的候选邻接矩阵;通过公式计算得到矩阵Q2;其中,φ()是模型训练过程中自动生成的第二卷积层参数,conv2是与φ(2)对应的卷积层;
图表示计算模块,用于通过公式A()=D-1Q1Q2计算得到图表示A();
组学特征学习子模型构建模块,用于通过所述各组学数据和所述图表示A()分别构建预测模型中各组学特征学习子模型;
特征学习模块,用于对所述各组学特征学习子模型进行学习,得到各组学输出特征;
特征融合模块,用于对所述各组学输出特征进行融合,得到融合后的特征C;
损失值计算模块,用于通过公式L=∑LCE(VCDN(c),),计算得到所述预测模型的损失值L;其中,y是样本的实际标签向量;
预测模型训练模块,用于对所述预测模型进行迭代训练,使得所述损失值L达到最小,得到最终的消化系统肿瘤临床结果预测模型。
具体来说,所述邻接矩阵构建模块,包括:
余弦相似性计算单元,用于通过公式计算样本间的余弦相似性;其中,xi和xj分别是样本i和样本j相对应的各组学数据的特征向量;
邻接矩阵构建单元,用于如果两个样本间的余弦相似性大于阈值,将邻接矩阵的相应位置取1,否则取为0,最终为每种组学数据生成一个邻接矩阵。
具体来说,还包括:
缺失值插补模块,用于使用数据集中找到的k邻域的平均值对所述多组学数据中的缺失值进行插补,得到插值之后的数据。
具体来说,还包括:
方差计算模块,用于计算所述插值之后的数据的方差;
方差比较模块,用于将所述方差与预设的方差阈值进行比较;
数据保留模块,用于若所述方差等于或者大于所述预设的方差阈值,保留数据;
数据剔除模块,用于若所述方差小于所述预设的方差阈值,删除数据。
本发明中提供的一个或多个技术方案,至少具有如下技术效果或优点:
1、本发明提出了一种较完备的整合多组学用于消化系统肿瘤相关数据多任务分析的方法。该方法通过融合基因组、转录组、表观组等多个组学数据,从而能够全面、深入地揭示消化系统肿瘤的发病机制、生物标志物及其调控网络。同时,本发明还能够充分挖掘多组学数据之间的相互关联性,提高了数据分析的准确性和可信度,为临床诊断和治疗指导提供了重要参考依据。
2、本发明还提出了一种样本间潜在联系的图转换网络挖掘方法,该方法能够从大规模的数据集中,自动地学习出样本之间的潜在联系,并将这些联系转化为图结构。通过对该图结构进行网络挖掘,可以发现隐藏在数据背后的规律和模式,从而为实际应用提供有力的支持。本发明能够在更短的时间内完成对大规模数据的分析和挖掘。此外,本发明还具有较强的可扩展性和适应性,能够应对不同类型的数据和任务需求,具有广泛的应用前景。
附图说明
图1为本发明实施例提供的消化系统肿瘤临床结果预测模型的构建方法的流程图;
图2为本发明实施例提供的消化系统肿瘤临床结果预测模型的构建方法的原理示意图;
图3为本发明实施例中关键基因的功能富集分析示意图;
图4为本发明实施例提供的消化系统肿瘤临床结果预测模型的构建系统的模块图。
具体实施方式
本发明实施例通过提供一种消化系统肿瘤临床结果预测模型的构建方法及系统,解决了现有技术中既昂贵又费力的技术问题。
本发明实施例中的技术方案为解决上述技术问题,总体思路如下:
步骤S1:从TCGA、GDSC、GEO数据库获取消化系统肿瘤样本的mRNA、DNA甲基化、miRNA、CNV组学数据;生存状态、生存时间、肿瘤分期等临床信息;IC50药物敏感性数值。对组学数据进行数据处理,生成用于消化系统肿瘤诊断、预后和药物反应预测的数据集。
步骤S2:为了挖掘样本间潜在的关联性,分别从每种组学数据的邻接矩阵得到软选择的邻接矩阵Q,再将多个矩阵Q组成新的图结构。具体地,使用GT学习一个新的元路径图来表示原图的拓扑结构,识别出原图中无相连但实际有潜在用处的边,这个新的元路径图由两个选定的邻接矩阵Q1和Q2相乘得到。为了选择合适的邻接矩阵,本发明实施例采用了一种软选择的方法,即对候选邻接矩阵进行加权求和,权重由1×1卷积和softmax函数计算得到。
步骤S3:通过结合mRNA、DNA甲基化、miRNA、CNV等不同层面的生物标志物信息,利用图卷积网络构建融合多组学的特征学习模型,从而获取更全面、可靠的肿瘤信息。具体地,通过基于多组学数据的联合特征学习模型,结合mRNA基因表达、DNA甲基化、miRNA、CNV等不同层面的生物标志物信息,利用图卷积网络构建融合多组学的特征学习模型。将不同组学数据转化为图的形式,每个节点代表一个样本或一个特征,节点之间的边表示它们之间的相似度。然后将构建好的多个图输入到GCN中进行嵌入学习和特征提取,并在GCN输出的特征上进行分类和预测。这种方法可以充分利用多组学信息,同时将特征学习和分析过程都纳入到一个统一的框架中,使得模型具有更好的泛化性和可解释性。
步骤S4:在多组学数据的融合中,考虑不同组学数据之间的交叉关系,一方面是不同组学数据的相互影响、相互制约关系;另一方面是不同组学特征之间的互补、相似性关系。利用视图相关发现网络(VCDN)探索GCN提取的组学特征的交叉组学相关性,实现有效的多组学整合。
步骤S5:通过识别对模型性能有重要影响的关键基因,并进一步对识别的关键基因进行功能富集分析,对模型的功能性做出一定程度的解释。具体地,本发明实施例使用消融方法分析每个特征在不同类型的组学数据中的贡献,具体是将特征分配给零,并计算与使用所有特征相比测试集上的分类性能下降。性能下降最大的功能被认为是最重要的功能。本发明实施例使用准确度Acc来衡量模型性能下降的程度。为了解释训练过程中的随机性,在数据集中进行了五次重复实验,并通过总结重复实验中的性能下降来总结结果。最后,对每个功能的重要性进行了排名。此外,将基因功能富集分析和深度学习模型可解释性技术相结合,使得对于基因功能的预测更加精准,同时能够提高对于深度学习模型的理解程度,加强对于模型生成结果的信任度。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
参见图1,本发明实施例提供的消化系统肿瘤临床结果预测模型的构建方法,包括:
步骤S110:获取多组学数据;
为了消除无关噪声,提高预测的准确性,在获取多组学数据之后,还包括:
使用数据集中找到的k邻域的平均值对多组学数据中的缺失值进行插补,得到插值之后的数据。
为了进一步提高预测的准确性,在得到插值之后的数据之后,还包括:
计算插值之后的数据的方差;
将方差与预设的方差阈值进行比较;
若方差等于或者大于预设的方差阈值,则说明数据在样本间存在显著的差异,有利于构建模型,保留数据;
若方差小于预设的方差阈值,则说明数据在样本间差异较小,可能会导致模型的泛化能力不足,删除数据。
步骤S120:构建各组学数据的邻接矩阵;
对本步骤进行具体说明,构建各组学数据的邻接矩阵,包括:
通过公式计算样本间的余弦相似性;其中,xi和xj分别是样本i和样本j相对应的各组学数据的特征向量;
如果两个样本间的余弦相似性大于阈值,将邻接矩阵的相应位置取1,否则取为0,最终为每种组学数据生成一个邻接矩阵。具体地,对于一个有n个样本的肿瘤数据而言,邻接矩阵是一个n x n的矩阵,其中第i行第j列的元素为1表示第i个样本和第j个样本之间有边相连,否则为0。设定一个作为超参数的阈值∈,如果两个样本间的余弦相似性大于∈,则将邻接矩阵的相应位置取1,否则取为0。最终为每种组学数据生成一个邻接矩阵,即其中,Aij是样本i和样本j间的关联性。
步骤S130:通过公式计算得到矩阵Q1;其中,φ()是模型训练过程中自动生成的第一卷积层参数,conv1是与φ()对应的卷积层,/>是由邻接矩阵拼接得到的候选邻接矩阵;通过公式/>计算得到矩阵Q2;其中,φ()是模型训练过程中自动生成的第二卷积层参数,conv2是与φ()对应的卷积层;在本实施例中,conv1和conv2均是1*1的卷积层。
步骤S140:通过公式A()=D-1Q1Q2计算得到图表示A();为了数据稳定性,使用度矩阵D将矩阵正则化。
步骤S150:通过各组学数据和图表示A()分别构建预测模型中各组学特征学习子模型;
步骤S160:对各组学特征学习子模型进行学习,得到各组学输出特征;
步骤S170:对各组学输出特征进行融合,得到融合后的特征C;
步骤S180:通过公式L=∑LCE(VCDN(c),),计算得到预测模型的损失值L;其中,y是样本的实际标签向量;
步骤S190:对预测模型进行迭代训练,使得损失值L达到最小,得到最终的消化系统肿瘤临床结果预测模型。
通过本发明实施例可以构建消化系统肿瘤的诊断预测模型、消化系统肿瘤的预后预测模型和消化系统肿瘤的药物反应预测模型,参见图2,具体步骤如下:
步骤S1数据集生成,包括:
步骤S11:数据获取:
从TCGA数据库获取消化系统肿瘤样本的mRNA、DNA甲基化、miRNA组学数据以及肿瘤分期数据用于消化系统肿瘤的诊断预测模型构建。消化系统肿瘤包括六种肿瘤:结肠腺癌(COAD)、食道鳞状细胞癌(ESCA)、肝细胞肝癌(LIHC)、直肠腺癌(READ)、胃腺癌(STAD)和胰腺癌(PAAD)。从TCGA数据库获取消化系统肿瘤的六种癌症类型样本的mRNA、DNA甲基化、miRNA组学数据以及生存状态、生存时间数据用于消化系统肿瘤的预后预测模型构建。从GDSC数据库和CCLE数据库获取消化系统肿瘤样本的mRNA、DNA甲基化、CNV数据以及药物反应数据用于消化系统肿瘤的药物反应预测模型构建。
需要说明的是,肿瘤早晚期诊断根据肿瘤分期数据,将肿瘤样本分类为早期肿瘤和晚期肿瘤,其中肿瘤分期为I-II期的为早期肿瘤,肿瘤分期为III-IV期的为晚期肿瘤。药物反应的敏感性根据药物的IC50阈值将细胞系与药物间的IC50值划分为敏感性和耐药性。
步骤S12:数据处理:
对于上述获取的数据进行预处理,针对用于诊断预测模型构建的mRNA、DNA甲基化、miRNA数据,首先,丢弃缺失值为80%或更多的特征。接着,使用R软件包中的“impute”函数进行缺失值插补。然后,进一步对低方差的特征进行过滤。具体而言,对各种组学数据使用不同的方差过滤阈值进行处理(例如:mRNA表达数据为0.1,DNA甲基化数据为0.001),因为不同类型的组学数据展现出不同的范围。对于miRNA表达数据,由于可获得的特征数目较少,仅通过筛选剔除方差为零的特征。最后,每种组学数据分别通过线性转换方法缩放到[0,1]以便于训练,得到最终数据Zmrna、Zdna、Zmirna。针对用于预后预测模型构建的mRNA、DNA甲基化、miRNA数据,首先,丢弃缺失值为80%或更多的特征。接着,使用R软件包中的“impute”函数进行缺失值插补。然后,分别使用单因素cox回归和Log-rank检验分析三种组学数据,在p=0.05的条件下,取两种分析结果的交集作为最终的训练数据。最后,每种组学数据分别通过线性转换方法缩放到[0,1]以便于训练,得到最终数据Ymrna、Ydna、Ymirna。针对用于药物反应预测模型构建的mRNA、DNA甲基化、CNV数据,同样缩放到[0,1]用于训练,得到最终数据Dmrna、Ddna、Dcnv。
步骤S2新的图结构生成,包括:
步骤S21:邻接矩阵生成:
针对上述预处理后的数据,使用余弦相似性方法构建样本间的邻接矩阵。具体地,对于诊断预测模型来说,分别构建Zmana的邻接矩阵Zdna的邻接矩阵/>Zmirna的邻接矩阵/>对于预后预测模型来说,分别构建Ymrna的邻接矩阵/>Ydna的邻接矩阵Ymirna的邻接矩阵/>对于药物反应预测模型来说,分别构建Dmrna的邻接矩阵Ddna的邻接矩阵/>Dcnv的邻接矩阵/>
步骤S22:学习新的图表示:
对步骤S21生成的根据公式生成矩阵/>和/>将这两个矩阵由公式A()=D-1Q1Q2相乘并归一化得到诊断预测模型新的图结构AZ。对步骤S21生成的根据公式生成矩阵/>和/>将这两个矩阵由公式A()=D-1Q1Q2相乘并归一化得到预后预测模型新的图结构AY。对步骤S21生成的/>根据公式生成矩阵/>和/>将这两个矩阵由公式A()=D-1Q1Q2相乘并归一化得到药物反应预测模型新的图结构AD。
步骤S3多组学的特征学习,包括:
使用步骤S12获得的Zmrna、Zdna、Zmirna数据,步骤S22生成的新的图结构AZ通过图卷积网络(GCN)构建特征学习模型使用步骤S12获得的Ymrna、Ydna、Ymirna数据,步骤S22生成的新的图结构AY通过图卷积网络(GCN)构建特征学习模型使用步骤S12获得的Dmrna、Ddna、Dcnv数据,步骤S22生成的新的图结构AD通过图卷积网络(GCN)构建特征学习模型/>使用GCN分析多组学特征矩阵X∈Rn×d,其中,n是样本数,d是特征数。GCN是通过堆叠多个卷积层来构建的。具体而言,每层定义为:
H()=σ(LH()W())
其中,称为对称归一化拉普拉斯矩阵;/>表示增加了自我连接的邻接矩阵;/>是/>的度矩阵;W是从训练中学到的权重矩阵;σ表示非线性激活函数,一般为ReLU激活函数;并且H()是每个层的输入,并且特别地,H()=X。
由特征学习模型学习得到的特征为/>由特征学习模型/>学习得到的特征为/>由特征学习模型/>学习得到的特征为/>
步骤S4多组学数据特征的融合,包括:
基于步骤S3学习到的不同组学数据特征,使用公式C=T1T2T3融合多组学特征。具体地,对于融合得到特征CZ;对于/>融合得到特征CY;对于/>融合得到特征CZ;对于/> 融合得到特征CD。使用视图相关性发现网络(VCDN),基于上述融合后的特征探索跨组学的标签级知识来改进预测结果。使用公式L=∑LCE(VCDN(c),)分别计算诊断预测模型、预后预测模型和药物反应预测模型的损失值LZ、LY、LD。对模型进行迭代训练,使得LZ、LY、LD达到最小,获得最终的诊断、预后、药物反应预测模型。
需要说明的是,针对不同的任务采用不同的评价指标进行评价。对于早晚期分类任务,本发明实施例使用了准确度(ACC)、F1得分(F1)和受试者工作特征曲线下面积(AUC)来评估模型的性能,对于肿瘤类型分类任务使用准确度(ACC)、按支持加权的平均F1得分(F1_weighted)和宏观平均F1得分(F1_macro)评估模型的性能。一致性指数C-index指所有病人对中预测结果与实际结果一致的病人对所占的比例,用作生存预后的评估指标。使用受试者工作特征曲线下面积(AUC)和精度召回率曲线下面积(AUPR)作为评估药物反应预测模型的两个测量值。
其中,TP是正样本被正确识别的数量,TN是负样本被正确识别的数量,FP是误报的负样本数量,FN是漏报的正样本数量,precision是精确度,recall是召回率,npos是正样本数量,nneg是负样本数量,k是样本的序号。
步骤S5模型解释,包括:
步骤S51:关键基因识别:
基于步骤S4训练完成的模型,使用消融方法用于识别关键基因。使用这种方法,能够分析每个基因在不同类型的组学数据中的贡献,方法是将基因的表达量分配为零,并计算与使用所有特征相比测试集上的分类性能下降。性能下降最大的功能被认为是最重要的功能。在本实施例中,使用准确度Acc来衡量模型性能下降的程度。为了解释训练过程中的随机性,在数据集中进行了五次重复实验,并通过总结重复实验中的性能下降来总结结果。最后,对每个功能的重要性进行了排名。最终获得了诊断预测模型的关键基因GeneZ,预后预测模型的关键基因GeneY,药物反应预测模型的关键基因GeneD。
步骤S52:功能富集分析:
针对步骤S51识别的关键基因,通过基因功能富集分析来挖掘基因组与某个特定生物学过程或功能的关联。对于GeneZ,主要富集在胆固醇代谢途径、Toll样受体信号通路。对于GeneY,主要富集在Apelin信号通路、甘油磷脂代谢。对于GeneD,主要富集在转录调控失调、DNA结合转录激活活性。
需要说明的是,进一步分析这些基因的功能并解释模型的功能,对这些基因进行了功能富集分析,如图3所示。对于mRNA和甲基化基因,使用R软件包“clusterProfiler”的EnrichGO和EnrichKEGG函数进行基因本体论(GO)分析和Kyoto基因和基因组百科全书(KEGG)分析。对于miRNA基因,使用miEAA(miRNA富集和注释)工具进行GO分析和KEGG通路富集分析。p值<0.05被认为具有统计学意义。
参见图4,本发明实施例提供的消化系统肿瘤临床结果预测模型的构建系统,包括:
数据获取模块100,用于获取多组学数据;
为了消除无关噪声,提高预测的准确性,还包括:
缺失值插补模块,用于使用数据集中找到的k邻域的平均值对多组学数据中的缺失值进行插补,得到插值之后的数据。
为了进一步提高预测的准确性,还包括:
方差计算模块,用于计算插值之后的数据的方差;
方差比较模块,用于将方差与预设的方差阈值进行比较;
数据保留模块,用于若方差等于或者大于预设的方差阈值,则说明数据在样本间存在显著的差异,有利于构建模型,保留数据;
数据剔除模块,用于若方差小于预设的方差阈值,则说明数据在样本间差异较小,可能会导致模型的泛化能力不足,删除数据。
邻接矩阵构建模块200,用于构建各组学数据的邻接矩阵;
具体地,邻接矩阵构建模块200,包括:
余弦相似性计算单元,用于通过公式计算样本间的余弦相似性;其中,xi和xj分别是样本i和样本j相对应的各组学数据的特征向量;
邻接矩阵构建单元,用于如果两个样本间的余弦相似性大于阈值,将邻接矩阵的相应位置取1,否则取为0,最终为每种组学数据生成一个邻接矩阵。具体地,对于一个有n个样本的肿瘤数据而言,邻接矩阵是一个n x n的矩阵,其中第i行第j列的元素为1表示第i个样本和第j个样本之间有边相连,否则为0。设定一个作为超参数的阈值∈,如果两个样本间的余弦相似性大于∈,则将邻接矩阵的相应位置取1,否则取为0。最终为每种组学数据生成一个邻接矩阵,即其中,Aij是样本i和样本j间的关联性。
矩阵计算模块300,用于通过公式计算得到矩阵Q1;其中,φ()是模型训练过程中自动生成的第一卷积层参数,conv1是与φ()对应的卷积层,/>是由邻接矩阵拼接得到的候选邻接矩阵;通过公式计算得到矩阵Q2;其中,φ()是模型训练过程中自动生成的第二卷积层参数,conv2是与φ()对应的卷积层;在本实施例中,conv1和conv2均是1*1的卷积层。
图表示计算模块400,用于通过公式A()=D-1Q1Q2计算得到图表示A();为了数据稳定性,使用度矩阵D将矩阵正则化。
组学特征学习子模型构建模块500,用于通过各组学数据和图表示A()分别构建预测模型中各组学特征学习子模型;
特征学习模块600,用于对各组学特征学习子模型进行学习,得到各组学输出特征;
特征融合模块700,用于对各组学输出特征进行融合,得到融合后的特征C;
损失值计算模块800,用于通过公式L=∑LCE(VCDN(c),),计算得到预测模型的损失值L;其中,y是样本的实际标签向量;
预测模型训练模块900,用于对预测模型进行迭代训练,使得损失值L达到最小,得到最终的消化系统肿瘤临床结果预测模型。
本发明实施例可以用于消化系统肿瘤诊断、预后、药物反应预测,以帮助医生对消化系统肿瘤的准确诊断,进而评估肿瘤的预后,涉及病理分期,辅助医生选择特定的药物治疗方案,来维持患者的身体健康和生活质量。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明实施例未详述之处,均为本技术领域技术人员的公知技术。最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (8)
1.一种消化系统肿瘤临床结果预测模型的构建方法,其特征在于,包括:
获取多组学数据;
构建所述各组学数据的邻接矩阵;
通过公式计算得到矩阵Q1;其中,φ(k1)是模型训练过程中自动生成的第一卷积层参数,conv1是与φ(k1)对应的卷积层,/>是由所述邻接矩阵拼接得到的候选邻接矩阵;
通过公式计算得到矩阵Q2;其中,φ(k2)是模型训练过程中自动生成的第二卷积层参数,conv2是与φ(k2)对应的卷积层;
通过公式A(l)=D-1Q1Q2计算得到图表示A(l);
通过所述各组学数据和所述图表示A(l)分别构建预测模型中各组学特征学习子模型;
对所述各组学特征学习子模型进行学习,得到各组学输出特征;
对所述各组学输出特征进行融合,得到融合后的特征C;
通过公式L=∑LCE(VCDN(c),y),计算得到所述预测模型的损失值L;其中,y是样本的实际标签向量;
对所述预测模型进行迭代训练,使得所述损失值L达到最小,得到最终的消化系统肿瘤临床结果预测模型。
2.如权利要求1所述的消化系统肿瘤临床结果预测模型的构建方法,其特征在于,所述构建所述各组学数据的邻接矩阵,包括:
通过公式计算样本间的余弦相似性;其中,xi和xj分别是样本i和样本j相对应的各组学数据的特征向量;
如果两个样本间的余弦相似性大于阈值,将邻接矩阵的相应位置取1,否则取为0,最终为每种组学数据生成一个邻接矩阵。
3.如权利要求1所述的消化系统肿瘤临床结果预测模型的构建方法,其特征在于,在所述获取多组学数据之后,还包括:
使用数据集中找到的k邻域的平均值对所述多组学数据中的缺失值进行插补,得到插值之后的数据。
4.如权利要求3所述的消化系统肿瘤临床结果预测模型的构建方法,其特征在于,在所述得到插值之后的数据之后,还包括:
计算所述插值之后的数据的方差;
将所述方差与预设的方差阈值进行比较;
若所述方差等于或者大于所述预设的方差阈值,保留数据;
若所述方差小于所述预设的方差阈值,删除数据。
5.一种消化系统肿瘤临床结果预测模型的构建系统,其特征在于,包括:
数据获取模块,用于获取多组学数据;
邻接矩阵构建模块,用于构建所述各组学数据的邻接矩阵;
矩阵计算模块,用于通过公式计算得到矩阵Q1;其中,φ(k1)是模型训练过程中自动生成的第一卷积层参数,conv1是与φ(k1)对应的卷积层,是由所述邻接矩阵拼接得到的候选邻接矩阵;通过公式计算得到矩阵Q2;其中,φ(k2)是模型训练过程中自动生成的第二卷积层参数,conv2是与φ(k2)对应的卷积层;
图表示计算模块,用于通过公式A(l)=D-1Q1Q2计算得到图表示A(l);
组学特征学习子模型构建模块,用于通过所述各组学数据和所述图表示A(l)分别构建预测模型中各组学特征学习子模型;
特征学习模块,用于对所述各组学特征学习子模型进行学习,得到各组学输出特征;
特征融合模块,用于对所述各组学输出特征进行融合,得到融合后的特征C;
损失值计算模块,用于通过公式L=∑LCE(VCDN(c),y),计算得到所述预测模型的损失值L;其中,y是样本的实际标签向量;
预测模型训练模块,用于对所述预测模型进行迭代训练,使得所述损失值L达到最小,得到最终的消化系统肿瘤临床结果预测模型。
6.如权利要求5所述的消化系统肿瘤临床结果预测模型的构建系统,其特征在于,所述邻接矩阵构建模块,包括:
余弦相似性计算单元,用于通过公式计算样本间的余弦相似性;其中,xi和xj分别是样本i和样本j相对应的各组学数据的特征向量;
邻接矩阵构建单元,用于如果两个样本间的余弦相似性大于阈值,将邻接矩阵的相应位置取1,否则取为0,最终为每种组学数据生成一个邻接矩阵。
7.如权利要求5所述的消化系统肿瘤临床结果预测模型的构建系统,其特征在于,还包括:
缺失值插补模块,用于使用数据集中找到的k邻域的平均值对所述多组学数据中的缺失值进行插补,得到插值之后的数据。
8.如权利要求7所述的消化系统肿瘤临床结果预测模型的构建系统,其特征在于,还包括:
方差计算模块,用于计算所述插值之后的数据的方差;
方差比较模块,用于将所述方差与预设的方差阈值进行比较;
数据保留模块,用于若所述方差等于或者大于所述预设的方差阈值,保留数据;
数据剔除模块,用于若所述方差小于所述预设的方差阈值,删除数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311052063.7A CN117079804A (zh) | 2023-08-20 | 2023-08-20 | 一种消化系统肿瘤临床结果预测模型的构建方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311052063.7A CN117079804A (zh) | 2023-08-20 | 2023-08-20 | 一种消化系统肿瘤临床结果预测模型的构建方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117079804A true CN117079804A (zh) | 2023-11-17 |
Family
ID=88705627
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311052063.7A Pending CN117079804A (zh) | 2023-08-20 | 2023-08-20 | 一种消化系统肿瘤临床结果预测模型的构建方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117079804A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118116600A (zh) * | 2024-04-30 | 2024-05-31 | 数据空间研究院 | 一种基于多组学和临床检验数据的结直肠癌预后方法 |
-
2023
- 2023-08-20 CN CN202311052063.7A patent/CN117079804A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118116600A (zh) * | 2024-04-30 | 2024-05-31 | 数据空间研究院 | 一种基于多组学和临床检验数据的结直肠癌预后方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Machine learning meets omics: applications and perspectives | |
Caudai et al. | AI applications in functional genomics | |
Yap et al. | Verifying explainability of a deep learning tissue classifier trained on RNA-seq data | |
Liu | Identifying network-based biomarkers of complex diseases from high-throughput data | |
Athieniti et al. | A guide to multi-omics data collection and integration for translational medicine | |
Kaur et al. | Prediction of enhancers in DNA sequence data using a hybrid CNN-DLSTM model | |
Dlamini et al. | AI and precision oncology in clinical cancer genomics: From prevention to targeted cancer therapies-an outcomes based patient care | |
Cheng et al. | DGCyTOF: Deep learning with graphic cluster visualization to predict cell types of single cell mass cytometry data | |
Shi et al. | Identifying molecular biomarkers for diseases with machine learning based on integrative omics | |
Ahmad et al. | Integrating heterogeneous omics data via statistical inference and learning techniques | |
CN117079804A (zh) | 一种消化系统肿瘤临床结果预测模型的构建方法及系统 | |
Chen et al. | Integration of spatial and single-cell data across modalities with weakly linked features | |
Zhou et al. | PLUS: Predicting cancer metastasis potential based on positive and unlabeled learning | |
Wilson et al. | Wide and deep learning for automatic cell type identification | |
Zhao et al. | Integration of omics and phenotypic data for precision medicine | |
Zhang et al. | MODEC: an unsupervised clustering method integrating omics data for identifying cancer subtypes | |
Sethi et al. | Long Short-Term Memory-Deep Belief Network based Gene Expression Data Analysis for Prostate Cancer Detection and Classification | |
Nimmy et al. | Investigation of DNA discontinuity for detecting tuberculosis | |
Knudsen et al. | Artificial intelligence in pathomics and genomics of renal cell carcinoma | |
Randhawa et al. | Advancing from protein interactomes and gene co-expression networks towards multi-omics-based composite networks: approaches for predicting and extracting biological knowledge | |
Vijayan et al. | Blood-based transcriptomic signature panel identification for cancer diagnosis: benchmarking of feature extraction methods | |
Nayak et al. | Deep learning approaches for high dimension cancer microarray data feature prediction: A review | |
Gao et al. | SpatialMap: spatial mapping of unmeasured gene expression profiles in spatial transcriptomic data using generalized linear spatial models | |
Yuan et al. | HEARTSVG: a fast and accurate method for spatially variable gene identification in large-scale spatial transcriptomic data | |
Mohamed et al. | A novel feature selection algorithm for identifying hub genes in lung cancer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |