CN117079804A - 一种消化系统肿瘤临床结果预测模型的构建方法及系统 - Google Patents

一种消化系统肿瘤临床结果预测模型的构建方法及系统 Download PDF

Info

Publication number
CN117079804A
CN117079804A CN202311052063.7A CN202311052063A CN117079804A CN 117079804 A CN117079804 A CN 117079804A CN 202311052063 A CN202311052063 A CN 202311052063A CN 117079804 A CN117079804 A CN 117079804A
Authority
CN
China
Prior art keywords
data
model
constructing
learning
prediction model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311052063.7A
Other languages
English (en)
Inventor
高洪波
周林
朱正志
王鑫淼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202311052063.7A priority Critical patent/CN117079804A/zh
Publication of CN117079804A publication Critical patent/CN117079804A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Public Health (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pathology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Genetics & Genomics (AREA)
  • Biotechnology (AREA)
  • Bioethics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种消化系统肿瘤临床结果预测模型的构建方法及系统。获取多组学数据;构建各组学数据的邻接矩阵;通过公式计算得到矩阵Q1;通过公式计算得到矩阵Q2;通过公式A(l)=D‑1Q1Q2计算得到图表示A(l);通过各组学数据和图表示A(l)分别构建预测模型中各组学特征学习子模型;对各组学特征学习子模型进行学习,得到各组学输出特征;对各组学输出特征进行融合,得到融合后的特征C;通过公式L=∑LCE(VCDN(c),y),计算得到预测模型的损失值L;对预测模型进行迭代训练,使得损失值L达到最小,得到最终的消化系统肿瘤临床结果预测模型,通过最终的消化系统肿瘤临床结果预测模型能够实现对消化系统肿瘤临床结果的预测,解决了现有技术中既昂贵又费力的技术问题。

Description

一种消化系统肿瘤临床结果预测模型的构建方法及系统
技术领域
本发明涉及医疗和生物医药技术领域,尤其涉及一种消化系统肿瘤临床结果预测模型的构建方法及系统。
背景技术
消化系统肿瘤有食道、胃、肝、结直肠及胰腺肿瘤等。据世卫组织报道,2018年全球消化道系统肿瘤新增病例约350万例。每年约有3万人死于消化系统肿瘤,消化系统肿瘤是世界上第四大死因。尽管食管癌的发病率相对较低,但胃癌(GC)是第五大最常见的癌症类型,也是癌症死亡的第三大原因。结直肠癌(CRC)是世界上仅次于肺癌和乳腺癌的第三大最常见的癌症,但却是癌症死亡的第二大原因。基于2012年至2018年间被诊断患有DST的数据,在没有迹象表明肿瘤发生扩散的情况下,肝癌、食管癌和胰腺癌的5年生存率只有36%、47%和44%,而在肿瘤扩散到附近的结构或淋巴结的情况下,胃癌、食管癌、胰腺癌和肝癌的5年生存率只有33%、26%、15%和13%。
尽管存在各种预测性和预后性的生物标志物,但消化道系统肿瘤的高死亡率表明,仍有潜力改进诊断方法,为更多的个性化治疗策略铺平道路,导致更好的预后和/或更少的副作用。大量研究显示,早期癌症诊断可以预测癌症治疗结果和改善生存率。所以早期筛查并在症状发生前确定癌症类型对社会及经济有明显影响。DST高死亡率和糟糕的预后强调了需要采用有效的策略来设计强大的预后系统,为更个性化的治疗策略铺平道路,从而获得更好的预后和/或更少的副作用。药物发现在癌症治疗和精准医疗中起着至关重要的作用。传统的抗癌药物发现方法主要基于体内动物实验和体外药物筛选,但这些方法既昂贵又费力。因此,根据每个患者的基因组图谱特征预测每个患者对药物的反应具有重要的临床意义。
发明内容
本发明通过提供一种消化系统肿瘤临床结果预测模型的构建方法及系统,解决了现有技术中既昂贵又费力的技术问题。
本发明提供了一种消化系统肿瘤临床结果预测模型的构建方法,包括:
获取多组学数据;
构建所述各组学数据的邻接矩阵;
通过公式计算得到矩阵Q1;其中,φ()是模型训练过程中自动生成的第一卷积层参数,conv1是与φ()对应的卷积层,/>是由所述邻接矩阵拼接得到的候选邻接矩阵;
通过公式计算得到矩阵Q2;其中,φ()是模型训练过程中自动生成的第二卷积层参数,conv2是与φ()对应的卷积层;
通过公式A()=D-1Q1Q2计算得到图表示A()
通过所述各组学数据和所述图表示A()分别构建预测模型中各组学特征学习子模型;
对所述各组学特征学习子模型进行学习,得到各组学输出特征;
对所述各组学输出特征进行融合,得到融合后的特征C;
通过公式L=∑LCE(VCDN(c),),计算得到所述预测模型的损失值L;其中,y是样本的实际标签向量;
对所述预测模型进行迭代训练,使得所述损失值L达到最小,得到最终的消化系统肿瘤临床结果预测模型。
具体来说,所述构建所述各组学数据的邻接矩阵,包括:
通过公式计算样本间的余弦相似性;其中,xi和xj分别是样本i和样本j相对应的各组学数据的特征向量;
如果两个样本间的余弦相似性大于阈值,将邻接矩阵的相应位置取1,否则取为0,最终为每种组学数据生成一个邻接矩阵。
具体来说,在所述获取多组学数据之后,还包括:
使用数据集中找到的k邻域的平均值对所述多组学数据中的缺失值进行插补,得到插值之后的数据。
具体来说,在所述得到插值之后的数据之后,还包括:
计算所述插值之后的数据的方差;
将所述方差与预设的方差阈值进行比较;
若所述方差等于或者大于所述预设的方差阈值,保留数据;
若所述方差小于所述预设的方差阈值,删除数据。
本发明还提供了一种消化系统肿瘤临床结果预测模型的构建系统,包括:
数据获取模块,用于获取多组学数据;
邻接矩阵构建模块,用于构建所述各组学数据的邻接矩阵;
矩阵计算模块,用于通过公式计算得到矩阵Q1;其中,φ()是模型训练过程中自动生成的第一卷积层参数,conv1是与φ()对应的卷积层,/>是由所述邻接矩阵拼接得到的候选邻接矩阵;通过公式计算得到矩阵Q2;其中,φ()是模型训练过程中自动生成的第二卷积层参数,conv2是与φ(2)对应的卷积层;
图表示计算模块,用于通过公式A()=D-1Q1Q2计算得到图表示A()
组学特征学习子模型构建模块,用于通过所述各组学数据和所述图表示A()分别构建预测模型中各组学特征学习子模型;
特征学习模块,用于对所述各组学特征学习子模型进行学习,得到各组学输出特征;
特征融合模块,用于对所述各组学输出特征进行融合,得到融合后的特征C;
损失值计算模块,用于通过公式L=∑LCE(VCDN(c),),计算得到所述预测模型的损失值L;其中,y是样本的实际标签向量;
预测模型训练模块,用于对所述预测模型进行迭代训练,使得所述损失值L达到最小,得到最终的消化系统肿瘤临床结果预测模型。
具体来说,所述邻接矩阵构建模块,包括:
余弦相似性计算单元,用于通过公式计算样本间的余弦相似性;其中,xi和xj分别是样本i和样本j相对应的各组学数据的特征向量;
邻接矩阵构建单元,用于如果两个样本间的余弦相似性大于阈值,将邻接矩阵的相应位置取1,否则取为0,最终为每种组学数据生成一个邻接矩阵。
具体来说,还包括:
缺失值插补模块,用于使用数据集中找到的k邻域的平均值对所述多组学数据中的缺失值进行插补,得到插值之后的数据。
具体来说,还包括:
方差计算模块,用于计算所述插值之后的数据的方差;
方差比较模块,用于将所述方差与预设的方差阈值进行比较;
数据保留模块,用于若所述方差等于或者大于所述预设的方差阈值,保留数据;
数据剔除模块,用于若所述方差小于所述预设的方差阈值,删除数据。
本发明中提供的一个或多个技术方案,至少具有如下技术效果或优点:
1、本发明提出了一种较完备的整合多组学用于消化系统肿瘤相关数据多任务分析的方法。该方法通过融合基因组、转录组、表观组等多个组学数据,从而能够全面、深入地揭示消化系统肿瘤的发病机制、生物标志物及其调控网络。同时,本发明还能够充分挖掘多组学数据之间的相互关联性,提高了数据分析的准确性和可信度,为临床诊断和治疗指导提供了重要参考依据。
2、本发明还提出了一种样本间潜在联系的图转换网络挖掘方法,该方法能够从大规模的数据集中,自动地学习出样本之间的潜在联系,并将这些联系转化为图结构。通过对该图结构进行网络挖掘,可以发现隐藏在数据背后的规律和模式,从而为实际应用提供有力的支持。本发明能够在更短的时间内完成对大规模数据的分析和挖掘。此外,本发明还具有较强的可扩展性和适应性,能够应对不同类型的数据和任务需求,具有广泛的应用前景。
附图说明
图1为本发明实施例提供的消化系统肿瘤临床结果预测模型的构建方法的流程图;
图2为本发明实施例提供的消化系统肿瘤临床结果预测模型的构建方法的原理示意图;
图3为本发明实施例中关键基因的功能富集分析示意图;
图4为本发明实施例提供的消化系统肿瘤临床结果预测模型的构建系统的模块图。
具体实施方式
本发明实施例通过提供一种消化系统肿瘤临床结果预测模型的构建方法及系统,解决了现有技术中既昂贵又费力的技术问题。
本发明实施例中的技术方案为解决上述技术问题,总体思路如下:
步骤S1:从TCGA、GDSC、GEO数据库获取消化系统肿瘤样本的mRNA、DNA甲基化、miRNA、CNV组学数据;生存状态、生存时间、肿瘤分期等临床信息;IC50药物敏感性数值。对组学数据进行数据处理,生成用于消化系统肿瘤诊断、预后和药物反应预测的数据集。
步骤S2:为了挖掘样本间潜在的关联性,分别从每种组学数据的邻接矩阵得到软选择的邻接矩阵Q,再将多个矩阵Q组成新的图结构。具体地,使用GT学习一个新的元路径图来表示原图的拓扑结构,识别出原图中无相连但实际有潜在用处的边,这个新的元路径图由两个选定的邻接矩阵Q1和Q2相乘得到。为了选择合适的邻接矩阵,本发明实施例采用了一种软选择的方法,即对候选邻接矩阵进行加权求和,权重由1×1卷积和softmax函数计算得到。
步骤S3:通过结合mRNA、DNA甲基化、miRNA、CNV等不同层面的生物标志物信息,利用图卷积网络构建融合多组学的特征学习模型,从而获取更全面、可靠的肿瘤信息。具体地,通过基于多组学数据的联合特征学习模型,结合mRNA基因表达、DNA甲基化、miRNA、CNV等不同层面的生物标志物信息,利用图卷积网络构建融合多组学的特征学习模型。将不同组学数据转化为图的形式,每个节点代表一个样本或一个特征,节点之间的边表示它们之间的相似度。然后将构建好的多个图输入到GCN中进行嵌入学习和特征提取,并在GCN输出的特征上进行分类和预测。这种方法可以充分利用多组学信息,同时将特征学习和分析过程都纳入到一个统一的框架中,使得模型具有更好的泛化性和可解释性。
步骤S4:在多组学数据的融合中,考虑不同组学数据之间的交叉关系,一方面是不同组学数据的相互影响、相互制约关系;另一方面是不同组学特征之间的互补、相似性关系。利用视图相关发现网络(VCDN)探索GCN提取的组学特征的交叉组学相关性,实现有效的多组学整合。
步骤S5:通过识别对模型性能有重要影响的关键基因,并进一步对识别的关键基因进行功能富集分析,对模型的功能性做出一定程度的解释。具体地,本发明实施例使用消融方法分析每个特征在不同类型的组学数据中的贡献,具体是将特征分配给零,并计算与使用所有特征相比测试集上的分类性能下降。性能下降最大的功能被认为是最重要的功能。本发明实施例使用准确度Acc来衡量模型性能下降的程度。为了解释训练过程中的随机性,在数据集中进行了五次重复实验,并通过总结重复实验中的性能下降来总结结果。最后,对每个功能的重要性进行了排名。此外,将基因功能富集分析和深度学习模型可解释性技术相结合,使得对于基因功能的预测更加精准,同时能够提高对于深度学习模型的理解程度,加强对于模型生成结果的信任度。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
参见图1,本发明实施例提供的消化系统肿瘤临床结果预测模型的构建方法,包括:
步骤S110:获取多组学数据;
为了消除无关噪声,提高预测的准确性,在获取多组学数据之后,还包括:
使用数据集中找到的k邻域的平均值对多组学数据中的缺失值进行插补,得到插值之后的数据。
为了进一步提高预测的准确性,在得到插值之后的数据之后,还包括:
计算插值之后的数据的方差;
将方差与预设的方差阈值进行比较;
若方差等于或者大于预设的方差阈值,则说明数据在样本间存在显著的差异,有利于构建模型,保留数据;
若方差小于预设的方差阈值,则说明数据在样本间差异较小,可能会导致模型的泛化能力不足,删除数据。
步骤S120:构建各组学数据的邻接矩阵;
对本步骤进行具体说明,构建各组学数据的邻接矩阵,包括:
通过公式计算样本间的余弦相似性;其中,xi和xj分别是样本i和样本j相对应的各组学数据的特征向量;
如果两个样本间的余弦相似性大于阈值,将邻接矩阵的相应位置取1,否则取为0,最终为每种组学数据生成一个邻接矩阵。具体地,对于一个有n个样本的肿瘤数据而言,邻接矩阵是一个n x n的矩阵,其中第i行第j列的元素为1表示第i个样本和第j个样本之间有边相连,否则为0。设定一个作为超参数的阈值∈,如果两个样本间的余弦相似性大于∈,则将邻接矩阵的相应位置取1,否则取为0。最终为每种组学数据生成一个邻接矩阵,即其中,Aij是样本i和样本j间的关联性。
步骤S130:通过公式计算得到矩阵Q1;其中,φ()是模型训练过程中自动生成的第一卷积层参数,conv1是与φ()对应的卷积层,/>是由邻接矩阵拼接得到的候选邻接矩阵;通过公式/>计算得到矩阵Q2;其中,φ()是模型训练过程中自动生成的第二卷积层参数,conv2是与φ()对应的卷积层;在本实施例中,conv1和conv2均是1*1的卷积层。
步骤S140:通过公式A()=D-1Q1Q2计算得到图表示A();为了数据稳定性,使用度矩阵D将矩阵正则化。
步骤S150:通过各组学数据和图表示A()分别构建预测模型中各组学特征学习子模型;
步骤S160:对各组学特征学习子模型进行学习,得到各组学输出特征;
步骤S170:对各组学输出特征进行融合,得到融合后的特征C;
步骤S180:通过公式L=∑LCE(VCDN(c),),计算得到预测模型的损失值L;其中,y是样本的实际标签向量;
步骤S190:对预测模型进行迭代训练,使得损失值L达到最小,得到最终的消化系统肿瘤临床结果预测模型。
通过本发明实施例可以构建消化系统肿瘤的诊断预测模型、消化系统肿瘤的预后预测模型和消化系统肿瘤的药物反应预测模型,参见图2,具体步骤如下:
步骤S1数据集生成,包括:
步骤S11:数据获取:
从TCGA数据库获取消化系统肿瘤样本的mRNA、DNA甲基化、miRNA组学数据以及肿瘤分期数据用于消化系统肿瘤的诊断预测模型构建。消化系统肿瘤包括六种肿瘤:结肠腺癌(COAD)、食道鳞状细胞癌(ESCA)、肝细胞肝癌(LIHC)、直肠腺癌(READ)、胃腺癌(STAD)和胰腺癌(PAAD)。从TCGA数据库获取消化系统肿瘤的六种癌症类型样本的mRNA、DNA甲基化、miRNA组学数据以及生存状态、生存时间数据用于消化系统肿瘤的预后预测模型构建。从GDSC数据库和CCLE数据库获取消化系统肿瘤样本的mRNA、DNA甲基化、CNV数据以及药物反应数据用于消化系统肿瘤的药物反应预测模型构建。
需要说明的是,肿瘤早晚期诊断根据肿瘤分期数据,将肿瘤样本分类为早期肿瘤和晚期肿瘤,其中肿瘤分期为I-II期的为早期肿瘤,肿瘤分期为III-IV期的为晚期肿瘤。药物反应的敏感性根据药物的IC50阈值将细胞系与药物间的IC50值划分为敏感性和耐药性。
步骤S12:数据处理:
对于上述获取的数据进行预处理,针对用于诊断预测模型构建的mRNA、DNA甲基化、miRNA数据,首先,丢弃缺失值为80%或更多的特征。接着,使用R软件包中的“impute”函数进行缺失值插补。然后,进一步对低方差的特征进行过滤。具体而言,对各种组学数据使用不同的方差过滤阈值进行处理(例如:mRNA表达数据为0.1,DNA甲基化数据为0.001),因为不同类型的组学数据展现出不同的范围。对于miRNA表达数据,由于可获得的特征数目较少,仅通过筛选剔除方差为零的特征。最后,每种组学数据分别通过线性转换方法缩放到[0,1]以便于训练,得到最终数据Zmrna、Zdna、Zmirna。针对用于预后预测模型构建的mRNA、DNA甲基化、miRNA数据,首先,丢弃缺失值为80%或更多的特征。接着,使用R软件包中的“impute”函数进行缺失值插补。然后,分别使用单因素cox回归和Log-rank检验分析三种组学数据,在p=0.05的条件下,取两种分析结果的交集作为最终的训练数据。最后,每种组学数据分别通过线性转换方法缩放到[0,1]以便于训练,得到最终数据Ymrna、Ydna、Ymirna。针对用于药物反应预测模型构建的mRNA、DNA甲基化、CNV数据,同样缩放到[0,1]用于训练,得到最终数据Dmrna、Ddna、Dcnv
步骤S2新的图结构生成,包括:
步骤S21:邻接矩阵生成:
针对上述预处理后的数据,使用余弦相似性方法构建样本间的邻接矩阵。具体地,对于诊断预测模型来说,分别构建Zmana的邻接矩阵Zdna的邻接矩阵/>Zmirna的邻接矩阵/>对于预后预测模型来说,分别构建Ymrna的邻接矩阵/>Ydna的邻接矩阵Ymirna的邻接矩阵/>对于药物反应预测模型来说,分别构建Dmrna的邻接矩阵Ddna的邻接矩阵/>Dcnv的邻接矩阵/>
步骤S22:学习新的图表示:
对步骤S21生成的根据公式生成矩阵/>和/>将这两个矩阵由公式A()=D-1Q1Q2相乘并归一化得到诊断预测模型新的图结构AZ。对步骤S21生成的根据公式生成矩阵/>和/>将这两个矩阵由公式A()=D-1Q1Q2相乘并归一化得到预后预测模型新的图结构AY。对步骤S21生成的/>根据公式生成矩阵/>和/>将这两个矩阵由公式A()=D-1Q1Q2相乘并归一化得到药物反应预测模型新的图结构AD
步骤S3多组学的特征学习,包括:
使用步骤S12获得的Zmrna、Zdna、Zmirna数据,步骤S22生成的新的图结构AZ通过图卷积网络(GCN)构建特征学习模型使用步骤S12获得的Ymrna、Ydna、Ymirna数据,步骤S22生成的新的图结构AY通过图卷积网络(GCN)构建特征学习模型使用步骤S12获得的Dmrna、Ddna、Dcnv数据,步骤S22生成的新的图结构AD通过图卷积网络(GCN)构建特征学习模型/>使用GCN分析多组学特征矩阵X∈Rn×d,其中,n是样本数,d是特征数。GCN是通过堆叠多个卷积层来构建的。具体而言,每层定义为:
H()=σ(LH()W())
其中,称为对称归一化拉普拉斯矩阵;/>表示增加了自我连接的邻接矩阵;/>是/>的度矩阵;W是从训练中学到的权重矩阵;σ表示非线性激活函数,一般为ReLU激活函数;并且H()是每个层的输入,并且特别地,H()=X。
由特征学习模型学习得到的特征为/>由特征学习模型/>学习得到的特征为/>由特征学习模型/>学习得到的特征为/>
步骤S4多组学数据特征的融合,包括:
基于步骤S3学习到的不同组学数据特征,使用公式C=T1T2T3融合多组学特征。具体地,对于融合得到特征CZ;对于/>融合得到特征CY;对于/>融合得到特征CZ;对于/> 融合得到特征CD。使用视图相关性发现网络(VCDN),基于上述融合后的特征探索跨组学的标签级知识来改进预测结果。使用公式L=∑LCE(VCDN(c),)分别计算诊断预测模型、预后预测模型和药物反应预测模型的损失值LZ、LY、LD。对模型进行迭代训练,使得LZ、LY、LD达到最小,获得最终的诊断、预后、药物反应预测模型。
需要说明的是,针对不同的任务采用不同的评价指标进行评价。对于早晚期分类任务,本发明实施例使用了准确度(ACC)、F1得分(F1)和受试者工作特征曲线下面积(AUC)来评估模型的性能,对于肿瘤类型分类任务使用准确度(ACC)、按支持加权的平均F1得分(F1_weighted)和宏观平均F1得分(F1_macro)评估模型的性能。一致性指数C-index指所有病人对中预测结果与实际结果一致的病人对所占的比例,用作生存预后的评估指标。使用受试者工作特征曲线下面积(AUC)和精度召回率曲线下面积(AUPR)作为评估药物反应预测模型的两个测量值。
其中,TP是正样本被正确识别的数量,TN是负样本被正确识别的数量,FP是误报的负样本数量,FN是漏报的正样本数量,precision是精确度,recall是召回率,npos是正样本数量,nneg是负样本数量,k是样本的序号。
步骤S5模型解释,包括:
步骤S51:关键基因识别:
基于步骤S4训练完成的模型,使用消融方法用于识别关键基因。使用这种方法,能够分析每个基因在不同类型的组学数据中的贡献,方法是将基因的表达量分配为零,并计算与使用所有特征相比测试集上的分类性能下降。性能下降最大的功能被认为是最重要的功能。在本实施例中,使用准确度Acc来衡量模型性能下降的程度。为了解释训练过程中的随机性,在数据集中进行了五次重复实验,并通过总结重复实验中的性能下降来总结结果。最后,对每个功能的重要性进行了排名。最终获得了诊断预测模型的关键基因GeneZ,预后预测模型的关键基因GeneY,药物反应预测模型的关键基因GeneD
步骤S52:功能富集分析:
针对步骤S51识别的关键基因,通过基因功能富集分析来挖掘基因组与某个特定生物学过程或功能的关联。对于GeneZ,主要富集在胆固醇代谢途径、Toll样受体信号通路。对于GeneY,主要富集在Apelin信号通路、甘油磷脂代谢。对于GeneD,主要富集在转录调控失调、DNA结合转录激活活性。
需要说明的是,进一步分析这些基因的功能并解释模型的功能,对这些基因进行了功能富集分析,如图3所示。对于mRNA和甲基化基因,使用R软件包“clusterProfiler”的EnrichGO和EnrichKEGG函数进行基因本体论(GO)分析和Kyoto基因和基因组百科全书(KEGG)分析。对于miRNA基因,使用miEAA(miRNA富集和注释)工具进行GO分析和KEGG通路富集分析。p值<0.05被认为具有统计学意义。
参见图4,本发明实施例提供的消化系统肿瘤临床结果预测模型的构建系统,包括:
数据获取模块100,用于获取多组学数据;
为了消除无关噪声,提高预测的准确性,还包括:
缺失值插补模块,用于使用数据集中找到的k邻域的平均值对多组学数据中的缺失值进行插补,得到插值之后的数据。
为了进一步提高预测的准确性,还包括:
方差计算模块,用于计算插值之后的数据的方差;
方差比较模块,用于将方差与预设的方差阈值进行比较;
数据保留模块,用于若方差等于或者大于预设的方差阈值,则说明数据在样本间存在显著的差异,有利于构建模型,保留数据;
数据剔除模块,用于若方差小于预设的方差阈值,则说明数据在样本间差异较小,可能会导致模型的泛化能力不足,删除数据。
邻接矩阵构建模块200,用于构建各组学数据的邻接矩阵;
具体地,邻接矩阵构建模块200,包括:
余弦相似性计算单元,用于通过公式计算样本间的余弦相似性;其中,xi和xj分别是样本i和样本j相对应的各组学数据的特征向量;
邻接矩阵构建单元,用于如果两个样本间的余弦相似性大于阈值,将邻接矩阵的相应位置取1,否则取为0,最终为每种组学数据生成一个邻接矩阵。具体地,对于一个有n个样本的肿瘤数据而言,邻接矩阵是一个n x n的矩阵,其中第i行第j列的元素为1表示第i个样本和第j个样本之间有边相连,否则为0。设定一个作为超参数的阈值∈,如果两个样本间的余弦相似性大于∈,则将邻接矩阵的相应位置取1,否则取为0。最终为每种组学数据生成一个邻接矩阵,即其中,Aij是样本i和样本j间的关联性。
矩阵计算模块300,用于通过公式计算得到矩阵Q1;其中,φ()是模型训练过程中自动生成的第一卷积层参数,conv1是与φ()对应的卷积层,/>是由邻接矩阵拼接得到的候选邻接矩阵;通过公式计算得到矩阵Q2;其中,φ()是模型训练过程中自动生成的第二卷积层参数,conv2是与φ()对应的卷积层;在本实施例中,conv1和conv2均是1*1的卷积层。
图表示计算模块400,用于通过公式A()=D-1Q1Q2计算得到图表示A();为了数据稳定性,使用度矩阵D将矩阵正则化。
组学特征学习子模型构建模块500,用于通过各组学数据和图表示A()分别构建预测模型中各组学特征学习子模型;
特征学习模块600,用于对各组学特征学习子模型进行学习,得到各组学输出特征;
特征融合模块700,用于对各组学输出特征进行融合,得到融合后的特征C;
损失值计算模块800,用于通过公式L=∑LCE(VCDN(c),),计算得到预测模型的损失值L;其中,y是样本的实际标签向量;
预测模型训练模块900,用于对预测模型进行迭代训练,使得损失值L达到最小,得到最终的消化系统肿瘤临床结果预测模型。
本发明实施例可以用于消化系统肿瘤诊断、预后、药物反应预测,以帮助医生对消化系统肿瘤的准确诊断,进而评估肿瘤的预后,涉及病理分期,辅助医生选择特定的药物治疗方案,来维持患者的身体健康和生活质量。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明实施例未详述之处,均为本技术领域技术人员的公知技术。最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (8)

1.一种消化系统肿瘤临床结果预测模型的构建方法,其特征在于,包括:
获取多组学数据;
构建所述各组学数据的邻接矩阵;
通过公式计算得到矩阵Q1;其中,φ(k1)是模型训练过程中自动生成的第一卷积层参数,conv1是与φ(k1)对应的卷积层,/>是由所述邻接矩阵拼接得到的候选邻接矩阵;
通过公式计算得到矩阵Q2;其中,φ(k2)是模型训练过程中自动生成的第二卷积层参数,conv2是与φ(k2)对应的卷积层;
通过公式A(l)=D-1Q1Q2计算得到图表示A(l)
通过所述各组学数据和所述图表示A(l)分别构建预测模型中各组学特征学习子模型;
对所述各组学特征学习子模型进行学习,得到各组学输出特征;
对所述各组学输出特征进行融合,得到融合后的特征C;
通过公式L=∑LCE(VCDN(c),y),计算得到所述预测模型的损失值L;其中,y是样本的实际标签向量;
对所述预测模型进行迭代训练,使得所述损失值L达到最小,得到最终的消化系统肿瘤临床结果预测模型。
2.如权利要求1所述的消化系统肿瘤临床结果预测模型的构建方法,其特征在于,所述构建所述各组学数据的邻接矩阵,包括:
通过公式计算样本间的余弦相似性;其中,xi和xj分别是样本i和样本j相对应的各组学数据的特征向量;
如果两个样本间的余弦相似性大于阈值,将邻接矩阵的相应位置取1,否则取为0,最终为每种组学数据生成一个邻接矩阵。
3.如权利要求1所述的消化系统肿瘤临床结果预测模型的构建方法,其特征在于,在所述获取多组学数据之后,还包括:
使用数据集中找到的k邻域的平均值对所述多组学数据中的缺失值进行插补,得到插值之后的数据。
4.如权利要求3所述的消化系统肿瘤临床结果预测模型的构建方法,其特征在于,在所述得到插值之后的数据之后,还包括:
计算所述插值之后的数据的方差;
将所述方差与预设的方差阈值进行比较;
若所述方差等于或者大于所述预设的方差阈值,保留数据;
若所述方差小于所述预设的方差阈值,删除数据。
5.一种消化系统肿瘤临床结果预测模型的构建系统,其特征在于,包括:
数据获取模块,用于获取多组学数据;
邻接矩阵构建模块,用于构建所述各组学数据的邻接矩阵;
矩阵计算模块,用于通过公式计算得到矩阵Q1;其中,φ(k1)是模型训练过程中自动生成的第一卷积层参数,conv1是与φ(k1)对应的卷积层,是由所述邻接矩阵拼接得到的候选邻接矩阵;通过公式计算得到矩阵Q2;其中,φ(k2)是模型训练过程中自动生成的第二卷积层参数,conv2是与φ(k2)对应的卷积层;
图表示计算模块,用于通过公式A(l)=D-1Q1Q2计算得到图表示A(l)
组学特征学习子模型构建模块,用于通过所述各组学数据和所述图表示A(l)分别构建预测模型中各组学特征学习子模型;
特征学习模块,用于对所述各组学特征学习子模型进行学习,得到各组学输出特征;
特征融合模块,用于对所述各组学输出特征进行融合,得到融合后的特征C;
损失值计算模块,用于通过公式L=∑LCE(VCDN(c),y),计算得到所述预测模型的损失值L;其中,y是样本的实际标签向量;
预测模型训练模块,用于对所述预测模型进行迭代训练,使得所述损失值L达到最小,得到最终的消化系统肿瘤临床结果预测模型。
6.如权利要求5所述的消化系统肿瘤临床结果预测模型的构建系统,其特征在于,所述邻接矩阵构建模块,包括:
余弦相似性计算单元,用于通过公式计算样本间的余弦相似性;其中,xi和xj分别是样本i和样本j相对应的各组学数据的特征向量;
邻接矩阵构建单元,用于如果两个样本间的余弦相似性大于阈值,将邻接矩阵的相应位置取1,否则取为0,最终为每种组学数据生成一个邻接矩阵。
7.如权利要求5所述的消化系统肿瘤临床结果预测模型的构建系统,其特征在于,还包括:
缺失值插补模块,用于使用数据集中找到的k邻域的平均值对所述多组学数据中的缺失值进行插补,得到插值之后的数据。
8.如权利要求7所述的消化系统肿瘤临床结果预测模型的构建系统,其特征在于,还包括:
方差计算模块,用于计算所述插值之后的数据的方差;
方差比较模块,用于将所述方差与预设的方差阈值进行比较;
数据保留模块,用于若所述方差等于或者大于所述预设的方差阈值,保留数据;
数据剔除模块,用于若所述方差小于所述预设的方差阈值,删除数据。
CN202311052063.7A 2023-08-20 2023-08-20 一种消化系统肿瘤临床结果预测模型的构建方法及系统 Pending CN117079804A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311052063.7A CN117079804A (zh) 2023-08-20 2023-08-20 一种消化系统肿瘤临床结果预测模型的构建方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311052063.7A CN117079804A (zh) 2023-08-20 2023-08-20 一种消化系统肿瘤临床结果预测模型的构建方法及系统

Publications (1)

Publication Number Publication Date
CN117079804A true CN117079804A (zh) 2023-11-17

Family

ID=88705627

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311052063.7A Pending CN117079804A (zh) 2023-08-20 2023-08-20 一种消化系统肿瘤临床结果预测模型的构建方法及系统

Country Status (1)

Country Link
CN (1) CN117079804A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118116600A (zh) * 2024-04-30 2024-05-31 数据空间研究院 一种基于多组学和临床检验数据的结直肠癌预后方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118116600A (zh) * 2024-04-30 2024-05-31 数据空间研究院 一种基于多组学和临床检验数据的结直肠癌预后方法

Similar Documents

Publication Publication Date Title
Li et al. Machine learning meets omics: applications and perspectives
Caudai et al. AI applications in functional genomics
Yap et al. Verifying explainability of a deep learning tissue classifier trained on RNA-seq data
Liu Identifying network-based biomarkers of complex diseases from high-throughput data
Athieniti et al. A guide to multi-omics data collection and integration for translational medicine
Kaur et al. Prediction of enhancers in DNA sequence data using a hybrid CNN-DLSTM model
Dlamini et al. AI and precision oncology in clinical cancer genomics: From prevention to targeted cancer therapies-an outcomes based patient care
Cheng et al. DGCyTOF: Deep learning with graphic cluster visualization to predict cell types of single cell mass cytometry data
Shi et al. Identifying molecular biomarkers for diseases with machine learning based on integrative omics
Ahmad et al. Integrating heterogeneous omics data via statistical inference and learning techniques
CN117079804A (zh) 一种消化系统肿瘤临床结果预测模型的构建方法及系统
Chen et al. Integration of spatial and single-cell data across modalities with weakly linked features
Zhou et al. PLUS: Predicting cancer metastasis potential based on positive and unlabeled learning
Wilson et al. Wide and deep learning for automatic cell type identification
Zhao et al. Integration of omics and phenotypic data for precision medicine
Zhang et al. MODEC: an unsupervised clustering method integrating omics data for identifying cancer subtypes
Sethi et al. Long Short-Term Memory-Deep Belief Network based Gene Expression Data Analysis for Prostate Cancer Detection and Classification
Nimmy et al. Investigation of DNA discontinuity for detecting tuberculosis
Knudsen et al. Artificial intelligence in pathomics and genomics of renal cell carcinoma
Randhawa et al. Advancing from protein interactomes and gene co-expression networks towards multi-omics-based composite networks: approaches for predicting and extracting biological knowledge
Vijayan et al. Blood-based transcriptomic signature panel identification for cancer diagnosis: benchmarking of feature extraction methods
Nayak et al. Deep learning approaches for high dimension cancer microarray data feature prediction: A review
Gao et al. SpatialMap: spatial mapping of unmeasured gene expression profiles in spatial transcriptomic data using generalized linear spatial models
Yuan et al. HEARTSVG: a fast and accurate method for spatially variable gene identification in large-scale spatial transcriptomic data
Mohamed et al. A novel feature selection algorithm for identifying hub genes in lung cancer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination