CN114694748A - 一种基于预后信息与强化学习的蛋白质组学分子分型方法 - Google Patents

一种基于预后信息与强化学习的蛋白质组学分子分型方法 Download PDF

Info

Publication number
CN114694748A
CN114694748A CN202210162480.6A CN202210162480A CN114694748A CN 114694748 A CN114694748 A CN 114694748A CN 202210162480 A CN202210162480 A CN 202210162480A CN 114694748 A CN114694748 A CN 114694748A
Authority
CN
China
Prior art keywords
queue
protein expression
matrix
protein
discovery
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210162480.6A
Other languages
English (en)
Other versions
CN114694748B (zh
Inventor
贺福初
谢林海
常乘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Academy of Military Medical Sciences AMMS of PLA
Original Assignee
Academy of Military Medical Sciences AMMS of PLA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Academy of Military Medical Sciences AMMS of PLA filed Critical Academy of Military Medical Sciences AMMS of PLA
Priority to CN202210162480.6A priority Critical patent/CN114694748B/zh
Publication of CN114694748A publication Critical patent/CN114694748A/zh
Application granted granted Critical
Publication of CN114694748B publication Critical patent/CN114694748B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种基于预后信息与强化学习的蛋白质组学分子分型方法,其步骤包括:1)获取发现队列与验证队列数据中的共鉴定蛋白,将共鉴定蛋白与发现队列所对应数据中的差异表达蛋白的交集分别作为发现队列、验证队列的蛋白质表达矩阵的特征,得到发现队列的蛋白质表达矩阵Xs、验证队列的蛋白质表达矩阵Xt;3)构建深度神经网络模型,包括分类器与增强学习奖励基线估计器;4)利用蛋白质表达矩阵Xs及对应的分类标签、蛋白质表达矩阵Xt及对应的预后信息,训练深度神经网络模型;5)将待处理蛋白质组数据输入训练后的分类器,得到其分子亚型。本发明既能有效保证带拓展分子分型在验证集上的预后区分度,又规避了对分类器模型的过度依赖。

Description

一种基于预后信息与强化学习的蛋白质组学分子分型方法
技术领域
本发明涉及临床蛋白质组学的患者预后分层问题,特别是将一种已知具有预后区分能力的蛋白质组分子分型从发现队列拓展到其他验证队列上。同时本发明也涉及了机器学习中的半监督式学习技术,特别是有标签数据与无标签数据存在差异性的领域自适应技术。
背景技术
基于分子特征对病人进行预后分层是组学研究在临床医学中的重要应用之一。一种新的分子分型从提出到投入临床应用需要经过多个中心的独立人群验证。由于基因组和转录组数据在各人群测得的数据一致性比较高,因此基于基因组和转录组数据做多中心的验证比较简单直接。仅通过无监督式聚类或者监督式分类,便可在验证队列中得到与发现队列中分型有较高一致性的各亚型。对于存在批次效应的多个队列,可通过已有算法消除批次效应,然后进行验证。然而,有别于基因组与转录组数据,蛋白质组数据在不同样本处理方法、检测方式以及人群中存在较大异质性,导致单一队列发现的分子分型难以拓展到多个临床队列,且通过目前的去批次效应算法无法有效消除该异质性。除此之外,去批次效应算法在消除批次效应影响的同时还存在部分消除生物学差异的风险。
在机器学习领域中上述问题可被描述为无监督领域自适应分类问题,是半监督分类任务中的子任务。目前,领域自适应算法主要被应用在图像数据上,其效果很大程度上依赖于卷积深度神经网络对图像数据关键特征的提取能力。由于目前尚未发现适用于蛋白质组学数据的深度神经网络结构,故现有成熟的领域自适应算法无法有效解决蛋白质组学中的相应问题。
发明内容
针对现有技术存在的技术问题,本发明的目的是提供一种基于预后信息与强化学习的蛋白质组学分子分型方法。本发明以预后信息为引导,通过监督式学习与强化学习,将已知具有预后区分能力的分子分型从发现队列迁移到具有异质性数据的验证队列中。
本发明的技术方案为:
一种基于预后信息与强化学习的蛋白质组学分子分型方法,其步骤包括:
1)获取发现队列与验证队列数据中的共鉴定蛋白,将所述共鉴定蛋白与所述发现队列所对应数据中的差异表达蛋白的交集分别作为所述发现队列、验证队列的蛋白质表达矩阵的特征,得到所述发现队列的蛋白质表达矩阵
Figure BDA0003515380290000011
所述验证队列的蛋白质表达矩阵
Figure BDA0003515380290000021
其中,所述发现队列为提出分子分型的测试者队列,所述验证队列为验证所述分子分型的测试者队列,ns为发现队列的样本数量,nt为验证队列的样本数量,d为蛋白数量;
2)构建深度神经网络模型,所述深度神经网络模型包括分类器与增强学习奖励基线估计器;
3)利用所述发现队列的蛋白质表达矩阵
Figure BDA0003515380290000022
及对应的分类标签、所述验证队列的蛋白质表达矩阵
Figure BDA0003515380290000023
及对应的预后信息,训练所述深度神经网络模型;
4)将待处理蛋白质组数据输入训练后的分类器,得到其分子亚型。
进一步的,所述发现队列对应的数据包括蛋白质表达矩阵
Figure BDA0003515380290000024
样本的分子分型标签
Figure BDA0003515380290000025
其中ds表示发现队列的蛋白数量,nc为亚型数量;所述验证队列对应的数据包括蛋白质表达矩阵
Figure BDA0003515380290000026
与样本的预后信息,其中dt表示验证队列的蛋白数量;获到蛋白质表达矩阵
Figure BDA0003515380290000027
蛋白质表达矩阵
Figure BDA0003515380290000028
的方法为:
11)分别对蛋白质表达矩阵Xs′、Xt′的样本进行概率分布归一化处理;
12)删除蛋白质表达矩阵Xs′、Xt′中缺失率超过设定比例的蛋白;
14)将蛋白质表达矩阵Xs′、Xt′中的缺失值填补为0;
14)取发现队列与验证队列数据中的共鉴定蛋白,将所述共鉴定蛋白与所述发现队列所对应数据中的差异表达蛋白的交集分别作为所述发现队列、验证队列的蛋白质表达矩阵的特征,得到所述发现队列的蛋白质表达矩阵
Figure BDA0003515380290000029
所述验证队列的蛋白质表达矩阵
Figure BDA00035153802900000210
进一步的,所述预后信息包括总体生存时间os与是否死亡dead、无复发生存时间rfs与是否复发recur。
进一步的,训练所述深度神经网络模型的方法为:
31)将所述蛋白质表达矩阵Xs输入所述分类器,预测得到所述蛋白质表达矩阵Xs中每一样本对应的预测标签,然后通过最小化预测标签与分类标签之间的交叉熵LCE优化所述分类器;
32)将所述蛋白质表达矩阵Xt输入所述分类器,预测得到所述蛋白质表达矩阵Xt中每个样本属于各个亚型的概率Pt;将所述概率Pt作为多项式分布的参数,在该多项式分布中进行随机采样,作为每个样本的分类结果;
33)根据步骤32)所得每个样本的分类结果与对应的预后信息,计算得到各亚型在各设定临床事件下的限制平均生存时间RMST;在每个临床事件中,将各亚型之间的限制预后时间差的最小值作为对应临床事件的奖励值;
34)将所述蛋白质表达矩阵Xt输入奖励基线估计器,预测得到奖励基线bt
35)根据若干临床事件的奖励值计算一综合奖励值r,将综合奖励值r减去所述奖励基线bt作为最终奖励R,通过策略梯度算法最大化最终奖励R优化所述分类器;同时通过最小化基线损失函数LRE优化奖励基线估计器。
进一步的,通过策略梯度算法最大化最终奖励R优化所述分类器时所采用的目标函数为
Figure BDA0003515380290000031
其中,
Figure BDA0003515380290000032
表示标签矩阵Yt中第i行第j列的元素,
Figure BDA0003515380290000033
为验证队列对应的预测概率矩阵Pt中第i行第j列的元素。
进一步的,所述交叉熵
Figure BDA0003515380290000034
其中,
Figure BDA0003515380290000035
表示标签矩阵Ys中第i行第j列的元素,
Figure BDA0003515380290000036
为发现队列对应的预测概率矩阵Ps中第i行第j列的元素。
进一步的,所述基线损失函数LRE=||r-bt||。
一种服务器,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行上述方法中各步骤的指令。
一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述方法的步骤。
本发明方法首先对提出分子分型的发现队列与验证分子分型的验证队列中的数据做预处理;构建分类器与增强学习奖励基线估计器的深度神经网络模型;采用五折交叉验证对模型进行训练并测试。
在上述技术方案中,所有数据包括发现队列中的蛋白质表达矩阵
Figure BDA0003515380290000037
(其中ns与ds表示发现队列的样本数量与蛋白数量,样本数量即队列中的测试者数量,
Figure BDA0003515380290000038
表示实数空间
Figure BDA0003515380290000039
里的每个元素是ns行ds列的矩阵)、单热编码的样本分子分型标签
Figure BDA00035153802900000310
(其中nc亚型数量)以及验证队列中的蛋白质表达矩阵
Figure BDA00035153802900000311
(其中nt与dt表示验证队列的样本数量与蛋白数量),与患者的预后信息(包括总体生存时间
Figure BDA00035153802900000312
与是否死亡
Figure BDA00035153802900000313
无复发生存时间
Figure BDA00035153802900000314
与是否复发
Figure BDA00035153802900000315
)。数据预处理步骤包括:
步骤1-1)对每个队列,将蛋白质表达矩阵的样本进行概率分布归一化处理,该操作不改变蛋白质表达矩阵维度;
步骤1-2)对每个队列,删除蛋白质表达矩阵中缺失率超过70%的蛋白,该操作将改变ds与dt
步骤1-3)对每个队列,将蛋白质表达矩阵中的缺失值填补为0,该操作不改变蛋白质表达矩阵维度;
步骤1-4)对每个队列,将蛋白质表达矩阵的特征进行标准差标准化,该操作不改变蛋白质表达矩阵维度;
步骤1-5)取发现队列与验证队列的共鉴定蛋白,将所述共鉴定蛋白与发现队列的差异表达蛋白的交集作为最终各队列的蛋白质表达矩阵的特征。令该集合内蛋白质数量为d,该操作将使ds=dt=d,最终使得两个队列的蛋白质表达矩阵为
Figure BDA0003515380290000041
Figure BDA0003515380290000042
在上述技术方案中,分类器fcls(X)以蛋白质表达矩阵
Figure BDA0003515380290000043
为输入,其中n∈{ns,nt},通过一个单层线性神经网络构建,其参数矩阵维度由输入向量维度d与分型数量nc决定。经过softmax函数fsm(·)归一化后,其输出为测试样本被预测为每个亚型的概率
Figure BDA00035153802900000412
Figure BDA00035153802900000413
在发现队列与测试队列中分别为Ps与Pt。奖励基线估计器fbl(Xt)同以目标队列中的蛋白质表达矩阵Xt为输入,通过3层神经网络构建,隐藏层采用sigmoid激活函数,神经元个数为100,输出为
Figure BDA0003515380290000044
其中C为一个初始值为0且在训练过程中可被优化的变量。
在上述技术方案中,五折交叉验证的具体方式参考图1。模型训练过程参考图2(其中
Figure BDA0003515380290000045
符号表示相减,括号中数字对应正文描述的步骤编号),具体步骤包括:
步骤3-1)监督式训练的输入数据为蛋白质表达矩阵Xs,分类标签为分子分型标签矩阵Ys
步骤3-2)以最小化预测概率与分类标签之间的交叉熵
Figure BDA0003515380290000046
作为优化目标,其中
Figure BDA0003515380290000047
表示标签矩阵Ys中第i行第j列的元素,
Figure BDA0003515380290000048
为发现队列中的预测概率矩阵Ps中第i行第j列的元素。具体方法可参考深度学习教材:Goodfellow,Ian,Yoshua Bengio,and Aaron Courville.Deep learning.MITpress,2016。
步骤3-3)以蛋白质表达矩阵Xt为输入,通过分类器预测每个样本属于各个亚型的概率Pt
步骤3-4)将上述概率值作为多项式分布的参数,然后在该概率分布中进行随机采样,作为每个样本的分类结果,即
Figure BDA0003515380290000049
步骤3-5)将此与患者的预后信息结合,以临床事件总生存(os)与无复发生存(rfs)为例,分别计算得到各亚型在两个不同的临床事件总生存(os)与无复发生存(rfs)下的限制平均生存时间(RMST)。针对亚型c∈{1,2,...,nc}的总生存的RMST为
Figure BDA00035153802900000410
无复发生存的RMST为
Figure BDA00035153802900000411
其中osc表示亚型被预测为c的人群的生存时间os。deadc,rfsc,recurc均类似。RMST的具体计算方法可参考论文:Royston,P,and Mahesh KB P."Restricted mean survival time:analternative to the hazard ratio for the design and analysis of randomizedtrials with a time-to-event outcome".BMC medical research methodology 13.1(2013):1-15。在每个临床事件中,基于同一临床事件中的限制平均生存时间RMST计算得到各亚型之间的限制预后时间差(在发现队列中预后较好的亚型减去预后较差的亚型)的最小值作为对应临床事件奖励值。对总生存有
Figure BDA0003515380290000051
其中fmin(·)为取输入集合中的最小值,无复发生存的rrfs类似。两个临床事件的综合奖励为r=ros+rrfs。不失一般性的,我们指定数值更小的亚型(如c1)在发现队列上有更好的生存情况;
步骤3-6)以蛋白质表达矩阵为输入,通过奖励基线估计器预测奖励基线bt=fbl(Xt)。
步骤3-7)将步骤3-5)中的奖励值减去步骤3-6)中的奖励基线作为最终奖励,即R=r-bt通过策略梯度算法最大化最终奖励来优化分类器,目标函数为
Figure BDA0003515380290000052
其中
Figure BDA0003515380290000053
表示标签矩阵Yt中第i行第j列的元素,
Figure BDA0003515380290000054
为验证队列中的预测概率矩阵Pt中第i行第j列的元素。同时通过最小化基线损失函数LRE=||r-bt||优化奖励基线估计器。具体计算方法可参照论文Xie,Linhai,et al."Learning with stochastic guidance for robot navigation."IEEE transactions onneural networks and learning systems 32.1(2020):166-176.中C.2)与C.3)部分的描述。步骤3-2)与步骤3-7)中提到的三个目标函数在训练过程中同时进行优化。步骤3-4)描述的根据多项式分布进行采样的操作仅在训练过程中需要执行,在测试阶段,仅以蛋白质表达矩阵作为输入,预测得到每个样本属于各亚型的概率,最后取概率最大的亚型作为预测结果。
本发明具有以下优点:
1,相比于传统去批次效应算法,本发明有效规避了部分丢失生物学差异的风险。去批次效应算法将两个队列人群的分子表达量映射到分不出区别的空间上,消除批次差异的同时往往也可能消除部分生物学差异。本发明是直接利用预处理过后的蛋白表达量进行分子分型,不存在消除部分生物学差异的问题。
2,相比于领域自适应算法,本发明以生存信息为引导,既能有效保证带拓展分子分型在验证集上的预后区分度,又规避了对分类器模型的过度依赖。
附图说明
图1为本发明所采用的深度学习算法示意图。
图2为五折交叉验证意图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步的说明。
具体实施所使用的数据来源于两篇文献(参考文献:Jiang,Ying,et al."Proteomics identifies new therapeutic targets of early-stage hepatocellularcarcinoma."Nature 567.7747(2019):257-261.与Xu,Jun-Yu,et al."Integrativeproteomic characterization of human lung adenocarcinoma."Cell 182.1(2020):245-261.)。文献中分别提供了两个肝癌患者队列的蛋白质组表达矩阵、预后信息(总生存时间与状态以及无病复发生存时间与状态)以及分子分型结果。
将Jiang et al.队列作为发现队列,Xu et al.队列作为验证队列,所以将Jianget al.文章中的具有预后区分度的S-I/S-II/S-III三种亚型迁移到Xu et al.队列中进行验证,三种亚型在发现队列中的预后依次变差。
首先对各队列中的蛋白质组学数据做预处理。通过概率分布归一化一定程度去除样本间批次效应;剔出缺失比例超过70%的特征;用0填补缺失值;分别在对两个蛋白质表达矩阵进行标准差归一化;取两个队列的共鉴定蛋白与Jiang et al.文章中总结的各亚型差异蛋白的交集得到1097个蛋白。最终分别得到维度(样本数×特征数)为101×1097与159×1097的蛋白质表达矩阵。每一维特征均值为0,方差为1。
根据每次分子分型预测结果,每个临床事件的奖励函数的定义为,min(RMSTS-I-RMSTS-II,RMSTS-II-RMSTS-III),其中RMST为各亚型的限制平均生存时间。取总生存与无复发生存事件的平均奖励作为最终的奖励函数值。
深度学习模型采用Tensorflow代码库进行编写。分类器为一个单层线性神经网络,输入维度为1097,输出维度为3,采用L1正则化(系数为0.0001)与dropout(P=0.1)防止网络过拟合。奖励基线估计器为一个三层深度神经网络,输入维度为1097,隐藏层维度为100,输出维度为1,除输出层外均采用sigmoid激活函数。两个神经网络均采用Adam优化器进行优化,学习率分别为0.04与0.00001。
在发现队列中通过蛋白质表达矩阵与分子分型标签进行监督式学习,在验证队列中通过蛋白质表达矩阵与预后信息进行强化学习。
五折交叉验证中,每次训练持续10000个epoch,保存在验证集上达到最优的模型。
在测试集中,发现队列的分类精度为0.901±0.029。验证队列各亚型与发现队列各亚型的功能富集相似度为0.771。该相似度通过对两个队列中分型结果的ssGSEA富集打分向量计算余弦相似度得到。验证队列的总生存与无病生存两种临床事件的Logrank统计检验打分为3.727±0.581与2.224±0.361,均超过P值为0.05时的打分1.301,具有显著性。该统计检验打分计算公式为-log10(P)。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (9)

1.一种基于预后信息与强化学习的蛋白质组学分子分型方法,其步骤包括:
1)获取发现队列与验证队列数据中的共鉴定蛋白,将所述共鉴定蛋白与所述发现队列所对应数据中的差异表达蛋白的交集分别作为所述发现队列、验证队列的蛋白质表达矩阵的特征,得到所述发现队列的蛋白质表达矩阵
Figure FDA0003515380280000011
所述验证队列的蛋白质表达矩阵
Figure FDA0003515380280000012
其中,所述发现队列为提出分子分型的测试者队列,所述验证队列为验证所述分子分型的测试者队列,ns为发现队列的样本数量,nt为验证队列的样本数量,d为蛋白数量;
2)构建深度神经网络模型,所述深度神经网络模型包括分类器与增强学习奖励基线估计器;
3)利用所述发现队列的蛋白质表达矩阵
Figure FDA0003515380280000013
及对应的分类标签、所述验证队列的蛋白质表达矩阵
Figure FDA0003515380280000014
及对应的预后信息,训练所述深度神经网络模型;
4)将待处理蛋白质组数据输入训练后的分类器,得到其分子亚型。
2.根据权利要求1所述的方法,其特征在于,所述发现队列对应的数据包括蛋白质表达矩阵
Figure FDA0003515380280000015
样本的分子分型标签
Figure FDA0003515380280000016
其中ds表示发现队列的蛋白数量,nc为亚型数量;所述验证队列对应的数据包括蛋白质表达矩阵
Figure FDA0003515380280000017
与样本的预后信息,其中dt表示验证队列的蛋白数量;获到蛋白质表达矩阵
Figure FDA0003515380280000018
蛋白质表达矩阵
Figure FDA0003515380280000019
的方法为:
11)分别对蛋白质表达矩阵Xs′、Xt′的样本进行概率分布归一化处理;
12)删除蛋白质表达矩阵Xs′、Xt′中缺失率超过设定比例的蛋白;
13)将蛋白质表达矩阵Xs′、Xt′中的缺失值填补为0;
14)取发现队列与验证队列数据中的共鉴定蛋白,将所述共鉴定蛋白与所述发现队列所对应数据中的差异表达蛋白的交集分别作为所述发现队列、验证队列的蛋白质表达矩阵的特征,得到所述发现队列的蛋白质表达矩阵
Figure FDA00035153802800000110
所述验证队列的蛋白质表达矩阵
Figure FDA00035153802800000111
3.根据权利要求2所述的方法,其特征在于,所述预后信息包括总体生存时间os与是否死亡dead、无复发生存时间rfs与是否复发recur。
4.根据权利要求1或2或3所述的方法,其特征在于,训练所述深度神经网络模型的方法为:
31)将所述蛋白质表达矩阵Xs输入所述分类器,预测得到所述蛋白质表达矩阵Xs中每一样本对应的预测标签,然后通过最小化预测标签与分类标签之间的交叉熵LCE优化所述分类器;
32)将所述蛋白质表达矩阵Xt输入所述分类器,预测得到所述蛋白质表达矩阵Xt中每个样本属于各个亚型的概率Pt;将所述概率Pt作为多项式分布的参数,在该多项式分布中进行随机采样,作为每个样本的分类结果;
33)根据步骤32)所得每个样本的分类结果与对应的预后信息,计算得到各亚型在各设定临床事件下的限制平均生存时间RMST;在每个临床事件中,将各亚型之间的限制预后时间差的最小值作为对应临床事件的奖励值;
34)将所述蛋白质表达矩阵Xt输入奖励基线估计器,预测得到奖励基线bt
35)根据若干临床事件的奖励值计算一综合奖励值r,将综合奖励值r减去所述奖励基线bt作为最终奖励R,通过策略梯度算法最大化最终奖励R优化所述分类器;同时通过最小化基线损失函数LRE优化奖励基线估计器。
5.根据权利要求4所述的方法,其特征在于,通过策略梯度算法最大化最终奖励R优化所述分类器时所采用的目标函数为
Figure FDA0003515380280000021
其中,
Figure FDA0003515380280000022
表示标签矩阵Yt中第i行第j列的元素,
Figure FDA0003515380280000023
为验证队列对应的预测概率矩阵Pt中第i行第j列的元素。
6.根据权利要求4所述的方法,其特征在于,所述交叉熵
Figure FDA0003515380280000024
其中,
Figure FDA0003515380280000025
表示标签矩阵Ys中第i行第j列的元素,
Figure FDA0003515380280000026
为发现队列对应的预测概率矩阵Ps中第i行第j列的元素。
7.根据权利要求4所述的方法,其特征在于,所述基线损失函数LRE=||r-bt||。
8.一种服务器,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1至7任一所述方法中各步骤的指令。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一所述方法的步骤。
CN202210162480.6A 2022-02-22 2022-02-22 一种基于预后信息与强化学习的蛋白质组学分子分型方法 Active CN114694748B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210162480.6A CN114694748B (zh) 2022-02-22 2022-02-22 一种基于预后信息与强化学习的蛋白质组学分子分型方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210162480.6A CN114694748B (zh) 2022-02-22 2022-02-22 一种基于预后信息与强化学习的蛋白质组学分子分型方法

Publications (2)

Publication Number Publication Date
CN114694748A true CN114694748A (zh) 2022-07-01
CN114694748B CN114694748B (zh) 2022-10-28

Family

ID=82137130

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210162480.6A Active CN114694748B (zh) 2022-02-22 2022-02-22 一种基于预后信息与强化学习的蛋白质组学分子分型方法

Country Status (1)

Country Link
CN (1) CN114694748B (zh)

Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060223122A1 (en) * 2005-03-08 2006-10-05 Agnes Fogo Classifying and predicting glomerulosclerosis using a proteomics approach
US20070111257A1 (en) * 2005-07-07 2007-05-17 Kohne David E Improved protein expression comparison assay results and applications
US20090275057A1 (en) * 2006-03-31 2009-11-05 Linke Steven P Diagnostic markers predictive of outcomes in colorectal cancer treatment and progression and methods of use thereof
US20100075354A1 (en) * 2007-02-16 2010-03-25 Taka-Aki Sato Marker for identification of tissue type of epithelial ovarian cancer, and method for determination of the occurrence of epithelial ovarian cancer based on tissue type by using the marker
WO2014197713A2 (en) * 2013-06-05 2014-12-11 The Regents Of The University Of Colorado, A Body Corporate Molecular phenotyping of idiopathic interstitial pneumonia identifies two subtypes of idiopathic pulmonary fibrosis
US20170283873A1 (en) * 2014-09-12 2017-10-05 H. Lee Moffitt Cancer Center And Research Institute, Inc. Supervised learning methods for the prediction of tumor radiosensitivity to preoperative radiochemotherapy
US20170357844A1 (en) * 2016-06-09 2017-12-14 Siemens Healthcare Gmbh Image-based tumor phenotyping with machine learning from synthetic data
CN108445097A (zh) * 2017-03-31 2018-08-24 北京谷海天目生物医学科技有限公司 弥漫型胃癌的分子分型、用于分型的蛋白标志物及其筛选方法和应用
CN111933211A (zh) * 2020-06-28 2020-11-13 北京谷海天目生物医学科技有限公司 癌症精准化疗分型标志物筛选方法、化疗敏感性的分子分型方法和应用
CN112071363A (zh) * 2020-07-21 2020-12-11 北京谷海天目生物医学科技有限公司 胃黏膜病变蛋白质分子分型、病变进展及胃癌相关蛋白标志物、预测病变进展风险的方法
WO2021077029A1 (en) * 2019-10-16 2021-04-22 Icahn School Of Medicine At Mount Sinai Systems and methods for detecting a disease condition
US20210174958A1 (en) * 2018-04-13 2021-06-10 Freenome Holdings, Inc. Machine learning implementation for multi-analyte assay development and testing
CN113096730A (zh) * 2021-04-02 2021-07-09 中山大学 一种鼻咽癌分子分型的预测系统
CN113130002A (zh) * 2021-04-29 2021-07-16 吉林大学 一种肺腺癌生物标志物筛选、预后模型构建及生物学验证的新方法
WO2021155235A1 (en) * 2020-01-31 2021-08-05 The Board Of Trustees Of The Leland Stanford Junior University Methods for diagnosing and treating uveal melanoma
WO2021195787A1 (en) * 2020-04-03 2021-10-07 Qualisure Diagnostics Inc. Prognostic and treatment methods for thyroid cancer
WO2021247540A1 (en) * 2020-06-01 2021-12-09 Dana-Farber Cancer Institute, Inc. Methods for modulating mhc-i expression and immunotherapy uses thereof
WO2021253134A1 (en) * 2020-06-18 2021-12-23 Ontario Institute For Cancer Research (Oicr) Molecular classifiers for prostate cancer
CN113838570A (zh) * 2021-08-31 2021-12-24 华中科技大学 一种基于深度学习的宫颈癌自洽分型方法和系统

Patent Citations (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060223122A1 (en) * 2005-03-08 2006-10-05 Agnes Fogo Classifying and predicting glomerulosclerosis using a proteomics approach
US20070111257A1 (en) * 2005-07-07 2007-05-17 Kohne David E Improved protein expression comparison assay results and applications
US20090275057A1 (en) * 2006-03-31 2009-11-05 Linke Steven P Diagnostic markers predictive of outcomes in colorectal cancer treatment and progression and methods of use thereof
US20100075354A1 (en) * 2007-02-16 2010-03-25 Taka-Aki Sato Marker for identification of tissue type of epithelial ovarian cancer, and method for determination of the occurrence of epithelial ovarian cancer based on tissue type by using the marker
WO2014197713A2 (en) * 2013-06-05 2014-12-11 The Regents Of The University Of Colorado, A Body Corporate Molecular phenotyping of idiopathic interstitial pneumonia identifies two subtypes of idiopathic pulmonary fibrosis
US20170283873A1 (en) * 2014-09-12 2017-10-05 H. Lee Moffitt Cancer Center And Research Institute, Inc. Supervised learning methods for the prediction of tumor radiosensitivity to preoperative radiochemotherapy
US20170357844A1 (en) * 2016-06-09 2017-12-14 Siemens Healthcare Gmbh Image-based tumor phenotyping with machine learning from synthetic data
CN107492090A (zh) * 2016-06-09 2017-12-19 西门子保健有限责任公司 根据合成数据利用机器学习的基于图像的肿瘤表型分析
CN108445097A (zh) * 2017-03-31 2018-08-24 北京谷海天目生物医学科技有限公司 弥漫型胃癌的分子分型、用于分型的蛋白标志物及其筛选方法和应用
US20210174958A1 (en) * 2018-04-13 2021-06-10 Freenome Holdings, Inc. Machine learning implementation for multi-analyte assay development and testing
WO2021077029A1 (en) * 2019-10-16 2021-04-22 Icahn School Of Medicine At Mount Sinai Systems and methods for detecting a disease condition
CA3155044A1 (en) * 2019-10-16 2021-04-22 Icahn School Of Medicine At Mount Sinai Systems and methods for detecting a disease condition
WO2021155235A1 (en) * 2020-01-31 2021-08-05 The Board Of Trustees Of The Leland Stanford Junior University Methods for diagnosing and treating uveal melanoma
WO2021195787A1 (en) * 2020-04-03 2021-10-07 Qualisure Diagnostics Inc. Prognostic and treatment methods for thyroid cancer
WO2021247540A1 (en) * 2020-06-01 2021-12-09 Dana-Farber Cancer Institute, Inc. Methods for modulating mhc-i expression and immunotherapy uses thereof
WO2021253134A1 (en) * 2020-06-18 2021-12-23 Ontario Institute For Cancer Research (Oicr) Molecular classifiers for prostate cancer
CN111933211A (zh) * 2020-06-28 2020-11-13 北京谷海天目生物医学科技有限公司 癌症精准化疗分型标志物筛选方法、化疗敏感性的分子分型方法和应用
CN112071363A (zh) * 2020-07-21 2020-12-11 北京谷海天目生物医学科技有限公司 胃黏膜病变蛋白质分子分型、病变进展及胃癌相关蛋白标志物、预测病变进展风险的方法
CN113096730A (zh) * 2021-04-02 2021-07-09 中山大学 一种鼻咽癌分子分型的预测系统
CN113130002A (zh) * 2021-04-29 2021-07-16 吉林大学 一种肺腺癌生物标志物筛选、预后模型构建及生物学验证的新方法
CN113838570A (zh) * 2021-08-31 2021-12-24 华中科技大学 一种基于深度学习的宫颈癌自洽分型方法和系统

Non-Patent Citations (16)

* Cited by examiner, † Cited by third party
Title
JUN-YU XU 等: "Integrative Proteomic Characterization of Human Lung Adenocarcinoma", 《CELL》 *
SAI GE 等: "A proteomic landscape of diffuse-type gastric cancer", 《NAT COMMUN》 *
SHUANG WENG 等: "Optimised data-independent acquisition strategy recaptures the classification of early-stage hepatocellular carcinoma based on data-dependent acquisition", 《JOURNAL OF PROTEOMICS》 *
何萍: "基于蛋白质组学分析的乳腺癌关键因子的发现及功能研究", 《中国优秀博硕士学位论文全文数据库(硕士)医药卫生科技辑》 *
刘灿 等: "胃癌分子分型的研究进展", 《肿瘤学杂志》 *
吴素娟: "基于差异共表达方法对胶质瘤分子分型的研究以及对疾病间相关关系数据库的开发", 《中国优秀博硕士学位论文全文数据库(硕士)医药卫生科技辑》 *
姜颖 等: "人类蛋白质组计划研究现状与趋势", 《中国基础科学》 *
孟波: "蛋白质组学微量样本制备新技术及在肝癌研究中的应用", 《中国优秀博硕士学位论文全文数据库(硕士)医药卫生科技辑》 *
张墨 等: "定量蛋白质组学技术筛选前列腺癌患者尿液中差异表达蛋白价值", 《中华实用诊断与治疗杂志》 *
张明智 等: "不同疗效的非霍奇金淋巴瘤血清蛋白质质谱分析", 《肿瘤防治研究》 *
李晶 等: "ER/PR阳性和阴性乳腺癌的定量蛋白质组学和生物信息学比较研究", 《现代生物医学进展》 *
李晶 等: "三阴性与三阳性乳腺癌定量蛋白质组学和生物信息学比较研究", 《中华肿瘤防治杂志》 *
杨亮 等: "腋窝淋巴结转移与无转移乳腺浸润性导管癌患者癌组织中差异表达蛋白的筛选与验证", 《山东医药》 *
段亚伟: "应用免疫组化方法对子宫内膜癌进行分子分型的探讨", 《中国优秀博硕士学位论文全文数据库(硕士)医药卫生科技辑》 *
苏铭 等: "肝内转移与多中心发生多结节肝癌的比较蛋白质组学分析", 《癌症》 *
钟敏儿: "左、右半结肠癌血清外泌体的蛋白表达谱差异及其功能研究", 《中国博士学位论文全文数据库医药卫生科技辑》 *

Also Published As

Publication number Publication date
CN114694748B (zh) 2022-10-28

Similar Documents

Publication Publication Date Title
CN114841280B (zh) 一种复杂疾病的预测分类方法、系统、介质、设备及终端
CN111370073B (zh) 一种基于深度学习的药物互作规则预测方法
Wang et al. Incorporating deep learning with word embedding to identify plant ubiquitylation sites
Luo et al. Identifying disease-gene associations with graph-regularized manifold learning
CN114743600A (zh) 基于门控注意力机制的靶标-配体结合亲和力的深度学习预测方法
CN113871021A (zh) 一种基于图注意力机制的circRNA与疾病关联关系预测方法
KR20230110615A (ko) 태아 염색체 이상을 검출하는 방법 및 시스템
CN115472221A (zh) 一种基于深度学习的蛋白质适应度预测方法
Sudharson et al. Enhancing the Efficiency of Lung Disease Prediction using CatBoost and Expectation Maximization Algorithms
Shibahara et al. Deep learning generates custom-made logistic regression models for explaining how breast cancer subtypes are classified
Su et al. An efficient computational model for large-scale prediction of protein–protein interactions based on accurate and scalable graph embedding
CN114694748B (zh) 一种基于预后信息与强化学习的蛋白质组学分子分型方法
CN116153396A (zh) 一种基于迁移学习的非编码变异预测方法
Zhao et al. scSSA: a clustering method for single cell RNA-seq data based on semi-supervised autoencoder
CN115083511A (zh) 基于图表示学习与注意力的外围基因调控特征提取方法
Li et al. A dual ranking algorithm based on the multiplex network for heterogeneous complex disease analysis
Deng et al. Predict the protein-protein interaction between virus and host through hybrid deep neural network
CN115206423A (zh) 基于标签指导的蛋白质作用关系预测方法
Guo et al. Inferring drug-mirna associations by integrating drug smiles and mirna sequence information
Cai et al. Application and research progress of machine learning in Bioinformatics
CN114999566B (zh) 基于词向量表征和注意力机制的药物重定位方法及系统
Sridhar et al. Interrelating N-gram based protein sequences using LSTMs with parallel capsule routing
Liu et al. Prediction of piRNA-mRNA interactions based on an interactive inference network
Chen et al. A Machine Learning Based Method to Identify Differentially Expressed Genes
Zhong et al. Controlled Noise: Evidence of Epigenetic Regulation of Single-Cell Expression Variability

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant