CN114694748A

CN114694748A - 一种基于预后信息与强化学习的蛋白质组学分子分型方法

Info

Publication number: CN114694748A
Application number: CN202210162480.6A
Authority: CN
Inventors: 贺福初; 谢林海; 常乘
Original assignee: Academy of Military Medical Sciences AMMS of PLA
Current assignee: Academy of Military Medical Sciences AMMS of PLA
Priority date: 2022-02-22
Filing date: 2022-02-22
Publication date: 2022-07-01
Anticipated expiration: 2042-02-22
Also published as: CN114694748B

Abstract

本发明公开了一种基于预后信息与强化学习的蛋白质组学分子分型方法，其步骤包括：1)获取发现队列与验证队列数据中的共鉴定蛋白，将共鉴定蛋白与发现队列所对应数据中的差异表达蛋白的交集分别作为发现队列、验证队列的蛋白质表达矩阵的特征，得到发现队列的蛋白质表达矩阵X_s、验证队列的蛋白质表达矩阵X_t；3)构建深度神经网络模型，包括分类器与增强学习奖励基线估计器；4)利用蛋白质表达矩阵X_s及对应的分类标签、蛋白质表达矩阵X_t及对应的预后信息，训练深度神经网络模型；5)将待处理蛋白质组数据输入训练后的分类器，得到其分子亚型。本发明既能有效保证带拓展分子分型在验证集上的预后区分度，又规避了对分类器模型的过度依赖。

Description

一种基于预后信息与强化学习的蛋白质组学分子分型方法

技术领域

本发明涉及临床蛋白质组学的患者预后分层问题，特别是将一种已知具有预后区分能力的蛋白质组分子分型从发现队列拓展到其他验证队列上。同时本发明也涉及了机器学习中的半监督式学习技术，特别是有标签数据与无标签数据存在差异性的领域自适应技术。

背景技术

基于分子特征对病人进行预后分层是组学研究在临床医学中的重要应用之一。一种新的分子分型从提出到投入临床应用需要经过多个中心的独立人群验证。由于基因组和转录组数据在各人群测得的数据一致性比较高，因此基于基因组和转录组数据做多中心的验证比较简单直接。仅通过无监督式聚类或者监督式分类，便可在验证队列中得到与发现队列中分型有较高一致性的各亚型。对于存在批次效应的多个队列，可通过已有算法消除批次效应，然后进行验证。然而，有别于基因组与转录组数据，蛋白质组数据在不同样本处理方法、检测方式以及人群中存在较大异质性，导致单一队列发现的分子分型难以拓展到多个临床队列，且通过目前的去批次效应算法无法有效消除该异质性。除此之外，去批次效应算法在消除批次效应影响的同时还存在部分消除生物学差异的风险。

在机器学习领域中上述问题可被描述为无监督领域自适应分类问题，是半监督分类任务中的子任务。目前，领域自适应算法主要被应用在图像数据上，其效果很大程度上依赖于卷积深度神经网络对图像数据关键特征的提取能力。由于目前尚未发现适用于蛋白质组学数据的深度神经网络结构，故现有成熟的领域自适应算法无法有效解决蛋白质组学中的相应问题。

发明内容

针对现有技术存在的技术问题，本发明的目的是提供一种基于预后信息与强化学习的蛋白质组学分子分型方法。本发明以预后信息为引导，通过监督式学习与强化学习，将已知具有预后区分能力的分子分型从发现队列迁移到具有异质性数据的验证队列中。

本发明的技术方案为：

一种基于预后信息与强化学习的蛋白质组学分子分型方法，其步骤包括：

1)获取发现队列与验证队列数据中的共鉴定蛋白，将所述共鉴定蛋白与所述发现队列所对应数据中的差异表达蛋白的交集分别作为所述发现队列、验证队列的蛋白质表达矩阵的特征，得到所述发现队列的蛋白质表达矩阵

所述验证队列的蛋白质表达矩阵

其中，所述发现队列为提出分子分型的测试者队列，所述验证队列为验证所述分子分型的测试者队列，n_s为发现队列的样本数量，n_t为验证队列的样本数量，d为蛋白数量；

2)构建深度神经网络模型，所述深度神经网络模型包括分类器与增强学习奖励基线估计器；

3)利用所述发现队列的蛋白质表达矩阵

及对应的分类标签、所述验证队列的蛋白质表达矩阵

及对应的预后信息，训练所述深度神经网络模型；

4)将待处理蛋白质组数据输入训练后的分类器，得到其分子亚型。

进一步的，所述发现队列对应的数据包括蛋白质表达矩阵

样本的分子分型标签

其中d_s表示发现队列的蛋白数量，n_c为亚型数量；所述验证队列对应的数据包括蛋白质表达矩阵

与样本的预后信息，其中d_t表示验证队列的蛋白数量；获到蛋白质表达矩阵

蛋白质表达矩阵

的方法为：

11)分别对蛋白质表达矩阵X_s′、X_t′的样本进行概率分布归一化处理；

12)删除蛋白质表达矩阵X_s′、X_t′中缺失率超过设定比例的蛋白；

14)将蛋白质表达矩阵X_s′、X_t′中的缺失值填补为0；

14)取发现队列与验证队列数据中的共鉴定蛋白，将所述共鉴定蛋白与所述发现队列所对应数据中的差异表达蛋白的交集分别作为所述发现队列、验证队列的蛋白质表达矩阵的特征，得到所述发现队列的蛋白质表达矩阵

所述验证队列的蛋白质表达矩阵

进一步的，所述预后信息包括总体生存时间os与是否死亡dead、无复发生存时间rfs与是否复发recur。

进一步的，训练所述深度神经网络模型的方法为：

31)将所述蛋白质表达矩阵X_s输入所述分类器，预测得到所述蛋白质表达矩阵X_s中每一样本对应的预测标签，然后通过最小化预测标签与分类标签之间的交叉熵L_CE优化所述分类器；

32)将所述蛋白质表达矩阵X_t输入所述分类器，预测得到所述蛋白质表达矩阵X_t中每个样本属于各个亚型的概率P_t；将所述概率P_t作为多项式分布的参数，在该多项式分布中进行随机采样，作为每个样本的分类结果；

33)根据步骤32)所得每个样本的分类结果与对应的预后信息，计算得到各亚型在各设定临床事件下的限制平均生存时间RMST；在每个临床事件中，将各亚型之间的限制预后时间差的最小值作为对应临床事件的奖励值；

34)将所述蛋白质表达矩阵X_t输入奖励基线估计器，预测得到奖励基线b_t；

35)根据若干临床事件的奖励值计算一综合奖励值r，将综合奖励值r减去所述奖励基线b_t作为最终奖励R，通过策略梯度算法最大化最终奖励R优化所述分类器；同时通过最小化基线损失函数L_RE优化奖励基线估计器。

进一步的，通过策略梯度算法最大化最终奖励R优化所述分类器时所采用的目标函数为

其中，

表示标签矩阵Y_t中第i行第j列的元素，

为验证队列对应的预测概率矩阵P_t中第i行第j列的元素。

进一步的，所述交叉熵

其中，

表示标签矩阵Y_s中第i行第j列的元素，

为发现队列对应的预测概率矩阵P_s中第i行第j列的元素。

进一步的，所述基线损失函数L_RE＝||r-b_t||。

一种服务器，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行上述方法中各步骤的指令。

一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述方法的步骤。

本发明方法首先对提出分子分型的发现队列与验证分子分型的验证队列中的数据做预处理；构建分类器与增强学习奖励基线估计器的深度神经网络模型；采用五折交叉验证对模型进行训练并测试。

在上述技术方案中，所有数据包括发现队列中的蛋白质表达矩阵

(其中n_s与d_s表示发现队列的样本数量与蛋白数量，样本数量即队列中的测试者数量，

表示实数空间

里的每个元素是n_s行d_s列的矩阵)、单热编码的样本分子分型标签

(其中n_c亚型数量)以及验证队列中的蛋白质表达矩阵

(其中n_t与d_t表示验证队列的样本数量与蛋白数量)，与患者的预后信息(包括总体生存时间

与是否死亡

无复发生存时间

与是否复发

)。数据预处理步骤包括：

步骤1-1)对每个队列，将蛋白质表达矩阵的样本进行概率分布归一化处理，该操作不改变蛋白质表达矩阵维度；

步骤1-2)对每个队列，删除蛋白质表达矩阵中缺失率超过70％的蛋白，该操作将改变d_s与d_t；

步骤1-3)对每个队列，将蛋白质表达矩阵中的缺失值填补为0，该操作不改变蛋白质表达矩阵维度；

步骤1-4)对每个队列，将蛋白质表达矩阵的特征进行标准差标准化，该操作不改变蛋白质表达矩阵维度；

步骤1-5)取发现队列与验证队列的共鉴定蛋白，将所述共鉴定蛋白与发现队列的差异表达蛋白的交集作为最终各队列的蛋白质表达矩阵的特征。令该集合内蛋白质数量为d，该操作将使d_s＝d_t＝d，最终使得两个队列的蛋白质表达矩阵为

与

在上述技术方案中，分类器f_cls(X)以蛋白质表达矩阵

为输入，其中n∈{n_s,n_t}，通过一个单层线性神经网络构建，其参数矩阵维度由输入向量维度d与分型数量n_c决定。经过softmax函数f_sm(·)归一化后，其输出为测试样本被预测为每个亚型的概率

在发现队列与测试队列中分别为P_s与P_t。奖励基线估计器f_bl(X_t)同以目标队列中的蛋白质表达矩阵X_t为输入，通过3层神经网络构建，隐藏层采用sigmoid激活函数，神经元个数为100，输出为

其中C为一个初始值为0且在训练过程中可被优化的变量。

在上述技术方案中，五折交叉验证的具体方式参考图1。模型训练过程参考图2(其中

符号表示相减，括号中数字对应正文描述的步骤编号)，具体步骤包括：

步骤3-1)监督式训练的输入数据为蛋白质表达矩阵X_s，分类标签为分子分型标签矩阵Y_s；

步骤3-2)以最小化预测概率与分类标签之间的交叉熵

作为优化目标，其中

表示标签矩阵Y_s中第i行第j列的元素，

为发现队列中的预测概率矩阵P_s中第i行第j列的元素。具体方法可参考深度学习教材：Goodfellow,Ian,Yoshua Bengio,and Aaron Courville.Deep learning.MITpress,2016。

步骤3-3)以蛋白质表达矩阵X_t为输入，通过分类器预测每个样本属于各个亚型的概率P_t。

步骤3-4)将上述概率值作为多项式分布的参数，然后在该概率分布中进行随机采样，作为每个样本的分类结果，即

步骤3-5)将此与患者的预后信息结合，以临床事件总生存(os)与无复发生存(rfs)为例，分别计算得到各亚型在两个不同的临床事件总生存(os)与无复发生存(rfs)下的限制平均生存时间(RMST)。针对亚型c∈{1,2,...,n_c}的总生存的RMST为

无复发生存的RMST为

其中os^c表示亚型被预测为c的人群的生存时间os。dead^c,rfs^c,recur^c均类似。RMST的具体计算方法可参考论文:Royston,P,and Mahesh KB P."Restricted mean survival time:analternative to the hazard ratio for the design and analysis of randomizedtrials with a time-to-event outcome".BMC medical research methodology 13.1(2013):1-15。在每个临床事件中，基于同一临床事件中的限制平均生存时间RMST计算得到各亚型之间的限制预后时间差(在发现队列中预后较好的亚型减去预后较差的亚型)的最小值作为对应临床事件奖励值。对总生存有

其中f_min(·)为取输入集合中的最小值，无复发生存的r_rfs类似。两个临床事件的综合奖励为r＝r_os+r_rfs。不失一般性的，我们指定数值更小的亚型(如c1)在发现队列上有更好的生存情况；

步骤3-6)以蛋白质表达矩阵为输入，通过奖励基线估计器预测奖励基线b_t＝f_bl(X_t)。

步骤3-7)将步骤3-5)中的奖励值减去步骤3-6)中的奖励基线作为最终奖励，即R＝r-b_t通过策略梯度算法最大化最终奖励来优化分类器，目标函数为

其中

表示标签矩阵Y_t中第i行第j列的元素，

为验证队列中的预测概率矩阵P_t中第i行第j列的元素。同时通过最小化基线损失函数L_RE＝||r-b_t||优化奖励基线估计器。具体计算方法可参照论文Xie,Linhai,et al."Learning with stochastic guidance for robot navigation."IEEE transactions onneural networks and learning systems 32.1(2020):166-176.中C.2)与C.3)部分的描述。步骤3-2)与步骤3-7)中提到的三个目标函数在训练过程中同时进行优化。步骤3-4)描述的根据多项式分布进行采样的操作仅在训练过程中需要执行，在测试阶段，仅以蛋白质表达矩阵作为输入，预测得到每个样本属于各亚型的概率，最后取概率最大的亚型作为预测结果。

本发明具有以下优点：

1，相比于传统去批次效应算法，本发明有效规避了部分丢失生物学差异的风险。去批次效应算法将两个队列人群的分子表达量映射到分不出区别的空间上，消除批次差异的同时往往也可能消除部分生物学差异。本发明是直接利用预处理过后的蛋白表达量进行分子分型，不存在消除部分生物学差异的问题。

2，相比于领域自适应算法，本发明以生存信息为引导，既能有效保证带拓展分子分型在验证集上的预后区分度，又规避了对分类器模型的过度依赖。

附图说明

图1为本发明所采用的深度学习算法示意图。

图2为五折交叉验证意图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步的说明。

具体实施所使用的数据来源于两篇文献(参考文献：Jiang,Ying,et al."Proteomics identifies new therapeutic targets of early-stage hepatocellularcarcinoma."Nature 567.7747(2019):257-261.与Xu,Jun-Yu,et al."Integrativeproteomic characterization of human lung adenocarcinoma."Cell 182.1(2020):245-261.)。文献中分别提供了两个肝癌患者队列的蛋白质组表达矩阵、预后信息(总生存时间与状态以及无病复发生存时间与状态)以及分子分型结果。

将Jiang et al.队列作为发现队列，Xu et al.队列作为验证队列，所以将Jianget al.文章中的具有预后区分度的S-I/S-II/S-III三种亚型迁移到Xu et al.队列中进行验证，三种亚型在发现队列中的预后依次变差。

首先对各队列中的蛋白质组学数据做预处理。通过概率分布归一化一定程度去除样本间批次效应；剔出缺失比例超过70％的特征；用0填补缺失值；分别在对两个蛋白质表达矩阵进行标准差归一化；取两个队列的共鉴定蛋白与Jiang et al.文章中总结的各亚型差异蛋白的交集得到1097个蛋白。最终分别得到维度(样本数×特征数)为101×1097与159×1097的蛋白质表达矩阵。每一维特征均值为0，方差为1。

根据每次分子分型预测结果，每个临床事件的奖励函数的定义为，min(RMST_S-I-RMST_S-II,RMST_S-II-RMST_S-III)，其中RMST为各亚型的限制平均生存时间。取总生存与无复发生存事件的平均奖励作为最终的奖励函数值。

深度学习模型采用Tensorflow代码库进行编写。分类器为一个单层线性神经网络，输入维度为1097，输出维度为3，采用L1正则化(系数为0.0001)与dropout(P＝0.1)防止网络过拟合。奖励基线估计器为一个三层深度神经网络，输入维度为1097，隐藏层维度为100，输出维度为1，除输出层外均采用sigmoid激活函数。两个神经网络均采用Adam优化器进行优化，学习率分别为0.04与0.00001。

在发现队列中通过蛋白质表达矩阵与分子分型标签进行监督式学习，在验证队列中通过蛋白质表达矩阵与预后信息进行强化学习。

五折交叉验证中，每次训练持续10000个epoch，保存在验证集上达到最优的模型。

在测试集中，发现队列的分类精度为0.901±0.029。验证队列各亚型与发现队列各亚型的功能富集相似度为0.771。该相似度通过对两个队列中分型结果的ssGSEA富集打分向量计算余弦相似度得到。验证队列的总生存与无病生存两种临床事件的Logrank统计检验打分为3.727±0.581与2.224±0.361，均超过P值为0.05时的打分1.301，具有显著性。该统计检验打分计算公式为-log10(P)。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。