CN112164474B

CN112164474B - 一种基于自表达模型的药物敏感性预测方法

Info

Publication number: CN112164474B
Application number: CN202010671826.6A
Authority: CN
Inventors: 刘辉; 俞健; 陈锦; 苑雨薇; 马佳妮; 张�林
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2020-07-14
Filing date: 2020-07-14
Publication date: 2024-05-24
Anticipated expiration: 2040-07-14
Also published as: CN112164474A

Abstract

本发明名为基于自表达模型的药物敏感性预测方法，属机器学习及药物基因组学研究领域。本发明目标是基于已知细胞系对药物的敏感性程度预测未知的细胞系和药物之间的敏感性分数。通过构建细胞系药物对的响应自表达模型，通过某些细胞系药物对的敏感度的线性或仿射组合实现未知敏感性分数的预测。该模型将复杂的优化问题转化为多个子空间，可以实现对包含缺失值数值矩阵的精准且高效的填补，进而实现对细胞系药物响应值的预测。本发明提出的算法能够为个性化精准医疗中重要的药物响应评估环节提供有力的参考。

Description

一种基于自表达模型的药物敏感性预测方法

技术领域

本发明涉及机器学习及药物基因组学研究领域，具体涉及一种基于自表达模型的药物敏感性预测方法。

背景技术

癌症是威胁人类健康的常见疾病，死亡率极高。癌症的异质性导致即使患有相同疾病的患者对相同治疗方案的反应也大不相同。个性化医疗的基本目标是设计和确定最大限度提高药物疗效的个体化疗法，同时最大限度地减少不良副作用。而药物反应预测已成为癌症患者进行个体化治疗的先决条件。

个性化预防和治疗的主要挑战是识别生物标志物，这对于理解给定复杂疾病的发病机制至关重要。然而，研究人员需要考虑人类或动物模型中预测性生物标志物的时间和成本效益，因为用大量药物测试大量癌症患者的临床效果和毒性是不可行的。高通量药物筛选技术使许多研究能够对人类癌细胞系进行大规模实验。到目前为止，已经开发了许多预测方法来促进和加速药物发现和重新定位过程。近期的药物反应预测计算方法可分为几种类型，例如矩阵分解(MF)，基于核的方法和基于网络的方法。Ammad-ud-din等人引入了最新的内核贝叶斯矩阵分解(KBMF)方法的扩展，对行和列的大量侧面数据视图与输出矩阵的潜在分量空间之间的复杂关联进行建模。Wang等人提出了相似正则化矩阵分解(SRMF)模型来近似药物反应矩阵并计算未知反应水平。Brouwer等人提出了一种贝叶斯混合矩阵分解(HMF)模型，该模型不仅将相似性矩阵视为辅助信息，而且还具有特征矩阵。Guan等人构造了一个p-最近邻图来简化药物相似性矩阵和细胞系相似性矩阵，并提出了一种利用加权图正则化矩阵分解(WGRMF)排除噪声成分并提高药物反应预测准确性的新方法。Cichonska等人提供了成对的多核学习(MKL)来实现时间和内存效率的学习，同时实现了高效的成对核权重优化和成对模型训练。基于网络的方法中使用的信息类似于矩阵分解方法中的正则化信息。Zhang等人提出了一种双层集成细胞系-药物网络(DLN)模型，用于预测给定细胞系的药物反应。Zhang等人开发了一种新的基于异质网络的药物反应预测方法(HNMDRP)，通过结合细胞系，药物和靶标之间的异质性关系来预测细胞系-药物的关联。其中，矩阵分解方法的性能较好，但大多数用于药物响应预测的矩阵分解方法都需要预先定义反应矩阵的秩等条件，这导致目前很多方法的预测速度和精度都还存在一定的改善空间。

发明内容

本发明目标是提高细胞系药物响应水平预测精度，建立了一种基于自表达矩阵填充模型的药物响应水平预测方法，我们通过构建矩阵的自表达公式，将预测问题归结为找到数据矩阵的完备性，以便可以将每个点重构为几个数据点的线性或仿射组合。最终利用合理的凸优化实现对细胞系药物的水平更加精准的预测。基于自我表达矩阵填充模型的药物响应水平预测方法的具体实施步骤是：

步骤(1)：构建细胞系药物响应自表达系数矩阵，表示为C＝{c_ij},1≤i≤N,1≤j≤N；构建细胞系药物响应误差矩阵，表示为E＝{e_ij},1≤i≤M,1≤j≤N，

步骤(2)：将抗癌药物敏感性基因组学数据库和癌细胞系百科全书数据库提供的药物敏感性矩阵表示为R_MN＝{r_ij}，1≤i≤M，1≤j≤N，其中，r_ij对应于第i个细胞系对第j种药物的响应水平，构建细胞系药物响应自表达模型：R＝RC+E，并对其设定约束要求，如式(1)所示：

其中||C||₁表示C的一阶范数；||E||_l表示E的l-范数，这里的范数设置为1阶；λ表示正则化系数，用于控制噪声作用，

步骤(3)：引入辅助矩阵Y和A，这里Y＝R，A＝C，即可将式(1)转化为式(2)：

其中α影响填充矩阵的秩，α越大，填充矩阵的秩越小；反之，秩越大，

步骤(4)：构建拉格朗日方程，将优化目标转化为多个相似结构的子目标优化问题，如式(3)表示：

其中分别为R-RA-E，Y-R和C-A的拉格朗日乘子，μ是单调非递减惩罚因子，上述这些参数都将参与更新，直到目标收敛，

步骤(5)：根据药物敏感性矩阵，按照十折交叉验证方法随机平均划分训练样本集和测试样本集，每一次，选择其中1份作为测试集，余下9份作为训练集，并利用训练样本集来训练自表达矩阵填充模型，采用交替方向乘子算法(ADMM)求解模型的局部最优解。具体过程如下：

第一步，更新A，如式(4)表示：

这里I是单位矩阵；

第二步，更新C，如式(5)表示：

第三步，更新R，如式(6)表示：

第四步，更新Y，如式(7)表示：

第五步，更新E，如式(8)表示：

第六步，更新拉格朗日乘子，如式(9)表示：

第七步，更新参数μ，如式(10)表示：

μ＝min(ρμ,μ_max) (10)

经过第t轮参数更新后检查收敛条件，若式(3)目标值L_μ收敛则结束迭代过程。

步骤(5)作为本发明一种基于自表达模型的药物敏感性预测方法的核心优化方案，所述详细内容为：采用子空间聚类的思想，认为药物反应存在于不同的子空间中，充分发掘原矩阵数据的潜在关系和特征，将数据映射到它们所属的空间中来实现矩阵填充。使用ADMM算法通过解决一系列具有相似结构的子问题来优化未知变量和参数。

综上，一种基于自表达模型的药物响应水平预测方法相比现有算法，具有如下优点：本发明基于子空间聚类和矩阵分解的基本思想，将复杂优化的问题巧妙地转化为多个子问题优化，不需要预先确定矩阵的秩即可预测细胞系中的药物反应，使得算法在仅使用原空缺矩阵(细胞系药物响应数据)的情况下，同时兼具矩阵分解算法计算速度快和预测精度高等优点。

附图说明

图1是基于自表达模型的药物敏感性预测方法的算法流程图

具体实施方式

为了进一步解释本次发明的具体内容和优点，以下是具体实施方式和附图的详细说明。

为了验证本算法在其它数据集上也有极好的性能，尤其是在稀疏度更高的数据集上，本实验从GDSC数据库中下载了652个人类癌症细胞系对135种抗癌药物的响应数据(IC50)，构建细胞-药物响应矩阵为R，其中共有88020个响应值，已知的响应值有70676个，未知的响应值有17344个，本次实例数据的稀疏度为19.7％；同时，本实验从CCLE数据库中下载了491个人类癌症细胞系对23种抗癌药物的响应数据(Activity area)，得到药物敏感性矩阵为R，其中共有11293个响应值，已知的响应值有10870个，未知的响应值有423个，本次实例数据的稀疏度为3.75％；

实验中用R＝RC+E(自表达公式)表示自身矩阵，并通过构建拉格朗日方程将其优化难度降低。根据目标函数，实验采用十折交叉验证，数据随机分为十份，取其中一份作为测试集，其余九份作为训练集，训练完成后对预测测试集的响应进行打分。具体过程如下：采用ADMM交替方向乘子法，每一次模型训练依次更新辅助系数矩阵A，系数矩阵C，填充矩阵R，辅助填充矩阵Y，误差矩阵E，拉格朗日乘子和参数循环迭代直至目标函数收敛。本实施例设置的判断收敛条件为：首先，实验中第t轮参数更新后计算目标值L_μ(t)，并将其与t-1轮损失函数值L_μ(t-1)进行比较，当两者差值低于预设收敛阈值时，认为目标函数收敛，停止训练。

本方法在求解过程中，初始化参数是通过网格寻优的方式确定，其中：μ＝0.4，μ_max＝1e⁷,ρ＝1.01。最后，基于更新后的填充矩阵R，对预测测试集的药物响应打分，并通过计算预测值和真实值之间的均方根误差(Root Mean Square Error，RMSE)及皮尔森相关系数(Pearson Correlation Coefficient，PCC)评价本次实施例算法的性能。本发明提出的算法(Self-Expressive Matrix Completion Model，SEMCM)和Wang等人提出的算法(SRMF)，Guan等人提出的算法(WGRMF)的性能比较如表1，表2所示：

表1：基于CCLE数据集的实验结果

表2：基于GDSC数据集的实验结果

其中，PCC_S/R：敏感和耐药细胞系反应的药物平均皮尔逊相关性；RMSE_S/R：敏感和耐药细胞系反应的药物平均均方根误差；PCC：所有细胞系反应的药物平均皮尔逊相关性；RMSE：所有细胞系反应的药物平均均方根误差。

最后说明：上述实施方式是为了更好的说明本发明的思路，绝不是对本发明的限制，凡是根据本发明本质内容所做的等效的替换、修改或补充，均应包含在本发明的保护范围之内。

Claims

1.一种基于自表达矩阵填充模型的药物响应水平预测方法，其包括以下步骤：

步骤(2)：将抗癌药物敏感性基因组学数据库和癌细胞系百科全书数据库提供的药物敏感性矩阵表示为R_MN＝{r_ij}，1≤i≤M，1≤j≤N，其中，r_ij对应于第i个细胞系对第j种药物的响应水平，构建细胞系药物响应自表达公式：R＝RC+E，并对其设定约束要求，可得式(1)：

其中||C||₁表示C的一阶范数；||E||_l表示E的l-范数，l设置为1阶，λ表示正则化系数，用于控制噪声作用，

步骤(4)：构建拉格朗日方程，将优化目标转化为多个相似结构的子目标优化问题，可得式(3)：

其中分别为R-RA-E，Y-R和C-A的拉格朗日乘子,μ是单调非递减惩罚因子，上述这些参数都将参与更新，直到目标收敛。

2.根据权利要求1所述的方法，其特征在于，步骤(2)中的药物敏感性矩阵，按照十折交叉验证方法随机划分训练样本集和测试样本集，每一次，选择其中1份作为测试集，余下9份作为训练集，并利用训练样本集训练基于自表达模型，采用交替方向乘子算法求解模型的局部最优解，具体过程如下：