CN112164474B - 一种基于自表达模型的药物敏感性预测方法 - Google Patents
一种基于自表达模型的药物敏感性预测方法 Download PDFInfo
- Publication number
- CN112164474B CN112164474B CN202010671826.6A CN202010671826A CN112164474B CN 112164474 B CN112164474 B CN 112164474B CN 202010671826 A CN202010671826 A CN 202010671826A CN 112164474 B CN112164474 B CN 112164474B
- Authority
- CN
- China
- Prior art keywords
- drug
- cell line
- equal
- matrix
- formula
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000003814 drug Substances 0.000 title claims abstract description 59
- 229940079593 drug Drugs 0.000 title claims abstract description 57
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000035945 sensitivity Effects 0.000 title claims abstract description 14
- 239000011159 matrix material Substances 0.000 claims abstract description 52
- 230000004044 response Effects 0.000 claims abstract description 44
- 238000005457 optimization Methods 0.000 claims abstract description 12
- 238000012549 training Methods 0.000 claims description 13
- 206010028980 Neoplasm Diseases 0.000 claims description 9
- 201000011510 cancer Diseases 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 8
- 239000002246 antineoplastic agent Substances 0.000 claims description 4
- 229940041181 antineoplastic drug Drugs 0.000 claims description 4
- 238000002790 cross-validation Methods 0.000 claims description 3
- 230000003247 decreasing effect Effects 0.000 claims description 2
- 238000012804 iterative process Methods 0.000 claims description 2
- 238000010801 machine learning Methods 0.000 abstract description 2
- 238000011160 research Methods 0.000 abstract description 2
- 238000011282 treatment Methods 0.000 abstract description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 abstract 1
- 230000007812 deficiency Effects 0.000 abstract 1
- 238000011156 evaluation Methods 0.000 abstract 1
- 238000000354 decomposition reaction Methods 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000010171 animal model Methods 0.000 description 1
- 239000000090 biomarker Substances 0.000 description 1
- 230000007012 clinical effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000007876 drug discovery Methods 0.000 description 1
- 238000009511 drug repositioning Methods 0.000 description 1
- 238000007877 drug screening Methods 0.000 description 1
- 239000003596 drug target Substances 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011173 large scale experimental method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008506 pathogenesis Effects 0.000 description 1
- 238000011338 personalized therapy Methods 0.000 description 1
- 230000002974 pharmacogenomic effect Effects 0.000 description 1
- 239000000092 prognostic biomarker Substances 0.000 description 1
- 238000011321 prophylaxis Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
- 230000001988 toxicity Effects 0.000 description 1
- 231100000419 toxicity Toxicity 0.000 description 1
- 238000011269 treatment regimen Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/40—ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Toxicology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medicinal Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Chemical & Material Sciences (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明名为基于自表达模型的药物敏感性预测方法,属机器学习及药物基因组学研究领域。本发明目标是基于已知细胞系对药物的敏感性程度预测未知的细胞系和药物之间的敏感性分数。通过构建细胞系药物对的响应自表达模型,通过某些细胞系药物对的敏感度的线性或仿射组合实现未知敏感性分数的预测。该模型将复杂的优化问题转化为多个子空间,可以实现对包含缺失值数值矩阵的精准且高效的填补,进而实现对细胞系药物响应值的预测。本发明提出的算法能够为个性化精准医疗中重要的药物响应评估环节提供有力的参考。
Description
技术领域
本发明涉及机器学习及药物基因组学研究领域,具体涉及一种基于自表达模型的药物敏感性预测方法。
背景技术
癌症是威胁人类健康的常见疾病,死亡率极高。癌症的异质性导致即使患有相同疾病的患者对相同治疗方案的反应也大不相同。个性化医疗的基本目标是设计和确定最大限度提高药物疗效的个体化疗法,同时最大限度地减少不良副作用。而药物反应预测已成为癌症患者进行个体化治疗的先决条件。
个性化预防和治疗的主要挑战是识别生物标志物,这对于理解给定复杂疾病的发病机制至关重要。然而,研究人员需要考虑人类或动物模型中预测性生物标志物的时间和成本效益,因为用大量药物测试大量癌症患者的临床效果和毒性是不可行的。高通量药物筛选技术使许多研究能够对人类癌细胞系进行大规模实验。到目前为止,已经开发了许多预测方法来促进和加速药物发现和重新定位过程。近期的药物反应预测计算方法可分为几种类型,例如矩阵分解(MF),基于核的方法和基于网络的方法。Ammad-ud-din等人引入了最新的内核贝叶斯矩阵分解(KBMF)方法的扩展,对行和列的大量侧面数据视图与输出矩阵的潜在分量空间之间的复杂关联进行建模。Wang等人提出了相似正则化矩阵分解(SRMF)模型来近似药物反应矩阵并计算未知反应水平。Brouwer等人提出了一种贝叶斯混合矩阵分解(HMF)模型,该模型不仅将相似性矩阵视为辅助信息,而且还具有特征矩阵。Guan等人构造了一个p-最近邻图来简化药物相似性矩阵和细胞系相似性矩阵,并提出了一种利用加权图正则化矩阵分解(WGRMF)排除噪声成分并提高药物反应预测准确性的新方法。Cichonska等人提供了成对的多核学习(MKL)来实现时间和内存效率的学习,同时实现了高效的成对核权重优化和成对模型训练。基于网络的方法中使用的信息类似于矩阵分解方法中的正则化信息。Zhang等人提出了一种双层集成细胞系-药物网络(DLN)模型,用于预测给定细胞系的药物反应。Zhang等人开发了一种新的基于异质网络的药物反应预测方法(HNMDRP),通过结合细胞系,药物和靶标之间的异质性关系来预测细胞系-药物的关联。其中,矩阵分解方法的性能较好,但大多数用于药物响应预测的矩阵分解方法都需要预先定义反应矩阵的秩等条件,这导致目前很多方法的预测速度和精度都还存在一定的改善空间。
发明内容
本发明目标是提高细胞系药物响应水平预测精度,建立了一种基于自表达矩阵填充模型的药物响应水平预测方法,我们通过构建矩阵的自表达公式,将预测问题归结为找到数据矩阵的完备性,以便可以将每个点重构为几个数据点的线性或仿射组合。最终利用合理的凸优化实现对细胞系药物的水平更加精准的预测。基于自我表达矩阵填充模型的药物响应水平预测方法的具体实施步骤是:
步骤(1):构建细胞系药物响应自表达系数矩阵,表示为C={cij},1≤i≤N,1≤j≤N;构建细胞系药物响应误差矩阵,表示为E={eij},1≤i≤M,1≤j≤N,
步骤(2):将抗癌药物敏感性基因组学数据库和癌细胞系百科全书数据库提供的药物敏感性矩阵表示为RMN={rij},1≤i≤M,1≤j≤N,其中,rij对应于第i个细胞系对第j种药物的响应水平,构建细胞系药物响应自表达模型:R=RC+E,并对其设定约束要求,如式(1)所示:
其中||C||1表示C的一阶范数;||E||l表示E的l-范数,这里的范数设置为1阶;λ表示正则化系数,用于控制噪声作用,
步骤(3):引入辅助矩阵Y和A,这里Y=R,A=C,即可将式(1)转化为式(2):
其中α影响填充矩阵的秩,α越大,填充矩阵的秩越小;反之,秩越大,
步骤(4):构建拉格朗日方程,将优化目标转化为多个相似结构的子目标优化问题,如式(3)表示:
其中分别为R-RA-E,Y-R和C-A的拉格朗日乘子,μ是单调非递减惩罚因子,上述这些参数都将参与更新,直到目标收敛,
步骤(5):根据药物敏感性矩阵,按照十折交叉验证方法随机平均划分训练样本集和测试样本集,每一次,选择其中1份作为测试集,余下9份作为训练集,并利用训练样本集来训练自表达矩阵填充模型,采用交替方向乘子算法(ADMM)求解模型的局部最优解。具体过程如下:
第一步,更新A,如式(4)表示:
这里I是单位矩阵;
第二步,更新C,如式(5)表示:
第三步,更新R,如式(6)表示:
第四步,更新Y,如式(7)表示:
第五步,更新E,如式(8)表示:
第六步,更新拉格朗日乘子,如式(9)表示:
第七步,更新参数μ,如式(10)表示:
μ=min(ρμ,μmax) (10)
经过第t轮参数更新后检查收敛条件,若式(3)目标值Lμ收敛则结束迭代过程。
步骤(5)作为本发明一种基于自表达模型的药物敏感性预测方法的核心优化方案,所述详细内容为:采用子空间聚类的思想,认为药物反应存在于不同的子空间中,充分发掘原矩阵数据的潜在关系和特征,将数据映射到它们所属的空间中来实现矩阵填充。使用ADMM算法通过解决一系列具有相似结构的子问题来优化未知变量和参数。
综上,一种基于自表达模型的药物响应水平预测方法相比现有算法,具有如下优点:本发明基于子空间聚类和矩阵分解的基本思想,将复杂优化的问题巧妙地转化为多个子问题优化,不需要预先确定矩阵的秩即可预测细胞系中的药物反应,使得算法在仅使用原空缺矩阵(细胞系药物响应数据)的情况下,同时兼具矩阵分解算法计算速度快和预测精度高等优点。
附图说明
图1是基于自表达模型的药物敏感性预测方法的算法流程图
具体实施方式
为了进一步解释本次发明的具体内容和优点,以下是具体实施方式和附图的详细说明。
为了验证本算法在其它数据集上也有极好的性能,尤其是在稀疏度更高的数据集上,本实验从GDSC数据库中下载了652个人类癌症细胞系对135种抗癌药物的响应数据(IC50),构建细胞-药物响应矩阵为R,其中共有88020个响应值,已知的响应值有70676个,未知的响应值有17344个,本次实例数据的稀疏度为19.7%;同时,本实验从CCLE数据库中下载了491个人类癌症细胞系对23种抗癌药物的响应数据(Activity area),得到药物敏感性矩阵为R,其中共有11293个响应值,已知的响应值有10870个,未知的响应值有423个,本次实例数据的稀疏度为3.75%;
实验中用R=RC+E(自表达公式)表示自身矩阵,并通过构建拉格朗日方程将其优化难度降低。根据目标函数,实验采用十折交叉验证,数据随机分为十份,取其中一份作为测试集,其余九份作为训练集,训练完成后对预测测试集的响应进行打分。具体过程如下:采用ADMM交替方向乘子法,每一次模型训练依次更新辅助系数矩阵A,系数矩阵C,填充矩阵R,辅助填充矩阵Y,误差矩阵E,拉格朗日乘子和参数循环迭代直至目标函数收敛。本实施例设置的判断收敛条件为:首先,实验中第t轮参数更新后计算目标值Lμ(t),并将其与t-1轮损失函数值Lμ(t-1)进行比较,当两者差值低于预设收敛阈值时,认为目标函数收敛,停止训练。
本方法在求解过程中,初始化参数是通过网格寻优的方式确定,其中:μ=0.4,μmax=1e7,ρ=1.01。最后,基于更新后的填充矩阵R,对预测测试集的药物响应打分,并通过计算预测值和真实值之间的均方根误差(Root Mean Square Error,RMSE)及皮尔森相关系数(Pearson Correlation Coefficient,PCC)评价本次实施例算法的性能。本发明提出的算法(Self-Expressive Matrix Completion Model,SEMCM)和Wang等人提出的算法(SRMF),Guan等人提出的算法(WGRMF)的性能比较如表1,表2所示:
表1:基于CCLE数据集的实验结果
表2:基于GDSC数据集的实验结果
其中,PCC_S/R:敏感和耐药细胞系反应的药物平均皮尔逊相关性;RMSE_S/R:敏感和耐药细胞系反应的药物平均均方根误差;PCC:所有细胞系反应的药物平均皮尔逊相关性;RMSE:所有细胞系反应的药物平均均方根误差。
最后说明:上述实施方式是为了更好的说明本发明的思路,绝不是对本发明的限制,凡是根据本发明本质内容所做的等效的替换、修改或补充,均应包含在本发明的保护范围之内。
Claims (3)
1.一种基于自表达矩阵填充模型的药物响应水平预测方法,其包括以下步骤:
步骤(1):构建细胞系药物响应自表达系数矩阵,表示为C={cij},1≤i≤N,1≤j≤N;构建细胞系药物响应误差矩阵,表示为E={eij},1≤i≤M,1≤j≤N,
步骤(2):将抗癌药物敏感性基因组学数据库和癌细胞系百科全书数据库提供的药物敏感性矩阵表示为RMN={rij},1≤i≤M,1≤j≤N,其中,rij对应于第i个细胞系对第j种药物的响应水平,构建细胞系药物响应自表达公式:R=RC+E,并对其设定约束要求,可得式(1):
其中||C||1表示C的一阶范数;||E||l表示E的l-范数,l设置为1阶,λ表示正则化系数,用于控制噪声作用,
步骤(3):引入辅助矩阵Y和A,这里Y=R,A=C,即可将式(1)转化为式(2):
其中α影响填充矩阵的秩,α越大,填充矩阵的秩越小;反之,秩越大,
步骤(4):构建拉格朗日方程,将优化目标转化为多个相似结构的子目标优化问题,可得式(3):
其中分别为R-RA-E,Y-R和C-A的拉格朗日乘子,μ是单调非递减惩罚因子,上述这些参数都将参与更新,直到目标收敛。
2.根据权利要求1所述的方法,其特征在于,步骤(2)中的药物敏感性矩阵,按照十折交叉验证方法随机划分训练样本集和测试样本集,每一次,选择其中1份作为测试集,余下9份作为训练集,并利用训练样本集训练基于自表达模型,采用交替方向乘子算法求解模型的局部最优解,具体过程如下:
第一步,更新A,如式(4)表示:
I是单位矩阵;
第二步,更新C,如式(5)表示:
其中⊙表示Hadamard乘积,函数max()返回其输入参数的最大值,函数sgn()表示符号函数;
第三步,更新R,如式(6)表示:
第四步,更新Y,如式(7)表示:
第五步,更新E,如式(8)表示:
第六步,更新拉格朗日乘子,如式(9)表示:
第七步,更新参数μ,如式(10)表示:
μ=min(ρμ,μmax) (10)
经过第t轮参数更新后检查收敛条件,若式(3)目标值Lμ收敛则结束迭代过程。
3.根据权利要求2所述的方法,其特征在于,基于自表达模型优化得到的填充矩阵Rt,其中Rij表示预测的第i个细胞系对第j种药物的响应水平。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010671826.6A CN112164474B (zh) | 2020-07-14 | 2020-07-14 | 一种基于自表达模型的药物敏感性预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010671826.6A CN112164474B (zh) | 2020-07-14 | 2020-07-14 | 一种基于自表达模型的药物敏感性预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112164474A CN112164474A (zh) | 2021-01-01 |
CN112164474B true CN112164474B (zh) | 2024-05-24 |
Family
ID=73859499
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010671826.6A Active CN112164474B (zh) | 2020-07-14 | 2020-07-14 | 一种基于自表达模型的药物敏感性预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112164474B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113345600B (zh) * | 2021-05-06 | 2024-02-27 | 中国食品药品检定研究院 | 一种抗感染药物注射剂的有效性评价方法及其应用 |
CN113889184B (zh) * | 2021-09-27 | 2023-08-11 | 中国矿业大学 | 一种融合基因组特征的m6A甲基化局部功能谱分解方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106164296A (zh) * | 2014-02-07 | 2016-11-23 | 阿尔玛克诊断有限公司 | 用于预测对抗血管生成药的应答和癌症预后的分子诊断测试 |
CN110739028A (zh) * | 2019-10-18 | 2020-01-31 | 中国矿业大学 | 一种基于k-近邻约束矩阵分解的细胞系药物响应预测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160224723A1 (en) * | 2015-01-29 | 2016-08-04 | The Trustees Of Columbia University In The City Of New York | Method for predicting drug response based on genomic and transcriptomic data |
-
2020
- 2020-07-14 CN CN202010671826.6A patent/CN112164474B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106164296A (zh) * | 2014-02-07 | 2016-11-23 | 阿尔玛克诊断有限公司 | 用于预测对抗血管生成药的应答和癌症预后的分子诊断测试 |
CN110739028A (zh) * | 2019-10-18 | 2020-01-31 | 中国矿业大学 | 一种基于k-近邻约束矩阵分解的细胞系药物响应预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112164474A (zh) | 2021-01-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Piao et al. | A new ensemble method with feature space partitioning for high‐dimensional data classification | |
CN108351987A (zh) | 用于使用绝热量子计算机进行机器学习的系统和方法 | |
CN112164474B (zh) | 一种基于自表达模型的药物敏感性预测方法 | |
Su et al. | An artificial neural network for predicting the incidence of radiation pneumonitis | |
Sathya et al. | Cancer categorization using genetic algorithm to identify biomarker genes | |
Rashno et al. | Particle ranking: An efficient method for multi-objective particle swarm optimization feature selection | |
CN103440493A (zh) | 基于相关向量机的高光谱影像模糊分类方法及装置 | |
US9043326B2 (en) | Methods and systems for biclustering algorithm | |
CN112966114A (zh) | 基于对称图卷积神经网络的文献分类方法和装置 | |
Pashaei et al. | Gene selection using hybrid dragonfly black hole algorithm: A case study on RNA-seq COVID-19 data | |
Kim et al. | Prediction of colon cancer using an evolutionary neural network | |
Singh et al. | A neighborhood search based cat swarm optimization algorithm for clustering problems | |
Zhang et al. | Relief feature selection and parameter optimization for support vector machine based on mixed kernel function | |
Welchowski et al. | A framework for parameter estimation and model selection in kernel deep stacking networks | |
Ma et al. | Heuristics and metaheuristics for biological network alignment: A review | |
Conard et al. | A spectrum of explainable and interpretable machine learning approaches for genomic studies | |
Qin et al. | Two-stage feature selection for classification of gene expression data based on an improved Salp Swarm Algorithm | |
CN117611974A (zh) | 基于多种群交替进化神经结构搜索的图像识别方法及系统 | |
Smith et al. | Multi-objective evolutionary recurrent neural network ensemble for prediction of computational fluid dynamic simulations | |
CN109409522B (zh) | 一种基于集成学习的生物网络推理算法 | |
Rodríguez et al. | Rotation Forest for multi-target regression | |
Hwangbo et al. | Identification of hyperparameters with high effects on performance of deep neural networks: application to clinicopathological data of ovarian cancer | |
CN110739028B (zh) | 一种基于k-近邻约束矩阵分解的细胞系药物响应预测方法 | |
CN107665244A (zh) | 一种获取粮食产量与化肥使用量之间关系的方法及装置 | |
Bellot Pujalte | Study of gene regulatory networks inference methods from gene expression data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |