CN112164474A - 一种基于自表达模型的药物敏感性预测方法 - Google Patents

一种基于自表达模型的药物敏感性预测方法 Download PDF

Info

Publication number
CN112164474A
CN112164474A CN202010671826.6A CN202010671826A CN112164474A CN 112164474 A CN112164474 A CN 112164474A CN 202010671826 A CN202010671826 A CN 202010671826A CN 112164474 A CN112164474 A CN 112164474A
Authority
CN
China
Prior art keywords
drug
cell line
matrix
response
self
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010671826.6A
Other languages
English (en)
Other versions
CN112164474B (zh
Inventor
刘辉
俞健
陈锦
苑雨薇
马佳妮
张�林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Mining and Technology CUMT
Original Assignee
China University of Mining and Technology CUMT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Mining and Technology CUMT filed Critical China University of Mining and Technology CUMT
Priority to CN202010671826.6A priority Critical patent/CN112164474B/zh
Publication of CN112164474A publication Critical patent/CN112164474A/zh
Application granted granted Critical
Publication of CN112164474B publication Critical patent/CN112164474B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/40ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Toxicology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Chemical & Material Sciences (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明名为基于自表达模型的药物敏感性预测方法,属机器学习及药物基因组学研究领域。本发明目标是基于已知细胞系对药物的敏感性程度预测未知的细胞系和药物之间的敏感性分数。通过构建细胞系药物对的响应自表达模型,通过某些细胞系药物对的敏感度的线性或仿射组合实现未知敏感性分数的预测。该模型将复杂的优化问题转化为多个子空间,可以实现对包含缺失值数值矩阵的精准且高效的填补,进而实现对细胞系药物响应值的预测。本发明提出的算法能够为个性化精准医疗中重要的药物响应评估环节提供有力的参考。

Description

一种基于自表达模型的药物敏感性预测方法
技术领域
本发明涉及机器学习及药物基因组学研究领域,具体涉及一种基于自表达模型的药物敏感性预测方法。
背景技术
癌症是威胁人类健康的常见疾病,死亡率极高。癌症的异质性导致即使患有相同疾病的患者对相同治疗方案的反应也大不相同。个性化医疗的基本目标是设计和确定最大限度提高药物疗效的个体化疗法,同时最大限度地减少不良副作用。而药物反应预测已成为癌症患者进行个体化治疗的先决条件。
个性化预防和治疗的主要挑战是识别生物标志物,这对于理解给定复杂疾病的发病机制至关重要。然而,研究人员需要考虑人类或动物模型中预测性生物标志物的时间和成本效益,因为用大量药物测试大量癌症患者的临床效果和毒性是不可行的。高通量药物筛选技术使许多研究能够对人类癌细胞系进行大规模实验。到目前为止,已经开发了许多预测方法来促进和加速药物发现和重新定位过程。近期的药物反应预测计算方法可分为几种类型,例如矩阵分解(MF),基于核的方法和基于网络的方法。Ammad-ud-din等人引入了最新的内核贝叶斯矩阵分解(KBMF)方法的扩展,对行和列的大量侧面数据视图与输出矩阵的潜在分量空间之间的复杂关联进行建模。Wang等人提出了相似正则化矩阵分解(SRMF)模型来近似药物反应矩阵并计算未知反应水平。Brouwer等人提出了一种贝叶斯混合矩阵分解(HMF)模型,该模型不仅将相似性矩阵视为辅助信息,而且还具有特征矩阵。Guan等人构造了一个p-最近邻图来简化药物相似性矩阵和细胞系相似性矩阵,并提出了一种利用加权图正则化矩阵分解(WGRMF)排除噪声成分并提高药物反应预测准确性的新方法。Cichonska等人提供了成对的多核学习(MKL)来实现时间和内存效率的学习,同时实现了高效的成对核权重优化和成对模型训练。基于网络的方法中使用的信息类似于矩阵分解方法中的正则化信息。Zhang等人提出了一种双层集成细胞系-药物网络(DLN)模型,用于预测给定细胞系的药物反应。Zhang等人开发了一种新的基于异质网络的药物反应预测方法(HNMDRP),通过结合细胞系,药物和靶标之间的异质性关系来预测细胞系-药物的关联。其中,矩阵分解方法的性能较好,但大多数用于药物响应预测的矩阵分解方法都需要预先定义反应矩阵的秩等条件,这导致目前很多方法的预测速度和精度都还存在一定的改善空间。
发明内容
本发明目标是提高细胞系药物敏感性预测精度,建立了一种基于自表达模型的药物敏感性预测方法,我们通过构建细胞系药物响应值矩阵的自表达公式,将预测问题归结为找到数据矩阵的完备性,以便可以将每个点重构为几个数据点的线性或仿射组合。最终利用合理的凸优化实现对细胞系药物的敏感性更加精准的预测。基于自我表达矩阵填充模型的药物响应水平预测方法的具体实施步骤是:
步骤(1):基于抗癌药物敏感性基因组学(Genomics of Drug Sensitivity inCancer,GDSC)数据库和癌细胞系百科全书(Cancer Cell Line Encyclopedia,CCLE)数据库分别获得细胞系对药物的半抑制浓度
Figure 770635DEST_PATH_IMAGE001
得分和活性区域(Activity area)数值,构成细胞系对药物的响应水平矩阵,表示为
Figure 43484DEST_PATH_IMAGE002
Figure 772406DEST_PATH_IMAGE003
Figure 851220DEST_PATH_IMAGE004
,其中,
Figure 536148DEST_PATH_IMAGE005
对应于第i个细胞系对第j种药物的响应水平;若数据库中尚无该细胞系对相应药物的响应水平,则留空,
步骤(2):构建细胞系药物响应自表达系数矩阵,表示为
Figure 42216DEST_PATH_IMAGE006
;构建细胞系药物响应误差矩阵,表示为
Figure 196117DEST_PATH_IMAGE007
步骤(3):构建细胞系药物响应自表达模型:R=RC+E,并对其设定约束要求,如式(1)所示:
Figure 78622DEST_PATH_IMAGE008
(1)
其中
Figure 431106DEST_PATH_IMAGE009
表示C的一阶范数;
Figure 560605DEST_PATH_IMAGE010
表示E
Figure 998540DEST_PATH_IMAGE011
-范数,这里的范数可以设置为1阶,2阶等;
Figure 419157DEST_PATH_IMAGE012
表示正则化系数,用于控制噪声作用,
步骤(4):引入辅助矩阵YA,这里Y=RA=C,即可将式(1)转化为式(2):
Figure 829410DEST_PATH_IMAGE013
(2)
其中
Figure 677280DEST_PATH_IMAGE014
影响填充矩阵的秩,
Figure 602511DEST_PATH_IMAGE014
越大,填充矩阵的秩越小;反之,秩越大,
步骤(5):构建拉格朗日方程,将优化目标转化为多个相似结构的子目标优化问题,如式(3)表示:
Figure 13769DEST_PATH_IMAGE015
(3)
其中
Figure 340845DEST_PATH_IMAGE016
分别为R-RA-EY-RC-A的拉格朗日乘子,
Figure 645704DEST_PATH_IMAGE017
是单调非递减惩罚因子,上述这些参数都将参与更新,直到目标收敛,
步骤(6):根据细胞系-药物敏感性得分矩阵,按照十折交叉验证方法随机平均划分训练样本集和测试样本集,每一次,选择其中1份作为测试集,余下9份作为训练集,并利用训练样本集来训练自表达模型,采用交替方向乘子算法(ADMM)求解模型的局部最优解。具体过程如下:
第一步,更新A,如式(4)表示:
Figure 995914DEST_PATH_IMAGE018
(4)
这里
Figure 758333DEST_PATH_IMAGE019
是单位矩阵;
第二步,更新C,如式(5)表示:
Figure DEST_PATH_DEST_PATH_IMAGE019
(5)
第三步,更新R,如式(6)表示:
Figure 582119DEST_PATH_IMAGE021
(6)
第四步,更新Y,如式(7)表示:
Figure 419625DEST_PATH_IMAGE022
(7)
第五步,更新E,如式(8)表示:
Figure 985735DEST_PATH_IMAGE023
(8)
第六步,更新拉格朗日乘子,如式(9)表示:
Figure 21825DEST_PATH_IMAGE024
(9)
第七步,更新参数
Figure 834929DEST_PATH_IMAGE017
,如式(10)表示:
Figure 222048DEST_PATH_IMAGE025
(10)
经过第t轮参数更新后检查收敛条件,若式(3)目标值
Figure 326270DEST_PATH_IMAGE026
收敛则结束迭代过程。
步骤(6)作为本发明一种基于自表达模型的药物敏感性预测方法的核心优化方案,所述详细内容为:采用子空间聚类的思想,认为药物反应存在于不同的子空间中,充分发掘原矩阵数据的潜在关系和特征,将数据映射到它们所属的空间中来实现矩阵填充。使用ADMM算法通过解决一系列具有相似结构的子问题来优化未知变量和参数。
综上,一种基于自表达模型的药物敏感性预测方法相比现有算法,具有如下优点:本发明基于子空间聚类和矩阵分解的基本思想,将复杂优化的问题巧妙地转化为多个子问题优化,不需要预先确定矩阵的秩即可预测细胞系中的药物反应,使得算法在仅使用原空缺矩阵(细胞系药物响应数据)的情况下,同时兼具矩阵分解算法计算速度快和预测精度高等优点。
附图说明
图1是基于自表达模型的药物敏感性预测方法的算法模型流程图。
具体实施方式
为了进一步解释本次发明的具体内容和优点,以下是具体实施方式和附图的详细说明。
为了验证本算法在其它数据集上也有极好的性能,尤其是在稀疏度更高的数据集上,本实验从GDSC数据库中下载了652个人类癌症细胞系对135种抗癌药物的响应数据(IC50),构建细胞-药物响应矩阵为R,其中共有88020个响应值,已知的响应值有70676个,未知的响应值有17344个,本次实例数据的稀疏度为19.7%;同时,本实验从CCLE数据库中下载了491个人类癌症细胞系对23种抗癌药物的响应数据(Activity area),构建细胞-药物响应矩阵为R,其中共有11293个响应值,已知的响应值有10870个,未知的响应值有423个,本次实例数据的稀疏度为3.75%;
实验中用R=RC+E(自表达公式)表示自身矩阵,并通过构建拉格朗日方程将其优化难度降低。根据目标函数,实验采用十折交叉验证,数据随机分为十份,取其中一份作为测试集,其余九份作为训练集,训练完成后对预测测试集的响应进行打分。具体过程如下:采用ADMM交替方向乘子法,每一次模型训练依次更新辅助系数矩阵A,系数矩阵C,填充矩阵R,辅助填充矩阵Y,误差矩阵E,拉格朗日乘子和参数循环迭代直至目标函数收敛。本实施例设置的判断收敛条件为:首先,实验中第t轮参数更新后计算目标值
Figure 420128DEST_PATH_IMAGE027
,并将其与t-1轮损失函数值
Figure 217183DEST_PATH_IMAGE028
进行比较,当两者差值低于预设收敛阈值时,认为目标函数收敛,停止训练。
本方法在求解过程中,初始化参数是通过网格寻优的方式确定,其中:
Figure 826018DEST_PATH_IMAGE029
。最后,基于更新后的填充矩阵R,对预测测试集的药物响应打分,并通过计算预测值和真实值之间的均方根误差(Root Mean Square Error,RMSE)及皮尔森相关系数(Pearson Correlation Coefficient,PCC)评价本次实施例算法的性能。本发明提出的算法(Self-Expressive Matrix Completion Model,SEMCM)和Wang等人提出的算法(SRMF),Guan等人提出的算法(WGRMF)的性能比较如表1,表2所示:
表1:基于CCLE数据集的实验结果
Figure 311095DEST_PATH_IMAGE030
表2:基于GDSC数据集的实验结果
Figure 321777DEST_PATH_IMAGE031
其中,PCC_S/R:敏感和耐药细胞系反应的药物平均皮尔逊相关性;RMSE_S/R:敏感和耐药细胞系反应的药物平均均方根误差;PCC:所有细胞系反应的药物平均皮尔逊相关性;RMSE:所有细胞系反应的药物平均均方根误差。
最后说明:上述实施方式是为了更好的说明本发明的思路,绝不是对本发明的限制,凡是根据本发明本质内容所做的等效的替换、修改或补充,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于自表达模型的药物敏感性预测方法,其包括以下步骤:
步骤(1):基于抗癌药物敏感性基因组学(Genomics of Drug Sensitivity inCancer,GDSC)数据库和癌细胞系百科全书(Cancer Cell Line Encyclopedia,CCLE)数据库分别获得细胞系对药物的半抑制浓度IC50得分和活性区域(Activity area)数值,构成细胞系对药物的响应水平矩阵,表示为
Figure 370037DEST_PATH_IMAGE001
Figure DEST_PATH_IMAGE002
Figure 100227DEST_PATH_IMAGE003
,其中,
Figure DEST_PATH_IMAGE004
对应于第i个细胞系对第j种药物的响应水平;若数据库中尚无该细胞系对相应药物的响应水平,则留空,
步骤(2):构建细胞系药物响应自表达系数矩阵,表示为
Figure 942281DEST_PATH_IMAGE005
;构建细胞系药物响应误差矩阵,表示为
Figure DEST_PATH_IMAGE006
步骤(3):构建细胞系药物响应自表达公式:R=RC+E,并对其设定约束要求,如式(1)所示:
Figure 337490DEST_PATH_IMAGE007
(1)
其中
Figure DEST_PATH_IMAGE008
表示C的一阶范数;
Figure 463447DEST_PATH_IMAGE009
表示E
Figure DEST_PATH_IMAGE010
范数,这里的范数可以设置为1阶,2阶等;
Figure 348226DEST_PATH_IMAGE011
表示正则化系数,用于控制噪声作用,
步骤(4):引入辅助矩阵YA,这里Y=RA=C,即可将式(1)转化为式(2):
Figure DEST_PATH_IMAGE012
(2)
其中
Figure 615260DEST_PATH_IMAGE013
影响填充矩阵的秩,
Figure 627209DEST_PATH_IMAGE013
越大,填充矩阵的秩越小;反之,秩越大,
步骤(5):构建拉格朗日方程,将优化目标转化为多个相似结构的子目标优化问题,如式(3)表示:
Figure DEST_PATH_IMAGE014
(3)
其中
Figure 296088DEST_PATH_IMAGE015
分别为R-RA-EY-RC-A的拉格朗日乘子,
Figure DEST_PATH_IMAGE016
是单调非递减惩罚因子,上述这些参数都将参与更新,直到目标收敛。
2.基于权利要求1中步骤1中构建的细胞系-药物敏感性得分矩阵,按照十折交叉验证方法随机划分训练样本集和测试样本集,每一次,选择其中1份作为测试集,余下9份作为训练集,并利用训练样本集训练基于自表达模型,采用交替方向乘子算法求解模型的局部最优解。
3.根据权利要求2所述的基于自表达模型优化得到的填充矩阵
Figure RE-979834DEST_PATH_IMAGE026
,其中
Figure RE-136009DEST_PATH_IMAGE027
表示预测的第i个细胞系对第j种药物的响应水平。
4.根据权利要求2所述的基于自表达模型优化得到的填充矩阵
Figure 500039DEST_PATH_IMAGE027
,其中
Figure DEST_PATH_IMAGE028
表示预测的第i个细胞系对第j种药物的响应水平。
CN202010671826.6A 2020-07-14 2020-07-14 一种基于自表达模型的药物敏感性预测方法 Active CN112164474B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010671826.6A CN112164474B (zh) 2020-07-14 2020-07-14 一种基于自表达模型的药物敏感性预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010671826.6A CN112164474B (zh) 2020-07-14 2020-07-14 一种基于自表达模型的药物敏感性预测方法

Publications (2)

Publication Number Publication Date
CN112164474A true CN112164474A (zh) 2021-01-01
CN112164474B CN112164474B (zh) 2024-05-24

Family

ID=73859499

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010671826.6A Active CN112164474B (zh) 2020-07-14 2020-07-14 一种基于自表达模型的药物敏感性预测方法

Country Status (1)

Country Link
CN (1) CN112164474B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113345600A (zh) * 2021-05-06 2021-09-03 中国食品药品检定研究院 一种抗感染药物注射剂的有效性评价方法及其应用
CN113889184A (zh) * 2021-09-27 2022-01-04 中国矿业大学 一种融合基因组特征的m6A甲基化局部功能谱分解方法
CN114974610A (zh) * 2022-04-14 2022-08-30 湖南大学 基于图神经网络和自动编码器的抗癌药物敏感性预测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160224723A1 (en) * 2015-01-29 2016-08-04 The Trustees Of Columbia University In The City Of New York Method for predicting drug response based on genomic and transcriptomic data
CN106164296A (zh) * 2014-02-07 2016-11-23 阿尔玛克诊断有限公司 用于预测对抗血管生成药的应答和癌症预后的分子诊断测试
CN110739028A (zh) * 2019-10-18 2020-01-31 中国矿业大学 一种基于k-近邻约束矩阵分解的细胞系药物响应预测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106164296A (zh) * 2014-02-07 2016-11-23 阿尔玛克诊断有限公司 用于预测对抗血管生成药的应答和癌症预后的分子诊断测试
US20160224723A1 (en) * 2015-01-29 2016-08-04 The Trustees Of Columbia University In The City Of New York Method for predicting drug response based on genomic and transcriptomic data
CN110739028A (zh) * 2019-10-18 2020-01-31 中国矿业大学 一种基于k-近邻约束矩阵分解的细胞系药物响应预测方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113345600A (zh) * 2021-05-06 2021-09-03 中国食品药品检定研究院 一种抗感染药物注射剂的有效性评价方法及其应用
CN113345600B (zh) * 2021-05-06 2024-02-27 中国食品药品检定研究院 一种抗感染药物注射剂的有效性评价方法及其应用
CN113889184A (zh) * 2021-09-27 2022-01-04 中国矿业大学 一种融合基因组特征的m6A甲基化局部功能谱分解方法
CN113889184B (zh) * 2021-09-27 2023-08-11 中国矿业大学 一种融合基因组特征的m6A甲基化局部功能谱分解方法
CN114974610A (zh) * 2022-04-14 2022-08-30 湖南大学 基于图神经网络和自动编码器的抗癌药物敏感性预测方法
CN114974610B (zh) * 2022-04-14 2024-05-31 湖南大学 基于图神经网络和自动编码器的抗癌药物敏感性预测方法

Also Published As

Publication number Publication date
CN112164474B (zh) 2024-05-24

Similar Documents

Publication Publication Date Title
CN112164474A (zh) 一种基于自表达模型的药物敏感性预测方法
KR102190299B1 (ko) 인공신경망을 이용한 위암의 예후 예측 방법, 장치 및 프로그램
CN106778014B (zh) 一种基于循环神经网络的患病风险预测建模方法
Guan A novel method of plant leaf disease detection based on deep learning and convolutional neural network
WO2021232789A1 (zh) 一种miRNA-疾病关联预测方法、系统、终端以及存储介质
US20220130541A1 (en) Disease-gene prioritization method and system
CN104298893B (zh) 一种基因表达缺失数据的填补方法
Pashaei et al. Gene selection using hybrid dragonfly black hole algorithm: A case study on RNA-seq COVID-19 data
CN111863123B (zh) 一种基因合成致死关联预测方法
CN106055922A (zh) 一种基于基因表达数据的混合网络基因筛选方法
CN112215259B (zh) 基因选择方法和装置
CN115985503B (zh) 基于集成学习的癌症预测系统
CN110993113A (zh) 基于MF-SDAE的lncRNA-疾病关系预测方法及系统
CN117912570B (zh) 一种基于基因共表达网络的分类特征确定方法及系统
Nygård et al. Partial least squares Cox regression for genome-wide data
CN115033878A (zh) 快速自博弈强化学习方法、装置、计算机设备和存储介质
CN109409522B (zh) 一种基于集成学习的生物网络推理算法
CN110739028B (zh) 一种基于k-近邻约束矩阵分解的细胞系药物响应预测方法
CN109920478B (zh) 一种基于相似性和低秩矩阵填充的微生物-疾病关系预测方法
Berger et al. A classification tree approach for the modeling of competing risks in discrete time
Csala et al. Multiset sparse redundancy analysis for high‐dimensional omics data
Gotwalt JMP neural network methodology
CN112651168B (zh) 基于改进神经网络算法的建设用地面积预测方法
CN114819053A (zh) 基于时空卷积lstm的平均波向预报偏差订正方法
CN110459266B (zh) Snp致病因素与疾病关联关系模型建立方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant