CN112164474A - 一种基于自表达模型的药物敏感性预测方法 - Google Patents
一种基于自表达模型的药物敏感性预测方法 Download PDFInfo
- Publication number
- CN112164474A CN112164474A CN202010671826.6A CN202010671826A CN112164474A CN 112164474 A CN112164474 A CN 112164474A CN 202010671826 A CN202010671826 A CN 202010671826A CN 112164474 A CN112164474 A CN 112164474A
- Authority
- CN
- China
- Prior art keywords
- drug
- cell line
- matrix
- response
- self
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000003814 drug Substances 0.000 title claims abstract description 60
- 229940079593 drug Drugs 0.000 title claims abstract description 59
- 238000000034 method Methods 0.000 title claims abstract description 28
- 230000035945 sensitivity Effects 0.000 title claims abstract description 19
- 239000011159 matrix material Substances 0.000 claims abstract description 50
- 230000004044 response Effects 0.000 claims abstract description 45
- 238000005457 optimization Methods 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims description 16
- 206010028980 Neoplasm Diseases 0.000 claims description 9
- 201000011510 cancer Diseases 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 8
- 230000000694 effects Effects 0.000 claims description 6
- 239000002246 antineoplastic agent Substances 0.000 claims description 4
- 229940041181 antineoplastic drug Drugs 0.000 claims description 4
- 238000002790 cross-validation Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 2
- 230000003247 decreasing effect Effects 0.000 claims description 2
- 230000002401 inhibitory effect Effects 0.000 claims description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 abstract description 2
- 238000010801 machine learning Methods 0.000 abstract description 2
- 230000002974 pharmacogenomic effect Effects 0.000 abstract description 2
- 238000011160 research Methods 0.000 abstract description 2
- 238000011282 treatment Methods 0.000 abstract description 2
- 238000011156 evaluation Methods 0.000 abstract 1
- 238000000354 decomposition reaction Methods 0.000 description 9
- 238000002474 experimental method Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 208000002458 carcinoid tumor Diseases 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000010171 animal model Methods 0.000 description 1
- 239000000090 biomarker Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000007876 drug discovery Methods 0.000 description 1
- 238000007877 drug screening Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011337 individualized treatment Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000011173 large scale experimental method Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008506 pathogenesis Effects 0.000 description 1
- 238000011338 personalized therapy Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 239000000092 prognostic biomarker Substances 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 230000001988 toxicity Effects 0.000 description 1
- 231100000419 toxicity Toxicity 0.000 description 1
- 238000011269 treatment regimen Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/40—ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Toxicology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medicinal Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Chemical & Material Sciences (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明名为基于自表达模型的药物敏感性预测方法,属机器学习及药物基因组学研究领域。本发明目标是基于已知细胞系对药物的敏感性程度预测未知的细胞系和药物之间的敏感性分数。通过构建细胞系药物对的响应自表达模型,通过某些细胞系药物对的敏感度的线性或仿射组合实现未知敏感性分数的预测。该模型将复杂的优化问题转化为多个子空间,可以实现对包含缺失值数值矩阵的精准且高效的填补,进而实现对细胞系药物响应值的预测。本发明提出的算法能够为个性化精准医疗中重要的药物响应评估环节提供有力的参考。
Description
技术领域
本发明涉及机器学习及药物基因组学研究领域,具体涉及一种基于自表达模型的药物敏感性预测方法。
背景技术
癌症是威胁人类健康的常见疾病,死亡率极高。癌症的异质性导致即使患有相同疾病的患者对相同治疗方案的反应也大不相同。个性化医疗的基本目标是设计和确定最大限度提高药物疗效的个体化疗法,同时最大限度地减少不良副作用。而药物反应预测已成为癌症患者进行个体化治疗的先决条件。
个性化预防和治疗的主要挑战是识别生物标志物,这对于理解给定复杂疾病的发病机制至关重要。然而,研究人员需要考虑人类或动物模型中预测性生物标志物的时间和成本效益,因为用大量药物测试大量癌症患者的临床效果和毒性是不可行的。高通量药物筛选技术使许多研究能够对人类癌细胞系进行大规模实验。到目前为止,已经开发了许多预测方法来促进和加速药物发现和重新定位过程。近期的药物反应预测计算方法可分为几种类型,例如矩阵分解(MF),基于核的方法和基于网络的方法。Ammad-ud-din等人引入了最新的内核贝叶斯矩阵分解(KBMF)方法的扩展,对行和列的大量侧面数据视图与输出矩阵的潜在分量空间之间的复杂关联进行建模。Wang等人提出了相似正则化矩阵分解(SRMF)模型来近似药物反应矩阵并计算未知反应水平。Brouwer等人提出了一种贝叶斯混合矩阵分解(HMF)模型,该模型不仅将相似性矩阵视为辅助信息,而且还具有特征矩阵。Guan等人构造了一个p-最近邻图来简化药物相似性矩阵和细胞系相似性矩阵,并提出了一种利用加权图正则化矩阵分解(WGRMF)排除噪声成分并提高药物反应预测准确性的新方法。Cichonska等人提供了成对的多核学习(MKL)来实现时间和内存效率的学习,同时实现了高效的成对核权重优化和成对模型训练。基于网络的方法中使用的信息类似于矩阵分解方法中的正则化信息。Zhang等人提出了一种双层集成细胞系-药物网络(DLN)模型,用于预测给定细胞系的药物反应。Zhang等人开发了一种新的基于异质网络的药物反应预测方法(HNMDRP),通过结合细胞系,药物和靶标之间的异质性关系来预测细胞系-药物的关联。其中,矩阵分解方法的性能较好,但大多数用于药物响应预测的矩阵分解方法都需要预先定义反应矩阵的秩等条件,这导致目前很多方法的预测速度和精度都还存在一定的改善空间。
发明内容
本发明目标是提高细胞系药物敏感性预测精度,建立了一种基于自表达模型的药物敏感性预测方法,我们通过构建细胞系药物响应值矩阵的自表达公式,将预测问题归结为找到数据矩阵的完备性,以便可以将每个点重构为几个数据点的线性或仿射组合。最终利用合理的凸优化实现对细胞系药物的敏感性更加精准的预测。基于自我表达矩阵填充模型的药物响应水平预测方法的具体实施步骤是:
步骤(1):基于抗癌药物敏感性基因组学(Genomics of Drug Sensitivity inCancer,GDSC)数据库和癌细胞系百科全书(Cancer Cell Line Encyclopedia,CCLE)数据库分别获得细胞系对药物的半抑制浓度得分和活性区域(Activity area)数值,构成细胞系对药物的响应水平矩阵,表示为,,,其中,对应于第i个细胞系对第j种药物的响应水平;若数据库中尚无该细胞系对相应药物的响应水平,则留空,
步骤(3):构建细胞系药物响应自表达模型:R=RC+E,并对其设定约束要求,如式(1)所示:
步骤(4):引入辅助矩阵Y和A,这里Y=R,A=C,即可将式(1)转化为式(2):
步骤(5):构建拉格朗日方程,将优化目标转化为多个相似结构的子目标优化问题,如式(3)表示:
步骤(6):根据细胞系-药物敏感性得分矩阵,按照十折交叉验证方法随机平均划分训练样本集和测试样本集,每一次,选择其中1份作为测试集,余下9份作为训练集,并利用训练样本集来训练自表达模型,采用交替方向乘子算法(ADMM)求解模型的局部最优解。具体过程如下:
第一步,更新A,如式(4)表示:
第二步,更新C,如式(5)表示:
第三步,更新R,如式(6)表示:
第四步,更新Y,如式(7)表示:
第五步,更新E,如式(8)表示:
第六步,更新拉格朗日乘子,如式(9)表示:
步骤(6)作为本发明一种基于自表达模型的药物敏感性预测方法的核心优化方案,所述详细内容为:采用子空间聚类的思想,认为药物反应存在于不同的子空间中,充分发掘原矩阵数据的潜在关系和特征,将数据映射到它们所属的空间中来实现矩阵填充。使用ADMM算法通过解决一系列具有相似结构的子问题来优化未知变量和参数。
综上,一种基于自表达模型的药物敏感性预测方法相比现有算法,具有如下优点:本发明基于子空间聚类和矩阵分解的基本思想,将复杂优化的问题巧妙地转化为多个子问题优化,不需要预先确定矩阵的秩即可预测细胞系中的药物反应,使得算法在仅使用原空缺矩阵(细胞系药物响应数据)的情况下,同时兼具矩阵分解算法计算速度快和预测精度高等优点。
附图说明
图1是基于自表达模型的药物敏感性预测方法的算法模型流程图。
具体实施方式
为了进一步解释本次发明的具体内容和优点,以下是具体实施方式和附图的详细说明。
为了验证本算法在其它数据集上也有极好的性能,尤其是在稀疏度更高的数据集上,本实验从GDSC数据库中下载了652个人类癌症细胞系对135种抗癌药物的响应数据(IC50),构建细胞-药物响应矩阵为R,其中共有88020个响应值,已知的响应值有70676个,未知的响应值有17344个,本次实例数据的稀疏度为19.7%;同时,本实验从CCLE数据库中下载了491个人类癌症细胞系对23种抗癌药物的响应数据(Activity area),构建细胞-药物响应矩阵为R,其中共有11293个响应值,已知的响应值有10870个,未知的响应值有423个,本次实例数据的稀疏度为3.75%;
实验中用R=RC+E(自表达公式)表示自身矩阵,并通过构建拉格朗日方程将其优化难度降低。根据目标函数,实验采用十折交叉验证,数据随机分为十份,取其中一份作为测试集,其余九份作为训练集,训练完成后对预测测试集的响应进行打分。具体过程如下:采用ADMM交替方向乘子法,每一次模型训练依次更新辅助系数矩阵A,系数矩阵C,填充矩阵R,辅助填充矩阵Y,误差矩阵E,拉格朗日乘子和参数循环迭代直至目标函数收敛。本实施例设置的判断收敛条件为:首先,实验中第t轮参数更新后计算目标值,并将其与t-1轮损失函数值进行比较,当两者差值低于预设收敛阈值时,认为目标函数收敛,停止训练。
本方法在求解过程中,初始化参数是通过网格寻优的方式确定,其中:。最后,基于更新后的填充矩阵R,对预测测试集的药物响应打分,并通过计算预测值和真实值之间的均方根误差(Root Mean Square Error,RMSE)及皮尔森相关系数(Pearson Correlation Coefficient,PCC)评价本次实施例算法的性能。本发明提出的算法(Self-Expressive Matrix Completion Model,SEMCM)和Wang等人提出的算法(SRMF),Guan等人提出的算法(WGRMF)的性能比较如表1,表2所示:
表1:基于CCLE数据集的实验结果
表2:基于GDSC数据集的实验结果
其中,PCC_S/R:敏感和耐药细胞系反应的药物平均皮尔逊相关性;RMSE_S/R:敏感和耐药细胞系反应的药物平均均方根误差;PCC:所有细胞系反应的药物平均皮尔逊相关性;RMSE:所有细胞系反应的药物平均均方根误差。
最后说明:上述实施方式是为了更好的说明本发明的思路,绝不是对本发明的限制,凡是根据本发明本质内容所做的等效的替换、修改或补充,均应包含在本发明的保护范围之内。
Claims (4)
1.一种基于自表达模型的药物敏感性预测方法,其包括以下步骤:
步骤(1):基于抗癌药物敏感性基因组学(Genomics of Drug Sensitivity inCancer,GDSC)数据库和癌细胞系百科全书(Cancer Cell Line Encyclopedia,CCLE)数据库分别获得细胞系对药物的半抑制浓度IC50得分和活性区域(Activity area)数值,构成细胞系对药物的响应水平矩阵,表示为,,,其中,对应于第i个细胞系对第j种药物的响应水平;若数据库中尚无该细胞系对相应药物的响应水平,则留空,
步骤(3):构建细胞系药物响应自表达公式:R=RC+E,并对其设定约束要求,如式(1)所示:
步骤(4):引入辅助矩阵Y和A,这里Y=R,A=C,即可将式(1)转化为式(2):
步骤(5):构建拉格朗日方程,将优化目标转化为多个相似结构的子目标优化问题,如式(3)表示:
2.基于权利要求1中步骤1中构建的细胞系-药物敏感性得分矩阵,按照十折交叉验证方法随机划分训练样本集和测试样本集,每一次,选择其中1份作为测试集,余下9份作为训练集,并利用训练样本集训练基于自表达模型,采用交替方向乘子算法求解模型的局部最优解。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010671826.6A CN112164474B (zh) | 2020-07-14 | 2020-07-14 | 一种基于自表达模型的药物敏感性预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010671826.6A CN112164474B (zh) | 2020-07-14 | 2020-07-14 | 一种基于自表达模型的药物敏感性预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112164474A true CN112164474A (zh) | 2021-01-01 |
CN112164474B CN112164474B (zh) | 2024-05-24 |
Family
ID=73859499
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010671826.6A Active CN112164474B (zh) | 2020-07-14 | 2020-07-14 | 一种基于自表达模型的药物敏感性预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112164474B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113345600A (zh) * | 2021-05-06 | 2021-09-03 | 中国食品药品检定研究院 | 一种抗感染药物注射剂的有效性评价方法及其应用 |
CN113889184A (zh) * | 2021-09-27 | 2022-01-04 | 中国矿业大学 | 一种融合基因组特征的m6A甲基化局部功能谱分解方法 |
CN114974610A (zh) * | 2022-04-14 | 2022-08-30 | 湖南大学 | 基于图神经网络和自动编码器的抗癌药物敏感性预测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160224723A1 (en) * | 2015-01-29 | 2016-08-04 | The Trustees Of Columbia University In The City Of New York | Method for predicting drug response based on genomic and transcriptomic data |
CN106164296A (zh) * | 2014-02-07 | 2016-11-23 | 阿尔玛克诊断有限公司 | 用于预测对抗血管生成药的应答和癌症预后的分子诊断测试 |
CN110739028A (zh) * | 2019-10-18 | 2020-01-31 | 中国矿业大学 | 一种基于k-近邻约束矩阵分解的细胞系药物响应预测方法 |
-
2020
- 2020-07-14 CN CN202010671826.6A patent/CN112164474B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106164296A (zh) * | 2014-02-07 | 2016-11-23 | 阿尔玛克诊断有限公司 | 用于预测对抗血管生成药的应答和癌症预后的分子诊断测试 |
US20160224723A1 (en) * | 2015-01-29 | 2016-08-04 | The Trustees Of Columbia University In The City Of New York | Method for predicting drug response based on genomic and transcriptomic data |
CN110739028A (zh) * | 2019-10-18 | 2020-01-31 | 中国矿业大学 | 一种基于k-近邻约束矩阵分解的细胞系药物响应预测方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113345600A (zh) * | 2021-05-06 | 2021-09-03 | 中国食品药品检定研究院 | 一种抗感染药物注射剂的有效性评价方法及其应用 |
CN113345600B (zh) * | 2021-05-06 | 2024-02-27 | 中国食品药品检定研究院 | 一种抗感染药物注射剂的有效性评价方法及其应用 |
CN113889184A (zh) * | 2021-09-27 | 2022-01-04 | 中国矿业大学 | 一种融合基因组特征的m6A甲基化局部功能谱分解方法 |
CN113889184B (zh) * | 2021-09-27 | 2023-08-11 | 中国矿业大学 | 一种融合基因组特征的m6A甲基化局部功能谱分解方法 |
CN114974610A (zh) * | 2022-04-14 | 2022-08-30 | 湖南大学 | 基于图神经网络和自动编码器的抗癌药物敏感性预测方法 |
CN114974610B (zh) * | 2022-04-14 | 2024-05-31 | 湖南大学 | 基于图神经网络和自动编码器的抗癌药物敏感性预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112164474B (zh) | 2024-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112164474A (zh) | 一种基于自表达模型的药物敏感性预测方法 | |
KR102190299B1 (ko) | 인공신경망을 이용한 위암의 예후 예측 방법, 장치 및 프로그램 | |
CN106778014B (zh) | 一种基于循环神经网络的患病风险预测建模方法 | |
Guan | A novel method of plant leaf disease detection based on deep learning and convolutional neural network | |
WO2021232789A1 (zh) | 一种miRNA-疾病关联预测方法、系统、终端以及存储介质 | |
US20220130541A1 (en) | Disease-gene prioritization method and system | |
CN104298893B (zh) | 一种基因表达缺失数据的填补方法 | |
Pashaei et al. | Gene selection using hybrid dragonfly black hole algorithm: A case study on RNA-seq COVID-19 data | |
CN111863123B (zh) | 一种基因合成致死关联预测方法 | |
CN106055922A (zh) | 一种基于基因表达数据的混合网络基因筛选方法 | |
CN112215259B (zh) | 基因选择方法和装置 | |
CN115985503B (zh) | 基于集成学习的癌症预测系统 | |
CN110993113A (zh) | 基于MF-SDAE的lncRNA-疾病关系预测方法及系统 | |
CN117912570B (zh) | 一种基于基因共表达网络的分类特征确定方法及系统 | |
Nygård et al. | Partial least squares Cox regression for genome-wide data | |
CN115033878A (zh) | 快速自博弈强化学习方法、装置、计算机设备和存储介质 | |
CN109409522B (zh) | 一种基于集成学习的生物网络推理算法 | |
CN110739028B (zh) | 一种基于k-近邻约束矩阵分解的细胞系药物响应预测方法 | |
CN109920478B (zh) | 一种基于相似性和低秩矩阵填充的微生物-疾病关系预测方法 | |
Berger et al. | A classification tree approach for the modeling of competing risks in discrete time | |
Csala et al. | Multiset sparse redundancy analysis for high‐dimensional omics data | |
Gotwalt | JMP neural network methodology | |
CN112651168B (zh) | 基于改进神经网络算法的建设用地面积预测方法 | |
CN114819053A (zh) | 基于时空卷积lstm的平均波向预报偏差订正方法 | |
CN110459266B (zh) | Snp致病因素与疾病关联关系模型建立方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |