CN114882970B - 基于预训练模型和分子图的药物相互作用效果预测方法 - Google Patents
基于预训练模型和分子图的药物相互作用效果预测方法 Download PDFInfo
- Publication number
- CN114882970B CN114882970B CN202210625334.2A CN202210625334A CN114882970B CN 114882970 B CN114882970 B CN 114882970B CN 202210625334 A CN202210625334 A CN 202210625334A CN 114882970 B CN114882970 B CN 114882970B
- Authority
- CN
- China
- Prior art keywords
- drug
- training
- prediction
- dataset
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000003814 drug Substances 0.000 title claims abstract description 210
- 229940079593 drug Drugs 0.000 title claims abstract description 168
- 238000012549 training Methods 0.000 title claims abstract description 71
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000003993 interaction Effects 0.000 title claims abstract description 31
- 238000010586 diagram Methods 0.000 title claims abstract description 24
- 230000000694 effects Effects 0.000 title claims abstract description 14
- 239000000890 drug combination Substances 0.000 claims abstract description 20
- 230000008406 drug-drug interaction Effects 0.000 claims abstract description 9
- 206010013710 Drug interaction Diseases 0.000 claims description 33
- 239000013598 vector Substances 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 17
- 238000012360 testing method Methods 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 11
- 108090000623 proteins and genes Proteins 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 8
- 230000006916 protein interaction Effects 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 102000003839 Human Proteins Human genes 0.000 claims description 5
- 108090000144 Human Proteins Proteins 0.000 claims description 5
- 238000011160 research Methods 0.000 claims description 5
- 239000008186 active pharmaceutical agent Substances 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000000873 masking effect Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 3
- 230000007423 decrease Effects 0.000 claims description 2
- 238000005259 measurement Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 102000004169 proteins and genes Human genes 0.000 claims description 2
- 230000001502 supplementing effect Effects 0.000 claims description 2
- 230000002776 aggregation Effects 0.000 abstract description 2
- 238000004220 aggregation Methods 0.000 abstract description 2
- 238000002474 experimental method Methods 0.000 abstract description 2
- 238000004140 cleaning Methods 0.000 abstract 1
- 238000004088 simulation Methods 0.000 description 8
- 230000001225 therapeutic effect Effects 0.000 description 5
- 201000010099 disease Diseases 0.000 description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 4
- 230000002195 synergetic effect Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 239000002547 new drug Substances 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 239000000126 substance Chemical group 0.000 description 3
- 238000002648 combination therapy Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 206010067484 Adverse reaction Diseases 0.000 description 1
- 206010059866 Drug resistance Diseases 0.000 description 1
- 208000030453 Drug-Related Side Effects and Adverse reaction Diseases 0.000 description 1
- 241000282320 Panthera leo Species 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000006838 adverse reaction Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000031018 biological processes and functions Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007012 clinical effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 231100000673 dose–response relationship Toxicity 0.000 description 1
- 238000007876 drug discovery Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 235000012041 food component Nutrition 0.000 description 1
- 239000005417 food ingredient Substances 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 239000012535 impurity Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000004850 protein–protein interaction Effects 0.000 description 1
- 238000009097 single-agent therapy Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H20/00—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
- G16H20/10—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/40—ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Primary Health Care (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Epidemiology (AREA)
- Medicinal Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Pharmacology & Pharmacy (AREA)
- Toxicology (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明提出一种基于预训练模型和分子图的药物相互作用效果预测方法,主要解决现有技术缺失对药物分子的特定表示策略和对药物相互作用预测精度较低的问题,其方案为:对不同来源的药物数据进行搜集整理,构建大规模无标签数据集和有标签的下游任务数据集;对每个数据集进行数据清洗、数据生成和数据划分;根据分子之间的信息聚合和药物分子对表示学习的预训练任务构建预训练模型,并基于无标签大样本数据集对其进行预训练得到分子编码器;对分子编码器进行精调后得到预测器,通过预测器对药物‑药物相互作用关系和有效药物组合进行预测。本发明实验流程明晰、耗费资源小、对药物的预测结果准确性高,可用于生物实验。
Description
本发明属于生物信息学技术领域,特别涉及一种药物相互作用效果的预测方法,可用于生物实验。
背景技术
面对复杂疾病,医疗人员通常会采取多种药物同时作用的手段,因为大多数人类疾病都归因于复杂的生物过程,而错综复杂的生物过程可以抵抗许多单一药物的活性,从而无法达到预期的治疗效果。同时,一种疾病的发生往往伴随着许多并发症的出现,单一的药物难以达到患者的治疗效果,通常需要进行联合治疗,即使用两种或两种以上的药物来改善临床效果。这种联合治疗的方案与单药治疗相比具有多种优势:它能够发挥药物的协同治疗作用以提高疗效,延迟或减少耐药性的发生,或通过降低个别药物的剂量来降低不良反应的风险等。与此同时,当一种药物与特定的食物成分一起使用时,其疗效也可能会发生显著改变。据估计,药物相互作用与所报道的近30%的药物不良事件密切相关,这也是许多药物退出市场的主要原因之一。因此,了解药物相互作用机制,对于减少意外药物不良事件和在治疗疾病时最大限度地发挥协同效益至关重要。
近年来,进行药物相互作用和药物组合预测的方法大致可被分为两类:传统的剂量筛选法和数据驱动的计算方法。
传统的剂量筛选法主要以HSA、Bliss、Loewe、ZIP等协同模型为基础,通过绘制剂量-反应曲线来判别药物之间的相互作用程度和相互作用方向,然后选择在所有筛选的药物组合中协同作用分数最高的药物组合进行进一步开发和测试,以实现安全有效的治疗方案。这些模型不仅被用于建模药物对的协同关系,也被用来对高阶药物相互作用进行建模,即涉及三个及三个以上的药物。但由于该类方法严重依赖于被选择的模型,并且在其发展初期,模型所依赖的不同理论基础之间有一定的相背性,导致筛选结果有较大差异,这类传统方法逐渐淡出了人们的视野。
数据驱动的计算方法又可被划分为三个子类:1)多特征加机器学习或深度学习,2)网络上的链路预测或模式挖掘,3)以药物结构为主导的预测方法。其中:
第1类多特征加机器学习或深度学习方法与特征工程息息相关,尤其是对于机器学习的问题,数据和特征决定了学习效果的上限,而模型和算法只是在逼近这个上限。同时,特征的设计、选择和表示具有很高的主观性,如何去除原始数据中的杂质和冗余,设计更高效的特征以刻画求解的问题与预测模型之间的关系是一个有待解决的关键问题。
第2类网络上的链路预测或模式挖掘方法旨在构造一个包含以药物为节点的大型网络,边的关系代表着是否相互作用或相互作用的类型,然后通过已知的网络节点以及网络的结构信息预测网络中尚未产生连边的两个节点之间产生链接的可能性。该类方法的核心基础都是一个预先构建的图网络,这也就使得预测器无法跳出当前的图来进行新药的相互作用关系预测,大大加重了模型的局限性。
第3类以药物结构为主导的预测方法,是在已知的药物化学式的基础上,将药物分子图转化为基于原子和化学键的二维无向图,接着采用图神经网络或图自编码器等图表示学习方法进行图特征的提取,进而完成药物相互作用的预测。但是在基于图的化学分子表示模型中,缺失对多药物分子图专门设计的图表示学习策略,与此同时,也缺乏为药物分子图专门构建的预训练任务,这使得图表示学习结合预训练的思想在药物发现领域中的发展受到了约束,进而使得有限的数据无法得到充分利用。
发明内容
本发明的目的在于提供一种基于预训练模型和分子图的药物相互作效果预测方法,以解决现有技术中缺失对药物分子图的特定表示策略,对药物相互作用预测精度较低和实验流程复杂、模型扩展性低的问题。
本发明的技术思路是:使用药物的分子图结构数据和药物的靶标数据对多药物表示模型进行预训练,将预训练模型迁移至下游任务,利用学习得到的药物之间和药物内部潜在特征表示完成药物-药物相互作用和有效药物组合的预测。
根据上述思路,本发明的技术方案包括如下:
(1)对不同来源的药物数据进行搜集整理,构建大规模无标签数据集DP;
(2)搜集整理已知的药物-药物相互作用关系数据和已批准的药物组合数据,构建有标签的下游任务数据集:DF={D1,D2,D3,D4},其中,数据集D1和D2表示药物相互作用的二分类数据集,D3表示药物相互作用的多分类数据集,D4表示有效药物组合数据集;
(3)从已有研究中获取人类蛋白质相互作用网络N,从DrugBank数据库中收集所有存在靶标的药物所对应的靶标构成靶标集T;
(4)对无标签数据集DP中的所有药物进行两两组合,得到仅包括药物结构信息的DL数据集,对无标签数据集DP中的药物进行过滤和组合,得到包括靶标信息和药物的结构信息的DS数据集,并将二者共同组成预训练数据集DP'={DL,DS},将其中10%的数据作为测试样本,90%的数据作为训练样本;
(5)对有标签的下游任务数据集DF,将其中所包含的已知相互作用的药物对作为正样本,并随机采取与正样本等量的负样本,得到由正负样本构成的精调数据集DF',将其中20%的数据作为测试样本,80%的数据作为训练样本;
(6)基于预训练数据集DP'和精调数据集DF',构建总预训练图集合GP和总精调图集合GF:
(7)基于药物分子对表示学习的预训练任务构建药物分子对表示学习模型:
(7a)分别设置药物分子对表示学习的遮蔽原子预测和SAB分数预测这两种预训练任务的损失函数,其中,“遮蔽原子预测”用于学习分子图的上下文信息和拓扑信息,“SAB分数预测”用于学习药物分子之间的靶标重叠信息;
(7b)构建由定长向量表示的两个并行输入层,即对于“遮蔽原子预测”任务,输入向量为长度为300的原子列表,对于“SAB分数预测”任务,输入向量为长度为1的靶标邻近分数;
(7c)建立由N个Transformer编码器堆叠构成的隐藏层;
(7d)建立由全连接的神经网络构成的输出层,即对于“遮蔽原子预测”任务,输出层为与字典相同维度的全连接神经网络,对于“SAB分数预测”任务,输出层为输出维度为1的全连接神经网络;
(7e)将(7b)中的输入层、(7c)中的隐藏层和(7d)中的输出层依次串联,得到药物分子对表示学习模型;
(8)使用总预训练图集合GP,通过标准批量梯度下降算法、反向传播算法和Adam优化器对药物分子对表示学习模型进行预训练,预训练过程中的损失函数为交叉熵损失和均方误差损失之和,最终获得一个能够输出节点低维嵌入的分子编码器E;
(9)固定分子编码器E的输入层和Transforme层,并将其预训练头替换为下游任务相关的预测头,使用总精调图集合GF的训练样本集,通过Adam优化器和提前停止策略对分子编码器E中的参数进行微调,得到预测器P;
(10)使用预测器P在总精调图集合GF的测试样本集上进行药物相互作用效果预测:
对于多分类样本D3,其预测分数最高的相互作用类别即为预测结果;
对于二分类样本D1、D2和D4,其预测分数大于0.5的表示存在相互作用,反之不存在相互作用。
本发明与现有的预测药物相互作用和有效药物组合技术相比,具有以下优点:
1)本发明将药物的靶标作为特有信息引入预训练任务“SAB分数预测”的构建,且通过多个任务组合学习从多方面挖掘药物的潜在特征,解决了现有研究中缺乏专门进行药物表示学习相关预训练任务的问题;
2)本发明着眼于可拓展的多药物分子表示,提出了两种分子图的信息聚合策略来整合多个药物的潜在特征,突破了以往分子表示学习方法中只进行单分子表示的界限,具有更广泛的应用场景;
3)本发明在所使用的数据方面摒弃了冗杂的特性搜集与整合,仅采用了药物的结构信息和靶标信息,可使大量无标签的药物数据能得到充分利用,解决了现有研究中通常受复杂的特征工程阻碍所带来的资源耗费大、成本高的问题。
附图说明
图1是本发明的实现流程图。
具体实施方式
以下结合附图对本发明的具体实施例和效果作进一步详细描述。
参照图1,本实例的实现步骤如下:
步骤1,对不同来源的药物数据进行搜集整理,构建大规模无标签数据集DP。
1.1)从DrugBank数据库下载所有与药物相关的结构数据,选用的数据类型为带有“approve”标签的药物,构成包含2675个已批准药物的数据集DA;
1.2)在pubChem数据库中搜索表示药物结构信息的分子输入线性表示字符串SMILE,用于对DA数据集中缺省的数据进行补充,并对该数据集中无法转换的SMILE字符串进行替换,得到包含2501个药物的数据集DP。
步骤2,搜集整理已知的药物-药物相互作用关系数据和已批准的药物组合数据,构建有标签的下游任务数据集DF。
2.1)从Marinka等人的文章中获取下游任务数据集BIOSNAP,该数据集包含了来自于不同出版物的1322种获得批准的药物和41520个带标记的药物-药物相互作用,构成下游任务第一数据集D1;
2.2)从Zhang等人的文章中获取下游任务数据集,该数据集包含了548个药物和48584个成对药物-药物相互作用,构成下游任务第二数据集D2;
2.3)从Ryu等人的文章中获取下游任务数据集DEEPDDI,该数据集由DrugBank中的1710种药物和86种不同的相互作用类型组成,捕获了192284个药物-药物对作为样本,构成下游任务第三数据集D3;
2.4)下载DCDB数据库中的有效药物组合数据,本实例从该数据集中仅选取成对的药物相互作用,不考虑高阶药物组合,即将三个及三个以上药物的相互作用数据剔除后得到下游任务第四数据集D4;
2.5)将上述四个数据集整合,得到精调数据集DF={D1,D2,D3,D4},其中,下游任务第一数据集D1和下游任务第二数据集D2表示药物相互作用的二分类数据集,下游任务第三数据集D3表示药物相互作用的多分类数据集,下游任务第四数据集D4表示有效药物组合的二分类数据集。
步骤3,从已有研究中获取人类蛋白质相互作用网络N和靶标集T。
3.1)从Cheng等人文章中搜集所包含的人类蛋白质-蛋白质相互作用网络N;
3.2)下载DrugBank数据库中所有带有靶标信息的药物和每个药物对应的靶标,共计药物2560个,其对应靶标构成靶标集T。
步骤4,对无标签数据集DP中的所有药物进行过滤和组合,得到预训练数据集DP'。
4.1)对无标签数据集DP中的2501个已批准药物进行两两组合,得到仅包括药物结构信息的DL数据集,其中药物对数量为310万;
4.2)统计蛋白质相互作用网络N中所有编码蛋白质结点的基因信息,得到基因集合XG,统计无标签数据集DP中每个药物的靶标基因,过滤掉不在基因集XG中的靶标基因,若对应药物的靶标信息为空,则删除该药物,对于剩余药物将其进行两两组合,得到包括靶标信息和药物的结构信息的DS数据集,其中药物对数量为130万;
4.3)将上述两个数据集整合,得到预训练数据集DP'={DL,DS}。
步骤5,对有标签的下游任务数据集DF随机采取负样本得到精调数据集DF'。
5.1)对于有标签的下游任务数据集DF={D1,D2,D3,D4}中缺失负样本的药物相互作用的二分类数据集D2,其由药物-药物相互作用关系矩阵构成,该矩阵中的1值代表存在相互作用,0值代表相互作用未知或不存在;提取矩阵中对应值为1的药物对构成正样本集合,并在相互作用关系值为0的药物对中随机选取与正样本等量的药物对,构成药物相互作用二分类数据集D2的负样本集合;
5.2)对于有标签的下游任务数据集DF={D1,D2,D3,D4}中缺失负样本的有效药物组合数据集D4,为了避免正负样本规模差异过大,通过其正样本来生成负样本,得到有效药物组合数据集D4的负样本集合:
5.2.1)将有效药物组合数据集D4中包含的二元药物相互作用作为正样本集,统计正样本集中所涉及的所有药物,构成药物集XD;
5.2.2)对于每一条正样本,随机保留两药物中的一个药物,并随机选取药物集XD中相异于保留药物的另一药物,将保留药物和选取药物构成药物对,并判断正样本集中是否包含该药物对:
若不包含,则将药物对中的两药物记作一条负样本;
若包含,则重新随机选择药物集XD中另一药物构造新的药物对,直至正样本集中不包含该对药物,最终将新药物对中的两药物记作一条负样本;
5.2.3)重复5.2.2),得到与正样本集规模相同的负样本集,即为有效药物组合数据集D4的负样本集合;
5.3)将5.1)和5.2)的结果加入有标签的下游任务数据集DF中,得到精调数据集DF'。
步骤6,基于预训练数据集DP'和精调数据集DF'构建总预训练图集合GP和总精调图集合GF。
6.1)构建第一预训练图集合GP1和第一精调图集合GF1:
6.1.1)为预训练数据集DP'和精调数据集DF'中的一组样本中包含的两个药物所对应的分子图均引入一个超节点,使用虚拟边将超节点与两图中的所有原子连接,得到第一聚合后的分子对图;
6.1.2)根据第一聚合后的分子对图得到图的第一邻接矩阵和第一原子列表;
6.1.3)重复6.1.1)和6.1.2),用所有样本的第一邻接矩阵和第一原子列表构成第一预训练图集合GP1和第一精调图集合GF1;
6.2)构建第二预训练图集合GP2和第二精调图集合GF2:
6.2.1)为预训练数据集DP'和精调数据集DF'中的一组样本中包含的两个药物所对应的分子图均引入三个超节点,先使用虚拟边将其中两个超节点与各自对应药物分子图中的所有原子进行连接,再使用一个全局超节点连接每个药物对应的超节点,得到第二聚合后的分子对图;
6.2.2)根据第二聚合后的分子对图得到图的第二邻接矩阵和第二原子列表;
6.2.3)重复6.2.1)和6.2.2),用所有样本的第二邻接矩阵和第二原子列表构成第二预训练图集合GP2和第二精调图集合GF2;
6.3)根据6.1)和6.2)的结果,得到总预训练图集合GP={GP1,GP2}和总精调图集合GF={GF1,GF2}。
步骤7,基于药物分子对表示学习的预训练任务构建药物分子对表示学习模型。
7.1)分别设置药物分子对表示学习的遮蔽原子预测和SAB分数预测这两种预训练任务的损失函数:
7.1.1)设置药物分子对表示学习的“遮蔽原子预测”训练任务的损失函数:
7.1.1.1)随机选择药物对分子图中15%的原子,对于只有很少量原子的图,确保至少选择一个原子进行遮蔽,且不允许选择超级节点;
7.1.1.2)对于每个选定的原子,以80%的概率将其遮蔽,10%的概率将其随机替换为其它原子,10%的概率令其保持不变;
7.1.1.3)以原始原子标签作为训练模型的基本事实,该预测任务的损失函数选取交叉熵损失,且仅在被遮蔽原子处计算损失;
7.1.2)设置药物分子对表示学习的“SAB分数预测”训练任务的损失函数:
7.1.2.1)对于包括靶标信息和药物的结构信息的DS数据集中的每一对药物A和药物B,将其对应的所有靶标基因投影至人类蛋白质相互作用网络N中;
7.1.2.2)计算靶标重叠分数SAB值,以描述药物A的靶标模块与药物B的靶标模块之间的网络邻近度:
其中,<dAB>表示药物A的靶标模块与药物B的靶标模块之间的平均最短距离,<dAA>表示药物A的靶标模块内部结点之间的平均最短距离,<dBB>表示药物B的靶标模块内部结点之间的平均最短距离,若SAB<0,则两个药物的靶标模块在同一个网络邻域内重叠,若SAB≥0,则两个药物的靶标模块在该网络上拓扑分离;
7.1.2.3)将计算得到的靶标重叠分数SAB记为对应样本的回归标签S,使用两种不同的归一化方法来处理回归标签S,得到归一化后的回归标签S*,
使用min-max方法归一化:
使用z-score方法归一化:
其中min(S)和max(S)分别表示所有S中的最小值和最大值,μ表示所有S值的均值,σ表示所有S值的方差;
7.1.2.4)由归一化后的回归标签值S*计算均方差损失,作为“SAB分数预测”训练任务的损失函数;
7.2)构建由定长向量表示的两个并行输入层;
7.2.1)构建一个存储原子类型的字典,用于描述分子图中的原子:
7.2.1.1)统计分析DrugBank数据库中的药物分子,将13个出现频率最高的原子类型收录进字典,分别为:[H],[C],[N],[O],[F],[S],[Cl],[P],[Br],[I],[Na],[Fe],[Mg];
7.2.1.2)对于其它少遇到的原子类型,引入未知标签,统一用[UNK]表示;
7.2.1.3)对于引入的超节点,统一采用标记[SUP]来表示;
7.2.1.4)整合上述信息,构建出包含[H]、[C]、[N]、[O]、[F]、[S]、[Cl]、[P]、[Br]、[I],[Na],[Fe],[Mg],[UNK],[SUP],[MASK]这些字符的字典;
7.2.2)根据第一聚合后的分子对图和第二聚合后的分子对图得到两种类型的原子列表
L,将原子列表L通过7.2.1)中的字典字符表示,并根据“SAB分数预测”任务得到回归
标签S,再将二者拼接得到模型输入层的两种定长向量;
7.3)建立由N个Transformer编码器堆叠构成的隐藏层;
7.4)建立由全连接的神经网络构成的输出层,即对于“遮蔽原子预测”任务,输出层为与字典相同维度的全连接神经网络,对于“SAB分数预测”任务,输出层为输出维度为1的全连接神经网络;
7.5)将7.2)中的输入层、7.3)中的隐藏层和7.4)中的输出层依次串联,得到药物分子对表示学习模型。
步骤8,对药物分子对表示学习模型进行预训练,得到分子编码器E。
8.1)将输入层、编码模块和预训练相关模块的所有参数随机初始化;
8.2)将总预训练图集合GP中的药物对输入到分子对表示学习模型的隐藏层,得到总预训练图集合GP中样本对应的低维特征和超节点嵌入向量;
8.3)将预训练图集合GP中样本对应的低维特征输入到药物分子对表示学习模型的输出层,得到每个被遮蔽原子所对应原子的概率值集合,计算被遮蔽原子与原子本身标签之间的交叉熵损失,作为分类损失LC:
其中m是样本数,yi是样本i的标签,pi是样本i被预测为正类的概率;
8.4)将预训练图集合GP中样本对应的超节点嵌入向量输入到药物分子对表示学习模型的输出层,通过输出层将其转换为一维向量,并与预先计算的SAB分数计算均方误差损失,作为回归损失LR:
其中,m为样本数,yi为样本i的标签,yi′是模型输出的预测分数;
8.5)将交叉熵损失和均方误差损失的总和定义为药物分子对表示学习模型的整体损失LT,即LT=LC+LR;
8.6)设置最大迭代次数T为10,当前迭代次数为i,学习率为1e-4,批次大小选择为64或128,Transformer编码器的层数为3,计算多头注意力分数时的头数为2,隐藏层输出的嵌入向量维数选自[64,128,256];
8.7)根据第i次迭代预测所得的y′i和pi由公式LT计算当前迭代下的损失,将该损失进行反向传播,并根据其计算隐藏层和输出层中的参数梯度,再采用标准批量梯度下降算法和Adam优化器更新隐藏层和输出层中的参数;
8.8)重复8.7),直至损失值LT不再降低或达到最大迭代次数T,则停止参数更新,获得训练好的分子编码器E。
步骤9,对分子编码器E进行精调得到预测器P。
9.1)固定预训练模型的嵌入层和Transformer层,并将预训练头,即预训练阶段的最后一层替换为下游任务相关的预测头,根据下游任务的不同,构建不同的预测头;
9.2)针对不同的分类任务,选取相应的交叉熵作为预测头处的损失函数LC',
在二分类任务中,其公式为:
其中m是样本数,yi是样本i的标签,pi是样本i被预测为正类的概率;
在多分类任务中,其计算公式为:
其中,k表示样本标签值,第i个样本预测为第k个标签的概率为pi,k,N为样本数;
9.3)经多次试验评估,设置最大精调迭代次数F为250,当前迭代次数为t,学习率为5e-5,批次大小为64,dropout rate为0.5;
9.4)根据第t-1次迭代时,预测头处预测所得的第i个样本预测为第k个标签的概率pi,k,通过预测头处的损失函数LC'计算当前迭代t下的损失,将该损失进行反向传播,并先根据其计算预测头中的参数梯度,再采用标准批量梯度下降算法、Adam优化器和提前停止策略对预测头中的参数进行更新;
9.5)重复9.4),直至损失LC'不再降低或达到最大迭代次数F,则停止参数更新,完成对分子编码器E的精调,获得预测器P。
步骤10,通过预测器P获得药物相互作用效果的预测结果。
将总精调图集合GF的测试样本集输入预测器P进行药物相互作用效果预测:
对于多分类样本D3,预测器P输出一个86维的向量,分别对应86种药物相互作用,其中预测分数最高的相互作用类别即为预测结果;
对于二分类样本D1、D2和D4,预测器P输出一个1维的预测分数,若预测分数大于0.5,则表示存在相互作用;反之,不存在相互作用。
以下结合仿真实验,对本发明的技术效果作进一步说明:
1.仿真条件
仿真实验在Intel(R)Xeon(R)Gold 5115 CPU(20核心)、主频2.40GHz,内存48G,Ubuntu平台上的Python 3.7结合tensorflow2.0框架进行。
数据集:二分类药物相互作用数据集D1、D2,多分类药物相互作用数据集D3和有效药物组合二分类数据集D4;
2.仿真内容:
仿真1,在二分类药物相互作用数据集D1上,分别采用本发明和现有6种药物相互作用预测的方法LR、Nat.Prot、Mol2Vec、MolVAE、DeepDDI和CASTER,在相同超参数下进行预测,结果如表1所示。其中:
ROC-AUC是接受者操作特性曲线ROC的曲线下面积,PR-AUC是精确召回曲线下面积,ROC-AUC和PR-AUC均是衡量预测准确率的指标,F1是综合了召回率和精度的综合指标,数值越大性能越好,#Parameters表示模型训练过程中的总参数量,下划线所标识的结果为本项性能所对应的最优结果。
表1不同模型在二分类的药物相互作用数据集上的性能对比
模型名称 | ROC-AUC | PR-AUC | F1 | #Parameters |
LR | 0.802±0.001 | 0.779±0.001 | 0.741±0.002 | 1,723 |
Nat.Prot | 0.853±0.001 | 0.848±0.001 | 0.714±0.001 | N/A |
Mol2Vec | 0.879±0.006 | 0.861±0.005 | 0.798±0.007 | 8,061,953 |
MolVAE | 0.892±0.009 | 0.877±0.009 | 0.788±0.033 | 8,012,292 |
DeepDDI | 0.886±0.007 | 0.871±0.007 | 0.817±0.007 | 8,517,633 |
CASTER | 0.910±0.005 | 0.887±0.008 | 0.843±0.005 | 7,813,429 |
本发明 | 0.994±0.001 | 0.993±0.002 | 0.965±0.001 | 416,257 |
由表1可见,本发明在各项性能上均优于现有同任务模型,且在具有更高精度的同时,也具有较低的波动性,其参数规模较小,相较于现有方法Mol2Vec、MolVAE、DeepDDI和CASTER本发明的参数量要低一个数量级,更便于模型的存储与迁移。
仿真2,在多分类药物相互作用数据集D3上,分别采用本发明和现有5种药物相互作用预测的方法ComplEx、KBGAN、SimplE、RotatE和Dai et al.,在相同超参数下进行预测,结果如表2所示。
表2不同模型在多分类的药物相互作用数据集上的性能对比
模型名称 | ROC-AUC | PR-AUC |
ComplEx | 0.9355 | 0.7419 |
KBGAN | 0.9436 | 0.7562 |
SimplE | 0.9310 | 0.7499 |
RotatE | 0.9348 | 0.7676 |
Daietal.(ComplEx) | 0.9527 | 0.7615 |
Daietal.(SimplE) | 0.9431 | 0.7693 |
Daietal.(RotatE) | 0.9480 | 0.7899 |
本发明 | 0.9781 | 0.9129 |
表2中ROC-AUC是接受者操作特性曲线ROC的曲线下面积,PR-AUC是精确召回曲线下面积,ROC-AUC和PR-AUC均是衡量预测准确率的指标,下划线所标识的结果为本项性能所对应的最优结果。
由表2可见,本发明在上述两项性能上均优于现有同任务模型。
仿真3,在二分类药物数据集D1、D2和D4对应的测试数据上,使用本发明的预测器P进行新型药物相互作用的预测,并对预测结果进行排名。
对于前两个药物相互作用数据集D1和D2,其测试集中的样本量分别为19,016和16,608,其选取排名前1000的药物对中新预测出的药物对。
对于有效药物组合数据集D4,其测试集中的样本量只有142个,选取排名前10的药物对中新预测出的药物对。
对上述三种数据集新预测的药物对排名结果如表3所示,其中标有√则说明该新预测的药物对之间的相互作用关系能够从多方文献中得到验证。
表3不同数据集所对应的测试数据上新预测所得的药物的验证结果
由表3可见,本发明提出的方法具有预测新的药物-药物相互作用和有效药物组合的潜能,且预测所得的结果具有很高的可靠性,能够从多方面进行验证。
上述仿真结果表明,本发明无论是在多分类数据集上还是二分类数据集上都可以取得良好的预测结果,其具有良好的应用前景。
Claims (10)
1.一种基于预训练模型和分子图的药物相互作用效果预测方法,其特征在于,包括如下:
(1)对不同来源的药物数据进行搜集整理,构建大规模无标签数据集DP;
(2)搜集整理已知的药物-药物相互作用关系数据和已批准的药物组合数据,构建有标签的下游任务数据集:DF={D1,D2,D3,D4},其中,数据集D1和D2表示药物相互作用的二分类数据集,D3表示药物相互作用的多分类数据集,D4表示有效药物组合数据集;
(3)从已有研究中获取人类蛋白质相互作用网络N,从DrugBank数据库中收集所有存在靶标的药物所对应的靶标构成靶标集T;
(4)对无标签数据集DP中的所有药物进行两两组合,得到仅包括药物结构信息的DL数据集,对无标签数据集DP中的药物进行过滤和组合,得到包括靶标信息和药物的结构信息的DS数据集,并将二者共同组成预训练数据集DP'={DL,DS},将其中10%的数据作为测试样本,90%的数据作为训练样本;
(5)对有标签的下游任务数据集DF,将其中所包含的已知相互作用的药物对作为正样本,并随机采取与正样本等量的负样本,得到由正负样本构成的精调数据集DF',将其中20%的数据作为测试样本,80%的数据作为训练样本;
(6)基于预训练数据集DP'和精调数据集DF',构建总预训练图集合GP和总精调图集合GF:
(7)基于药物分子对表示学习的预训练任务构建药物分子对表示学习模型:
(7a)分别设置药物分子对表示学习的遮蔽原子预测和SAB分数预测这两种预训练任务的损失函数,其中,“遮蔽原子预测”用于学习分子图的上下文信息和拓扑信息,“SAB分数预测”用于学习药物分子之间的靶标重叠信息;
(7b)构建由定长向量表示的两个并行输入层,即对于“遮蔽原子预测”任务,输入向量为长度为300的原子列表,对于“SAB分数预测”任务,输入向量为长度为1的靶标邻近分数;
(7c)建立由N个Transformer编码器堆叠构成的隐藏层;
(7d)建立由全连接的神经网络构成的输出层,即对于“遮蔽原子预测”任务,输出层为与字典相同维度的全连接神经网络,对于“SAB分数预测”任务,输出层为输出维度为1的全连接神经网络;
(7e)将(7b)中的输入层、(7c)中的隐藏层和(7d)中的输出层依次串联,得到药物分子对表示学习模型;
(8)使用总预训练图集合GP,通过标准批量梯度下降算法、反向传播算法和Adam优化器对药物分子对表示学习模型进行预训练,预训练过程中的损失函数为交叉熵损失和均方误差损失之和,最终获得一个能够输出节点低维嵌入的分子编码器E;
(9)固定分子编码器E的输入层和Transforme层,并将其预训练头替换为下游任务相关的预测头,使用总精调图集合GF的训练样本集,通过Adam优化器和提前停止策略对分子编码器E中的参数进行微调,得到预测器P;
(10)使用预测器P在总精调图集合GF的测试样本集上进行药物相互作用效果预测:
对于多分类样本D3,其预测分数最高的相互作用类别即为预测结果;
对于二分类样本D1、D2和D4,其预测分数大于0.5的表示存在相互作用,反之不存在相互作用。
2.根据权利要求1所述的方法,其中,所述(1)中对不同来源的药物数据进行搜集整理,构建大规模无标签数据集DP,实现如下:
(1a)从DrugBank数据库下载所有与药物相关的结构数据,选用的数据类型为“approve”,构成包含2675个已批准药物的数据集DA;
(1b)在pubChem数据库中搜索表示药物结构信息的分子输入线性表示字符串SMILE,用于对DA数据集中缺省的数据进行补充,并对该数据集中无法转换的SMILE字符串进行替换,得到包含2501个药物的数据集DP。
3.根据权利要求1所述的方法,其中,所述(4)中对无标签数据集DP中的所有药物进行过滤和组合得到预训练数据集DP'={DL,DS},实现如下:
(4a)对无标签数据集DP中的所有药物进行两两组合,得到仅包括药物结构信息的DL数据集,其中药物对数量为310万;
(4b)统计蛋白质相互作用网络N中所有编码蛋白质结点的基因信息,得到基因集合XG,统计无标签数据集DP中每个药物的靶标信息,过滤掉不在基因集XG中的靶标,若对应药物的靶标信息为空,则删除该药物,对于剩余药物将其进行两两组合,得到包括靶标信息和药物的结构信息的DS数据集,其中药物对数量为130万。
4.根据权利要求1所述的方法,其中,所述(5)中对有标签的下游任务数据集DF随机采取负样本得到精调数据集DF',实现如下:
(5a)对于有标签的下游任务数据集DF={D1,D2,D3,D4}中缺失负样本的药物相互作用二分类数据集D2,提取其中药物-药物相互作用关系矩阵中对应值为1的药物对构成正样本集合,并在相互作用关系值为0的药物对中随机选取与正样本等量的药物对,构成药物相互作用二分类数据集D2的负样本集合;
(5b)对于有标签的下游任务数据集DF={D1,D2,D3,D4}中缺失负样本的有效药物组合数据集D4,通过其正样本来生成负样本,得到有效药物组合数据集D4的负样本集合:
(5b1)统计有效药物组合数据集D4的正样本集中所涉及的所有药物,构成药物集XD;
(5b2)对于每一条正样本,随机保留其药物对中的一个药物,并随机选取药物集XD中相异于保留药物的另一药物,若保留药物和选取药物构成的药物对是正样本集中的有效药物对,则重新随机选择药物集XD中另一药物,直至正样本集中不存在该对药物,并将两药物记作一条负样本药物对;
(5b3)重复(5b2),得到与正样本集规模相同的负样本集,即为有效药物组合数据集D4的负样本集合;
(5c)将(5a)和(5b)的结果加入有标签的下游任务数据集DF中,得到精调数据集DF'。
5.根据权利要求1所述的方法,其中,所述(6)中基于预训练数据集DP'和精调数据集DF'构建总预训练图集合GP和总精调图集合GF,实现如下:
(6a)构建第一预训练图集合GP1和第一精调图集合GF1:
(6a1)为预训练数据集DP'和精调数据集DF'中的一组样本中包含的两个药物所对应的分子图引入一个超节点,使用虚拟边将超节点与两图中的所有原子连接,得到第一聚合后的分子对图;
(6a2)根据第一聚合后的分子对图得到图的第一邻接矩阵和第一原子列表;
(6a3)重复(6a1)和(6a2),用所有样本的第一邻接矩阵和第一原子列表构成第一预训练图集合GP1和第一精调图集合GF1;
(6b)构建第二预训练图集合GP2和第二精调图集合GF2:
(6b1)为预训练数据集DP'和精调数据集DF'中的一组样本中包含的两个药物所对应的分子图引入三个超节点,先使用虚拟边将其中两个超节点与各自对应药物分子图中的所有原子进行连接,再使用一个全局超节点连接每个药物对应的超节点,得到第二聚合后的分子对图;
(6b2)根据第二聚合后的分子对图得到图的第二邻接矩阵和第二原子列表;
(6b3)重复(6b1)和(6b2),所有样本的第二邻接矩阵和第二原子列表构成第二预训练图集合GP2和第二精调图集合GF2;
(6c)根据(6a)和(6b)的结果,得到总预训练图集合GP={GP1,GP2}和总精调图集合GF={GF1,GF2}。
6.根据权利要求1所述的方法,其中,所述(7a)中设置药物分子对表示学习的“遮蔽原子预测”训练任务的损失函数,实现如下:
(7a1)随机选择药物对分子图中15%的原子,对于只有很少量原子的图,确保至少选择一个原子进行遮蔽,且不允许选择超级节点;
(7a2)对于每个选定的原子,以80%的概率将其遮蔽,10%的概率将其随机替换为其它原子,10%的概率令其保持不变;
(7a3)以原始原子标签作为训练模型的基本事实,该训练任务的损失函数选取交叉熵损失,且仅在被遮蔽原子处计算损失。
7.根据权利要求1所述的方法,其中,所述(7a)中设置药物分子对表示学习的“SAB分数预测”训练任务的损失函数,实现如下:
(7a4)对于包括靶标信息和药物的结构信息的DS数据集中的每一对药物A和B,将其靶标投影至人类蛋白质相互作用网络N中;
(7a5)计算靶标重叠分数SAB值,以描述药物A的靶标模块与药物B的靶标模块之间的网络邻近度:
其中,dAB表示药物A的靶标模块与药物B的靶标模块之间的平均最短距离,dAA表示药物A的靶标模块内部结点之间的平均最短距离,dBB表示药物B的靶标模块内部结点之间的平均最短距离;
(7a6)将计算得到的靶标重叠分数SAB记为对应样本的回归标签S,使用两种不同的归一化方法来处理回归标签S,得到归一化后的回归标签S*,
使用min-max方法归一化:
使用z-score方法归一化:
其中min(S)和max(S)分别表示所有S中的最小值和最大值,μ表示所有S值的均值,σ表示所有S值的方差;
(7a7)“SAB分数预测”训练任务的损失函数为由归一化后的回归标签值S*计算所得的均方差损失。
8.根据权利要求1所述的方法,其中,所述(7b)中构建模型输入层的定长向量,实现如下:
(7b1)构建一个存储原子类型的字典,用于描述分子图中的原子:
(7b11)统计分析DrugBank中的药物分子,将13个出现频率最高的原子类型收录进字典,分别为:[H],[C],[N],[O],[F],[S],[Cl],[P],[Br],[I],[Na],[Fe],[Mg];
(7b12)对于其它原子类型,引入未知标签,统一用[UNK]表示;
(7b13)对于引入的超节点,统一采用标记[SUP]来表示;
(7b14)整合上述信息,构建出包含[H]、[C]、[N]、[O]、[F]、[S]、[Cl]、[P]、[Br]、[I],[Na],[Fe],[Mg],[UNK],[SUP]这些字符的字典;
(7b2)根据聚合超节点后的分子对图得到原子列表L,将原子列表L通过(7b1)中的字典字符表示,并根据(7a)所述的“SAB分数预测”任务得到回归标签S,再将二者拼接得到模型输入层的定长向量。
9.根据权利要求1所述的方法,其中,所述(8)中对药物分子对表示学习模型进行预训练得到分子编码器E,实现如下:
(8a)将输入层、编码模块和预训练相关模块的所有参数随机初始化;
(8b)将总预训练图集合GP中的药物对输入到分子对表示学习模型的隐藏层,得到总预训练图集合GP中样本对应的低维特征和超节点嵌入向量;
(8c)将预训练图集合GP中样本对应的低维特征输入到药物分子对表示学习模型的输出层,得到每个被遮蔽原子所对应原子的概率值集合,计算被遮蔽原子与原子本身标签之间的交叉熵损失:LC代表分类损失,其中m是样本数,yi是样本i的标签,pi是样本i被预测为正类的概率;
(8d)将预训练图集合GP中样本对应的超节点嵌入向量输入药物分子对表示学习模型的输出层,通过输出层将其转换为一维向量,并与预先计算的SAB分数计算均方误差损失:其中LR代表回归损失,m为样本数,yi为样本i的标签,y′i是模型输出的预测分数;
(8e)将药物分子对表示学习模型整体损失LT定义为交叉熵损失和均方误差损失的总和,即LT=LC+LR;
(8f)设置最大迭代次数为T,当前迭代次数为i;
(8g)根据第i次迭代预测所得的y′i和pi由公式LT计算当前迭代下的损失,将该损失进行反向传播,并根据其计算隐藏层和输出层中的参数梯度,再采用标准批量梯度下降算法和Adam优化器更新隐藏层和输出层中的参数;
(8h)重复(8g),直至损失值LT不再降低或达到最大迭代次数T,则停止参数更新,获得训练好的分子编码器E。
10.根据权利要求1所述的方法,其中,所述(9)中对分子编码器E进行精调得到预测器P,实现如下:
(9a)固定预训练模型的嵌入层和Transformer层,并将预训练头,即预训练阶段的最后一层替换为下游任务相关的预测头,根据下游任务的不同,构建不同的预测头;
(9b)选取交叉熵作为预测头处的损失函数:
在二分类任务中,其公式为:
其中m是样本数,yi是样本i的标签,pi是样本i被预测为正类的概率;
在多分类任务中,其计算公式为:
其中k表示样本标签值,第i个样本预测为第k个标签的概率为pi,k,N为样本数;
(9c)设置最大精调迭代次数为F,当前迭代次数为i;
(9d)根据第i次迭代预测所得的第i个样本预测为第k个标签的概率pi,k,由预测头处的损失函数LC’计算当前迭代下的损失,将该损失进行反向传播,并根据其计算预测头中的参数梯度,再采用标准批量梯度下降算法、Adam优化器和提前停止策略对预测头中的参数进行更新;
(9e)重复(9d),直至损失LC'不再降低或达到最大迭代次数F,则停止参数更新,完成对分子编码器E的精调,获得预测器P。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210625334.2A CN114882970B (zh) | 2022-06-02 | 2022-06-02 | 基于预训练模型和分子图的药物相互作用效果预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210625334.2A CN114882970B (zh) | 2022-06-02 | 2022-06-02 | 基于预训练模型和分子图的药物相互作用效果预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114882970A CN114882970A (zh) | 2022-08-09 |
CN114882970B true CN114882970B (zh) | 2024-04-16 |
Family
ID=82679984
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210625334.2A Active CN114882970B (zh) | 2022-06-02 | 2022-06-02 | 基于预训练模型和分子图的药物相互作用效果预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114882970B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117079716B (zh) * | 2023-09-13 | 2024-04-05 | 江苏运动健康研究院 | 一种基于基因检测的肿瘤用药方案的深度学习预测方法 |
CN117976245A (zh) * | 2024-04-02 | 2024-05-03 | 云南大学 | 非对称式的药物相互作用预测方法、系统及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111492244A (zh) * | 2017-05-16 | 2020-08-04 | 快百思试剂有限公司 | 用于检测样品中细胞-细胞相互作用的试剂盒、方法和其用途 |
US11049590B1 (en) * | 2020-02-12 | 2021-06-29 | Peptilogics, Inc. | Artificial intelligence engine architecture for generating candidate drugs |
CN113160894A (zh) * | 2021-04-23 | 2021-07-23 | 平安科技(深圳)有限公司 | 药物与靶标的相互作用预测方法、装置、设备及存储介质 |
CN113470741A (zh) * | 2021-07-28 | 2021-10-01 | 腾讯科技(深圳)有限公司 | 药物靶标关系预测方法、装置、计算机设备及存储介质 |
CN113707235A (zh) * | 2021-08-30 | 2021-11-26 | 平安科技(深圳)有限公司 | 基于自监督学习的药物小分子性质预测方法、装置及设备 |
-
2022
- 2022-06-02 CN CN202210625334.2A patent/CN114882970B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111492244A (zh) * | 2017-05-16 | 2020-08-04 | 快百思试剂有限公司 | 用于检测样品中细胞-细胞相互作用的试剂盒、方法和其用途 |
US11049590B1 (en) * | 2020-02-12 | 2021-06-29 | Peptilogics, Inc. | Artificial intelligence engine architecture for generating candidate drugs |
CN113160894A (zh) * | 2021-04-23 | 2021-07-23 | 平安科技(深圳)有限公司 | 药物与靶标的相互作用预测方法、装置、设备及存储介质 |
CN113470741A (zh) * | 2021-07-28 | 2021-10-01 | 腾讯科技(深圳)有限公司 | 药物靶标关系预测方法、装置、计算机设备及存储介质 |
CN113707235A (zh) * | 2021-08-30 | 2021-11-26 | 平安科技(深圳)有限公司 | 基于自监督学习的药物小分子性质预测方法、装置及设备 |
Non-Patent Citations (2)
Title |
---|
Multidrug representation learning based on pretraining model and molecular graph for drug interaction and combination prediction;Shujie Ren 等;《Bioinformatics》;20220729;第38卷(第18期);第4387-4394 * |
基于网络和基因差异表达信息的癌症致病基因预测;鱼亮 等;《中国科学:生命科学》;20221008;第53卷(第1期);第94-108页 * |
Also Published As
Publication number | Publication date |
---|---|
CN114882970A (zh) | 2022-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109446338B (zh) | 基于神经网络的药物疾病关系分类方法 | |
Zhang et al. | An end-to-end deep learning architecture for graph classification | |
Cheng et al. | Risk prediction with electronic health records: A deep learning approach | |
CN114882970B (zh) | 基于预训练模型和分子图的药物相互作用效果预测方法 | |
Ruan et al. | Representation learning for clinical time series prediction tasks in electronic health records | |
Louati et al. | Deep convolutional neural network architecture design as a bi-level optimization problem | |
CN109585020A (zh) | 一种运用卷积神经网络对疾病风险预测的模型 | |
CN113688248B (zh) | 一种小样本弱标注条件下的医疗事件识别方法及系统 | |
CN112420191A (zh) | 一种中医辅助决策系统及方法 | |
CN115293161A (zh) | 基于自然语言处理和药品知识图谱的合理用药系统及方法 | |
Elayidom et al. | A generalized data mining framework for placement chance prediction problems | |
CN114783603A (zh) | 基于多源图神经网络融合的患病风险预测方法及系统 | |
CN115376704A (zh) | 一种融合多邻域关联信息的药物-疾病相互作用预测方法 | |
Mandal et al. | A study of bio-inspired computing in bioinformatics: a state-of-the-art literature survey | |
CN113284627A (zh) | 基于患者表征学习的用药推荐方法 | |
CN110299194B (zh) | 基于综合特征表示与改进宽深度模型的相似病例推荐方法 | |
CN111159328A (zh) | 情报知识融合系统及方法 | |
CN116206775A (zh) | 一种融合多维度特征的药物-靶点相互作用预测方法 | |
Arteta Albert et al. | Intelligent Indexing—Boosting Performance in Database Applications by Recognizing Index Patterns | |
Shah et al. | A review on big data practices in healthcare | |
Zhong et al. | A Multi-View Learning-Based Rule Extraction Algorithm For Accurate Hepatotoxicity Prediction | |
Akhila et al. | A review on sentiment analysis of Twitter data for diabetes classification and prediction | |
Shi et al. | Semi-supervised learning protein complexes from protein interaction networks | |
Sridhar et al. | Interrelating N-gram based protein sequences using LSTMs with parallel capsule routing | |
Lim | Deep learning for time series prediction and decision making over time |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |