CN114550847B - 基于图卷积神经网络的药物口服利用度及毒性预测方法 - Google Patents
基于图卷积神经网络的药物口服利用度及毒性预测方法 Download PDFInfo
- Publication number
- CN114550847B CN114550847B CN202210107731.0A CN202210107731A CN114550847B CN 114550847 B CN114550847 B CN 114550847B CN 202210107731 A CN202210107731 A CN 202210107731A CN 114550847 B CN114550847 B CN 114550847B
- Authority
- CN
- China
- Prior art keywords
- neural network
- graph
- drug
- molecular descriptor
- toxicity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000003814 drug Substances 0.000 title claims abstract description 179
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 136
- 229940079593 drug Drugs 0.000 title claims abstract description 120
- 231100000419 toxicity Toxicity 0.000 title claims abstract description 55
- 230000001988 toxicity Effects 0.000 title claims abstract description 55
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 112
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 21
- 238000013507 mapping Methods 0.000 claims abstract description 10
- 238000012986 modification Methods 0.000 claims abstract description 6
- 230000004048 modification Effects 0.000 claims abstract description 6
- 230000014509 gene expression Effects 0.000 claims description 25
- 238000005096 rolling process Methods 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 13
- 238000010606 normalization Methods 0.000 claims description 11
- 239000000126 substance Substances 0.000 claims description 10
- 150000002500 ions Chemical class 0.000 claims description 7
- 206010048610 Cardiotoxicity Diseases 0.000 claims description 5
- 231100000259 cardiotoxicity Toxicity 0.000 claims description 5
- 231100000025 genetic toxicology Toxicity 0.000 claims description 5
- 230000001738 genotoxic effect Effects 0.000 claims description 5
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 3
- 231100000048 toxicity data Toxicity 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 description 8
- 238000012545 processing Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 239000002547 new drug Substances 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 206010067484 Adverse reaction Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000006838 adverse reaction Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009510 drug design Methods 0.000 description 1
- 238000009509 drug development Methods 0.000 description 1
- 238000007877 drug screening Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 150000002611 lead compounds Chemical class 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000144 pharmacologic effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/40—ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Medicinal Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Medical Informatics (AREA)
- Crystallography & Structural Chemistry (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Public Health (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Toxicology (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于图卷积神经网络的药物口服利用度及毒性预测方法,包括:S1,准备初始训练集;S2,建立药物的图模型,获取训练集;S3,利用训练集训练图卷积神经网络和全连接神经网络,拟合药物的分子描述符及图模型与药物的口服利用度及毒性的映射关系;S4,分别对训练数据中的每个分子描述符特征进行数值修改,利用神经网络对修改后的训练数据进行预测,确定对应的预测值误差;S5,对药物的所有分子描述符特征进行排序,标定位于前序的分子描述符特征,删除未被标定的药物的分子描述符特征,对训练数据进行更新;S6,重新训练步骤S3构建的图卷积神经网络和全连接神经网络。本发明能够得到具有高预测精度的药物口服利用度及毒性预测模型。
Description
技术领域
本发明涉及计算机辅助药物设计技术领域,具体涉及一种基于图卷积神经网络的药物口服利用度及毒性预测方法。
背景技术
在药物筛选阶段,获得具有特定药理性质的药物后,需要对其有效性和安全性做出评价。传统方法通过临床药理学的手段,开展新药的动物试验以及Ⅰ、II、Ⅲ期临床试验,评价其安全性和有效性,并在药物上市后的应用阶段开展Ⅳ期临床试验,考察药物疗效和不良反应。由于参与临床试验的患者数量有限,而每年却有大量的新药投入临床试验中,使得一款新药从研发到问世需要耗费大量的人力物力以及时间成本。此外,虽然对先导化合物的有效筛选可以获得治疗作用很好的药物,但药物的人体口服利用度以及药物对心脏和遗传的毒性却是未知的,即便通过动物试验,也不能保证后续投入临床试验时不会产生任何风险。
随着计算机技术和机器学习技术的发展,使用深度学习网络进行药物的药代动力学性质和毒性预测为药物研发提供了一种新策略。然而,现有的使用深度学习网络的预测方法中,仅考虑了药物的分子描述符或者分子指纹特征,在将特征输入后续的预测模型时缺少分子的结构信息,并且分子描述符特征未进行筛选,当采用全部的分子描述符特征时,会导致对药物利用度及毒性的预测精度降低。
发明内容
为解决上述现有技术中存在的部分或全部技术问题,本发明提供一种基于图卷积神经网络的药物口服利用度及毒性预测方法。
本发明的技术方案如下:
提供了一种基于图卷积神经网络的药物口服利用度及毒性预测方法,所述方法包括以下步骤:
S1,准备初始训练集,其中,初始训练集包括多个初始训练数据,初始训练数据包括药物的分子描述符和SMILES表达式、以及药物的口服利用度和毒性;
S2,根据药物的SMILES表达式,建立药物的图模型,获取训练集,其中,训练集包括多个训练数据,训练数据包括药物的分子描述符和药物的图模型、以及药物的口服利用度和毒性;
S3,构建图卷积神经网络和全连接神经网络,利用训练集训练图卷积神经网络和全连接神经网络,以拟合药物的分子描述符及图模型与药物的口服利用度及毒性的映射关系,其中,图卷积神经网络的输入为药物的图模型,全连接神经网络的输入为药物的分子描述符和图卷积神经网络的输出,输出为药物的口服利用度及毒性的预测值;
S4,针对药物的每一个分子描述符特征,对每个训练数据中对应的分子描述符特征进行数值修改,利用当前训练后的图卷积神经网络和全连接神经网络对修改后的训练数据进行预测,确定当前修改的分子描述符特征所对应的预测值误差;
S5,按照预测值误差从小到大的顺序依次对药物的所有分子描述符特征进行排序,标定位于前序的预设数量的药物的分子描述符特征,删除每个训练数据中未被标定的药物的分子描述符特征,对训练数据进行更新;
S6,利用更新后的训练数据重新训练步骤S3构建的图卷积神经网络和全连接神经网络,利用训练后的图卷积神经网络和全连接神经网络进行药物口服利用度及毒性预测。
在一些可能的实施方式中,所述药物的毒性包括:心脏毒性和遗传毒性。
在一些可能的实施方式中,所述根据药物的SMILES表达式,建立药物的图模型,包括:
根据药物的SMILES表达式,采用节点表示原子或离子,采用边表示原子和/或离子之间的化学键,采用边的权重表示化学键类型,建立药物的SMILES表达式对应的药物的图模型。
在一些可能的实施方式中,所述图卷积神经网络为多层图卷积神经网络。
在一些可能的实施方式中,多层图卷积神经网络为残差图卷积神经网络、稠密图卷积神经网络、或U型图神经网络。
在一些可能的实施方式中,步骤S3中,在利用训练集训练图卷积神经网络和全连接神经网络时,在图卷积神经网络的输出层在特征维度进行平均池化处理,对训练数据中的药物的分子描述符进行归一化处理,将将归一化处理后的分子描述符和池化处理后的图卷积神经网络的输出进行特征合并,作为全连接神经网络的输入。
在一些可能的实施方式中,利用以下公式进行分子描述符的归一化处理;
其中,表示归一化后的分子描述符,xd表示分子描述符的原始值,/>表示分子描述符的最大值,/>表示分子描述符的最小值。
在一些可能的实施方式中,步骤S3中,在利用训练集训练图卷积神经网络和全连接神经网络时,采用绝对值误差作为损失函数。
在一些可能的实施方式中,利用以下公式计算当前修改的分子描述符特征所对应的预测值误差;
其中,Err(j)表示预测值误差,N表示训练数据数量,表示对归一化处理后的第i个训练数据中的药物的分子描述符第j维特征进行数值修改后的分子描述符数据,m表示分子描述符的特征维数,/>表示第i个训练数据中的药物的SMILES表达式对应的图模型,θ表示图卷积神经网络和全连接神经网络的参数,f(·)表示神经网络的映射关系,yi表示第i个训练数据中的药物口服利用度及毒性数据。
本发明技术方案的主要优点如下:
本发明的基于图卷积神经网络的药物口服利用度及毒性预测方法通过利用图卷积神经网络提取药物分子结构特征,利用重要性排序思想对药物的分子描述符特征进行排序和筛选,基于图卷积神经网络提取的药物分子结构特征和筛选后的药物的分子描述符训练全连接神经网络,能够获得具有高预测精度的药物口服利用度及毒性预测模型。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例的基于图卷积神经网络的药物口服利用度及毒性预测方法的流程图;
图2为本发明一实施例的基于图卷积神经网络的药物口服利用度及毒性预测方法的数据处理过程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
以下结合附图,详细说明本发明实施例提供的技术方案。
参见图1和图2,本发明一实施例提供了一种基于图卷积神经网络的药物口服利用度及毒性预测方法,该方法包括以下步骤:
S1,准备初始训练集,其中,初始训练集包括多个初始训练数据,初始训练数据包括药物的分子描述符和SMILES表达式、以及药物的口服利用度和毒性;
S2,根据药物的SMILES表达式,建立药物的图模型,获取训练集,其中,训练集包括多个训练数据,训练数据包括药物的分子描述符和药物的图模型、以及药物的口服利用度和毒性;
S3,构建图卷积神经网络和全连接神经网络,利用训练集训练图卷积神经网络和全连接神经网络,以拟合药物的分子描述符及图模型与药物的口服利用度及毒性的映射关系,其中,图卷积神经网络的输入为药物的图模型,全连接神经网络的输入为药物的分子描述符和图卷积神经网络的输出,输出为药物的口服利用度及毒性的预测值;
S4,针对药物的每一个分子描述符特征,对每个训练数据中对应的分子描述符特征进行数值修改,利用当前训练后的图卷积神经网络和全连接神经网络对修改后的训练数据进行预测,确定当前修改的分子描述符特征所对应的预测值误差;
S5,按照预测值误差从小到大的顺序依次对药物的所有分子描述符特征进行排序,标定位于前序的预设数量的药物的分子描述符特征,删除每个训练数据中未被标定的药物的分子描述符特征,对训练数据进行更新;
S6,利用更新后的训练数据重新训练步骤S3构建的图卷积神经网络和全连接神经网络,利用训练后的图卷积神经网络和全连接神经网络进行药物口服利用度及毒性预测。
本发明一实施例提供的基于图卷积神经网络的药物口服利用度及毒性预测方法通过利用图卷积神经网络提取药物分子结构特征,利用重要性排序思想对药物的分子描述符特征进行排序和筛选,基于图卷积神经网络提取的药物分子结构特征和筛选后的药物的分子描述符训练全连接神经网络,能够获得具有高预测精度的药物口服利用度及毒性预测模型。
以下对本发明一实施例提供的基于图卷积神经网络的药物口服利用度及毒性预测方法的步骤及原理进行具体说明。
步骤S1,准备初始训练集,其中,初始训练集包括多个初始训练数据,初始训练数据包括药物的分子描述符和SMILES表达式、以及药物的口服利用度和毒性。
具体地,可以通过各种途径收集N个已知药物的口服利用度和毒性数据,以及N个已知药物的分子描述符和SMILES表达式数据,得到N个初始训练数据作为初始训练集。其中,/>表示第i个已知药物的分子描述符,/>表示第i个已知药物的SMILES表达式,yi表示第i个已知药物的口服利用度和毒性。
初始训练数据的数量N可以根据训练效率要求和代理模型的初始精度要求进行确定。
本发明一实施例中,药物的毒性可以包括:心脏毒性和遗传毒性。
步骤S2,根据药物的SMILES表达式,建立药物的图模型,获取训练集,其中,训练集包括多个训练数据,训练数据包括药物的分子描述符和药物的图模型、以及药物的口服利用度和毒性。
图是一种类似于图像的数据结构,但是与图像不同的是图不规则,能够存储与处理非规则化、非区域化的数据,而药物分子是不同原子通过不同的化学键进行连接。为此,本发明一实施例中,根据药物的SMILES表达式,建立相应的药物的图模型,以便于后续进行药物分子结构特征的提取。
定义图的关键是图中节点和边的建立,针对图G=(V,E),建立药物的图模型过程就是根据药物分子的结构信息,用原子或原子建立节点,用原子和/或离子之间的化学键构建边的过程。
由于,药物分子的原子或离子种类不同,之间的化学键类型也不同,本发明一实施例中,根据药物的SMILES表达式,建立药物的图模型,包括:
根据药物的SMILES表达式,采用节点表示原子或离子,采用边表示原子和/或离子之间的化学键,采用边的权重表示化学键类型,建立药物的SMILES表达式对应的药物的图模型。
具体地,可以利用开源的化学信息软件包对药物的SMILES表达式进行处理,以建立对应的药物的图模型。
步骤S3,构建图卷积神经网络和全连接神经网络,利用训练集训练图卷积神经网络和全连接神经网络,以拟合药物的分子描述符及图模型与药物的口服利用度及毒性的映射关系,其中,图卷积神经网络的输入为药物的图模型,全连接神经网络的输入为药物的分子描述符和图卷积神经网络的输出,输出为药物的口服利用度及毒性的预测值。
图卷积神经网络的图卷积操作是类似于图像处理中卷积操作的层,能够提取节点的邻域信息并通过可以学习的参数向下一层进行传递。其中,图卷积操作可以分为两个步骤,包括聚合和传递,具体可以表示为:
Hl=AHl
fl(Hl,θl)=σ(Hlθl)
其中,A表示邻接矩阵,Hl表示图卷积神经网络第l层的特征,θl表示图卷积神经网络第l层的参数,σ(·)表示非线性激活函数,fl(·)表示图卷积神经网络第l层的映射关系。
邻接矩阵A与特征Hl相乘的作用是使节点的邻接节点值求和聚集到该节点上,为了不丢失节点自身的信息,解决节点自身的信息需要向下传递的问题,邻接矩阵加入了自循环,具体表示为:
其中,表示加入自循环的邻接矩阵,IN表示单位矩阵
进一步地,为避免每经过一次相乘节点特征的尺度就会变大,利用度矩阵对邻域矩阵进行归一化处理,实现图卷积层对节点信息的聚合与传递。具体地,在归一化处理后,邻域信息提取的公式可以改写为:
其中,表示加入自循环的度矩阵。
本发明一实施例中,为了对药物分子的结构特征信息进行充分提取,图卷积神经网络为多层图卷积神经网络。其中,多层图卷积神经网络可以为残差图卷积神经网络(Residual Graph Convolutional Network,ResGCN)、稠密图卷积神经网络(Dense GraphConvolutional Network,DenseGCN)、或U型图神经网络(Graph U-Net)。
本发明一实施例中,为提取显著特征的同时降低模型的参数,降低模型的过拟合,在图卷积神经网络的输出层在特征维度进行平均池化,得到一个多维向量,以作为药物分子结构特征,进行后续的全连接神经网络的训练。
进一步地,可利用开源的深度学习框架建立全连接神经网络,全连接神经网络能够通过参数学习得到合适的模型,从而实现对指定的性质指标进行预测。
为了避免不同维度之间的特征因为数值量级问题影响相同作用的权重,本发明一实施例中,在利用训练集对神经网络进行训练之前,对训练数据中的药物的分子描述符进行归一化处理,以将分子描述符的数值限制在[0,1]区间。具体地,利用以下公式进行分子描述符的归一化处理;
其中,表示归一化后的分子描述符,xd表示分子描述符的原始值,/>表示分子描述符的最大值,/>表示分子描述符的最小值。
本发明一实施例中,将归一化处理后的分子描述符和图卷积神经网络输出的药物分子结构特征进行特征合并,以作为全连接神经网络的输入。具体地,设定图卷积神经网络输出的药物分子结构特征为n维特征,归一化处理后的分子描述符为m维特征,采用首尾连接方式进行特征合并得到n+m维特征,作为全连接神经网络的输入,其中,前n维为药物分子结构,后m维为药物的分子描述符。
进一步地,当药物的毒性包括心脏毒性和遗传毒性时,全连接神经网络的输出为三维,包括药物口服利用度、心脏毒性和遗传毒性。
神经网络作为数据驱动的一项技术,需要通过训练数据对神经网络的参数进行更新,以保证在预测的时候神经网络能够具有较高的预测精度。
本发明一实施例中,神经网络的输入为药物的图模型和归一化处理后的药物的分子描述符,神经网络的最终输出为药物口服利用度及毒性的预测值。具体地,药物口服利用度及毒性的预测值可以表示为:
其中,表示第i个训练数据对应的药物口服利用度及毒性的预测值,f(·)表示神经网络的映射关系,/>表示归一化处理后的第i个训练数据中的药物的分子描述符,/>表示第i个训练数据中的药物的SMILES表达式对应的图模型,θ表示图卷积神经网络和全连接神经网络的参数。
进一步地,本发明一实施例中,在进行神经网络训练时,采用绝对值误差作为损失函数。具体地,损失函数表示为:
神经网络训练的过程本质是一个优化问题,希望在决策空间中找到全局最优解,使得损失函数达到最小值。具体地,在神经网络的训练过程中,采用梯度下降的思想进行更新,首先通过链式法则求得参数梯度,然后对参数进行更新。
具体地,参数的更新过程可表述为:
其中,γ表示学习率,用于调节参数θ的更新速度。
步骤S4,针对药物的每一个分子描述符特征,对每个训练数据中对应的分子描述符特征进行数值修改,利用当前训练后的图卷积神经网络和全连接神经网络对修改后的训练数据进行预测,确定当前修改的分子描述符特征所对应的预测值误差。
由于药物的分子描述符特征数量众多,而部分分子描述符特征对预测结果没有影响,有的甚至会产生相反的作用。为此,本发明一实施例中,在进行神经网络的训练过程中,对药物的分子描述符特征进行筛选,删除训练数据中对预测结果没有影响、影响较低或者有负影响的部分分子描述符特征,基于删除处理后的训练数据对神经网络重新进行训练,以提高最终训练得到的神经网络的预测精度。
本发明一实施例中,利用重要性排序思想对药物的分子描述符特征进行排序和筛选。具体地,针对药物的每一个分子描述符特征,对每个训练数据中对应的分子描述符特征进行数值修改,利用当前训练后的图卷积神经网络和全连接神经网络对修改后的训练数据进行预测,确定当前修改的分子描述符特征所对应的预测值误差。其中,可以将分子描述符特征修改为设定值。
具体地,利用以下公式计算当前修改的分子描述符特征所对应的预测值误差;
其中,Err(j)表示预测值误差,N表示训练数据数量,表示对归一化处理后的第i个训练数据中的药物的分子描述符第j维特征进行数值修改后的分子描述符数据,m表示分子描述符的特征维数,/>表示第i个训练数据中的药物的SMILES表达式对应的图模型,θ表示图卷积神经网络和全连接神经网络的参数,f(·)表示神经网络的映射关系。
步骤S5,按照预测值误差从小到大的顺序依次对药物的所有分子描述符特征进行排序,标定位于前序的预设数量的药物的分子描述符特征,删除每个训练数据中未被标定的药物的分子描述符特征,对训练数据进行更新。
具体地,根据所有分子描述符特征对应的预测值误差,按照从小到大的顺序依次对药物的所有分子描述符特征进行排序,标定位于前序的预设数量的药物的分子描述符特征,删除每个训练数据中未被标定的药物的分子描述符特征,对训练数据进行更新。
其中,预设数量可以实际的药物的分子描述符特征种类和/或每个分子描述符特征对应的预测误差值确定。例如,可以设置一个预测值误差阈值,保留预测值误差不超过预测值误差阈值对应的分子描述符特征,删除预测值误差大于预测值误差阈值对应的分子描述符特征。
步骤S6,利用更新后的训练数据重新训练步骤S3构建的图卷积神经网络和全连接神经网络,利用训练后的图卷积神经网络和全连接神经网络进行药物口服利用度及毒性预测。
具体地,由于更新后的训练数据中已删除可能对预测结果没有影响、影响较低或者有负影响的部分分子描述符特征,利用更新后的训练数据重新训练步骤S3构建的图卷积神经网络和全连接神经网络,能够显著提高训练后的神经网络的预测精度。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。此外,本文中“前”、“后”、“左”、“右”、“上”、“下”均以附图中表示的放置状态为参照。
最后应说明的是:以上实施例仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (9)
1.一种基于图卷积神经网络的药物口服利用度及毒性预测方法,其特征在于,包括以下步骤:
S1,准备初始训练集,其中,初始训练集包括多个初始训练数据,初始训练数据包括药物的分子描述符和SMILES表达式、以及药物的口服利用度和毒性;
S2,根据药物的SMILES表达式,建立药物的图模型,获取训练集,其中,训练集包括多个训练数据,训练数据包括药物的分子描述符和药物的图模型、以及药物的口服利用度和毒性;
S3,构建图卷积神经网络和全连接神经网络,利用训练集训练图卷积神经网络和全连接神经网络,以拟合药物的分子描述符及图模型与药物的口服利用度及毒性的映射关系,其中,图卷积神经网络的输入为药物的图模型,全连接神经网络的输入为药物的分子描述符和图卷积神经网络的输出,输出为药物的口服利用度及毒性的预测值;
S4,针对药物的每一个分子描述符特征,对每个训练数据中对应的分子描述符特征进行数值修改,利用当前训练后的图卷积神经网络和全连接神经网络对修改后的训练数据进行预测,确定当前修改的分子描述符特征所对应的预测值误差;
S5,按照预测值误差从小到大的顺序依次对药物的所有分子描述符特征进行排序,标定位于前序的预设数量的药物的分子描述符特征,删除每个训练数据中未被标定的药物的分子描述符特征,对训练数据进行更新;
S6,利用更新后的训练数据重新训练步骤S3构建的图卷积神经网络和全连接神经网络,利用训练后的图卷积神经网络和全连接神经网络进行药物口服利用度及毒性预测。
2.根据权利要求1所述的基于图卷积神经网络的药物口服利用度及毒性预测方法,其特征在于,所述药物的毒性包括:心脏毒性和遗传毒性。
3.根据权利要求1所述的基于图卷积神经网络的药物口服利用度及毒性预测方法,其特征在于,所述根据药物的SMILES表达式,建立药物的图模型,包括:
根据药物的SMILES表达式,采用节点表示原子或离子,采用边表示原子和/或离子之间的化学键,采用边的权重表示化学键类型,建立药物的SMILES表达式对应的药物的图模型。
4.根据权利要求1所述的基于图卷积神经网络的药物口服利用度及毒性预测方法,其特征在于,所述图卷积神经网络为多层图卷积神经网络。
5.根据权利要求4所述的基于图卷积神经网络的药物口服利用度及毒性预测方法,其特征在于,多层图卷积神经网络为残差图卷积神经网络、稠密图卷积神经网络、或U型图神经网络。
6.根据权利要求1至5中任一项所述的基于图卷积神经网络的药物口服利用度及毒性预测方法,其特征在于,步骤S3中,在利用训练集训练图卷积神经网络和全连接神经网络时,在图卷积神经网络的输出层在特征维度进行平均池化处理,对训练数据中的药物的分子描述符进行归一化处理,将将归一化处理后的分子描述符和池化处理后的图卷积神经网络的输出进行特征合并,作为全连接神经网络的输入。
7.根据权利要求6所述的基于图卷积神经网络的药物口服利用度及毒性预测方法,其特征在于,利用以下公式进行分子描述符的归一化处理;
其中,表示归一化后的分子描述符,xd表示分子描述符的原始值,/>表示分子描述符的最大值,/>表示分子描述符的最小值。
8.根据权利要求1至7中任一项所述的基于图卷积神经网络的药物口服利用度及毒性预测方法,其特征在于,步骤S3中,在利用训练集训练图卷积神经网络和全连接神经网络时,采用绝对值误差作为损失函数。
9.根据权利要求1至8中任一项所述的基于图卷积神经网络的药物口服利用度及毒性预测方法,其特征在于,利用以下公式计算当前修改的分子描述符特征所对应的预测值误差;
其中,Err(j)表示预测值误差,N表示训练数据数量,表示对归一化处理后的第i个训练数据中的药物的分子描述符第j维特征进行数值修改后的分子描述符数据,m表示分子描述符的特征维数,/>表示第i个训练数据中的药物的SMILES表达式对应的图模型,θ表示图卷积神经网络和全连接神经网络的参数,f(·)表示神经网络的映射关系,yi表示第i个训练数据中的药物口服利用度及毒性数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210107731.0A CN114550847B (zh) | 2022-01-28 | 2022-01-28 | 基于图卷积神经网络的药物口服利用度及毒性预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210107731.0A CN114550847B (zh) | 2022-01-28 | 2022-01-28 | 基于图卷积神经网络的药物口服利用度及毒性预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114550847A CN114550847A (zh) | 2022-05-27 |
CN114550847B true CN114550847B (zh) | 2024-04-16 |
Family
ID=81673318
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210107731.0A Active CN114550847B (zh) | 2022-01-28 | 2022-01-28 | 基于图卷积神经网络的药物口服利用度及毒性预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114550847B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114792574B (zh) * | 2022-06-23 | 2022-09-06 | 普瑞基准生物医药(苏州)有限公司 | 基于图神经网络模型预测药物互作所致肝毒性的方法 |
CN115831260B (zh) * | 2023-02-16 | 2023-05-12 | 天津大学 | 一种小样本分子毒性预测方法 |
CN116189804B (zh) * | 2023-04-17 | 2023-07-14 | 烟台国工智能科技有限公司 | 基于图卷积神经网络的反应条件预测方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102542131A (zh) * | 2010-12-07 | 2012-07-04 | 西北师范大学 | 基于遗传算法和人工神经网络的药物药代动力学性质和毒性预测方法 |
CN113257369A (zh) * | 2021-05-18 | 2021-08-13 | 南京邮电大学 | 一种基于多任务图神经网络的分子毒性预测方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019191777A1 (en) * | 2018-03-30 | 2019-10-03 | Board Of Trustees Of Michigan State University | Systems and methods for drug design and discovery comprising applications of machine learning with differential geometric modeling |
-
2022
- 2022-01-28 CN CN202210107731.0A patent/CN114550847B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102542131A (zh) * | 2010-12-07 | 2012-07-04 | 西北师范大学 | 基于遗传算法和人工神经网络的药物药代动力学性质和毒性预测方法 |
CN113257369A (zh) * | 2021-05-18 | 2021-08-13 | 南京邮电大学 | 一种基于多任务图神经网络的分子毒性预测方法和装置 |
Non-Patent Citations (1)
Title |
---|
人工智能在药物发现中的应用与挑战;梁礼;邓成龙;张艳敏;滑艺;刘海春;陆涛;陈亚东;;药学进展;20200125(第01期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114550847A (zh) | 2022-05-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114550847B (zh) | 基于图卷积神经网络的药物口服利用度及毒性预测方法 | |
CN109637579B (zh) | 一种基于张量随机游走的关键蛋白质识别方法 | |
WO2023134062A1 (zh) | 基于人工智能的药物靶点作用关系确定方法及装置 | |
US11977972B2 (en) | Residual semi-recurrent neural networks | |
US11669716B2 (en) | System and method for implementing modular universal reparameterization for deep multi-task learning across diverse domains | |
CN109522945A (zh) | 一种群体情感识别方法、装置、智能设备及存储介质 | |
WO2023134061A1 (zh) | 基于人工智能的药物特征信息确定方法及装置 | |
CN113344615B (zh) | 一种基于gbdt和dl融合模型的营销活动预测方法 | |
CN114639483A (zh) | 一种基于图神经网络的电子病历检索方法及装置 | |
WO2023178793A1 (zh) | 双视角图神经网络模型的训练方法、装置、设备及介质 | |
CN115798598B (zh) | 一种基于超图的miRNA-疾病关联预测模型及方法 | |
CN108764280A (zh) | 一种基于症状向量的医学数据处理方法和系统 | |
CN114613437A (zh) | 一种基于异构图的miRNA与疾病关联预测方法及系统 | |
CN112925857A (zh) | 基于谓语类型预测关联的数字信息驱动的系统和方法 | |
CN114743037A (zh) | 一种基于多尺度结构学习的深度医学图像聚类方法 | |
CN114882970B (zh) | 基于预训练模型和分子图的药物相互作用效果预测方法 | |
CN114566277A (zh) | 一种基于联邦元学习的罕见疾病分类方法 | |
Kang et al. | FedNN: Federated learning on concept drift data using weight and adaptive group normalizations | |
CN110993121A (zh) | 一种基于双协同线性流形的药物关联预测方法 | |
CN115691817A (zh) | 一种基于融合神经网络的LncRNA-疾病关联预测方法 | |
CN114496109A (zh) | 基于深度学习的配体-受体复合物构象亲和力预测方法 | |
TWI337328B (en) | Case-based reasoning and learning method and the device for implementing the method | |
WO2023178789A1 (zh) | 患病风险估计网络的优化方法、装置、介质及设备 | |
CN117637029B (zh) | 基于深度学习模型的抗体可开发性预测方法和装置 | |
CN113986890B (zh) | 一种基于少样本模型学习的联合医院数据迁移方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |