CN114550847A - 基于图卷积神经网络的药物口服利用度及毒性预测方法 - Google Patents

基于图卷积神经网络的药物口服利用度及毒性预测方法 Download PDF

Info

Publication number
CN114550847A
CN114550847A CN202210107731.0A CN202210107731A CN114550847A CN 114550847 A CN114550847 A CN 114550847A CN 202210107731 A CN202210107731 A CN 202210107731A CN 114550847 A CN114550847 A CN 114550847A
Authority
CN
China
Prior art keywords
neural network
drug
molecular descriptor
graph
toxicity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210107731.0A
Other languages
English (en)
Other versions
CN114550847B (zh
Inventor
李星辰
李桥
王宇涛
姚雯
周炜恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Defense Technology Innovation Institute PLA Academy of Military Science
Original Assignee
National Defense Technology Innovation Institute PLA Academy of Military Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Defense Technology Innovation Institute PLA Academy of Military Science filed Critical National Defense Technology Innovation Institute PLA Academy of Military Science
Priority to CN202210107731.0A priority Critical patent/CN114550847B/zh
Publication of CN114550847A publication Critical patent/CN114550847A/zh
Application granted granted Critical
Publication of CN114550847B publication Critical patent/CN114550847B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/40ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage

Abstract

本发明公开了一种基于图卷积神经网络的药物口服利用度及毒性预测方法,包括:S1,准备初始训练集;S2,建立药物的图模型,获取训练集;S3,利用训练集训练图卷积神经网络和全连接神经网络,拟合药物的分子描述符及图模型与药物的口服利用度及毒性的映射关系;S4,分别对训练数据中的每个分子描述符特征进行数值修改,利用神经网络对修改后的训练数据进行预测,确定对应的预测值误差;S5,对药物的所有分子描述符特征进行排序,标定位于前序的分子描述符特征,删除未被标定的药物的分子描述符特征,对训练数据进行更新;S6,重新训练步骤S3构建的图卷积神经网络和全连接神经网络。本发明能够得到具有高预测精度的药物口服利用度及毒性预测模型。

Description

基于图卷积神经网络的药物口服利用度及毒性预测方法
技术领域
本发明涉及计算机辅助药物设计技术领域,具体涉及一种基于图卷积神经网络的药物口服利用度及毒性预测方法。
背景技术
在药物筛选阶段,获得具有特定药理性质的药物后,需要对其有效性和安全性做出评价。传统方法通过临床药理学的手段,开展新药的动物试验以及Ⅰ、II、Ⅲ期临床试验,评价其安全性和有效性,并在药物上市后的应用阶段开展Ⅳ期临床试验,考察药物疗效和不良反应。由于参与临床试验的患者数量有限,而每年却有大量的新药投入临床试验中,使得一款新药从研发到问世需要耗费大量的人力物力以及时间成本。此外,虽然对先导化合物的有效筛选可以获得治疗作用很好的药物,但药物的人体口服利用度以及药物对心脏和遗传的毒性却是未知的,即便通过动物试验,也不能保证后续投入临床试验时不会产生任何风险。
随着计算机技术和机器学习技术的发展,使用深度学习网络进行药物的药代动力学性质和毒性预测为药物研发提供了一种新策略。然而,现有的使用深度学习网络的预测方法中,仅考虑了药物的分子描述符或者分子指纹特征,在将特征输入后续的预测模型时缺少分子的结构信息,并且分子描述符特征未进行筛选,当采用全部的分子描述符特征时,会导致对药物利用度及毒性的预测精度降低。
发明内容
为解决上述现有技术中存在的部分或全部技术问题,本发明提供一种基于图卷积神经网络的药物口服利用度及毒性预测方法。
本发明的技术方案如下:
提供了一种基于图卷积神经网络的药物口服利用度及毒性预测方法,所述方法包括以下步骤:
S1,准备初始训练集,其中,初始训练集包括多个初始训练数据,初始训练数据包括药物的分子描述符和SMILES表达式、以及药物的口服利用度和毒性;
S2,根据药物的SMILES表达式,建立药物的图模型,获取训练集,其中,训练集包括多个训练数据,训练数据包括药物的分子描述符和药物的图模型、以及药物的口服利用度和毒性;
S3,构建图卷积神经网络和全连接神经网络,利用训练集训练图卷积神经网络和全连接神经网络,以拟合药物的分子描述符及图模型与药物的口服利用度及毒性的映射关系,其中,图卷积神经网络的输入为药物的图模型,全连接神经网络的输入为药物的分子描述符和图卷积神经网络的输出,输出为药物的口服利用度及毒性的预测值;
S4,针对药物的每一个分子描述符特征,对每个训练数据中对应的分子描述符特征进行数值修改,利用当前训练后的图卷积神经网络和全连接神经网络对修改后的训练数据进行预测,确定当前修改的分子描述符特征所对应的预测值误差;
S5,按照预测值误差从小到大的顺序依次对药物的所有分子描述符特征进行排序,标定位于前序的预设数量的药物的分子描述符特征,删除每个训练数据中未被标定的药物的分子描述符特征,对训练数据进行更新;
S6,利用更新后的训练数据重新训练步骤S3构建的图卷积神经网络和全连接神经网络,利用训练后的图卷积神经网络和全连接神经网络进行药物口服利用度及毒性预测。
在一些可能的实施方式中,所述药物的毒性包括:心脏毒性和遗传毒性。
在一些可能的实施方式中,所述根据药物的SMILES表达式,建立药物的图模型,包括:
根据药物的SMILES表达式,采用节点表示原子或离子,采用边表示原子和/或离子之间的化学键,采用边的权重表示化学键类型,建立药物的SMILES表达式对应的药物的图模型。
在一些可能的实施方式中,所述图卷积神经网络为多层图卷积神经网络。
在一些可能的实施方式中,多层图卷积神经网络为残差图卷积神经网络、稠密图卷积神经网络、或U型图神经网络。
在一些可能的实施方式中,步骤S3中,在利用训练集训练图卷积神经网络和全连接神经网络时,在图卷积神经网络的输出层在特征维度进行平均池化处理,对训练数据中的药物的分子描述符进行归一化处理,将将归一化处理后的分子描述符和池化处理后的图卷积神经网络的输出进行特征合并,作为全连接神经网络的输入。
在一些可能的实施方式中,利用以下公式进行分子描述符的归一化处理;
Figure BDA0003493934750000021
其中,
Figure BDA0003493934750000022
表示归一化后的分子描述符,xd表示分子描述符的原始值,
Figure BDA0003493934750000023
表示分子描述符的最大值,
Figure BDA0003493934750000024
表示分子描述符的最小值。
在一些可能的实施方式中,步骤S3中,在利用训练集训练图卷积神经网络和全连接神经网络时,采用绝对值误差作为损失函数。
在一些可能的实施方式中,利用以下公式计算当前修改的分子描述符特征所对应的预测值误差;
Figure BDA0003493934750000031
其中,Err(j)表示预测值误差,N表示训练数据数量,
Figure BDA0003493934750000032
表示对归一化处理后的第i个训练数据中的药物的分子描述符第j维特征进行数值修改后的分子描述符数据,m表示分子描述符的特征维数,
Figure BDA0003493934750000033
表示第i个训练数据中的药物的SMILES表达式对应的图模型,θ表示图卷积神经网络和全连接神经网络的参数,f(·)表示神经网络的映射关系,yi表示第i个训练数据中的药物口服利用度及毒性数据。
本发明技术方案的主要优点如下:
本发明的基于图卷积神经网络的药物口服利用度及毒性预测方法通过利用图卷积神经网络提取药物分子结构特征,利用重要性排序思想对药物的分子描述符特征进行排序和筛选,基于图卷积神经网络提取的药物分子结构特征和筛选后的药物的分子描述符训练全连接神经网络,能够获得具有高预测精度的药物口服利用度及毒性预测模型。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例的基于图卷积神经网络的药物口服利用度及毒性预测方法的流程图;
图2为本发明一实施例的基于图卷积神经网络的药物口服利用度及毒性预测方法的数据处理过程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
以下结合附图,详细说明本发明实施例提供的技术方案。
参见图1和图2,本发明一实施例提供了一种基于图卷积神经网络的药物口服利用度及毒性预测方法,该方法包括以下步骤:
S1,准备初始训练集,其中,初始训练集包括多个初始训练数据,初始训练数据包括药物的分子描述符和SMILES表达式、以及药物的口服利用度和毒性;
S2,根据药物的SMILES表达式,建立药物的图模型,获取训练集,其中,训练集包括多个训练数据,训练数据包括药物的分子描述符和药物的图模型、以及药物的口服利用度和毒性;
S3,构建图卷积神经网络和全连接神经网络,利用训练集训练图卷积神经网络和全连接神经网络,以拟合药物的分子描述符及图模型与药物的口服利用度及毒性的映射关系,其中,图卷积神经网络的输入为药物的图模型,全连接神经网络的输入为药物的分子描述符和图卷积神经网络的输出,输出为药物的口服利用度及毒性的预测值;
S4,针对药物的每一个分子描述符特征,对每个训练数据中对应的分子描述符特征进行数值修改,利用当前训练后的图卷积神经网络和全连接神经网络对修改后的训练数据进行预测,确定当前修改的分子描述符特征所对应的预测值误差;
S5,按照预测值误差从小到大的顺序依次对药物的所有分子描述符特征进行排序,标定位于前序的预设数量的药物的分子描述符特征,删除每个训练数据中未被标定的药物的分子描述符特征,对训练数据进行更新;
S6,利用更新后的训练数据重新训练步骤S3构建的图卷积神经网络和全连接神经网络,利用训练后的图卷积神经网络和全连接神经网络进行药物口服利用度及毒性预测。
本发明一实施例提供的基于图卷积神经网络的药物口服利用度及毒性预测方法通过利用图卷积神经网络提取药物分子结构特征,利用重要性排序思想对药物的分子描述符特征进行排序和筛选,基于图卷积神经网络提取的药物分子结构特征和筛选后的药物的分子描述符训练全连接神经网络,能够获得具有高预测精度的药物口服利用度及毒性预测模型。
以下对本发明一实施例提供的基于图卷积神经网络的药物口服利用度及毒性预测方法的步骤及原理进行具体说明。
步骤S1,准备初始训练集,其中,初始训练集包括多个初始训练数据,初始训练数据包括药物的分子描述符和SMILES表达式、以及药物的口服利用度和毒性。
具体地,可以通过各种途径收集N个已知药物的口服利用度和毒性数据,以及N个已知药物的分子描述符和SMILES表达式数据,得到N个初始训练数据
Figure BDA0003493934750000051
作为初始训练集。其中,
Figure BDA0003493934750000052
表示第i个已知药物的分子描述符,
Figure BDA0003493934750000053
表示第i个已知药物的SMILES表达式,yi表示第i个已知药物的口服利用度和毒性。
初始训练数据的数量N可以根据训练效率要求和代理模型的初始精度要求进行确定。
本发明一实施例中,药物的毒性可以包括:心脏毒性和遗传毒性。
步骤S2,根据药物的SMILES表达式,建立药物的图模型,获取训练集,其中,训练集包括多个训练数据,训练数据包括药物的分子描述符和药物的图模型、以及药物的口服利用度和毒性。
图是一种类似于图像的数据结构,但是与图像不同的是图不规则,能够存储与处理非规则化、非区域化的数据,而药物分子是不同原子通过不同的化学键进行连接。为此,本发明一实施例中,根据药物的SMILES表达式,建立相应的药物的图模型,以便于后续进行药物分子结构特征的提取。
定义图的关键是图中节点和边的建立,针对图G=(V,E),建立药物的图模型过程就是根据药物分子的结构信息,用原子或原子建立节点,用原子和/或离子之间的化学键构建边的过程。
由于,药物分子的原子或离子种类不同,之间的化学键类型也不同,本发明一实施例中,根据药物的SMILES表达式,建立药物的图模型,包括:
根据药物的SMILES表达式,采用节点表示原子或离子,采用边表示原子和/或离子之间的化学键,采用边的权重表示化学键类型,建立药物的SMILES表达式对应的药物的图模型。
具体地,可以利用开源的化学信息软件包对药物的SMILES表达式进行处理,以建立对应的药物的图模型。
步骤S3,构建图卷积神经网络和全连接神经网络,利用训练集训练图卷积神经网络和全连接神经网络,以拟合药物的分子描述符及图模型与药物的口服利用度及毒性的映射关系,其中,图卷积神经网络的输入为药物的图模型,全连接神经网络的输入为药物的分子描述符和图卷积神经网络的输出,输出为药物的口服利用度及毒性的预测值。
图卷积神经网络的图卷积操作是类似于图像处理中卷积操作的层,能够提取节点的邻域信息并通过可以学习的参数向下一层进行传递。其中,图卷积操作可以分为两个步骤,包括聚合和传递,具体可以表示为:
Hl=AHl
fl(Hll)=σ(Hlθl)
其中,A表示邻接矩阵,Hl表示图卷积神经网络第l层的特征,θl表示图卷积神经网络第l层的参数,σ(·)表示非线性激活函数,fl(·)表示图卷积神经网络第l层的映射关系。
邻接矩阵A与特征Hl相乘的作用是使节点的邻接节点值求和聚集到该节点上,为了不丢失节点自身的信息,解决节点自身的信息需要向下传递的问题,邻接矩阵加入了自循环,具体表示为:
Figure BDA0003493934750000061
其中,
Figure BDA0003493934750000062
表示加入自循环的邻接矩阵,IN表示单位矩阵
进一步地,为避免每经过一次相乘节点特征的尺度就会变大,利用度矩阵对邻域矩阵进行归一化处理,实现图卷积层对节点信息的聚合与传递。具体地,在归一化处理后,邻域信息提取的公式可以改写为:
Figure BDA0003493934750000063
其中,
Figure BDA0003493934750000064
表示加入自循环的度矩阵。
本发明一实施例中,为了对药物分子的结构特征信息进行充分提取,图卷积神经网络为多层图卷积神经网络。其中,多层图卷积神经网络可以为残差图卷积神经网络(Residual Graph Convolutional Network,ResGCN)、稠密图卷积神经网络(Dense GraphConvolutional Network,DenseGCN)、或U型图神经网络(Graph U-Net)。
本发明一实施例中,为提取显著特征的同时降低模型的参数,降低模型的过拟合,在图卷积神经网络的输出层在特征维度进行平均池化,得到一个多维向量,以作为药物分子结构特征,进行后续的全连接神经网络的训练。
进一步地,可利用开源的深度学习框架建立全连接神经网络,全连接神经网络能够通过参数学习得到合适的模型,从而实现对指定的性质指标进行预测。
为了避免不同维度之间的特征因为数值量级问题影响相同作用的权重,本发明一实施例中,在利用训练集对神经网络进行训练之前,对训练数据中的药物的分子描述符进行归一化处理,以将分子描述符的数值限制在[0,1]区间。具体地,利用以下公式进行分子描述符的归一化处理;
Figure BDA0003493934750000071
其中,
Figure BDA0003493934750000072
表示归一化后的分子描述符,xd表示分子描述符的原始值,
Figure BDA0003493934750000073
表示分子描述符的最大值,
Figure BDA0003493934750000074
表示分子描述符的最小值。
本发明一实施例中,将归一化处理后的分子描述符和图卷积神经网络输出的药物分子结构特征进行特征合并,以作为全连接神经网络的输入。具体地,设定图卷积神经网络输出的药物分子结构特征为n维特征,归一化处理后的分子描述符为m维特征,采用首尾连接方式进行特征合并得到n+m维特征,作为全连接神经网络的输入,其中,前n维为药物分子结构,后m维为药物的分子描述符。
进一步地,当药物的毒性包括心脏毒性和遗传毒性时,全连接神经网络的输出为三维,包括药物口服利用度、心脏毒性和遗传毒性。
神经网络作为数据驱动的一项技术,需要通过训练数据对神经网络的参数进行更新,以保证在预测的时候神经网络能够具有较高的预测精度。
本发明一实施例中,神经网络的输入为药物的图模型和归一化处理后的药物的分子描述符,神经网络的最终输出为药物口服利用度及毒性的预测值。具体地,药物口服利用度及毒性的预测值可以表示为:
Figure BDA0003493934750000075
其中,
Figure BDA0003493934750000076
表示第i个训练数据对应的药物口服利用度及毒性的预测值,f(·)表示神经网络的映射关系,
Figure BDA0003493934750000077
表示归一化处理后的第i个训练数据中的药物的分子描述符,
Figure BDA0003493934750000078
表示第i个训练数据中的药物的SMILES表达式对应的图模型,θ表示图卷积神经网络和全连接神经网络的参数。
进一步地,本发明一实施例中,在进行神经网络训练时,采用绝对值误差作为损失函数。具体地,损失函数表示为:
Figure BDA0003493934750000079
神经网络训练的过程本质是一个优化问题,希望在决策空间中找到全局最优解,使得损失函数达到最小值。具体地,在神经网络的训练过程中,采用梯度下降的思想进行更新,首先通过链式法则求得参数梯度,然后对参数进行更新。
具体地,参数的更新过程可表述为:
Figure BDA0003493934750000081
其中,γ表示学习率,用于调节参数θ的更新速度。
步骤S4,针对药物的每一个分子描述符特征,对每个训练数据中对应的分子描述符特征进行数值修改,利用当前训练后的图卷积神经网络和全连接神经网络对修改后的训练数据进行预测,确定当前修改的分子描述符特征所对应的预测值误差。
由于药物的分子描述符特征数量众多,而部分分子描述符特征对预测结果没有影响,有的甚至会产生相反的作用。为此,本发明一实施例中,在进行神经网络的训练过程中,对药物的分子描述符特征进行筛选,删除训练数据中对预测结果没有影响、影响较低或者有负影响的部分分子描述符特征,基于删除处理后的训练数据对神经网络重新进行训练,以提高最终训练得到的神经网络的预测精度。
本发明一实施例中,利用重要性排序思想对药物的分子描述符特征进行排序和筛选。具体地,针对药物的每一个分子描述符特征,对每个训练数据中对应的分子描述符特征进行数值修改,利用当前训练后的图卷积神经网络和全连接神经网络对修改后的训练数据进行预测,确定当前修改的分子描述符特征所对应的预测值误差。其中,可以将分子描述符特征修改为设定值。
具体地,利用以下公式计算当前修改的分子描述符特征所对应的预测值误差;
Figure BDA0003493934750000082
其中,Err(j)表示预测值误差,N表示训练数据数量,
Figure BDA0003493934750000083
表示对归一化处理后的第i个训练数据中的药物的分子描述符第j维特征进行数值修改后的分子描述符数据,m表示分子描述符的特征维数,
Figure BDA0003493934750000084
表示第i个训练数据中的药物的SMILES表达式对应的图模型,θ表示图卷积神经网络和全连接神经网络的参数,f(·)表示神经网络的映射关系。
步骤S5,按照预测值误差从小到大的顺序依次对药物的所有分子描述符特征进行排序,标定位于前序的预设数量的药物的分子描述符特征,删除每个训练数据中未被标定的药物的分子描述符特征,对训练数据进行更新。
具体地,根据所有分子描述符特征对应的预测值误差,按照从小到大的顺序依次对药物的所有分子描述符特征进行排序,标定位于前序的预设数量的药物的分子描述符特征,删除每个训练数据中未被标定的药物的分子描述符特征,对训练数据进行更新。
其中,预设数量可以实际的药物的分子描述符特征种类和/或每个分子描述符特征对应的预测误差值确定。例如,可以设置一个预测值误差阈值,保留预测值误差不超过预测值误差阈值对应的分子描述符特征,删除预测值误差大于预测值误差阈值对应的分子描述符特征。
步骤S6,利用更新后的训练数据重新训练步骤S3构建的图卷积神经网络和全连接神经网络,利用训练后的图卷积神经网络和全连接神经网络进行药物口服利用度及毒性预测。
具体地,由于更新后的训练数据中已删除可能对预测结果没有影响、影响较低或者有负影响的部分分子描述符特征,利用更新后的训练数据重新训练步骤S3构建的图卷积神经网络和全连接神经网络,能够显著提高训练后的神经网络的预测精度。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。此外,本文中“前”、“后”、“左”、“右”、“上”、“下”均以附图中表示的放置状态为参照。
最后应说明的是:以上实施例仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种基于图卷积神经网络的药物口服利用度及毒性预测方法,其特征在于,包括以下步骤:
S1,准备初始训练集,其中,初始训练集包括多个初始训练数据,初始训练数据包括药物的分子描述符和SMILES表达式、以及药物的口服利用度和毒性;
S2,根据药物的SMILES表达式,建立药物的图模型,获取训练集,其中,训练集包括多个训练数据,训练数据包括药物的分子描述符和药物的图模型、以及药物的口服利用度和毒性;
S3,构建图卷积神经网络和全连接神经网络,利用训练集训练图卷积神经网络和全连接神经网络,以拟合药物的分子描述符及图模型与药物的口服利用度及毒性的映射关系,其中,图卷积神经网络的输入为药物的图模型,全连接神经网络的输入为药物的分子描述符和图卷积神经网络的输出,输出为药物的口服利用度及毒性的预测值;
S4,针对药物的每一个分子描述符特征,对每个训练数据中对应的分子描述符特征进行数值修改,利用当前训练后的图卷积神经网络和全连接神经网络对修改后的训练数据进行预测,确定当前修改的分子描述符特征所对应的预测值误差;
S5,按照预测值误差从小到大的顺序依次对药物的所有分子描述符特征进行排序,标定位于前序的预设数量的药物的分子描述符特征,删除每个训练数据中未被标定的药物的分子描述符特征,对训练数据进行更新;
S6,利用更新后的训练数据重新训练步骤S3构建的图卷积神经网络和全连接神经网络,利用训练后的图卷积神经网络和全连接神经网络进行药物口服利用度及毒性预测。
2.根据权利要求1所述的基于图卷积神经网络的药物口服利用度及毒性预测方法,其特征在于,所述药物的毒性包括:心脏毒性和遗传毒性。
3.根据权利要求1所述的基于图卷积神经网络的药物口服利用度及毒性预测方法,其特征在于,所述根据药物的SMILES表达式,建立药物的图模型,包括:
根据药物的SMILES表达式,采用节点表示原子或离子,采用边表示原子和/或离子之间的化学键,采用边的权重表示化学键类型,建立药物的SMILES表达式对应的药物的图模型。
4.根据权利要求1所述的基于图卷积神经网络的药物口服利用度及毒性预测方法,其特征在于,所述图卷积神经网络为多层图卷积神经网络。
5.根据权利要求4所述的基于图卷积神经网络的药物口服利用度及毒性预测方法,其特征在于,多层图卷积神经网络为残差图卷积神经网络、稠密图卷积神经网络、或U型图神经网络。
6.根据权利要求1至5中任一项所述的基于图卷积神经网络的药物口服利用度及毒性预测方法,其特征在于,步骤S3中,在利用训练集训练图卷积神经网络和全连接神经网络时,在图卷积神经网络的输出层在特征维度进行平均池化处理,对训练数据中的药物的分子描述符进行归一化处理,将将归一化处理后的分子描述符和池化处理后的图卷积神经网络的输出进行特征合并,作为全连接神经网络的输入。
7.根据权利要求6所述的基于图卷积神经网络的药物口服利用度及毒性预测方法,其特征在于,利用以下公式进行分子描述符的归一化处理;
Figure FDA0003493934740000021
其中,
Figure FDA0003493934740000022
表示归一化后的分子描述符,xd表示分子描述符的原始值,
Figure FDA0003493934740000023
表示分子描述符的最大值,
Figure FDA0003493934740000024
表示分子描述符的最小值。
8.根据权利要求1至7中任一项所述的基于图卷积神经网络的药物口服利用度及毒性预测方法,其特征在于,步骤S3中,在利用训练集训练图卷积神经网络和全连接神经网络时,采用绝对值误差作为损失函数。
9.根据权利要求1至8中任一项所述的基于图卷积神经网络的药物口服利用度及毒性预测方法,其特征在于,利用以下公式计算当前修改的分子描述符特征所对应的预测值误差;
Figure FDA0003493934740000025
其中,Err(j)表示预测值误差,N表示训练数据数量,
Figure FDA0003493934740000026
表示对归一化处理后的第i个训练数据中的药物的分子描述符第j维特征进行数值修改后的分子描述符数据,m表示分子描述符的特征维数,
Figure FDA0003493934740000027
表示第i个训练数据中的药物的SMILES表达式对应的图模型,θ表示图卷积神经网络和全连接神经网络的参数,f(·)表示神经网络的映射关系,yi表示第i个训练数据中的药物口服利用度及毒性数据。
CN202210107731.0A 2022-01-28 2022-01-28 基于图卷积神经网络的药物口服利用度及毒性预测方法 Active CN114550847B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210107731.0A CN114550847B (zh) 2022-01-28 2022-01-28 基于图卷积神经网络的药物口服利用度及毒性预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210107731.0A CN114550847B (zh) 2022-01-28 2022-01-28 基于图卷积神经网络的药物口服利用度及毒性预测方法

Publications (2)

Publication Number Publication Date
CN114550847A true CN114550847A (zh) 2022-05-27
CN114550847B CN114550847B (zh) 2024-04-16

Family

ID=81673318

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210107731.0A Active CN114550847B (zh) 2022-01-28 2022-01-28 基于图卷积神经网络的药物口服利用度及毒性预测方法

Country Status (1)

Country Link
CN (1) CN114550847B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114792574A (zh) * 2022-06-23 2022-07-26 普瑞基准生物医药(苏州)有限公司 基于图神经网络模型预测药物互作所致肝毒性的方法
CN115831260A (zh) * 2023-02-16 2023-03-21 天津大学 一种小样本分子毒性预测方法
CN116189804A (zh) * 2023-04-17 2023-05-30 烟台国工智能科技有限公司 基于图卷积神经网络的反应条件预测方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102542131A (zh) * 2010-12-07 2012-07-04 西北师范大学 基于遗传算法和人工神经网络的药物药代动力学性质和毒性预测方法
US20190304568A1 (en) * 2018-03-30 2019-10-03 Board Of Trustees Of Michigan State University System and methods for machine learning for drug design and discovery
CN113257369A (zh) * 2021-05-18 2021-08-13 南京邮电大学 一种基于多任务图神经网络的分子毒性预测方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102542131A (zh) * 2010-12-07 2012-07-04 西北师范大学 基于遗传算法和人工神经网络的药物药代动力学性质和毒性预测方法
US20190304568A1 (en) * 2018-03-30 2019-10-03 Board Of Trustees Of Michigan State University System and methods for machine learning for drug design and discovery
CN113257369A (zh) * 2021-05-18 2021-08-13 南京邮电大学 一种基于多任务图神经网络的分子毒性预测方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
梁礼;邓成龙;张艳敏;滑艺;刘海春;陆涛;陈亚东;: "人工智能在药物发现中的应用与挑战", 药学进展, no. 01, 25 January 2020 (2020-01-25) *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114792574A (zh) * 2022-06-23 2022-07-26 普瑞基准生物医药(苏州)有限公司 基于图神经网络模型预测药物互作所致肝毒性的方法
CN115831260A (zh) * 2023-02-16 2023-03-21 天津大学 一种小样本分子毒性预测方法
CN116189804A (zh) * 2023-04-17 2023-05-30 烟台国工智能科技有限公司 基于图卷积神经网络的反应条件预测方法及系统
CN116189804B (zh) * 2023-04-17 2023-07-14 烟台国工智能科技有限公司 基于图卷积神经网络的反应条件预测方法及系统

Also Published As

Publication number Publication date
CN114550847B (zh) 2024-04-16

Similar Documents

Publication Publication Date Title
CN114550847A (zh) 基于图卷积神经网络的药物口服利用度及毒性预测方法
CN111782512B (zh) 基于不平衡噪声集的多特征软件缺陷综合预测方法
CN109637579B (zh) 一种基于张量随机游走的关键蛋白质识别方法
WO2023134061A1 (zh) 基于人工智能的药物特征信息确定方法及装置
WO2023134062A1 (zh) 基于人工智能的药物靶点作用关系确定方法及装置
CN110957002A (zh) 一种基于协同矩阵分解的药物靶点相互作用关系预测方法
CN108154198A (zh) 知识库实体归一方法、系统、终端和计算机可读存储介质
CN113268612B (zh) 基于均值融合的异构信息网知识图谱补全方法和装置
US20220101954A1 (en) Method for drug classification, terminal device, and non-transitory computer-readable storage medium
CN107145516A (zh) 一种文本聚类方法及系统
CN107292097A (zh) 基于特征组的特征选择方法、及中医主症选择方法
CN108259637A (zh) 一种基于决策树的nat设备识别方法及装置
CN112308115A (zh) 一种多标签图像深度学习分类方法及设备
CN112862092A (zh) 一种异构图卷积网络的训练方法、装置、设备和介质
US20240055071A1 (en) Artificial intelligence-based compound processing method and apparatus, device, storage medium, and computer program product
CN114639483A (zh) 一种基于图神经网络的电子病历检索方法及装置
CN108764280A (zh) 一种基于症状向量的医学数据处理方法和系统
CN115798598B (zh) 一种基于超图的miRNA-疾病关联预测模型及方法
CN110457470A (zh) 一种文本分类模型学习方法及装置
WO2023134060A1 (zh) 基于药物分子图像分类的信息推送方法及装置
CN115546525A (zh) 多视图聚类方法、装置、电子设备及存储介质
CN114743037A (zh) 一种基于多尺度结构学习的深度医学图像聚类方法
CN112182306A (zh) 一种基于不确定图的社区发现方法
CN114707641A (zh) 双视角图神经网络模型的训练方法、装置、设备及介质
CN114463596A (zh) 一种超图神经网络的小样本图像识别方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant