CN113192571B - 一种基于图注意机制迁移学习的小分子药物hERG毒性预测方法和装置 - Google Patents

一种基于图注意机制迁移学习的小分子药物hERG毒性预测方法和装置 Download PDF

Info

Publication number
CN113192571B
CN113192571B CN202110477984.2A CN202110477984A CN113192571B CN 113192571 B CN113192571 B CN 113192571B CN 202110477984 A CN202110477984 A CN 202110477984A CN 113192571 B CN113192571 B CN 113192571B
Authority
CN
China
Prior art keywords
molecular
atom
toxicity
herg
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110477984.2A
Other languages
English (en)
Other versions
CN113192571A (zh
Inventor
吴建盛
朱阳
胡海峰
朱燕翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202110477984.2A priority Critical patent/CN113192571B/zh
Publication of CN113192571A publication Critical patent/CN113192571A/zh
Application granted granted Critical
Publication of CN113192571B publication Critical patent/CN113192571B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/90Programming languages; Computing architectures; Database systems; Data warehousing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明揭示了一种基于图注意机制迁移学习的小分子药物hERG毒性预测方法和装置,该方法包括以下步骤:S1:数据集预处理,将待检测的类药化合物通过分子指纹生成软件生成指纹序列;S2:通过S1步骤生成的指纹序列得到原子及化学键特征,将原子及化学键特征构建分子图及图特征;S3:通过图注意力机制对S2步骤得到的分子图进行处理,生成分子中每个原子特征向量;S4:通过图注意力机制及每个原子的特征生成分子特征向量。该方法基于图注意力机制对分子图结构进行处理,有效获取对预测属性值贡献大的子结构,基于迁移学习对源域和目标域数据集进行处理,有效解决样本量不足的问题。

Description

一种基于图注意机制迁移学习的小分子药物hERG毒性预测方 法和装置
技术领域
本发明涉及一种基于图注意机制迁移学习的小分子药物hERG毒性预测方法和装置,可用于人工智能药物设计技术领域。
背景技术
小分子药物毒性是毒理学研究中的一种,在药物研发过程中,与药物代谢动力学研究、药效学研究处于同等重要的地位,都是导致药物研发失败的主要原因之一。将小分子药物毒性评价置于新药研发的早期阶段有助于缩短研发周期,降低研发成本,可见对小分子药物毒性评估是十分有必要的。
传统的基于生物实验的毒性检测是针对小分子化合物进行毒性评估的常用方法,尽管基于生物实验方法进行化合物毒性评估经过了长期应用,也有很好的技术支持,但是生物实验存在周期较长、成本高、检测结果受模型动物、实验技术、环境等各个方面因素的影响等问题,使得生物实验方法已经难以满足日益增长的现实社会需求。随着机器学习的快速发展,通过构建模型学习小分子结构中包含的信息与其毒性的关系,来预测小分子药物毒性的方法,已被广泛用于药物研发中的药物毒性评价。
hERG是小分子毒性预测中的一项重要指标,hERG阻滞可能引起长QT综合症,从而导致心悸,昏厥,甚至猝死。一般的机器学习方法在构建模型时,需要收集大量样本数据,但是由于hERG实验要求很高,hERG样本数据量很少,导致很难构建出好的预测hERG指标的模型。
目前需要本领域技术人员迫切解决的技术问题就是:
(1)小分子药物均可用分子图结构来表示,如何构建分子图中的节点及边的特征;
(2)如何解决hERG样本量不足问题;
(3)如何找到一个模型能够通过分子图结构找出影响hERG指标的关键子结构,从而提高预测的准确度。
发明内容
本发明的目的就是为了解决现有技术中存在的上述问题,提出一种基于图注意机制迁移学习的小分子药物hERG毒性预测方法和装置。
本发明的目的将通过以下技术方案得以实现:一种基于图注意机制迁移学习的小分子药物hERG毒性预测方法,该方法包括以下步骤:
S1:数据集预处理,将待检测的类药化合物通过分子指纹生成软件生成指纹序列;
S2:通过所述S1步骤生成的指纹序列得到原子及化学键特征,将原子及化学键特征构建分子图及图特征;
S3:通过图注意力机制对所述S2步骤得到的分子图进行处理,生成分子中每个原子特征向量;
S4:通过图注意力机制及每个原子的特征生成分子特征向量;
S5:参数迁移及属性预测,将源域生成的分子特征向量对应的权重矩阵W迁移到目标域中,协助目标域权重矩阵W的生成,最终生成信息聚合的特征向量并预测属性值。
优选地,所述S1步骤包括以下步骤:
S11:输入过氧化物酶体增殖剂激活受体γ(PPAR-γ)数据集作为源域数据集,hERG数据集作为目标域数据集;
S12:将S11步骤中的所述数据集中的所有小分子药物用SMILES格式表示;
S13:对所有小分子药物做标准化处理,统一分子SMILES表达式中的原子、键、连接关系的编码方式和顺序;
S14:对统一的SMILES表达式去重复化处理。
优选地,所述S2步骤包括以下步骤:
S21:根据源域中分子的SMILES表达式通过分子图生成软件生成分子二维图;
S22:根据所述S21步骤中分子二维图图中节点的特征生成,将每个原子看作一个节点生成节点的特征向量,原子的特征包括:原子符号、共价键数目、电荷、自由基电子数、芳香性、连氢的数目、手性、手性类型;
S23:根据所述S21步骤中分子二维图图中边的特征生成,将连接原子的键看作一条边生成边的特征,边的特征包括:键的类型、成环性、共轭性、立体性。
优选地,所述S3步骤包括以下步骤:
S31:将每个原子嵌入一个关注层,每个原子作为中心节点,使原子聚合与之相邻的化学键以及原子所包含的“消息”,为每个原子生成一个新的特征向量;
S32:S31步骤中得到的新的特征向量包含了中心原子以及相邻化学键和相邻原子的“消息”,将它们看作一个“大原子”嵌入下一个关注层,继续聚合与“大原子”相邻的化学键以及原子所包含的“消息”,直至特征向量经过多层关注层后,包含了所有原子的“消息”。
优选地,在所述S4步骤中,将整个分子视为连接分子中所有原子的超虚拟节点,并使用相同的原子嵌入注意机制嵌入,最终生成整个分子的特征向量。
优选地,所述S5步骤包括以下步骤:
S51:在源域分子特征向量生成过程中,得到对预测PPAR-γ属性有贡献的各个子结构及其权重矩阵W;
S52:将所述S51步骤中得到的子结构及其权重矩阵W迁移到目标域中,作为目标域中相同子结构对应的权重矩阵W的初始值;
S53:对目标域hERG数据集进行S1步骤到S4步骤的操作,生成分子的特征向量,最后通过一个全连接层进行属性值的预测。
本发明还揭示了一种基于图注意机制迁移学习的小分子药物hERG毒性预测装置,该装置包括基于图注意机制的毒性预测模块,用于构建毒性预测的模型;特征迁移模块,用于学习PPAR-γ数据集和hERG数据集中分子的共同特征,并进行参数迁移;小分子化合物毒性预测与性能评价模块,用于预测小分子化合物的毒性和评价模型性能;
由图注意机制的毒性预测模块得到源域数据对预测毒性有用的子结构(分子特征向量中体现)的及对应权重矩阵W,然后给特征迁移模块进行权重举证W的迁移,W迁移给目标域数据集后,进入小分子化合物毒性预测与性能评价模块进行预测。
优选地,所述图注意机制的毒性预测模块具体包括:初始模块,用于从数据库获取包含smiles和对应毒性的初始的数据集;分子图构建模块,用于根据分子smiles表达式,通过编码生成每一个分子的分子图以及图中特征;原子特征生成模块,用于聚合所有原子及其领域信息;分子特征生成模块,用于生成整个分子特征和相应权重值,最后构建分子毒性预测模型。
优选地,所述特征迁移模块具体包括:有毒特征学习模块,用于学习PPAR-γ数据集和hERG数据集中有毒分子的共有特征;无毒特征学习模块,用于学习PPAR-γ数据集和hERG数据集中无毒分子的共有特征;特征筛选模块,用于筛选出既是PPAR-γ数据集和hERG数据集共有特征,也是PPAR-γ数据集中对PPAR-γ毒性预测贡献高的特征;参数迁移模块,用于将筛选出的PPAR-γ数据集中特征的权重值迁移给hERG数据集。
优选地,所述小分子化合物毒性预测与性能评价模块具体包括:预测模块,用于预测小分子的毒性;评价模块,用于得到评价模型性能的指标。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:该方法基于图注意力机制对分子图结构进行处理,有效获取对预测属性值贡献大的子结构,提高模型性能,提高预测准确性,基于迁移学习对源域和目标域数据集进行处理,有效解决样本量不足的问题。
附图说明
图1是本发明的一个目标原子及其邻居原子的选取示意图
图2是本发明中一个原子的嵌入层示意图。
图3是本发明中一个参数迁移过程的示意图。
图4是本发明中一种基于图注意机制迁移学习的小分子药物hERG毒性预测装置实施例的结构框图。
图5是本发明装置中实施例的毒性预测模块401的结构示意图。
图6是本发明装置中实施例的特征迁移模块模块402的结构示意图。
具体实施方式
本发明的目的、优点和特点,将通过下面优选实施例的非限制性说明进行图示和解释。这些实施例仅是应用本发明技术方案的典型范例,凡采取等同替换或者等效变换而形成的技术方案,均落在本发明要求保护的范围之内。
本发明揭示了一种基于图注意机制迁移学习的小分子药物hERG毒性预测方法和装置,该基于图注意机制迁移学习的小分子药物hERG毒性预测方法,首先通过图注意机制能构有效获取分子图结构中对hERG毒性预测有高贡献的子结构,提高预测准确性,其次通过迁移学习来解决hERG样本数据量不足问题。该基于图注意机制迁移学习的小分子药物hERG毒性预测装置,用以保证上述方法在实际中的实现及应用。
本发明揭示了一种基于图注意机制迁移学习的小分子药物hERG毒性预测方法,如图1、图2和图3所示,该方法包括以下步骤:
S1:数据集预处理,将待检测的类药化合物通过分子指纹生成软件生成指纹序列;
S2:通过所述S1步骤生成的指纹序列得到原子及化学键特征,将原子及化学键特征构建分子图及图特征;
S3:通过图注意力机制对所述S2步骤得到的分子图进行处理,生成分子中每个原子特征向量;
S4:通过图注意力机制及每个原子的特征生成分子特征向量;
S5:参数迁移及属性预测,将源域生成的分子特征向量对应的权重矩阵W迁移到目标域中,协助目标域权重矩阵W的生成,最终生成信息聚合的特征向量并预测属性值。
所述S1步骤包括以下步骤:
S11:输入过氧化物酶体增殖剂激活受体γ(PPAR-γ)数据集作为源域数据集,hERG数据集作为目标域数据集;
S12:将S11步骤中的所述数据集中的所有小分子药物用SMILES格式表示;
S13:对所有小分子药物做标准化处理,统一分子SMILES表达式中的原子、键、连接关系的编码方式和顺序;
S14:对统一的SMILES表达式去重复化处理。
所述S2步骤包括以下步骤:S21:根据源域中分子的SMILES表达式通过分子图生成软件生成分子二维图;S22:根据所述S21步骤中分子二维图图中节点的特征生成,将每个原子看作一个节点生成节点的特征向量,原子的特征包括:原子符号、共价键数目、电荷、自由基电子数、芳香性、连氢的数目、手性、手性类型;S23:根据所述S21步骤中分子二维图图中边的特征生成,将连接原子的键看作一条边生成边的特征,边的特征包括:键的类型、成环性、共轭性、立体性。
所述S3步骤包括以下步骤:S31:将每个原子嵌入一个关注层,每个原子作为中心节点,使原子聚合与之相邻的化学键以及原子所包含的“消息”,为每个原子生成一个新的特征向量;S32:S31步骤中得到的新的特征向量包含了中心原子以及相邻化学键和相邻原子的“消息”,将它们看作一个“大原子”嵌入下一个关注层,继续聚合与“大原子”相邻的化学键以及原子所包含的“消息”,直至特征向量经过多层关注层后,包含了所有原子的“消息”。
在所述S4步骤中,将整个分子视为连接分子中所有原子的超虚拟节点,并使用相同的原子嵌入注意机制嵌入,最终生成整个分子的特征向量。所述S5步骤包括以下步骤:S51:在源域分子特征向量生成过程中,得到对预测PPAR-γ属性有贡献的各个子结构及其权重矩阵W;S52:将所述S51步骤中得到的子结构及其权重矩阵W迁移到目标域中,作为目标域中相同子结构对应的权重矩阵W的初始值;S53:对目标域hERG数据集进行S1步骤到S4步骤的操作,生成分子的特征向量,最后通过一个全连接层进行属性值的预测。第五步即把一个数据集经过前四步生成的参数给另外一个数据集做参数初始化
本发明还揭示了一种基于图注意机制迁移学习的小分子药物hERG毒性预测装置,如图4、图5和图6所示,该装置包括基于图注意机制的毒性预测模块,用于构建毒性预测的模型;特征迁移模块,用于学习PPAR-γ数据集和hERG数据集中分子的共同特征,并进行参数迁移;小分子化合物毒性预测与性能评价模块,用于预测小分子化合物的毒性和评价模型性能;
由图注意机制的毒性预测模块得到源域数据对预测毒性有用的子结构(分子特征向量中体现)的及对应权重矩阵W,然后给特征迁移模块进行权重举证W的迁移,W迁移给目标域数据集后,进入小分子化合物毒性预测与性能评价模块进行预测。
所述图注意机制的毒性预测模块具体包括:初始模块,用于从数据库获取包含smiles和对应毒性的初始的数据集;分子图构建模块,用于根据分子smiles表达式,通过编码生成每一个分子的分子图以及图中特征;原子特征生成模块,用于聚合所有原子及其领域信息;分子特征生成模块,用于生成整个分子特征和相应权重值,最后构建分子毒性预测模型。
所述特征迁移模块具体包括:有毒特征学习模块,用于学习PPAR-γ数据集和hERG数据集中有毒分子的共有特征;无毒特征学习模块,用于学习PPAR-γ数据集和hERG数据集中无毒分子的共有特征;特征筛选模块,用于筛选出既是PPAR-γ数据集和hERG数据集共有特征,也是PPAR-γ数据集中对PPAR-γ毒性预测贡献高的特征;参数迁移模块,用于将筛选出的PPAR-γ数据集中特征的权重值迁移给hERG数据集。
所述小分子化合物毒性预测与性能评价模块具体包括:预测模块,用于预测小分子的毒性;评价模块,用于得到评价模型性能的指标。
如图1、图2和图3所示,一种基于图注意机制迁移学习的小分子药物hERG毒性预测方法,包括以下步骤:
第一步,数据集预处理
输入过氧化物酶体增殖剂激活受体γ(PPAR-γ)数据集作为源域数据集,PPAR-γ数据集共包括11764个化合物小分子,其中对PPAR-γ有毒性的小分子作为正样本,无毒性的小分子作为负样本,正负样本比例为4.7。
输入hERG数据集作为目标域数据集,其中对hERG有阻滞效果的小分子作为正样本,正样本个数为451,无阻滞效果的小分子作为负样本,负样本个数为204。对于源域与目标域数据集都要用SMILES格式统一表示,并目进行去重复化处理,主要是去除SMILES表达式相同但属性不同的小分子。
第二步,通过原子及化学键特征构建分子图及生成图中特征,包括以下过程:
(1)根据源域中分子的SMILES表达式通过分子图生成软件生成分子二维图;
(2)图中节点的特征生成,将每个原子看作一个节点生成节点的特征向量,原子的特征包括:原子符号、共价键数目、电荷、自由基电子数、芳香性、连氢的数目、手性(空间的螺旋特性)、手性类型;
(3)图中边的特征生成,将连接原子的键看作一条边生成边的特征,边的特征包括:键的类型、成环性、共轭性、立体性;
第三步,生成原子特征向量,如图1所示,随机选取一个原子为目标原子,进行原子嵌入,在此选择5号原子为目标原子v,则4、6、7号原子为邻居原子u,为获得5号原子的上下文向量包括以下步骤:
(1)对齐
bvu=relu(Wa1[hv,hu])
其中,hv是目标原子的特征,hu是邻居原子特征和邻居原子与目标原子之间化学键特征的级联。
(2)加权
Figure BDA0003045987160000081
其中,N(v)是目标原子的邻居原子的集合。
(3)计算上下文信息
CV=elu(∑ueN(v)avu·Wa2·hu)
得到上下文向量之后,如图2所示,通过k个嵌入层使目标原子包含所有其他原子的信息,包括以下步骤:
(1)上下文信息的迭代
Figure BDA0003045987160000091
(2)原子特征的更新
Figure BDA0003045987160000092
其中GRU是一个门控循环单元,具体的GRU公式如下:
Figure BDA0003045987160000093
Figure BDA0003045987160000094
Figure BDA0003045987160000095
Figure BDA0003045987160000096
第四步,将整个分子视为链接所有原子的超节点S,将超节点S带入嵌入层,最终得到分子的特征向量。其中:
(1)超级节点S的初始特征表示为:
Figure BDA0003045987160000097
其中N(s)是该分子中所有原子的集合。
(2)超级节点S的邻居原子为该原子中包含的所有原子。
第五步,如图3所示,在源域分子特征向量生成过程中,得到的了对预测PPAR-γ属性有贡献的各个子结构及其权重矩阵W,将其迁移到目标域hERG中,作为目标域中相同子结构对应的权重矩阵W的初始值,然后对目标域进行上述的第一步到第四步的操作,生成分子的特征向量,最后通过一个全连接层进行属性值的预测。
与上述发明的一种基于图注意机制迁移学习的小分子药物hERG毒性预测方法相对应,参见图4,本发明还提供了一种基于图注意机制迁移学习的小分子药物hERG毒性预测装置,在本实施例中,该装置包括:基于图注意机制的毒性预测模块401,用于构建毒性预测的模型;图5为所述基于图注意机制的毒性预测模块的结构示意图,具体包括:
(1)初始模块501,用于从数据库获取包含smiles和对应毒性的初始的数据集;
(2)分子图构建模块502,用于根据分子smiles表达式,通过编码生成每一个分子的分子图以及图中特征;
(3)原子特征生成模块503,用于聚合所有原子及其领域信息;
(4)分子特征生成模块504,用于生成整个分子特征和相应权重值,最后构建分子毒性预测模型。
特征迁移模块402,用于学习PPAR-γ数据集和hERG数据集中分子的共同特征,并进行参数迁移;图6为所述特征迁移模块402的结构示意图,具体包括:
(1)有毒特征学习模块601,用于学习PPAR-γ数据集和hERG数据集中有毒分子的共有特征;
(2)无毒特征学习模块602,用于学习PPAR-γ数据集和hERG数据集中无毒分子的共有特征;
(3)特征筛选模块603,用于筛选出既是PPAR-γ数据集和hERG数据集共有特征,也是PPAR-γ数据集中对PPAR-γ毒性预测贡献高的特征。
(4)参数迁移模块604,用于将筛选出的PPAR-γ数据集中特征的权重值迁移给hERG数据集。
小分子化合物毒性预测与性能评价模块403,用于预测小分子化合物的毒性和评价模型性能。
本发明提供了一种新的基于图注意机制迁移学习的小分子药物hERG毒性预测方法及装置。hERG毒性是一种有关心脏毒性的评价指标,hERG阻滞会导致长QT综合症,易产生心律不齐、心脏骤停、昏厥甚至猝死等心脏不良事件。本发明技术方案包含四步:第一步,特征提取,将待检测的类药化合物通过分子指纹生成软件生成指纹序列;第二步,通过原子及化学键特征构建分子图并生成图中特征;第三步,通过注意力机制生成分子特征向量;第四步,将源域生成的权重矩阵W迁移到目标域中,协助目标域权重矩阵W的生成,最终生成信息聚合的特征向量并预测属性值。本发明使用注意力机制,能够有效找到对预测属性值贡献大的子结构,并通过参数迁移能够有效解决hERG样本量不足的问题,提高模型性能。
本发明使用注意力机制,能够有效找到对预测属性值贡献大的子结构,并通过参数迁移能够有效解决hERG样本量不足的问题,提高模型性能。
本发明尚有多种实施方式,凡采用等同变换或者等效变换而形成的所有技术方案,均落在本发明的保护范围之内。

Claims (10)

1.一种基于图注意机制迁移学习的小分子药物hERG毒性预测方法,其特征在于:该方法包括以下步骤:
S1:数据集预处理,将待检测的类药化合物通过分子指纹生成软件生成指纹序列;
S2:通过所述S1步骤生成的指纹序列得到原子及化学键特征,将原子及化学键特征构建分子图及图特征;
S3:通过图注意力机制对所述S2步骤得到的分子图进行处理,生成分子中每个原子特征向量;
S4:通过图注意力机制及每个原子的特征生成分子特征向量;
S5:参数迁移及属性预测,将源域生成的分子特征向量对应的权重矩阵W迁移到目标域中,协助目标域权重矩阵W的生成,最终生成信息聚合的特征向量并预测属性值。
2.根据权利要求1所述的一种基于图注意机制迁移学习的小分子药物hERG毒性预测方法,其特征在于:所述S1步骤包括以下步骤:
S11:输入过氧化物酶体增殖剂激活受体γ,PPAR-γ数据集作为源域数据集,hERG数据集作为目标域数据集;
S12:将S11步骤中的所述数据集中的所有小分子药物用SMILES格式表示;
S13:对所有小分子药物做标准化处理,统一分子SMILES表达式中的原子、键、连接关系的编码方式和顺序;
S14:对统一的SMILES表达式去重复化处理。
3.根据权利要求1所述的一种基于图注意机制迁移学习的小分子药物hERG毒性预测方法,其特征在于:所述S2步骤包括以下步骤:
S21:根据源域中分子的SMILES表达式通过分子图生成软件生成分子二维图;
S22:根据所述S21步骤中分子二维图图中节点的特征生成,将每个原子看作一个节点生成节点的特征向量,原子的特征包括:原子符号、共价键数目、电荷、自由基电子数、芳香性、连氢的数目、手性、手性类型;
S23:根据所述S21步骤中分子二维图图中边的特征生成,将连接原子的键看作一条边生成边的特征,边的特征包括:键的类型、成环性、共轭性、立体性。
4.根据权利要求1所述的一种基于图注意机制迁移学习的小分子药物hERG毒性预测方法,其特征在于:所述S3步骤包括以下步骤:
S31:将每个原子嵌入一个关注层,每个原子作为中心节点,使原子聚合与之相邻的化学键以及原子所包含的“消息”,为每个原子生成一个新的特征向量;
S32:S31步骤中得到的新的特征向量包含了中心原子以及相邻化学键和相邻原子的“消息”,将它们看作一个“大原子”嵌入下一个关注层,继续聚合与“大原子”相邻的化学键以及原子所包含的“消息”,直至特征向量经过多层关注层后,包含了所有原子的“消息”。
5.根据权利要求1所述的一种基于图注意机制迁移学习的小分子药物hERG毒性预测方法,其特征在于:在所述S4步骤中,将整个分子视为连接分子中所有原子的超虚拟节点,并使用相同的原子嵌入注意机制嵌入,最终生成整个分子的特征向量。
6.根据权利要求1所述的一种基于图注意机制迁移学习的小分子药物hERG毒性预测方法,其特征在于:所述S5步骤包括以下步骤:
S51:在源域分子特征向量生成过程中,得到对预测PPAR-γ属性有贡献的各个子结构及其权重矩阵W;
S52:将所述S51步骤中得到的子结构及其权重矩阵W迁移到目标域中,作为目标域中相同子结构对应的权重矩阵W的初始值;
S53:对目标域hERG数据集进行S1步骤到S4步骤的操作,生成分子的特征向量,最后通过一个全连接层进行属性值的预测。
7.一种基于图注意机制迁移学习的小分子药物hERG毒性预测装置,其特征在于:该装置包括基于图注意机制的毒性预测模块,用于构建毒性预测的模型;特征迁移模块,用于学习PPAR-γ数据集和hERG数据集中分子的共同特征,并进行参数迁移;小分子化合物毒性预测与性能评价模块,用于预测小分子化合物的毒性和评价模型性能;
由图注意机制的毒性预测模块得到源域数据对预测毒性有用的子结构,所述子结构在分子特征向量中体现,及子结构对应的权重矩阵W,然后给特征迁移模块进行权重矩阵W的迁移,W迁移给目标域数据集后,进入小分子化合物毒性预测与性能评价模块进行预测。
8.根据权利要求7所述的一种基于图注意机制迁移学习的小分子药物hERG毒性预测装置,其特征在于:所述图注意机制的毒性预测模块具体包括:初始模块,用于从数据库获取包含smiles和对应毒性的初始的数据集;分子图构建模块,用于根据分子smiles表达式,通过编码生成每一个分子的分子图以及图中特征;原子特征生成模块,用于聚合所有原子及其领域信息;分子特征生成模块,用于生成整个分子特征和相应权重值,最后构建分子毒性预测模型。
9.根据权利要求7所述的一种基于图注意机制迁移学习的小分子药物hERG毒性预测装置,其特征在于:所述特征迁移模块具体包括:有毒特征学习模块,用于学习PPAR-γ数据集和hERG数据集中有毒分子的共有特征;无毒特征学习模块,用于学习PPAR-γ数据集和hERG数据集中无毒分子的共有特征;特征筛选模块,用于筛选出既是PPAR-γ数据集和hERG数据集共有特征,也是PPAR-γ数据集中对PPAR-γ毒性预测贡献高的特征;参数迁移模块,用于将筛选出的PPAR-γ数据集中特征的权重值迁移给hERG数据集。
10.根据权利要求7所述的一种基于图注意机制迁移学习的小分子药物hERG毒性预测装置,其特征在于:所述小分子化合物毒性预测与性能评价模块具体包括:预测模块,用于预测小分子的毒性;评价模块,用于得到评价模型性能的指标。
CN202110477984.2A 2021-04-29 2021-04-29 一种基于图注意机制迁移学习的小分子药物hERG毒性预测方法和装置 Active CN113192571B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110477984.2A CN113192571B (zh) 2021-04-29 2021-04-29 一种基于图注意机制迁移学习的小分子药物hERG毒性预测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110477984.2A CN113192571B (zh) 2021-04-29 2021-04-29 一种基于图注意机制迁移学习的小分子药物hERG毒性预测方法和装置

Publications (2)

Publication Number Publication Date
CN113192571A CN113192571A (zh) 2021-07-30
CN113192571B true CN113192571B (zh) 2022-08-23

Family

ID=76983205

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110477984.2A Active CN113192571B (zh) 2021-04-29 2021-04-29 一种基于图注意机制迁移学习的小分子药物hERG毒性预测方法和装置

Country Status (1)

Country Link
CN (1) CN113192571B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113707235B (zh) * 2021-08-30 2023-09-26 平安科技(深圳)有限公司 基于自监督学习的药物小分子性质预测方法、装置及设备
CN113782110B (zh) * 2021-09-27 2024-02-13 东南大学 一种基于人源化芯片、分子指纹及深度学习的化合物毒性预测系统和方法
CN114822721A (zh) * 2022-05-20 2022-07-29 北京百度网讯科技有限公司 分子图生成方法和装置
CN114814776B (zh) * 2022-06-24 2022-10-14 中国空气动力研究与发展中心计算空气动力研究所 基于图注意力网络和迁移学习的pd雷达目标检测方法
CN117095767B (zh) * 2023-08-16 2024-07-19 中国人民解放军空军军医大学 基于深度学习的未知物质急性毒性预测方法、系统及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109658989A (zh) * 2018-11-14 2019-04-19 国网新疆电力有限公司信息通信公司 基于深度学习的类药化合物毒性预测方法
CN110459274A (zh) * 2019-08-01 2019-11-15 南京邮电大学 一种基于深度迁移学习的小分子药物虚拟筛选方法及其应用
CN112086139A (zh) * 2020-08-24 2020-12-15 南京邮电大学 一种面向小分子药物虚拟筛选的多源迁移学习方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109658989A (zh) * 2018-11-14 2019-04-19 国网新疆电力有限公司信息通信公司 基于深度学习的类药化合物毒性预测方法
CN110459274A (zh) * 2019-08-01 2019-11-15 南京邮电大学 一种基于深度迁移学习的小分子药物虚拟筛选方法及其应用
CN112086139A (zh) * 2020-08-24 2020-12-15 南京邮电大学 一种面向小分子药物虚拟筛选的多源迁移学习方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于双注意力机制和迁移学习的跨领域推荐模型;柴玉梅等;《计算机学报》;20201015(第10期);全文 *

Also Published As

Publication number Publication date
CN113192571A (zh) 2021-07-30

Similar Documents

Publication Publication Date Title
CN113192571B (zh) 一种基于图注意机制迁移学习的小分子药物hERG毒性预测方法和装置
Schütt et al. Schnet: A continuous-filter convolutional neural network for modeling quantum interactions
Schütt et al. Schnet–a deep learning architecture for molecules and materials
Chen et al. Alchemy: A quantum chemistry dataset for benchmarking ai models
Kandathil et al. Recent developments in deep learning applied to protein structure prediction
Li et al. TrimNet: learning molecular representation from triplet messages for biomedicine
CN108334574B (zh) 一种基于协同矩阵分解的跨模态检索方法
Oldenhof et al. ChemGrapher: optical graph recognition of chemical compounds by deep learning
Cheng et al. IIFDTI: predicting drug–target interactions through interactive and independent features based on attention mechanism
Lejeune et al. Exploring the potential of transfer learning for metamodels of heterogeneous material deformation
CN114841261B (zh) 增量宽度和深度学习的药物反应预测方法、介质和设备
CN111667880A (zh) 一种基于深度残差神经网络的蛋白质残基接触图预测方法
Gómez-Bombarelli et al. Machine learning and big-data in computational chemistry
Cheng et al. Accurate molecular-orbital-based machine learning energies via unsupervised clustering of chemical space
Liu et al. Improved drug–target interaction prediction with intermolecular graph transformer
Na et al. Costless performance improvement in machine learning for graph-based molecular analysis
CN116978483A (zh) 基于图神经网络和三维编码器的分子性质预测方法、系统
Zhong et al. MMDTA: a multimodal deep model for drug-target affinity with a hybrid fusion strategy
CN113361752B (zh) 一种基于多视角学习的蛋白质溶剂可及性预测方法
Hu et al. Drugormerdti: Drug graphormer for drug–target interaction prediction
Li et al. A template-based protein structure reconstruction method using deep autoencoder learning
Guzman-Pando et al. Deep learning algorithms applied to computational chemistry
Rorabaugh et al. High frequency accuracy and loss data of random neural networks trained on image datasets
CN115527626A (zh) 分子处理方法、装置、电子设备、存储介质及程序产品
CN112420131B (zh) 基于数据挖掘的分子生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant