CN116597892B - 一种模型训练的方法以及分子结构信息的推荐方法及装置 - Google Patents

一种模型训练的方法以及分子结构信息的推荐方法及装置 Download PDF

Info

Publication number
CN116597892B
CN116597892B CN202310560994.1A CN202310560994A CN116597892B CN 116597892 B CN116597892 B CN 116597892B CN 202310560994 A CN202310560994 A CN 202310560994A CN 116597892 B CN116597892 B CN 116597892B
Authority
CN
China
Prior art keywords
protein degradation
information
degradation targeting
targeting chimera
molecular
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310560994.1A
Other languages
English (en)
Other versions
CN116597892A (zh
Inventor
安丰
陈湘菊
劳传祺
戚耀
陈红阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202310560994.1A priority Critical patent/CN116597892B/zh
Publication of CN116597892A publication Critical patent/CN116597892A/zh
Application granted granted Critical
Publication of CN116597892B publication Critical patent/CN116597892B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/20Protein or domain folding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Bioethics (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本说明书公开了一种模型训练的方法以及分子结构信息的推荐方法及装置,通过获取到的数据集,构建出指定蛋白降解靶向嵌合体的三维分子图信息,该三维分子图信息充分的表征出指定蛋白降解靶向嵌合体的分子结构的各种特征,将该三维分子图信息输入到预测模型中后,预测模型会根据三维分子图信息,来预测与指定蛋白降解靶向嵌合体组合成具有预设药物功能的分子片段的片段信息,作为目标片段信息,进而根据预测出的目标片段信息以及与指定蛋白降解靶向嵌合体对应的标签分子片段的片段信息之间的偏差,对预测模型进行训练,使得后续在预测分子结构的过程中,可以通过该预测模型实现快速、准确的分子片段预测,从而提高了分子片段探索的效率以及准确性。

Description

一种模型训练的方法以及分子结构信息的推荐方法及装置
技术领域
本说明书涉及人工智能领域以及生物工程领域,尤其涉及一种模型训练的方法以及分子结构信息的推荐方法及装置。
背景技术
目前,通过构建具有双功能片段的蛋白降解靶向嵌合体,可以对患者体内致病性蛋白进行有效地清除,所以,具有药效功能的蛋白降解靶向嵌合体的研制正成为一种治疗各种疾病的新的探索方向。
而对于这种蛋白降解嵌合体的设计,目前所采用的药物设计,常采用定量构效关系建模筛选出具有药效的未知化学结构。但是这种方式探索出的新的片段结构往往不能和原始的蛋白降解靶向嵌合体构成有效地药物蛋白,并且,这种探索方式的效率往往较低。
发明内容
本说明书提供一种模型训练的方法以及分子结构信息的推荐方法及装置,以部分的解决现有技术存在的上述问题。
本说明书采用下述技术方案:
本说明书提供了一种模型训练的方法,包括:
获取蛋白降解靶向嵌合体的数据集;
根据所述蛋白降解靶向嵌合体的数据集,构建指定蛋白降解靶向嵌合体的三维分子图信息;
将所述指定蛋白降解靶向嵌合体的三维分子图信息输入到待训练的预测模型中,以使得到与所述指定蛋白降解靶向嵌合体组合成具有预设药物功能的分子片段的片段信息,作为目标片段信息;
根据预测出的所述目标片段信息与所述指定蛋白降解靶向嵌合体对应的标签分子片段的片段信息之间的偏差,对所述预测模型进行训练。
可选地,根据所述蛋白降解靶向嵌合体的数据集,构建指定蛋白降解靶向嵌合体的三维分子图信息,具体包括:
从所述数据集中选取出指定蛋白降解靶向嵌合体的数据;
根据所述指定蛋白降解靶向嵌合体的数据,确定所述指定蛋白降解靶向嵌合体的表征数据,所述表征数据包括:用于表征所述指定蛋白降解靶向嵌合体内原子类型的数据、所述指定蛋白降解靶向嵌合体内各原子在指定坐标系下的坐标、所述指定蛋白降解靶向嵌合体内各原子的原子质量向量、所述指定蛋白降解靶向嵌合体内各原子的核电荷数向量、所述指定蛋白降解靶向嵌合体的分子质量、所述指定蛋白降解靶向嵌合体内的原子数目、所述指定蛋白降解靶向嵌合体的价电子数目、所述指定蛋白降解靶向嵌合体的logP值、所述指定蛋白降解靶向嵌合体的PK值、所述指定蛋白降解靶向嵌合体的分子结构特性数据、所述指定蛋白降解靶向嵌合体的药学特征数据、用于表征所述指定蛋白降解靶向嵌合体的分子结构特征的矩阵数据、所述指定蛋白降解靶向嵌合体中选定的锚点原子的坐标、所述指定蛋白降解靶向嵌合体中选定的锚点原子之间的距离;
根据所述指定蛋白降解靶向嵌合体的表征数据,构建所述指定蛋白降解靶向嵌合体的三维分子图信息。
可选地,所述预测模型包括编码器以及解码器;
将所述指定蛋白降解靶向嵌合体的三维分子图信息输入到待训练的预测模型中,以得到与所述指定蛋白降解靶向嵌合体组合成具有预设药物功能的分子片段的片段信息,作为目标片段信息,具体包括:
将所述指定蛋白降解靶向嵌合体的三维分子图信息输入到待训练的预测模型的编码器中,以使所述编码器确定针对所述指定蛋白降解靶向嵌合体内原子间距的嵌入向量,并根据所述嵌入向量,确定所述指定蛋白降解靶向嵌合体的三维分子图特征;
将所述三维分子图特征输入到所述解码器中,以得到与所述指定蛋白降解靶向嵌合体组合成具有预设药物功能的分子片段的片段信息,作为目标片段信息。
可选地,根据所述嵌入向量,确定所述指定蛋白降解靶向嵌合体的三维分子图特征,具体包括:
通过所述编码器,确定针对所述指定蛋白降解靶向嵌合体的注意力权重;
通过所述编码器,根据所述注意力权重以及所述嵌入向量,确定针对所述指定蛋白降解靶向嵌合体的不变量特征以及等变量特征;
通过所述编码器,根据所述不变量特征以及所述等变量特征,确定所述指定蛋白降解靶向嵌合体的三维分子图特征。
可选地,将所述指定蛋白降解靶向嵌合体的三维分子图信息输入到待训练的预测模型中,以得到与所述指定蛋白降解靶向嵌合体组合成具有预设药物功能的分子片段的片段信息,作为目标片段信息,具体包括:
将所述指定蛋白降解靶向嵌合体的三维分子图信息输入到待训练的预测模型中,以使所述预测模型根据所述三维分子图信息,预测与所述指定蛋白降解靶向嵌合体组合成具有预设药物功能的多个分子片段的片段信息,作为各候选片段信息;
将所述各候选片段信息输入到预设的强化学习模型中,以通过所述强化学习模型,从所述各候选片段信息中选取出目标片段信息。
可选地,将所述各候选片段信息输入到预设的强化学习模型中,以通过所述强化学习模型,从所述各候选片段信息中选取出目标片段信息,具体包括:
针对每个候选片段信息,将该候选片段信息输入到所述强化学习模型中,以使所述强化学习模型以分子结构的logP值以及分子结构的PK值为基础,确定该候选片段信息的评分;
根据每个候选片段信息的评分,从所述各候选片段信息中选取出目标片段信息。
本说明书提供了一种分子结构信息的推荐方法,包括:
获取原始蛋白降解靶向嵌合体的三维分子图信息;
将所述原始蛋白降解靶向嵌合体的三维分子图信息输入到预先训练的预测模型,以使所述预测模型根据所述原始蛋白降解靶向嵌合体的三维分子图信息,预测与所述原始蛋白降解靶向嵌合体组合成具有预设药物功能的分子片段的片段信息,所述预测模型是通过上述模型训练的方法训练得到的;
根据预测出的所述分子片段的片段信息,向用户进行分子结构信息的信息推荐。
可选地,所述方法还包括:
将所述原始蛋白降解靶向嵌合体的三维分子图信息与预测出的片段信息对应进行存储。
本说明书提供了一种模型训练的装置,包括:
获取模块,用于获取蛋白降解靶向嵌合体的数据集;
构建模块,用于根据所述蛋白降解靶向嵌合体的数据集,构建指定蛋白降解靶向嵌合体的三维分子图信息;
预测模块,用于将所述指定蛋白降解靶向嵌合体的三维分子图信息输入到待训练的预测模型中,以使得到与所述指定蛋白降解靶向嵌合体组合成具有预设药物功能的分子片段的片段信息,作为目标片段信息;
训练模块,用于根据预测出的所述目标片段信息与所述指定蛋白降解靶向嵌合体对应的标签分子片段的片段信息之间的偏差,对所述预测模型进行训练。
可选地,所述构建模块,用于从所述数据集中选取出指定蛋白降解靶向嵌合体的数据;根据所述指定蛋白降解靶向嵌合体的数据,确定所述指定蛋白降解靶向嵌合体的表征数据,所述表征数据包括:用于表征所述指定蛋白降解靶向嵌合体内原子类型的数据、所述指定蛋白降解靶向嵌合体内各原子在指定坐标系下的坐标、所述指定蛋白降解靶向嵌合体内各原子的原子质量向量、所述指定蛋白降解靶向嵌合体内各原子的核电荷数向量、所述指定蛋白降解靶向嵌合体的分子质量、所述指定蛋白降解靶向嵌合体内的原子数目、所述指定蛋白降解靶向嵌合体的价电子数目、所述指定蛋白降解靶向嵌合体的logP值、所述指定蛋白降解靶向嵌合体的PK值、所述指定蛋白降解靶向嵌合体的分子结构特性数据、所述指定蛋白降解靶向嵌合体的药学特征数据、用于表征所述指定蛋白降解靶向嵌合体的分子结构特征的矩阵数据、所述指定蛋白降解靶向嵌合体中选定的锚点原子的坐标、所述指定蛋白降解靶向嵌合体中选定的锚点原子之间的距离;根据所述指定蛋白降解靶向嵌合体的表征数据,构建所述指定蛋白降解靶向嵌合体的三维分子图信息。
可选地,所述预测模型包括编码器以及解码器;
所述预测模块具体用于,将所述指定蛋白降解靶向嵌合体的三维分子图信息输入到待训练的预测模型的编码器中,以使所述编码器确定针对所述指定蛋白降解靶向嵌合体内原子间距的嵌入向量,并根据所述嵌入向量,确定所述指定蛋白降解靶向嵌合体的三维分子图特征;将所述三维分子图特征输入到所述解码器中,以得到与所述指定蛋白降解靶向嵌合体组合成具有预设药物功能的分子片段的片段信息,作为目标片段信息。
可选地,所述预测模块具体用于,通过所述编码器,确定针对所述指定蛋白降解靶向嵌合体的注意力权重;通过所述编码器,根据所述注意力权重以及所述嵌入向量,确定针对所述指定蛋白降解靶向嵌合体的不变量特征以及等变量特征;通过所述编码器,根据所述不变量特征以及所述等变量特征,确定所述指定蛋白降解靶向嵌合体的三维分子图特征。
可选地,所述预测模块具体用于,将所述指定蛋白降解靶向嵌合体的三维分子图信息输入到待训练的预测模型中,以使所述预测模型根据所述三维分子图信息,预测与所述指定蛋白降解靶向嵌合体组合成具有预设药物功能的多个分子片段的片段信息,作为各候选片段信息;将所述各候选片段信息输入到预设的强化学习模型中,以通过所述强化学习模型,从所述各候选片段信息中选取出目标片段信息。
可选地,所述预测模块具体用于,针对每个候选片段信息,将该候选片段信息输入到所述强化学习模型中,以使所述强化学习模型以分子结构的logP值以及分子结构的PK值为基础,确定该候选片段信息的评分;根据每个候选片段信息的评分,从所述各候选片段信息中选取出目标片段信息。
本说明书提供了一种分子结构信息的推荐装置,包括:
获取模块,用于获取原始蛋白降解靶向嵌合体的三维分子图信息;
预测模块,用于将所述原始蛋白降解靶向嵌合体的三维分子图信息输入到预先训练的预测模型,以使所述预测模型根据所述原始蛋白降解靶向嵌合体的三维分子图信息,预测与所述原始蛋白降解靶向嵌合体组合成具有预设药物功能的分子片段的片段信息,所述预测模型是通过上述模型训练的方法训练得到的;
推荐模块,用于根据预测出的所述分子片段的片段信息,向用户进行分子结构信息的信息推荐。
可选地,所述装置还包括:
存储模块,用于将所述原始蛋白降解靶向嵌合体的三维分子图信息与预测出的片段信息对应进行存储。
本说明书提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述模型训练的方法或分子结构信息的推荐方法。
本说明书提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述模型训练的方法或分子结构信息的推荐方法。
本说明书采用的上述至少一个技术方案能够达到以下有益效果:
从上述方法中可以看出,本申请可以通过获取到的数据集,构建出指定蛋白降解靶向嵌合体的三维分子图信息,这一三维分子图信息可以充分的表征出指定蛋白降解靶向嵌合体的分子结构的各种特征,而后,将该三维分子图信息输入到预测模型中后,预测模型会根据三维分子图信息,来预测与指定蛋白降解靶向嵌合体组合成具有预设药物功能的分子片段的片段信息,作为目标片段信息,进而根据预测出的目标片段信息以及与指定蛋白降解靶向嵌合体对应的标签分子片段的片段信息之间的偏差,对预测模型进行训练,使得后续在预测分子结构的过程中,可以通过该预测模型实现快速、准确的分子片段预测,从而提高了分子片段探索的效率以及准确性。
附图说明
此处所说明的附图用来提供对本说明书的进一步理解,构成本说明书的一部分,本说明书的示意性实施例及其说明用于解释本说明书,并不构成对本说明书的不当限定。在附图中:
图1为本说明书中提供的一种模型训练的方法的流程示意图;
图2为本说明书提供的一种分子结构信息的推荐方法的过程示意图;
图3为本说明书提供的一种药物分子探索的系统的架构示意图;
图4为本说明书提供的一种模型训练的装置的示意图;
图5为本说明书提供的一种分子结构信息的推荐装置的示意图;
图6为本说明书中提供的一种对应于图1或图2的电子设备的结构示意图。
具体实施方式
为使本说明书的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书保护的范围。
以下结合附图,详细说明本说明书各实施例提供的技术方案。
图1为本说明书中提供的一种模型训练的方法的流程示意图,包括以下步骤:
S101:获取蛋白降解靶向嵌合体的数据集。
本说明书提供的模型训练的方法的执行主体可以是诸如台式电脑、笔记本电脑等终端设备,也可以是服务器,为了便于说明,本说明书仅以终端设备为执行主体,对所提供的模型训练方法进行说明。
在本说明书中,终端设备可以获取各种蛋白降解靶向嵌合体的结构原始数据,以构建用于对模型进行训练的数据集,其中,这些数据可以从外部网络中进行爬取获得,也可以通过文件录入的形式来获取。
S102:根据所述蛋白降解靶向嵌合体的数据集,构建指定蛋白降解靶向嵌合体的三维分子图信息。
在得到上述数据集后,终端设备需要从中搜索出适合对预测模型进行训练的数据,也就是说,收录在数据集中的各种蛋白降解靶向嵌合体并不是都适合作为样本进行训练,有些数据可能没有很好的标签分子片段,有些数据则可以属于“脏数据”。
所以,终端设备需要从数据集中搜索出适合作为训练样本的蛋白降解靶向嵌合体,即,确定出指定蛋白降解靶向嵌合体。具体的实现方式可以是,创建的可扩展三维分子图结构数据生成器,对类蛋白降解靶向嵌合体化合物数据进行清洗、重构和优化,从而搜索出作为训练样本的指定蛋白降解靶向嵌合体,并确定出指定蛋白降解靶向嵌合体的三维分子图信息。
在本说明书中,终端设备从上述数据集中确定出指定蛋白降解靶向嵌合体的数据后,可以进一步的确定出指定蛋白降解靶向嵌合体的表征数据,其中,这里提到的表征数据可以包括:用于表征指定蛋白降解靶向嵌合体内原子类型的数据、指定蛋白降解靶向嵌合体内各原子在指定坐标系下的坐标、指定蛋白降解靶向嵌合体内各原子的原子质量向量、指定蛋白降解靶向嵌合体内各原子的核电荷数向量、指定蛋白降解靶向嵌合体的分子质量、指定蛋白降解靶向嵌合体内的原子数目、指定蛋白降解靶向嵌合体的价电子数目、指定蛋白降解靶向嵌合体的logP值、指定蛋白降解靶向嵌合体的PK值、指定蛋白降解靶向嵌合体的分子结构特性数据、指定蛋白降解靶向嵌合体的药学特征数据、用于表征指定蛋白降解靶向嵌合体的分子结构特征的矩阵数据、指定蛋白降解靶向嵌合体中选定的锚点原子的坐标、指定蛋白降解靶向嵌合体中选定的锚点原子之间的距离等数据。
其中,指定蛋白降解靶向嵌合体内各原子在指定坐标系下的坐标以及指定蛋白降解靶向嵌合体内各原子的原子质量向量可以参照国际标准来确定,例如,指定蛋白降解靶向嵌合体内各原子的原子质量向量可以是指指定蛋白降解靶向嵌合体内各原子的国际标准的原子质量的原子质量向量。
而对于上述提到的用于表征指定蛋白降解靶向嵌合体的分子结构特征的矩阵数据,可以包括用于表征指定蛋白降解靶向嵌合体分子的邻接矩阵、指定蛋白降解靶向嵌合体的键级矩阵、用于表征指定蛋白降解靶向嵌合体中原子之间库伦力的库伦矩阵以及指定蛋白降解靶向嵌合体的距离矩阵。
其中,指定蛋白降解靶向嵌合体分子的邻接矩阵用于表征指定蛋白降解靶向嵌合体中各原子之间是否成键,如,两个原子之间成键可以用“1”表示,不成键则可以用“0”表示。
用于表征指定蛋白降解靶向嵌合体中原子之间库伦力的库伦矩阵可以通过以下静电作用公式来进行确定:
其中,Z表示原子的核电荷数、Cij则用于表示原子j和原子i之间的库伦力,用于表示原子j和原子i之间的欧式距离编码。
上述提到的指定蛋白降解靶向嵌合体的分子结构特性数据可以用于表征指定蛋白降解靶向嵌合体的旋光性、芳香性等结构特征。
在确定出上述表征数据后,可以通过这些表征数据中的至少部分,来确定出指定蛋白降解靶向嵌合体的三维分子图信息。而从上述内容中可以看出,由于本说明书中在确定指定蛋白降解靶向嵌合体的三维分子图信息,将全面考虑指定蛋白降解靶向嵌合体的各种信息,所以,保证最终确定出的三维分子图信息能够全方位的表征出指定蛋白降解靶向嵌合体的特征,进而保证后续预测模型在预测结果上的准确性以及合理性。
S103:将所述指定蛋白降解靶向嵌合体的三维分子图信息输入到待训练的预测模型中,以使得到与所述指定蛋白降解靶向嵌合体组合成具有预设药物功能的分子片段的片段信息,作为目标片段信息。
在本说明书中,上述预测模型中设置有编码器和解码器,所以,预测模型根据输入的三维分子图信息,最终预测出能够与指定蛋白降解靶向嵌合体组合成具有预设药物功能的分子片段的片段,实际上可以看做是一个编解码的过程。
具体的,终端设备将上述指定蛋白降解靶向嵌合体的三维分子图信息输入到待训练的预测模型的编码器中后,该编码器可以确定针对该指定蛋白降解靶向嵌合体内原子间距的嵌入向量,并根据该嵌入向量,确定指定蛋白降解靶向嵌合体的三维分子图特征。而后,可以将该三维分子图特征再输入到预测模型中的解码器中,从而得到与指定蛋白降解靶向嵌合体组合成具有预设药物功能的分子片段的片段信息,作为目标片段信息。
其中,在确定该指定蛋白降解靶向嵌合体内原子间距的嵌入向量时,可以通过多种方式来进行确定,例如,在将原子间的距离定义为的前提下,通过贝塞尔形式确定该嵌入向量可以通过如下公式来实现:
其中,ek(Dij)即表示指定蛋白降解靶向嵌合体k中包含的原子i和原子j之间间距的嵌入向量,c用于表示预设的参数。
再例如,在将原子间的距离定义为的前提下,通过高斯形式确定该嵌入向量可以通过如下公式来实现:
其中,σ为预设的参数。
或是,通过线性变换得到原子间距离嵌入向量eij
eij=We·e(Dij)+be
其中,We为线性变换的权重参数,be为线性变换的偏置参数。
当然,在实际应用中,还可以通过其他的能够实现的方式,来确定上述嵌入向量,本说明书就不一一举例说明了。
在得到上述嵌入向量后,实际上还可以通过注意力机制,对嵌入向量作进一步地处理,以得到更为准确的三维分子图特征。具体的,编码器可以确定针对上述指定蛋白降解靶向嵌合体的注意力权重,而后,编码器可以根据该注意力权重以及确定出的嵌入向量,确定针对指定蛋白降解靶向嵌合体的不变量特征以及等变量特征,进而根据该不变量特征以及等变量特征,确定指定蛋白降解靶向嵌合体的三维分子图特征。
下面将以具体的示例来描述上述通过注意力机制确定指定蛋白降解靶向嵌合体的三维分子图特征的过程:
通过三维分子图注意力机制可以得到query(Q)和key(K)的嵌入形式如下:
Qi=Wqsi+bq
Kj=Wksj+bk
其中,Qi用于表示指定蛋白降解靶向嵌合体中原子i的Q特征矩阵,Kj用于表示指定蛋白降解靶向嵌合体中原子j的K特征矩阵。si用于表示指定蛋白降解靶向嵌合体中原子i的不变量,si这一不变量可以通过以下公式确定出来:
si=embed(Zi)
Zi为指定蛋白降解靶向嵌合体中原子i的电荷数,embed用于将原子电荷数转化为一维数组的形式。
而从上述确定原子i的不变量的公式可以看出,之所以称之为是不变量,是因为原子i的电荷数是始终不会发生变化的。
相应的,sj用于表示指定蛋白降解靶向嵌合体中原子j的不变量,具体也可以参照上述公式来进行确定。
上述公式中,Wq为用于确定Qi特征矩阵的权重参数,bq为用于确定Qi特征矩阵的偏置参数。同理,Wk为用于确定Kj特征矩阵的权重参数,bk为用于确定Kj特征矩阵的偏置参数。
而后,可以构造一个矩阵增广矩阵Wa,得到注意力权重,具体可以参考如下公式:
Λ=[Aij,Bij,Cij]=Wa(Qi×Kj×eij)
此外,还可以进一步的确定出指定蛋白降解靶向嵌合体中原子的V特征矩阵,其中,对于指定蛋白降解靶向嵌合体中的任意一个原子,该原子可以对应两种形式的V特征矩阵,一个用于确定后续的不变量特征,另一个则用于确定后续的等变量特征,具体可以参考以下公式:
其中,Vs,j用于表示用于确定后续的不变量特征的V特征矩阵,sj即为上述提到的用于表示指定蛋白降解靶向嵌合体中原子j的不变量,Wss为用于确定Vs,j的权重参数,bss为用于确定Vs,j的偏置参数。没有特别实际的意义,可以看做是将Vs,j这一矩阵拆分成了这三个矩阵。而这所以这么表示,主要是用于在后续过程中确定指定蛋白降解靶向嵌合体中原子的不变量特征。
而对于用于确定后续的等变量特征的V特征矩阵,具体可以参考以下公式:
其中,即用于表示用于确定后续原子j的等变量特征的V特征矩阵,Wvv为用于确定的权重参数,bvv为用于确定的偏置参数。而则用于表示通过指定蛋白降解靶向嵌合体中原子j的三维坐标所确定出的向量。
在确定出上述注意力权重后,需要进一步地通过上述注意力权重来确定指定蛋白降解靶向嵌合体的不变量特征以及等变量特征。
具体的,通过上述内容可知,上述V特征矩阵分为两种,即,一种为Vs,j,另一种为那么,在确定指定蛋白降解靶向嵌合体的不变量特征时,可以通过确定出的上述注意力权重对Vs,j进行加权,具体可以参考如下公式:
从上述公式中可以看出,通过将上述确定出的注意力权重Λ与指定蛋白降解靶向嵌合体中原子j的Vs,j进行加权,即可得到指定降解靶向嵌合体中原子j的不变量特征。
需要说明的是,上述公式中可以理解成是将Ms,ij这一矩阵拆分成了这三个矩阵,之所以需要对其进行拆分,是需要在后续过程中确定指定蛋白降解靶向嵌合体的不变量特征以及等变量特征。
进一步地,在确定指定蛋白降解靶向嵌合体的等变量特征时,可以通过如下公式来确定:
其中,用于表示通过指定蛋白降解靶向嵌合体中原子i的三维坐标所确定出的向量,而则用于表示通过指定蛋白降解靶向嵌合体中原子j的三维坐标所确定出的向量。
在确定出上述的后,即可确定出指定蛋白降解靶向嵌合体中原子j的等变量特征,具体可以通过如下公式:
在确定出指定蛋白降解靶向嵌合体中每个原子的不变量特征后,则可以进一步地得到指定蛋白降解靶向嵌合体每个原子的不变量特征,具体可以参考如下公式:
最终,确定出的指定蛋白降解靶向嵌合体中每个原子的不变量特征和等变量特征可以通过如下公式进行表示:
从上述内容中可以看出,确定出的指定蛋白降解靶向嵌合体的不变量特征实际上表征的是指定蛋白降解靶向嵌合体不会随分子结构变化的分子特征(因为每个原子的不变量实际上是通过原子电荷数来确定的,原子的电荷数通常是固定不变的),而指定蛋白降解靶向嵌合体的等变量特征则可以表征指定蛋白降解靶向嵌合体在分子结构上的特征(因为等变量特征实际上是根据指定蛋白降解靶向嵌合体中各原子的三维坐标来逐步确定出来的)。
所以,可以理解成,后续解码器实际上是根据指定蛋白降解靶向嵌合体的等变量特征和不变量特征,来探索出以该指定蛋白降解靶向嵌合体的分子结构的特征以及指定蛋白降解靶向嵌合体不随分子结构变化的分子特征为基础,来预测出可以连接该指定蛋白降解靶向嵌合体的原子或是分子结构。
进一步的,在确定出指定蛋白降解靶向嵌合体的不变量特征以及等变量特征后,可以通过信息传递与更新的方式,来确定出指定蛋白降解靶向嵌合体的三维分子图特征。具体的,采用Message更新不变量特征以及等变量特征:
其中,l用于表示更新的次数,以及即表示指定蛋白降解靶向嵌合体的三维分子图特征,而则表示第l次更新时指定蛋白降解靶向嵌合体中原子i的不变量,而则表示第l次更新时指定蛋白降解靶向嵌合体中原子i的等变量,则表示第l次更新时指定蛋白降解靶向嵌合体中原子i的不变量特征以及等变量特征。
所以,经过l次信息传播以及更新后,即得到上述指定蛋白降解靶向嵌合体的三维分子图特征。
在本说明书中,上述提到的嵌入向量实际上也可以在输入到编码器中之前来进行确定,在这种情况下,实际上可以将确定出的嵌入向量输入到编码器中,再由编码器通过注意力机制,来确定出指定蛋白降解靶向嵌合体的三维分子图特征。
正如上面内容所提到的,对于解码器根据指定蛋白降解靶向嵌合体的三维分子图特征,来预测目标片段的过程,可以视作解码器要根据指定蛋白降解靶向嵌合体中每个原子的不变量特征以及等变量特征,来预测出能够与指定蛋白降解靶向嵌合体连接的新原子或是新的分子结构,所以,在确定出上述三维分子图特征时,实际上也通过信息传递机制得到指定蛋白降解靶向嵌合体中每个原子更新后的不变量特征以及等变量特征,来进行逐个原子的预测。具体过程可以理解成,先根据指定蛋白降解靶向嵌合体,来预测出能够与指定蛋白降解靶向嵌合体连接的第一个原子,并确定出该第一个原子具体应该与指定蛋白降解靶向嵌合体中的哪一原子相连,然后,在根据指定蛋白降解靶向嵌合体以及预测出的第一个原子,来预测出能够与指定蛋白降解靶向嵌合体和第一个原子所组成的分子结构连接的第二个原子,并预测该第二个原子应该与该分子结构中的哪一原子相连,以此类推,直到预测出完整的新的分子片段。
其中,可以通过以下过程来实现:
在预测出一个新的原子后,可以将分子结构(即指定蛋白降解靶向嵌合体和与之前预测出的原子所组成的分子结构)中包含的每个原子的不变量特征进行更新,具体可以通以下公式来更新:
其中,用于表示预测出第t个原子后,上述提到的分子结构中原子i的不变量特征,f1可以为一个MLP函数。
进一步地,可以通过以下公式来预测新原子的三维坐标:
其中,为预测出的原子的三维坐标,而则为参考坐标,具体可以将看做是分子结构(该分子结构即可以是指上述指定蛋白降解靶向嵌合体,也可以是在预测出t个新的原子后,组成的新的分子结构)的质心处的三维坐标,Ker函数可以是高斯函数。
所以,这个实际上可以视作是预测新原子坐标的解码器。
而后,可以进一步地预测新的原子与经过t-1次预测后所得到的分子结构中各原子之间相连的边,具体可以通过以下公式来实现:
其中,用于表示预测出的新原子的隐变量特征,用于表示经过t-1次预测后所得到的分子结构中原子j的隐变量特征。用于表示预测出的各原子的不变量特征的特征和值,函数h和f2可以为MLP函数。
所以,这个实际上可以视作是用于预测边的解码器。
最后,通过来预测出新原子具体的信息,具体可以通过以下公式来确定:
上述公式可以理解成,根据新原子的一种三维坐标以及新原子的一种连接关系,来确定出这种情况下该新原子的概率,换句话说,解码器可以得到新原子的多种情况,从而根据每种情况的概率,来确定出新原子的具体信息(即该新原子具体的三维坐标以及新原子具体与哪一原子相连)。
采用上述方式通过不断的迭代,最终得到预测出的新的分子片段。
需要说明的是,在预测新的分子片段的整个过程,上述所列举的各种公式只是以示例的形式来举例说明这一过程,而在实际应用中,也可以通过不局限于上述公式的其他方式,来预测新的分子片段。例如,在确定上述等变量特征时,实际上是利用了Ms,ij中的部分矩阵数据来确定,但是实际上,也可以使用Ms,ij整体来确定上述等变量特征;再例如,在确定三维分子图特征时,上述提到了利用信息传递的方式来进行确定,但是实际上,也可以不利用信息传递的方式进行确定,即,对确定出的三维分子图特征不进行更新。其他示例在此就不一一列举说明了。
在本说明书中,预测模型实际上可以根据指定蛋白降解靶向嵌合体的三维分子图信息,预测出多个能够与指定蛋白降解靶向嵌合体具有预测药物功能的分子片段的片段信息,所以,后续需要从这些分子片段中筛选出的一个目标片段。
所以,在本说明书中,终端设备将指定蛋白降解靶向嵌合体的三维分子图信息输入到待训练的预测模型中后,预测模型会根据该三维分子图信息,预测与指定蛋白降解靶向嵌合体组合成具有预设药物功能的多个分子片段的片段信息,作为各候选片段信息。而后,终端设备可以将这些候选片段信息输入到预设的强化学习模型中,以通过该强化学习模型,从这些候选片段信息中选取出目标片段信息。
其中,由于选取出的目标片段需要符合能够作为药物使用的一些特性,所以,上述强化学习模型可以从分子结构的logP值和PK值,来从这些候选片段信息中选取出目标片段信息。
具体的,针对每个候选片段信息,将该候选片段信息输入到上述强化学习模型中后,该强化学习模型可以分子结构的logP值和分子结构的PK值为基础,确定出该候选片段信息的评分。在确定出各候选片段信息的评分后,可以基于这些候选片段信息的评分,从中选取出目标片段信息。
例如,确定每个候选片段信息的评分具体可以参考如下公式:
其中,λ(Y)为logP值和PK值函数,Y即表示候选片段信息,target的具体数值可以根据实际需求而定,R(Y)即用于表述候选片段信息Y的评分。
S104:根据预测出的所述目标片段信息与所述指定蛋白降解靶向嵌合体对应的标签分子片段的片段信息之间的偏差,对所述预测模型进行训练。
在预测出上述目标片段信息后,可以进一步地预测出目标片段信息与指定蛋白降解靶向嵌合体对应的标签分子片段的片段信息之间的偏差,然后以最小化该偏差为优化目标,对预测模型进行训练。
需要说明的是,在本说明书中,上述预测模型以及强化学习模型实际上可以采用联合训练的方式一同进行训练。即,在确定出目标片段信息后,分别确定出针对预测模型的损失值以及强化学习模型的损失值,然后,以最小化这两个损失值的和值为优化目标,对这两个模型进行一同调整。其中,这两个损失值实际上都可以通过目标片段信息与指定蛋白降解靶向嵌合体对应的标签分子片段的片段信息之间的偏差来确定。
当然,在实际应用中,也可以将预测模型和强化学习模型合并成一个模型,例如,可以在上述预测模型中构建出能够实现强化学习的网络层,然后,通过上述方法,对这个包含有强化学习网络层的预测模型进行训练。
在现有技术中,蛋白降解靶向嵌合体分子由于可以直接介导致病性蛋白的泛素化以及降解过程,现已用来研发治疗包括癌症、免疫系统疾病以及神经系统疾病等疾病的药物。尤其是在癌症治疗方面,相比于副作用较大的常用化疗药物,蛋白降解靶向嵌合体对诱导癌细胞生成的蛋白的靶向性或许可以消除化疗药物的这一劣势。
而目前随着人工智能和机器学习等领域的不断发展以及向药物研发的不断渗透,药物的研发也相较于早先的定量构效关系建模变得更加复杂。基于人工智能或机器学习的定量构效关系模型依赖于分子特征的表示方法,可分为分子描述符、分子指纹以及分子图三类。分子描述符可以有效地定量表示分子的理化、生物学、药学性质;分子指纹可以用来描述分子间结构的相似度;分子图可以将分子内原子与化学键视为结点和边用来刻画分子的结构特征。通过结合上述三类方法,开发者可以设计有效的药物分子设计的方法。
但是目前所采用的方式并不能更加全面的刻画分子的特征,所以导致最终得到的新的分子片段,并不能很好的与蛋白降解靶向嵌合体进行结合,从而得到较好的药物分子结构。
所以,本说明书所提供的模型训练方法在确定指定蛋白降解靶向嵌合体的三维分子图信息的过程中,就全面的参考了指定蛋白降解靶向嵌合体的各种分子结构的表征数据,这可以使得最终确定出的三维分子图信息,能够全面表征指定蛋白降解靶向嵌合体的分子结构特征。
并且,在确定指定蛋白降解靶向嵌合体的三维分子图特征时,由于是根据指定蛋白降解靶向嵌合体的不变量特征和等变量特征进行确定的,通过这种方式可以充分的表征出指定蛋白降解靶向嵌合体在分子结构上的特性,从而保证预测模型后续能够通过指定蛋白降解靶向嵌合体的三维分子图特征,进行准确、合理的新的片段信息的预测。
在训练完上述预测模型后,即可通过训练完的预测模型,来预测分子结构信息,以实现分子结构信息的推荐。具体过程如下图所示。
图2为本说明书提供的一种分子结构信息的推荐方法的过程示意图。
S201:获取原始蛋白降解靶向嵌合体的三维分子图信息。
在本说明书中,终端设备可以接收用户输入的分子片段结构的预测指令,以通过该预测指令,获取到原始蛋白降解靶向嵌合体的三维分子图信息,其中,这里三维分子图信息的确定与上述模型训练中的三维分子图信息的确定过程基本一致,在此就不详细赘述了。这里提到的终端设备可以是指台式电脑、笔记本电脑等设备。
S202:将所述原始蛋白降解靶向嵌合体的三维分子图信息输入到预先训练的预测模型,以使所述预测模型根据所述原始蛋白降解靶向嵌合体的三维分子图信息,预测与所述原始蛋白降解靶向嵌合体组合成具有预设药物功能的分子片段的片段信息,所述预测模型是通过上述模型训练的方法训练得到的。
终端设备可以将原始蛋白降解靶向嵌合体的三维分子图信息输入到终端设备中部署的预测模型,预测模型则将会输出与原始蛋白降解靶向嵌合体组合成具有预设药物功能的分子片段的片段信息。
需要指出的是,由于在上述模型训练过程中,已经通过有监督的训练方式对预测模型进行了训练,所以,在实际应用过程中,可以不再使用强化学习模型,即,预测模型输出的分子片段的片段信息即是最终的片段信息,不再需要做进一步地筛选。
S203:根据预测出的所述分子片段的片段信息,向用户进行分子结构信息的信息推荐。
在通过预测模型得到分子片段的片段信息后,可以将该分子片段的片段信息向用户进行推荐。当然,在实际应用中,也可以将原始蛋白降解靶向嵌合体的三维分子图信息与该分子片段的片段信息进行对应保存。
当然,在确定出上述分子片段的片段信息,也可以按照该片段信息,将原始蛋白降解靶向嵌合体与该分子片段进行组合,然后测试组成后的新分子在药物、化学等性质上的信息,并将这些信息进行存储。
本说明书还提供了一种用于药物分子探索的系统,如图3所示。
图3为本说明书提供的一种药物分子探索的系统的架构示意图。
从图3中可以看出,该系统主要由以下几个部分组成:
存储子系统,用于对上述数据集进行存储,以及对在实际应用中通过预测模型预测出的分子片段的片段信息及其药物、化学上等性质的信息进行存储。
控制子系统,用于根据输入到该子系统中的原始蛋白降解靶向嵌合体的三维分子图信息,预测出与该原始降解靶向嵌合体组合成具有药物功能的分子片段的片段信息。
在控制子系统中包含有分子特征提取单元、分子生成单元以及分子筛选单元这三个单元,这三个单元依次分别用于得到三维分子图特征、预测出新的分子片段的片段信息,筛选出最终的片段信息。
以上为本说明书的一个或多个实施的方法,基于同样的思路,本说明书还提供了相应的模型训练的装置以及分子结构信息的推荐装置,如图4、图5所示。
图4为本说明书提供的一种模型训练的装置的示意图,包括:
获取模块401,用于获取蛋白降解靶向嵌合体的数据集;
构建模块402,用于根据所述蛋白降解靶向嵌合体的数据集,构建指定蛋白降解靶向嵌合体的三维分子图信息;
预测模块403,用于将所述指定蛋白降解靶向嵌合体的三维分子图信息输入到待训练的预测模型中,以使得到与所述指定蛋白降解靶向嵌合体组合成具有预设药物功能的分子片段的片段信息,作为目标片段信息;
训练模块404,用于根据预测出的所述目标片段信息与所述指定蛋白降解靶向嵌合体对应的标签分子片段的片段信息之间的偏差,对所述预测模型进行训练。
可选地,所述构建模块402,用于从所述数据集中选取出指定蛋白降解靶向嵌合体的数据;根据所述指定蛋白降解靶向嵌合体的数据,确定所述指定蛋白降解靶向嵌合体的表征数据,所述表征数据包括:用于表征所述指定蛋白降解靶向嵌合体内原子类型的数据、所述指定蛋白降解靶向嵌合体内各原子在指定坐标系下的坐标、所述指定蛋白降解靶向嵌合体内各原子的原子质量向量、所述指定蛋白降解靶向嵌合体内各原子的核电荷数向量、所述指定蛋白降解靶向嵌合体的分子质量、所述指定蛋白降解靶向嵌合体内的原子数目、所述指定蛋白降解靶向嵌合体的价电子数目、所述指定蛋白降解靶向嵌合体的logP值、所述指定蛋白降解靶向嵌合体的PK值、所述指定蛋白降解靶向嵌合体的分子结构特性数据、所述指定蛋白降解靶向嵌合体的药学特征数据、用于表征所述指定蛋白降解靶向嵌合体的分子结构特征的矩阵数据、所述指定蛋白降解靶向嵌合体中选定的锚点原子的坐标、所述指定蛋白降解靶向嵌合体中选定的锚点原子之间的距离;根据所述指定蛋白降解靶向嵌合体的表征数据,构建所述指定蛋白降解靶向嵌合体的三维分子图信息。
可选地,所述预测模型包括编码器以及解码器;
所述预测模块403具体用于,将所述指定蛋白降解靶向嵌合体的三维分子图信息输入到待训练的预测模型的编码器中,以使所述编码器确定针对所述指定蛋白降解靶向嵌合体内原子间距的嵌入向量,并根据所述嵌入向量,确定所述指定蛋白降解靶向嵌合体的三维分子图特征;将所述三维分子图特征输入到所述解码器中,以得到与所述指定蛋白降解靶向嵌合体组合成具有预设药物功能的分子片段的片段信息,作为目标片段信息。
可选地,所述预测模块403具体用于,通过所述编码器,确定针对所述指定蛋白降解靶向嵌合体的注意力权重;通过所述编码器,根据所述注意力权重以及所述嵌入向量,确定针对所述指定蛋白降解靶向嵌合体的不变量特征以及等变量特征;通过所述编码器,根据所述不变量特征以及所述等变量特征,确定所述指定蛋白降解靶向嵌合体的三维分子图特征。
可选地,所述预测模块403具体用于,将所述指定蛋白降解靶向嵌合体的三维分子图信息输入到待训练的预测模型中,以使所述预测模型根据所述三维分子图信息,预测与所述指定蛋白降解靶向嵌合体组合成具有预设药物功能的多个分子片段的片段信息,作为各候选片段信息;将所述各候选片段信息输入到预设的强化学习模型中,以通过所述强化学习模型,从所述各候选片段信息中选取出目标片段信息。
可选地,所述预测模块403具体用于,针对每个候选片段信息,将该候选片段信息输入到所述强化学习模型中,以使所述强化学习模型以分子结构的logP值以及分子结构的PK值为基础,确定该候选片段信息的评分;根据每个候选片段信息的评分,从所述各候选片段信息中选取出目标片段信息。
图5为本说明书提供的一种分子结构信息的推荐装置的示意图,包括:
获取模块501,用于获取原始蛋白降解靶向嵌合体的三维分子图信息;
预测模块502,用于将所述原始蛋白降解靶向嵌合体的三维分子图信息输入到预先训练的预测模型,以使所述预测模型根据所述原始蛋白降解靶向嵌合体的三维分子图信息,预测与所述原始蛋白降解靶向嵌合体组合成具有预设药物功能的分子片段的片段信息,所述预测模型是通过上述模型训练的方法训练得到的;
推荐模块503,用于根据预测出的所述分子片段的片段信息,向用户进行分子结构信息的信息推荐。
可选地,所述装置还包括:
存储模块504,用于将所述原始蛋白降解靶向嵌合体的三维分子图信息与预测出的片段信息对应进行存储。
本说明书还提供了一种计算机可读存储介质,该存储介质存储有计算机程序,计算机程序可用于执行上述图1提供的一种模型训练的方法或是图2提供的一种分子结构信息的推荐方法。
本说明书还提供了图6所示的一种对应于图1或图2的电子设备的示意结构图。如图6所示,在硬件层面,该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器,当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,以实现上述图1所述的模型训练的方法或图2所述的分子结构信息的推荐方法。
当然,除了软件实现方式之外,本说明书并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书的实施例可提供为方法、系统、或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。

Claims (14)

1.一种模型训练的方法,其特征在于,包括:
获取蛋白降解靶向嵌合体的数据集;
根据所述蛋白降解靶向嵌合体的数据集,构建指定蛋白降解靶向嵌合体的三维分子图信息;
将所述指定蛋白降解靶向嵌合体的三维分子图信息输入到待训练的预测模型中,以得到与所述指定蛋白降解靶向嵌合体组合成具有预设药物功能的分子片段的片段信息,其中,将所述指定蛋白降解靶向嵌合体的三维分子图信息输入到待训练的预测模型的编码器中,以使所述编码器确定针对所述指定蛋白降解靶向嵌合体内原子间距的嵌入向量,通过所述编码器,确定针对所述指定蛋白降解靶向嵌合体的注意力权重,通过所述编码器,根据所述注意力权重以及所述嵌入向量,确定针对所述指定蛋白降解靶向嵌合体的不变量特征以及等变量特征,所述不变量特征用于表征所述指定蛋白降解靶向嵌合体不会随分子结构变化的分子特征,所述等变量特征用于表征所述指定蛋白降解靶向嵌合体在分子结构上的特征,通过所述编码器,根据所述不变量特征以及所述等变量特征,确定所述指定蛋白降解靶向嵌合体的三维分子图特征,将所述三维分子图特征输入到所述预测模型的解码器中,以得到与所述指定蛋白降解靶向嵌合体组合成具有预设药物功能的分子片段的片段信息,作为目标片段信息;
根据预测出的所述目标片段信息与所述指定蛋白降解靶向嵌合体对应的标签分子片段的片段信息之间的偏差,对所述预测模型进行训练。
2.如权利要求1所述的方法,其特征在于,根据所述蛋白降解靶向嵌合体的数据集,构建指定蛋白降解靶向嵌合体的三维分子图信息,具体包括:
从所述数据集中选取出指定蛋白降解靶向嵌合体的数据;
根据所述指定蛋白降解靶向嵌合体的数据,确定所述指定蛋白降解靶向嵌合体的表征数据,所述表征数据包括:用于表征所述指定蛋白降解靶向嵌合体内原子类型的数据、所述指定蛋白降解靶向嵌合体内各原子在指定坐标系下的坐标、所述指定蛋白降解靶向嵌合体内各原子的原子质量向量、所述指定蛋白降解靶向嵌合体内各原子的核电荷数向量、所述指定蛋白降解靶向嵌合体的分子质量、所述指定蛋白降解靶向嵌合体内的原子数目、所述指定蛋白降解靶向嵌合体的价电子数目、所述指定蛋白降解靶向嵌合体的logP值、所述指定蛋白降解靶向嵌合体的PK值、所述指定蛋白降解靶向嵌合体的分子结构特性数据、所述指定蛋白降解靶向嵌合体的药学特征数据、用于表征所述指定蛋白降解靶向嵌合体的分子结构特征的矩阵数据、所述指定蛋白降解靶向嵌合体中选定的锚点原子的坐标、所述指定蛋白降解靶向嵌合体中选定的锚点原子之间的距离;
根据所述指定蛋白降解靶向嵌合体的表征数据,构建所述指定蛋白降解靶向嵌合体的三维分子图信息。
3.如权利要求1所述的方法,其特征在于,将所述指定蛋白降解靶向嵌合体的三维分子图信息输入到待训练的预测模型中,以得到与所述指定蛋白降解靶向嵌合体组合成具有预设药物功能的分子片段的片段信息,作为目标片段信息,具体包括:
将所述指定蛋白降解靶向嵌合体的三维分子图信息输入到待训练的预测模型中,以使所述预测模型根据所述三维分子图信息,预测与所述指定蛋白降解靶向嵌合体组合成具有预设药物功能的多个分子片段的片段信息,作为各候选片段信息;
将所述各候选片段信息输入到预设的强化学习模型中,以通过所述强化学习模型,从所述各候选片段信息中选取出目标片段信息。
4.如权利要求3所述的方法,其特征在于,将所述各候选片段信息输入到预设的强化学习模型中,以通过所述强化学习模型,从所述各候选片段信息中选取出目标片段信息,具体包括:
针对每个候选片段信息,将该候选片段信息输入到所述强化学习模型中,以使所述强化学习模型以分子结构的logP值以及分子结构的PK值为基础,确定该候选片段信息的评分;
根据每个候选片段信息的评分,从所述各候选片段信息中选取出目标片段信息。
5.一种分子结构信息的推荐方法,其特征在于,包括:
获取原始蛋白降解靶向嵌合体的三维分子图信息;
将所述原始蛋白降解靶向嵌合体的三维分子图信息输入到预先训练的预测模型,以使所述预测模型根据所述原始蛋白降解靶向嵌合体的三维分子图信息,预测与所述原始蛋白降解靶向嵌合体组合成具有预设药物功能的分子片段的片段信息,所述预测模型是通过上述权利要求1~4任一项所述的方法训练得到的;
根据预测出的所述分子片段的片段信息,向用户进行分子结构信息的信息推荐。
6.如权利要求5所述的方法,其特征在于,所述方法还包括:
将所述原始蛋白降解靶向嵌合体的三维分子图信息与预测出的片段信息对应进行存储。
7.一种模型训练的装置,其特征在于,包括:
获取模块,用于获取蛋白降解靶向嵌合体的数据集;
构建模块,用于根据所述蛋白降解靶向嵌合体的数据集,构建指定蛋白降解靶向嵌合体的三维分子图信息;
预测模块,用于将所述指定蛋白降解靶向嵌合体的三维分子图信息输入到待训练的预测模型中,以得到与所述指定蛋白降解靶向嵌合体组合成具有预设药物功能的分子片段的片段信息,其中,将所述指定蛋白降解靶向嵌合体的三维分子图信息输入到待训练的预测模型的编码器中,以使所述编码器确定针对所述指定蛋白降解靶向嵌合体内原子间距的嵌入向量,通过所述编码器,确定针对所述指定蛋白降解靶向嵌合体的注意力权重,通过所述编码器,根据所述注意力权重以及所述嵌入向量,确定针对所述指定蛋白降解靶向嵌合体的不变量特征以及等变量特征,所述不变量特征用于表征所述指定蛋白降解靶向嵌合体不会随分子结构变化的分子特征,所述等变量特征用于表征所述指定蛋白降解靶向嵌合体在分子结构上的特征,通过所述编码器,根据所述不变量特征以及所述等变量特征,确定所述指定蛋白降解靶向嵌合体的三维分子图特征,将所述三维分子图特征输入到所述预测模型的解码器中,以得到与所述指定蛋白降解靶向嵌合体组合成具有预设药物功能的分子片段的片段信息,作为目标片段信息;
训练模块,用于根据预测出的所述目标片段信息与所述指定蛋白降解靶向嵌合体对应的标签分子片段的片段信息之间的偏差,对所述预测模型进行训练。
8.如权利要求7所述的装置,其特征在于,所述构建模块,用于从所述数据集中选取出指定蛋白降解靶向嵌合体的数据;根据所述指定蛋白降解靶向嵌合体的数据,确定所述指定蛋白降解靶向嵌合体的表征数据,所述表征数据包括:用于表征所述指定蛋白降解靶向嵌合体内原子类型的数据、所述指定蛋白降解靶向嵌合体内各原子在指定坐标系下的坐标、所述指定蛋白降解靶向嵌合体内各原子的原子质量向量、所述指定蛋白降解靶向嵌合体内各原子的核电荷数向量、所述指定蛋白降解靶向嵌合体的分子质量、所述指定蛋白降解靶向嵌合体内的原子数目、所述指定蛋白降解靶向嵌合体的价电子数目、所述指定蛋白降解靶向嵌合体的logP值、所述指定蛋白降解靶向嵌合体的PK值、所述指定蛋白降解靶向嵌合体的分子结构特性数据、所述指定蛋白降解靶向嵌合体的药学特征数据、用于表征所述指定蛋白降解靶向嵌合体的分子结构特征的矩阵数据、所述指定蛋白降解靶向嵌合体中选定的锚点原子的坐标、所述指定蛋白降解靶向嵌合体中选定的锚点原子之间的距离;根据所述指定蛋白降解靶向嵌合体的表征数据,构建所述指定蛋白降解靶向嵌合体的三维分子图信息。
9.如权利要求7所述的装置,其特征在于,所述预测模块具体用于,将所述指定蛋白降解靶向嵌合体的三维分子图信息输入到待训练的预测模型中,以使所述预测模型根据所述三维分子图信息,预测与所述指定蛋白降解靶向嵌合体组合成具有预设药物功能的多个分子片段的片段信息,作为各候选片段信息;将所述各候选片段信息输入到预设的强化学习模型中,以通过所述强化学习模型,从所述各候选片段信息中选取出目标片段信息。
10.如权利要求9所述的装置,其特征在于,所述预测模块具体用于,针对每个候选片段信息,将该候选片段信息输入到所述强化学习模型中,以使所述强化学习模型以分子结构的logP值以及分子结构的PK值为基础,确定该候选片段信息的评分;根据每个候选片段信息的评分,从所述各候选片段信息中选取出目标片段信息。
11.一种分子结构信息的推荐装置,其特征在于,包括:
获取模块,用于获取原始蛋白降解靶向嵌合体的三维分子图信息;
预测模块,用于将所述原始蛋白降解靶向嵌合体的三维分子图信息输入到预先训练的预测模型,以使所述预测模型根据所述原始蛋白降解靶向嵌合体的三维分子图信息,预测与所述原始蛋白降解靶向嵌合体组合成具有预设药物功能的分子片段的片段信息,所述预测模型是通过上述权利要求1~5任一项所述的方法训练得到的;
推荐模块,用于根据预测出的所述分子片段的片段信息,向用户进行分子结构信息的信息推荐。
12.如权利要求11所述的装置,其特征在于,所述装置还包括:
存储模块,用于将所述原始蛋白降解靶向嵌合体的三维分子图信息与预测出的片段信息对应进行存储。
13.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1~6任一项所述的方法。
14.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述权利要求1~6任一项所述的方法。
CN202310560994.1A 2023-05-15 2023-05-15 一种模型训练的方法以及分子结构信息的推荐方法及装置 Active CN116597892B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310560994.1A CN116597892B (zh) 2023-05-15 2023-05-15 一种模型训练的方法以及分子结构信息的推荐方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310560994.1A CN116597892B (zh) 2023-05-15 2023-05-15 一种模型训练的方法以及分子结构信息的推荐方法及装置

Publications (2)

Publication Number Publication Date
CN116597892A CN116597892A (zh) 2023-08-15
CN116597892B true CN116597892B (zh) 2024-03-19

Family

ID=87600310

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310560994.1A Active CN116597892B (zh) 2023-05-15 2023-05-15 一种模型训练的方法以及分子结构信息的推荐方法及装置

Country Status (1)

Country Link
CN (1) CN116597892B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117393075A (zh) * 2023-12-12 2024-01-12 之江实验室 一种模型训练方法和基于分子能量信息的任务执行方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114420197A (zh) * 2022-01-04 2022-04-29 北京航空航天大学 基于自编码器的蛋白质降解靶向嵌合体的连接体设计方法
CN114464270A (zh) * 2022-01-17 2022-05-10 北京工业大学 一种针对不同靶点蛋白进行药物设计的通用性方法
CN115527607A (zh) * 2022-10-19 2022-12-27 北京深势科技有限公司 一种药物分子和蛋白靶点结合姿势预测处理方法
CN115762662A (zh) * 2022-11-30 2023-03-07 苏州创腾软件有限公司 基于图神经网络的特定靶标药物生成方法、装置和MaxFlow平台

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190050537A1 (en) * 2017-08-08 2019-02-14 International Business Machines Corporation Prediction and generation of hypotheses on relevant drug targets and mechanisms for adverse drug reactions

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114420197A (zh) * 2022-01-04 2022-04-29 北京航空航天大学 基于自编码器的蛋白质降解靶向嵌合体的连接体设计方法
CN114464270A (zh) * 2022-01-17 2022-05-10 北京工业大学 一种针对不同靶点蛋白进行药物设计的通用性方法
CN115527607A (zh) * 2022-10-19 2022-12-27 北京深势科技有限公司 一种药物分子和蛋白靶点结合姿势预测处理方法
CN115762662A (zh) * 2022-11-30 2023-03-07 苏州创腾软件有限公司 基于图神经网络的特定靶标药物生成方法、装置和MaxFlow平台

Also Published As

Publication number Publication date
CN116597892A (zh) 2023-08-15

Similar Documents

Publication Publication Date Title
Guo et al. DeepACLSTM: deep asymmetric convolutional long short-term memory neural models for protein secondary structure prediction
CN107957989B9 (zh) 基于集群的词向量处理方法、装置以及设备
CN108170667A (zh) 词向量处理方法、装置以及设备
CN116597892B (zh) 一种模型训练的方法以及分子结构信息的推荐方法及装置
CN108415941A (zh) 一种网页爬虫方法、装置以及电子设备
CN116663618B (zh) 一种算子优化方法、装置、存储介质及电子设备
US11915129B2 (en) Method and system for table retrieval using multimodal deep co-learning with helper query-dependent and query-independent relevance labels
CN116779021A (zh) 一种基于自动特征交叉的药物靶标结合亲和力预测方法和系统
CN113821657A (zh) 基于人工智能的图像处理模型训练方法及图像处理方法
CN111488510B (zh) 小程序相关词的确定方法、装置、处理设备及搜索系统
CN117573815B (zh) 一种基于向量相似度匹配优化的检索增强生成方法
CN116524998A (zh) 一种模型训练的方法以及分子性质信息的预测方法及装置
CN116402113B (zh) 一种任务执行的方法、装置、存储介质及电子设备
CN117409466A (zh) 一种基于多标签控制的三维动态表情生成方法及装置
CN117036829A (zh) 一种基于原型学习实现标签增强的叶片细粒度识别方法和系统
CN112307371B (zh) 小程序子服务识别方法、装置、设备及存储介质
Tan et al. Prediction of drug–protein interaction based on dual channel neural networks with attention mechanism
CN116913393A (zh) 一种基于强化学习的蛋白质进化方法及装置
KR20190040864A (ko) 부호화된 방향성 네트워크에서의 표현 학습 방법 및 장치
CN116415103B (zh) 一种数据处理的方法、装置、存储介质以及电子设备
CN111753339B (zh) 电子设备上安全锁的推荐方法、装置及设备
CN116108163B (zh) 一种文本的匹配方法、装置、设备及存储介质
CN117036830B (zh) 一种肿瘤分类模型训练方法、装置、存储介质及电子设备
CN107577659A (zh) 词向量处理方法、装置以及电子设备
US20240233379A1 (en) Methods and apparatus to enhance action segmentation model with causal explanation capability

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant