CN113707235B - 基于自监督学习的药物小分子性质预测方法、装置及设备 - Google Patents

基于自监督学习的药物小分子性质预测方法、装置及设备 Download PDF

Info

Publication number
CN113707235B
CN113707235B CN202111005170.5A CN202111005170A CN113707235B CN 113707235 B CN113707235 B CN 113707235B CN 202111005170 A CN202111005170 A CN 202111005170A CN 113707235 B CN113707235 B CN 113707235B
Authority
CN
China
Prior art keywords
molecular
target
feature vector
linear input
small molecule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111005170.5A
Other languages
English (en)
Other versions
CN113707235A (zh
Inventor
王俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202111005170.5A priority Critical patent/CN113707235B/zh
Publication of CN113707235A publication Critical patent/CN113707235A/zh
Priority to PCT/CN2022/071438 priority patent/WO2023029351A1/zh
Application granted granted Critical
Publication of CN113707235B publication Critical patent/CN113707235B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/20Identification of molecular entities, parts thereof or of chemical compositions
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开一种基于自监督学习的药物小分子性质预测方法、装置及设备,涉及人工智能技术领域,包括:生成目标药物小分子的分子图结构,并利用目标图神经网络模型确定分子图结构的第一特征向量;提取目标药物小分子的第一分子线性输入规范数据,以及不同药物小分子的第二分子线性输入规范数据,利用预设语言模型确定第一分子线性输入规范数据的第二特征向量和第二分子线性输入规范数据的第三特征向量;利用第一特征向量、第二特征向量和第三特征向量调整目标图神经网络模型的模型参数,以基于调整后的目标图神经网络模型输出目标药物小分子满足预设特征约束条件的目标特征向量;将目标特征向量输入训练完成的性质预测模型中,确定性质预测结果。

Description

基于自监督学习的药物小分子性质预测方法、装置及设备
技术领域
本申请涉及人工智能技术领域,尤其涉及到一种基于自监督学习的药物小分子性质预测方法、装置及设备。
背景技术
新药研发周期十分漫长,包括靶标选择与验证、从苗头化合物(Hit)的发现到先导化合物(Lead)最后到候选药物(Candidate)的发现与优化,层层筛选,成本高昂。为了充分挖掘药物分子背后的规律,加速发现药物研发的速度,从本世纪开始,药物开发领域的研究人员尝试将机器学习方法引入到药物化学研究中,以期解决药物开发过程中面临的问题。
传统的药物小分子性质预测方法要求研究人员进行特征工程以合理选择药物的分子描述符作为模型的特征输入,进行定量构效关系或构效关系(QSAR/QSPR)建模。而分子描述符的选取是一个繁琐、耗时的过程,而且选取的描述符会对模型施加较强的预设先验,使模型产生偏差,进而影响模型的预测性能。
发明内容
有鉴于此,本申请提供了一种基于自监督学习的药物小分子性质预测方法、装置及设备,可用于解决目前对药物小分子性质预测的效率较低、预测性能较差的技术问题。
根据本申请的一个方面,提供了一种基于自监督学习的药物小分子性质预测方法,该方法包括:
依据目标药物小分子的化学分子结构生成分子图结构,并利用目标图神经网络模型确定所述分子图结构对应的第一特征向量;
提取所述目标药物小分子对应的第一分子线性输入规范数据,以及与所述目标药物小分子不同化学分子结构的药物小分子对应的第二分子线性输入规范数据,并利用预设语言模型确定所述第一分子线性输入规范数据对应的第二特征向量以及所述第二分子线性输入规范数据对应的第三特征向量;
利用所述第一特征向量、所述第二特征向量和所述第三特征向量调整所述目标图神经网络模型的模型参数,以基于调整后的目标图神经网络模型输出所述目标药物小分子对应满足预设特征约束条件的目标特征向量;
将所述目标特征向量输入训练完成的性质预测模型中,确定所述目标药物小分子的性质预测结果。
根据本申请的另一个方面,提供了一种基于自监督学习的药物小分子性质预测装置,该装置包括:
第一确定模块,用于依据目标药物小分子的化学分子结构生成分子图结构,并利用目标图神经网络模型确定所述分子图结构对应的第一特征向量;
第二确定模块,用于提取所述目标药物小分子对应的第一分子线性输入规范数据,以及与所述目标药物小分子不同化学分子结构的药物小分子对应的第二分子线性输入规范数据,并利用预设语言模型确定所述第一分子线性输入规范数据对应的第二特征向量以及所述第二分子线性输入规范数据对应的第三特征向量;
调整模块,用于利用所述第一特征向量、所述第二特征向量和所述第三特征向量调整所述目标图神经网络模型的模型参数,以基于调整后的目标图神经网络模型输出所述目标药物小分子对应满足预设特征约束条件的目标特征向量;
第三确定模块,用于将所述目标特征向量输入训练完成的性质预测模型中,确定所述目标药物小分子的性质预测结果。
根据本申请的又一个方面,提供了一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述基于自监督学习的药物小分子性质预测方法。
根据本申请的再一个方面,提供了一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述基于自监督学习的药物小分子性质预测方法。
借由上述技术方案,本申请提供的一种基于自监督学习的药物小分子性质预测方法、装置及设备,与目前基于描述符的药物小分子性质预测方式相比,本申请可首先依据目标药物小分子的化学分子结构生成分子图结构,并利用目标图神经网络模型确定分子图结构对应的第一特征向量;进而在提取出目标药物小分子对应的第一分子线性输入规范数据,以及与目标药物小分子不同化学分子结构的药物小分子对应的第二分子线性输入规范数据后,利用预设语言模型确定第一分子线性输入规范数据对应的第二特征向量以及第二分子线性输入规范数据对应的第三特征向量;进一步的,可利用第一特征向量、第二特征向量和第三特征向量调整目标图神经网络模型的模型参数,以基于调整后的目标图神经网络模型输出目标药物小分子对应满足预设特征约束条件的目标特征向量;最后将目标特征向量输入训练完成的性质预测模型中,确定目标药物小分子的性质预测结果。本申请中的技术方案,通过综合分子图数据和分子线性输入规范数据的自监督预训练策略,可高效地计算的同时学到关键的分子表示信息,捕捉到不同数据中的通用结构规律,进而赋予其在不限定种类的下游图挖掘任务上的拟合能力,比传统的分子指纹、描述符等方式具有更好的预测表现,进而能够提高药物小分子性质预测的效率,保证多环药物小分子的性质预测精准度。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本地申请的不当限定。在附图中:
图1示出了本申请实施例提供的一种基于自监督学习的药物小分子性质预测方法的流程示意图;
图2示出了本申请实施例提供的另一种基于自监督学习的药物小分子性质预测方法的流程示意图;
图3示出了本申请实施例提供的一种基于自监督学习的药物小分子性质预测的原理示意图;
图4示出了本申请实施例提供的一种基于自监督学习的药物小分子性质预测装置的结构示意图;
图5示出了本申请实施例提供的另一种基于自监督学习的药物小分子性质预测装置的结构示意图。
具体实施方式
本申请实施例可以基于人工智能技术实现对药物小分子性质的预测。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
由于目前机器学习主流的方法大多是监督学习方法方法依赖人工标注的标签,这会带来一些缺陷:
(1)数据本身提供的信息远比稀疏的标签更加丰富,因此使用有监督学习方法训练模型需要大量的标签数据,并且得到的模型容易过拟合;
(2)有监督学习通过标签训练得到的模型往往只能学到一些任务特定的知识,而不能学习到一种通用的知识,因此有监督学习学到的特征表示难以迁移到其他任务。
鉴于此,参考自然语言处理(Natural Language Processing,NLP)中自监督学习方法,大量无标签的语言数据可被用于“预学习”和用于模型的训练和预测,在生物医学方面运用分子的分子线性输入规范(Simplified molecular-input line-entry system,SMILES)表示的化学语言,利用自然语言处理中的相关模型,可实现基于自监督学习方法的预训练。然而,单纯基于SMILES序列数据的训练模型会丢失一些分子结构的三维信息,从而影响相应的分子描述符的质量。另一方面,近年内兴起了基于分子图数据和图神经网络(Graph Neural Networks,GNN)的表示方法,但是同样需要大量的标签来训练模型。因此,目前用于药物分子性质预测的主流表示方式有两种渠道:SMILES字符串表达式和分子图,大多数方案都是基于其中之一实现的。故在本申请可通过整合两类重要的表征技术手段,以期获得更好的药物分子表示,基于药物表示实现。
在本申请中,具体可遵循“精确重构即合理”的思想:如果能够从低维连续的隐状态空间中以最佳精度重构本身(药物的SMILES表达式)的表示向量,才具备表示药物分子的合理性。因此,本申请中,可综合当下最有效的两种分子表示数据类型(SMILES表达式、分子图数据),设计预训练方法来学习更优的分子表示,以实现更准确的分子性质预测,提高小分子药物研发的成功率并降低实验室测量成本。
首先对两种主要的分子表示数据类型作出如下解释:
(1)SMILES:根据分子线性输入规范将小分子编码为字符串的形式。通过graph totext的映射算法得到的SMILES字符串已被广泛用于分子的表示。同一个分子可以由SMILES字符串表示,因此通常选择canonical表示(一种规范表示),而non-canonical字符串可以用于数据增强。由于SMILES依赖于基于序列的表示,自然语言处理算法可以自然地被移植到分子表达领域。将保留大量原始结构信息的SMILES表达式视作包含丰富语义的序列数据,使用循环神经网络(recurrent neural network,RNN)等序列建模方法或变分自编码器(variational autoencoder,VAE)等无监督学习方法,对SMILES表达式进行编码,将序列在模型中的隐藏状态作为药物分子在低维连续空间中的嵌入向量,称之为“基于SMILES表达式的药物表示学习”;
(2)分子图:以小分子中的原子为节点,连接原子的化学键为边,将小分子的结构用图(Graph)的形式表示。给定一个图G=(V,E),将原子表示为节点vi∈V,化学键表示为边(vi,vj)∈E,并根据原子类型和化学键类型为节点和边赋值对应的标签。然后使用图神经网络(Graph Neural Networks,GNN)直接从图结构数据中学习药物/图的低维连续表示,称之为“基于分子图的药物表示学习”。
这2种技术路线分别使用了药物分子的2种典型表示:SMILES表达式和分子图。
另一方面,虽然通过上述两种路径,结合深度学习方法在药物表示学习任务中取得了丰硕的成果,但是也面临着严峻的挑战。端到端训练方法时间成本较大:将药物表示学习任务和性质预测任务结合在一起进行端到端训练的工作流程虽然在足量数据下可以取得令人满意的效果,但模型训练的时间成本较高。如果将药物表示学习方法应用于相互作用预测任务,模型训练的时间成本将会更高。模型训练的时间成本问题对基于分子图的药物表示学习问题尤为突出。这几乎是所有基于非图谱方法的图卷积神经网络的共同缺点。更重要地,深度学习在各领域的成功部分归功于拥有大量带标记的训练数据,因为模型的性能通常会随着训练数据质量、多样性和数量的增加而相应提高。然而,要收集足够多的高质量数据来训练模型以使其具有良好的性能,往往非常困难,尤其是在样本数据标记成本和风险较高的医疗、生物化学等专业领域。
对于上述问题,在本申请中可以借鉴自然语言处理领域中BERT等预训练模型的成功经验,基于图神经网络GNN和分子SMILES数据的特点设计辅助的自监督任务,构建大规模的药物分子预训练模型,以便于可以学到良好的分子嵌入表示。此处,可从ZINC15和ChEMBL数据集收集1100万个未标记分子样本,用于对GNN进行预训练。
下文将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合。
针对目前对药物小分子性质预测的效率较低、预测性能较差的技术问题,本申请提供了一种基于自监督学习的药物小分子性质预测方法,如图1所示,该方法包括:
101、依据目标药物小分子的化学分子结构生成分子图结构,并利用目标图神经网络模型确定分子图结构对应的第一特征向量。
其中,目标药物小分子为待进行性质预测分析的小分子。
对于本实施例,可应用于图神经网络实现对目标药物小分子的第一特征向量的提取。图神经网络是一种连接模型,它通过图的节点之间的消息传递来捕捉图的依赖关系。与标准神经网络不同的是,图神经网络保留了一种状态,可以表示来自其邻域的具有任意深度的信息。具体来说,图神经网络通过聚合来自其相邻节点的信息来更新某个节点的表示。其中节点标签由相邻节点的有序标签集重复地增强。这种传播的基本机制是首先将邻域信息视为图子结构,然后通过将不同的子结构递归地投影到不同的特征空间中,通过可微函数对这种子结构进行建模。图神经网络的输入通常是一个图结构,其最终输出一般取决于具体的任务。以图性质预测为例,图神经网络根据图结构和输入节点属性,训练图中每个节点的隐式向量表示,其目标是让该向量表示包含足够强大的表达信息,使其能够帮助每个节点进行信息抽取,最后通过平均池化等方式,可以获得整个图的信息向量表示。
在对图神经网络应用前,需要结合任务场景对图神经网络进行预训练。一般情况下,若有充足的数据和标签,可以通过有监督学习的方式对图神经网络进行预训练。但是在现实生活中,常常有大量的数据而仅仅有少量的标签,而标注数据需要耗费大量的精力,若直接丢掉这些未标注的数据也很可惜。因此可为这些未标注数据“造标签”,当然这些标签和学习任务的最终标签不一样,否则也不用模型学习了。例如,想用图神经网络做图上节点的分类,然而有标签的节点很少,这时候可以设计一些其他任务,比如利用图神经网络预测节点的度,节点的度信息可以简单的统计得到,通过这样的学习,希望图神经网络能够学习到每个节点在图结构中的局部信息,而这些信息对于最终的节点分类任务是有帮助的。例如可从ZINC15和ChEMBL数据集收集预设数量个未标记分子样本,用于对图神经网络进行预训练。在上面的例子中,节点的标签是最终想要预测的标签,而节点的度是造出来的标签。通过使用图神经网络预测节点的度,可以得到:1)适用于节点度预测的节点embedding;2)适用于节点度预测任务的图神经网络的权重矩阵。然后可以将节点embedding接到分类器中并使用有标签的数据进行分类学习;直接在图神经网络上使用有标签的数据继续训练,调整权重矩阵,以得到适用于节点分类任务的模型。
相应的,本申请中,为了通过图网络学习分子级别表示,可从大规模无标注数据中创造伪标签作为监督信号,利用此构造监督信号,对模型进行有监督学习,从而有效地学习到数据中的潜在特征和信息。故在执行本实施例步骤之前,作为一种优选方式,实施例步骤具体可以包括:获取未标记图数据集和第一标记图数据集,第一标记图数据集的训练任务与预设性质预测任务不同;将未标记图数据集作为训练样本,通过对预设的图神经网络模型进行训练,调整图神经网络模型的参数,得到第一图神经网络模型;将第一标记图数据集作为训练样本,通过对第一图神经网络模型进行训练,调整第一图神经网络模型的参数,得到第二图神经网络模型;将预设性质预测任务对应的第二标记图数据集作为训练样本,通过对第二图神经网络模型进行训练,调整第二图神经网络模型的参数,得到目标图神经网络模型。由于在得到第一图神经网络模型之后、得到应用于待应用场景的图神经网络之前,将第一标记图数据集作为训练样本,通过对第一图神经网络模型进行训练,调整第一图神经网络模型的参数,所得到的第二图神经网络模型学习到了如何对标记图数据这一形式的图数据进行基础的数据处理、分析等规律。再采用第二标记图数据作为训练样本,对第二图神经网络模型进行训练时,使得第二图神经网络模型能够快速地对第二标记图数据进行处理和分析,从而进一步提高了模型训练的效率,并优化了训练得到的图神经网络的质量。
其中,在上述基于训练样本对图神经网络模型进行训练,并调整图神经网络模型的参数时,可从图数据的邻接矩阵中,随机掩盖(mask)掉约15%比例的节点或者节点的连接关系,来扰动原图的完整性(例如原始分子图数据有20个原子节点,随机从中掩盖掉15%左右的3个节点,邻接矩阵也相应扰动变换),通过此方式来构造学习目标,让模型通过学习预测被掩盖的节点或节点连接关系的方式,来学习图数据的节点的紧凑的信息表达。如果模型能够较好的预测出被掩盖的节点或者节点属性,说明模型已经学到了关于数据的基本知识,后续学习其他的后续任务时,能够获得更好的表现。
相应的,对于本实施例,在训练得到目标图神经网络模型后,可将目标药物小分子的分子图结构输入目标图神经网络模型,得到对应分子尺度下的第一特征向量。
对于本申请的执行主体可为用于对药物小分子性质预测的装置,可配置在客户端侧或服务端侧,可预先依据目标药物小分子的化学分子结构生成分子图结构,并利用目标图神经网络模型确定分子图结构对应的第一特征向量;进而在提取目标药物小分子对应的第一分子线性输入规范数据,以及与目标药物小分子不同化学分子结构的药物小分子对应的第二分子线性输入规范数据后,利用预设语言模型确定第一分子线性输入规范数据对应的第二特征向量以及第二分子线性输入规范数据对应的第三特征向量;之后可利用第一特征向量、第二特征向量和第三特征向量调整目标图神经网络模型的模型参数,以基于调整后的目标图神经网络模型输出目标药物小分子对应满足预设特征约束条件的目标特征向量;最后将目标特征向量输入训练完成的性质预测模型中,即可确定得到目标药物小分子的性质预测结果。
102、提取目标药物小分子对应的第一分子线性输入规范数据,以及与目标药物小分子不同化学分子结构的药物小分子对应的第二分子线性输入规范数据,并利用预设语言模型确定第一分子线性输入规范数据对应的第二特征向量以及第二分子线性输入规范数据对应的第三特征向量。
其中,预设语言模型具体可为BERT语言模型,BERT(Bidirectional EncoderRepresentation Transformers)代表来自Transformer的双向编码器表示。BERT旨在通过联合调节所有层中的左右上下文来预训练深度双向表示。BERT会采用WordPiece对输入进行分割,WordPiece使用双字节编码将词语拆分成一片片片的,双字节编码可以将同一个词时态的影响降低,使词的意思与时态分开,有效减少了词表规模。其次,对句子进行embedding时引入了[CLS]与[SEP]特殊字符,对每个句子序列的第一个标记始终是[CLS],对于分类任务而言,该标记对应的Transformer的输出可用在该序列的总表示,[SEP]的作用是将打包到一起的句子对区分开来。接着BERT还会给第一个句子的每个标记加入A嵌入,给第二个句子的每个标记加入E嵌入。最后,对输入的每个位置都会训练一个位置嵌入向量。
对于本实施例,可基于分子线性输入规范SMILES确定目标药物小分子对应的第一分子线性输入规范数据,以及与目标药物小分子不同化学分子结构的药物小分子对应的第二分子线性输入规范数据。其中,分子线性输入规范可对应为:(1)、原子用在方括号内的化学元素符号表示,例如[Au]表示“金”,氢氧根离子是[OH-]。有机物中的C、N、O、P、S、Br、Cl、I等原子可以省略方括号,其他元素必须包括在方括号之内;(2)、氢原子常被省略。对于省略了方括号的原子,用氢原子补足价数。例如,水的SMILES就是O,乙醇是CCO;(3)、双键用“=”表示;三键用“#”表示。含有双键的二氧化碳则表示为O=C=O,含有三键的氰化氢表示为C#N;(4)、如果结构中有环,则要打开。断开处的两个原子用同一个数字标记,表示原子间有键相连。环己烷(C6H12)表示为C1CCCCC1。需要注意,标志应该是数字(在此例中为1)而不是“C1”这个组合。扩展的表示是(C1)-(C)-(C)-(C)-(C)-(C)-1而不是(C1)-(C)-(C)-(C)-(C)-(C)-(C1);(5)、芳环中的C、O、S、N原子分别用小写字母c,o,s,n表示;(6)、碳链上的分支用圆括号表示。比如丙酸表示为CCC(=O)O,FC(F)F或者C(F)(F)F表示三氟甲烷;(7)、在芳香结构中的N原子上连有一个H原子,用[nH]表示;(8)、用@和@@表示手性。
相应的,在确定出目标药物小分子对应的第一分子线性输入规范数据,以及与目标药物小分子不同化学分子结构的药物小分子对应的第二分子线性输入规范数据后,可进一步将第一分子线性输入规范数据和第二分子线性输入规范数据分别输入预训练完成的预设语言模型中,利用预设语言模型输出与第一分子线性输入规范数据匹配的第二特征向量,以及与第二分子线性输入规范数据匹配的第三特征向量。
103、利用第一特征向量、第二特征向量和第三特征向量调整目标图神经网络模型的模型参数,以基于调整后的目标图神经网络模型输出目标药物小分子对应满足预设特征约束条件的目标特征向量。
对于本实施例,当获得目标小分子的来自两个路径(目标图神经网络模型和BERT语言模型)的表示之后,希望目标小分子的两类表示尽可能接近,而目标小分子与其他分子的表示尽可能不相似,即第一特征向量和第二特征向量的特征相似度较大,且第一特征向量和任一第三特征向量的特征相似度较小。对此,可通过将目标图神经网络模型和BERT语言模型抽取的分子表示进行对比学习,以调整目标图神经网络模型的模型参数,进一步基于调整后的目标图神经网络模型输出目标药物小分子对应满足预设特征约束条件的目标特征向量。其中,对比学习是一种为ML模型描述相似和不同事物的任务的方法。利用这种方法,可以训练机器学习模型来区分相似和不同的特征向量。对于本实施例,可应用于对比学习,使目标图神经网络模型最终输出的目标特征向量相比于第一特征向量具有更优的数据表达。
104、将目标特征向量输入训练完成的性质预测模型中,确定目标药物小分子的性质预测结果。
其中,性质预测模型可对应现有神经网络模型中的任意一种,例如可为线性回归模型、决策树模型、神经网络模型、支持向量机模型、隐马尔可夫模型等,在本申请中不进行具体的限定;性质预测结果具体可包括靶标结合性质预测、活性预测、毒性预测、功效预测、水溶性预测、不良反应预测、针对某一疾病的治疗效果预测等预测中的一种或多种,具体可根据实际应用预测场景进行性质预测类型的设定,在本方案中不进行具体的限定。需要说明的的是,在执行本实施例步骤之前,需要预先利用标签样本对性质预测模型进行训练,以便利用训练完成的性质预测模型实现对目标药物小分子的性质预测。
通过本实施例中基于自监督学习的药物小分子性质预测方法,可首先依据目标药物小分子的化学分子结构生成分子图结构,并利用目标图神经网络模型确定分子图结构对应的第一特征向量;进而在提取出目标药物小分子对应的第一分子线性输入规范数据,以及与目标药物小分子不同化学分子结构的药物小分子对应的第二分子线性输入规范数据后,利用预设语言模型确定第一分子线性输入规范数据对应的第二特征向量以及第二分子线性输入规范数据对应的第三特征向量;进一步的,可利用第一特征向量、第二特征向量和第三特征向量调整目标图神经网络模型的模型参数,以基于调整后的目标图神经网络模型输出目标药物小分子对应满足预设特征约束条件的目标特征向量;最后将目标特征向量输入训练完成的性质预测模型中,确定目标药物小分子的性质预测结果。本申请中的技术方案,通过综合分子图数据和分子线性输入规范数据的自监督预训练策略,可高效地计算的同时学到关键的分子表示信息,捕捉到不同数据中的通用结构规律,进而赋予其在不限定种类的下游图挖掘任务上的拟合能力,比传统的分子指纹、描述符等方式具有更好的预测表现,进而能够提高药物小分子性质预测的效率,保证多环药物小分子的性质预测精准度。
进一步的,作为上述实施例具体实施方式的细化和扩展,为了完整说明本实施例中的具体实施过程,提供了另一种基于自监督学习的药物小分子性质预测方法,如图2所示,该方法包括:
201、依据目标药物小分子的化学分子结构生成分子图结构,并将分子图结构和分子图结构中携带的邻接矩阵、属性信息输入目标图神经网络模型,获取分子图结构中各个节点的节点隐向量。
对于本实施例,在执行本实施例步骤之前,需要对图神经网络模型进行预训练,进而利用预训练完成的目标图神经网络模型确定分子图结构中各个节点的节点隐向量。其中,具体的预训练过程与实施例步骤101中的预训练过程相同,再次不再赘述。
其中,邻接矩阵为表示节点连接关系构成的n*n矩阵,在邻接矩阵中有连接关系的元素表示为1,没有连接关系的元素为0,n为目标小分子包含的节点个数;属性信息可包括原子的节点初始特征向量以及边初始特征向量。节点初始特征向量是按照第一预设向量生成规则生成的,其中,第一预设向量生成规则可参见表1所示,节点初始特征向量可为由6位化学键个数+5位形式电荷+4位原子手性+5位绑定的氢原子个数+5位原子轨道混成+1位芳香性+1位原子质量构成的27位特征向量。边初始特征向量是按照第二预设向量生成规则生成的,其中,第二预设向量生成规则可参见表2所示,边初始特征向量可为由4位化学键类型+1位共轭性+1位在环中+6位立体性构成的12位特征向量。
表1
表2
对于本实施例,可将分子图结构和分子图结构中携带的邻接矩阵、属性信息输入目标图神经网络模型,利用目标图神经网络模型的迭代学习,得到分子图结构中各个节点的节点隐向量。
特别地,目标图神经网络模型学习的主要过程是通过迭代对图数据中节点的邻居信息进行聚合和更新。在一次迭代中,每一个节点通过聚合邻居节点的特征及自己在上一层的特征来更新自己的信息,通常也会对聚合后的信息进行非线性变换。通过堆叠多层网络,每个节点可以获取到相应跳数内的邻居节点信息。
其中,图神经网络模型的学习以节点消息传递的方式理解的话,涉及到两个过程,信息传递(message passing)阶段和读出(readout)阶段。信息传递阶段就是前向传播阶段,该阶段循环运行T个steps,并通过信息函数Mt获取信息,通过更新函数Ut更新节点。
信息函数Mt和更新函数Ut的公式特征描述为:
其中,evw表示从节点v到w的边的特征向量。
读出(readout)阶段计算一个特征向量用于整个图的表示(representation),使用函数R实现,函数R的公式特征描述为:
其中T表示整个时间step数,其中的函数Mt,Ut和R可以使用不同的模型设置,如图卷积网络(Graph Convolutional Network,GCN)、注意力模型(Graph Attention,GAT)等。
目标图神经网络模型对分子表示学习的中心思想可以理解为:假如用初始特征向量分别表达不同的节点和不同的边,可以通过消息传播的迭代方式,找到节点最终稳定的特征向量表达方式。经过固定步骤比如T步骤以后,每个节点对应的特征向量可以一定程度趋于平衡不再变化。于是,有了每个节点的最终稳定的特征向量,相比于原始的节点特征向量,每个节点最终的特征向量还包含了其邻居节点和整个图的信息(例如,化学分子中的某些原子节点,假设其对分子的某项性质的贡献最大,在最终的特征向量中就会有相应的更特异的表达)。
202、利用各个节点的节点隐向量生成目标药物小分子的第一特征向量。
对于本实施例,在基于实施例步骤201确定出分子图结构中各个节点的节点隐向量后,可进一步依据各个节点的节点隐向量获得整个分子结构图的信息向量表示(如通过原子节点的特征,和原子之间的连边化学键信息,抽取出整个分子化合物的分子级别的信息表示)。作为一种优选方式,实施例步骤202具体可以包括:计算节点隐向量的隐向量平均值,将隐向量平均值确定为目标药物小分子的第一特征向量;或,在节点隐向量提取对应隐向量值最大的第一节点隐向量,将第一节点隐向量确定为第一特征向量。
203、提取目标药物小分子对应的第一分子线性输入规范数据,以及与目标药物小分子不同化学分子结构的药物小分子对应的第二分子线性输入规范数据,并利用预设语言模型确定第一分子线性输入规范数据对应的第二特征向量以及第二分子线性输入规范数据对应的第三特征向量。
对于本实施例,作为一种优选方式,在提取目标药物小分子对应的第一分子线性输入规范数据,以及与目标药物小分子不同化学分子结构的药物小分子对应的第二分子线性输入规范数据时,实施例步骤203具体可以包括:按照预设药物小分子标识,在分子线性输入规范数据库中提取与目标药物小分子匹配的第一分子线性输入规范数据以及预设数量个与目标药物小分子不同化学分子结构的药物小分子对应的第二分子线性输入规范数据,其中,第一分子线性输入规范数据和第二分子线性输入规范数据是预先基于分子线性输入规范生成并存储至分子线性输入规范数据库中的。
相应的,作为一种优选方式,在利用预设语言模型确定第一分子线性输入规范数据对应的第二特征向量以及第二分子线性输入规范数据对应的第三特征向量之前,实施例步骤具体还可以包括:获取样本分子线性输入规范数据,以及相应的样本特征向量;对样本分子线性输入规范数据随机进行部分数据遮盖后,输入初始BERT模型,以输出训练结果;计算训练结果与样本特征向量的损失值;若损失值达到模型收敛要求,则将初始BERT模型确定为预设语言模型;若否,则更新初始BERT模型的模型参数,并对更新后的初始BERT模型进行迭代训练,直至损失值符合模型收敛要求。
进一步的,可将第一分子线性输入规范数据输入训练完成的预设语言模型中,获取第二特征向量;将第二分子线性输入规范数据输入训练完成的预设语言模型中,获取第三特征向量。
204、利用第一特征向量、第二特征向量和第三特征向量计算对比损失函数。
对于本实施,可分别计算第一特征向量和第二特征向量的第一对比损失函数,以及第一特征向量和第三特征向量的第二对比损失函数,以通过第一对比损失函数和第二对比损失函数的综合计算结果,验证目标图神经网络模型输出的第一特征向量是否符合预设特征约束条件。由于第一特征向量和第二特征向量是对同一目标药物小分子的特征表达,故第一特征向量和第二特征向量应较为接近,由于第一特征向量和第三特征向量是对不同目标药物小分子的特征表达,故第一特征向量和任意一个第三特征向量均应是不相似的,故可设定预设特征约束条件为:第一对比损失函数小于第一预设距离阈值,且第二对比损失函数大于第二预设距离阈值。若判定上述两个对比损失函数的计算结果符合预设特征约束条件,则可直接将第一特征向量确定为目标特征向量;若否,则需要进一步执行实施例步骤205,以对目标图神经网络模型的模型参数进行调整,进一步利用调整后的目标图神经网络模型输出目标药物小分子对应满足预设特征约束条件的目标特征向量。
对于本实施例,对比损失函数(Contrastive Loss)的公式特征描述为:
其中,代表两个特征向量X1(第一特征向量)和X2(第二特征向量或第三特征向量)的欧氏距离(二范数),P表示特征向量的特征维数,Y为两个特征向量是否匹配的标签,Y=1代表两个特征向量相似或者匹配,Y=0则代表不匹配,m为设定的阈值,N为特征向量个数。
观察上述的损失函数的表达式可以发现,这种损失函数可以很好的表达成对特征向量的匹配程度,也能够很好用于训练提取特征的模型。
205、依据对比损失函数调整目标图神经网络模型的模型参数,直至目标图神经网络模型输出目标药物小分子对应的目标特征向量和第二特征向量的特征距离小于第一预设距离阈值且目标特征向量和任一第三特征向量的特征距离大于第二预设距离阈值。
对于本实施例,可承接实施例步骤204中的对比损失函数,通过对对比损失函数的分析,可发现:
①当Y=1(即特征向量相似时),损失函数只剩下即与第一特征向量对应分子结构相同的第二特征向量,与第一特征向量的特征距离应比较小,具体可通过设定第一预设距离阈值,进一步依据第一预设距离阈值判定第一特征向量和第二特征向量计算出的第一对比损失函数是否合理。如果在特征空间第二特征向量与第一特征向量的欧式距离较大,则说明当前的模型不好,因此加大损失。其中,第一预设距离阈值可根据实际应用场景进行设定,在此进行具体的限定。
②当Y=0(即特征向量不相似时),损失函数为即与第一特征向量对应不相同分子结构的第三特征向量,与第一特征向量的特征距离应比较大,具体可通过设定第二预设距离阈值,进一步依据第二预设距离阈值判定第一特征向量和第三特征向量计算出的第二对比损失函数是否合理。如果第三特征向量在特征空间与第一特征向量的欧式距离反而小的话,损失值会变大。这里设置了一个阈值margin,表示我们只考虑不相似特征欧式距离在0~margin之间的,当距离超过margin的,则把其loss看做为0(即不相似的特征离的很远,其loss应该是很低的;而对于相似的特征反而离的很远,我们就需要增加其loss,从而不断更新成对特征向量的匹配程度)。
基于此,利用对比损失函数建模特征向量间的局部关系、增强数据间表达的一致性的解决思路将更加有效地学到数据的表达。本来同一分子数据经过两种路径提取的相似的embedding,在特征空间中,两个embedding仍旧相似;而原本不相似分子结构的特征向量,在经过特征降维后,在特征空间中,两个特征向量仍旧不相似。
对于本实施例,若判定上述两个对比损失函数的计算结果不符合预设特征约束条件,即第一特征向量和第二特征向量的特征距离大于/等于第一预设距离阈值,和/或第一特征向量和任一第三特征向量的特征距离小于/等于第二预设距离阈值时,则可进一步判定当前的第一特征向量不是目标药物小分子能够区分于与目标药物小分子不同化学分子结构的药物小分子的最优化分子表达。进而可通过迭代调整目标图神经网络模型的模型参数,以基于调整后的目标图神经网络模型输出目标药物小分子对应满足预设特征约束条件的目标特征向量,使目标特征向量和第二特征向量的特征距离小于第一预设距离阈值,且目标特征向量和任一第三特征向量的特征距离大于第二预设距离阈值。
206、将目标特征向量输入训练完成的性质预测模型中,确定目标药物小分子的性质预测结果。
在具体的应用场景中,在执行本实施例步骤之前,实施例步骤具体还包括:将与目标药物小分子对应预设性质预测任务匹配的样本特征向量作为训练样本,训练预设的性质预测模型;计算性质预测模型的损失函数,在损失函数小于预设阈值时,判定性质预测模型训练完成。其中,损失函数用于表示性质预测模型的预测结果相对于样本标记结果的预测误差,预设阈值取值在0到1之间,用于表示性质预测模型的训练精度,预设阈值越接近于1,表示性质预测模型的训练精度越高,预设阈值的具体数值可根据实际应用场景进行设定,在此不作具体的限定。性质预测模型可对应现有神经网络模型中的任意一种,例如可为线性回归模型、决策树模型、神经网络模型、支持向量机模型、隐马尔可夫模型等,可根据实际应用需求进行适应性选取,在本申请中不进行具体的限定。
相应的,对于本实施例,在判定性质预测模型训练完成后,可进一步将目标特征向量输入训练完成的性质预测模型中,以确定出目标药物小分子的性质预测结果。
对于本申请,基于自监督学习的药物小分子性质预测过程可参见图3所示的基于图神经网络的药物小分子性质预测的原理示意图,对于同一多环目标药物小分子,可首先在原子尺度,依据目标药物小分子的化学分子结构生成分子图结构,以及在化学语言尺度,生成目标药物小分子对应的第一分子线性输入规范数据,以及与目标药物小分子不同化学分子结构的药物小分子对应的第二分子线性输入规范数据;进而利用目标图神经网络模型(Graph Neural Networks,GNN)确定分子图结构对应的第一特征向量,利用预设语言模型(Bidirectional Encoder Representation Transformers,BERT)确定第一分子线性输入规范数据对应的第二特征向量以及第二分子线性输入规范数据对应的第三特征向量;进而基于第一特征向量、第二特征向量和第三特征向量计算的对比损失函数(ContrastiveLoss),调整目标图神经网络模型的模型参数,以基于调整后的目标图神经网络模型输出目标药物小分子对应满足预设特征约束条件的目标特征向量;最后将目标特征向量输入训练完成的性质预测模型中,即可确定出目标药物小分子的性质预测结果。
借由上述基于自监督学习的药物小分子性质预测方法,可首先依据目标药物小分子的化学分子结构生成分子图结构,并利用目标图神经网络模型确定分子图结构对应的第一特征向量;进而在提取出目标药物小分子对应的第一分子线性输入规范数据,以及与目标药物小分子不同化学分子结构的药物小分子对应的第二分子线性输入规范数据后,利用预设语言模型确定第一分子线性输入规范数据对应的第二特征向量以及第二分子线性输入规范数据对应的第三特征向量;进一步的,可利用第一特征向量、第二特征向量和第三特征向量调整目标图神经网络模型的模型参数,以基于调整后的目标图神经网络模型输出目标药物小分子对应满足预设特征约束条件的目标特征向量;最后将目标特征向量输入训练完成的性质预测模型中,确定目标药物小分子的性质预测结果。通过本申请中的技术方案,综合分子图数据和分子线性输入规范数据的自监督预训练策略,可高效地计算的同时学到关键的分子表示信息,捕捉到不同数据中的通用结构规律,进而赋予其在不限定种类的下游图挖掘任务上的拟合能力,比传统的分子指纹、描述符等方式具有更好的预测表现,进而能够提高药物小分子性质预测的效率,保证多环药物小分子的性质预测精准度。此外,预训练模型可用于多种下游任务,使原来的手工调参、依靠机器学习工程师和专家的方式,转变到可适用于大规模、可复制的工业施展的方式,进而能够提高药物小分子的性质预测效率,节省预测成本。
进一步的,作为图1和图2所示方法的具体实现,本申请实施例提供了一种基于自监督学习的药物小分子性质预测装置,如图4所示,该装置包括:第一确定模块31、第二确定模块32、调整模块33、第三确定模块34;
第一确定模块31,用于依据目标药物小分子的化学分子结构生成分子图结构,并利用目标图神经网络模型确定分子图结构对应的第一特征向量;
第二确定模块32,可用于提取目标药物小分子对应的第一分子线性输入规范数据,以及与目标药物小分子不同化学分子结构的药物小分子对应的第二分子线性输入规范数据,并利用预设语言模型确定第一分子线性输入规范数据对应的第二特征向量以及第二分子线性输入规范数据对应的第三特征向量;
调整模块33,可用于利用第一特征向量、第二特征向量和第三特征向量调整目标图神经网络模型的模型参数,以基于调整后的目标图神经网络模型输出目标药物小分子对应满足预设特征约束条件的目标特征向量;
第三确定模块34,可用于将目标特征向量输入训练完成的性质预测模型中,确定目标药物小分子的性质预测结果。
在具体的应用场景中,调整模块33,具体可用于利用第一特征向量、第二特征向量和第三特征向量计算对比损失函数;依据对比损失函数调整目标图神经网络模型的模型参数,直至目标图神经网络模型输出目标药物小分子对应的目标特征向量和第二特征向量的特征距离小于第一预设距离阈值且目标特征向量和任一第三特征向量的特征距离大于第二预设距离阈值。
在具体的应用场景中,分子图结构中携带有邻接矩阵以及属性信息,属性信息包含节点初始特征向量和边初始特征向量,其中,节点初始特征向量和边初始特征向量是依据预设向量生成规则确定的;相应的,在利用目标图神经网络模型确定分子图结构对应的第一特征向量时,第一确定模块31,具体可用于将分子图结构和邻接矩阵、属性信息输入目标图神经网络模型,获取分子图结构中各个节点的节点隐向量;利用各个节点的节点隐向量生成目标药物小分子的第一特征向量。
相应的,在利用各个节点的节点隐向量生成目标药物小分子的第一特征向量时,第一确定模块31,具体可用于计算节点隐向量的隐向量平均值,将隐向量平均值确定为目标药物小分子的第一特征向量;或,在节点隐向量提取对应隐向量值最大的第一节点隐向量,将第一节点隐向量确定为第一特征向量。
在具体的应用场景中,在提取目标药物小分子对应的第一分子线性输入规范数据,以及与目标药物小分子不同化学分子结构的药物小分子对应的第二分子线性输入规范数据时,第二确定模块32,具体可用于按照预设药物小分子标识,在分子线性输入规范数据库中提取与目标药物小分子匹配的第一分子线性输入规范数据以及预设数量个与目标药物小分子不同化学分子结构的药物小分子对应的第二分子线性输入规范数据,其中,第一分子线性输入规范数据和第二分子线性输入规范数据是预先基于分子线性输入规范生成并存储至分子线性输入规范数据库中的。
在具体的应用场景中,为实现对预设语言模型的预训练,如图5所示,该装置还包括:第一获取模块35、输入模块36、计算模块37、第四确定模块38、更新模块39;
第一获取模块35,可用于获取样本分子线性输入规范数据,以及相应的样本特征向量;
输入模块36,可用于对样本分子线性输入规范数据随机进行部分数据遮盖后,输入初始BERT模型,以输出训练结果;
计算模块37,可用于计算训练结果与样本特征向量的损失值;
第四确定模块38,可用于若损失值达到模型收敛要求,则将初始BERT模型确定为预设语言模型;
更新模块39,可用于若损失值未达到模型收敛要求,则更新初始BERT模型的模型参数,并对更新后的初始BERT模型进行迭代训练,直至损失值符合模型收敛要求。
相应的,为实现对目标图神经网络模型的预训练,如图5所示,该装置还包括:第二获取模块310、第一训练模块311、第二训练模块311、第三训练模块313;
第二获取模块310,可用于获取未标记图数据集和第一标记图数据集,第一标记图数据集的训练任务与预设性质预测任务不同;
第一训练模块311,可用于将未标记图数据集作为训练样本,通过对预设的图神经网络模型进行训练,调整图神经网络模型的参数,得到第一图神经网络模型;
第二训练模块312,可用于将第一标记图数据集作为训练样本,通过对第一图神经网络模型进行训练,调整第一图神经网络模型的参数,得到第二图神经网络模型;
第三训练模块313,可用于将预设性质预测任务对应的第二标记图数据集作为训练样本,通过对第二图神经网络模型进行训练,调整第二图神经网络模型的参数,得到目标图神经网络模型。
需要说明的是,本实施例提供的一种基于自监督学习的药物小分子性质预测装置所涉及各功能单元的其他相应描述,可以参考图1至图2的对应描述,在此不再赘述。
基于上述如图1至图2所示方法,相应的,本实施例还提供了一种存储介质,存储介质具体可为易失性或非易失性,其上存储有计算机可读指令,该可读指令被处理器执行时实现上述如图1至图2所示的基于自监督学习的药物小分子性质预测方法。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景的方法。
基于上述如图1至图2所示的方法和图4、图5所示的虚拟装置实施例,为了实现上述目的,本实施例还提供了一种计算机设备,该计算机设备包括存储介质和处理器;存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述如图1至图2所示的基于自监督学习的药物小分子性质预测方法。
可选的,该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的一种计算机设备结构并不构成对该实体设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储介质中还可以包括操作系统、网络通信模块。操作系统是管理上述计算机设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信,以及与信息处理实体设备中其它硬件和软件之间通信。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现。
通过应用本申请的技术方案,与目前现有技术相比,本申请可首先依据目标药物小分子的化学分子结构生成分子图结构,并利用目标图神经网络模型确定分子图结构对应的第一特征向量;进而在提取出目标药物小分子对应的第一分子线性输入规范数据,以及与目标药物小分子不同化学分子结构的药物小分子对应的第二分子线性输入规范数据后,利用预设语言模型确定第一分子线性输入规范数据对应的第二特征向量以及第二分子线性输入规范数据对应的第三特征向量;进一步的,可利用第一特征向量、第二特征向量和第三特征向量调整目标图神经网络模型的模型参数,以基于调整后的目标图神经网络模型输出目标药物小分子对应满足预设特征约束条件的目标特征向量;最后将目标特征向量输入训练完成的性质预测模型中,确定目标药物小分子的性质预测结果。通过本申请中的技术方案,综合分子图数据和分子线性输入规范数据的自监督预训练策略,可高效地计算的同时学到关键的分子表示信息,捕捉到不同数据中的通用结构规律,进而赋予其在不限定种类的下游图挖掘任务上的拟合能力,比传统的分子指纹、描述符等方式具有更好的预测表现,进而能够提高药物小分子性质预测的效率,保证多环药物小分子的性质预测精准度。此外,预训练模型可用于多种下游任务,使原来的手工调参、依靠机器学习工程师和专家的方式,转变到可适用于大规模、可复制的工业施展的方式,进而能够提高药物小分子的性质预测效率,节省预测成本。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims (10)

1.一种基于自监督学习的药物小分子性质预测方法,其特征在于,包括:
依据目标药物小分子的化学分子结构生成分子图结构,其中,所述分子图结构中携带有邻接矩阵以及属性信息,所述属性信息包含节点初始特征向量和边初始特征向量,所述节点初始特征向量和所述边初始特征向量是依据预设向量生成规则确定的;
将所述分子图结构和所述邻接矩阵、所述属性信息输入目标图神经网络模型,获取所述分子图结构中各个节点的节点隐向量;利用所述各个节点的节点隐向量生成所述目标药物小分子的第一特征向量;
提取所述目标药物小分子对应的第一分子线性输入规范数据,以及与所述目标药物小分子不同化学分子结构的药物小分子对应的第二分子线性输入规范数据,并利用预设语言模型确定所述第一分子线性输入规范数据对应的第二特征向量以及所述第二分子线性输入规范数据对应的第三特征向量;
利用所述第一特征向量、所述第二特征向量和所述第三特征向量计算对比损失函数;依据所述对比损失函数调整所述目标图神经网络模型的模型参数,直至所述目标图神经网络模型输出所述目标药物小分子对应的目标特征向量和所述第二特征向量的特征距离小于第一预设距离阈值且所述目标特征向量和任一所述第三特征向量的特征距离大于第二预设距离阈值;
将所述目标特征向量输入训练完成的性质预测模型中,确定所述目标药物小分子的性质预测结果。
2.根据权利要求1所述的方法,其特征在于,所述利用所述各个节点的节点隐向量生成所述目标药物小分子的第一特征向量,包括:
计算所述节点隐向量的隐向量平均值,将所述隐向量平均值确定为所述目标药物小分子的第一特征向量;或,
在所述节点隐向量提取对应隐向量值最大的第一节点隐向量,将所述第一节点隐向量确定为所述第一特征向量。
3.根据权利要求1所述的方法,其特征在于,所述提取所述目标药物小分子对应的第一分子线性输入规范数据,以及与所述目标药物小分子不同化学分子结构的药物小分子对应的第二分子线性输入规范数据,包括:
按照预设药物小分子标识,在分子线性输入规范数据库中提取与所述目标药物小分子匹配的第一分子线性输入规范数据以及预设数量个与所述目标药物小分子不同化学分子结构的药物小分子对应的第二分子线性输入规范数据,其中,所述第一分子线性输入规范数据和所述第二分子线性输入规范数据是预先基于分子线性输入规范生成并存储至所述分子线性输入规范数据库中的。
4.根据权利要求1所述的方法,其特征在于,在所述利用预设语言模型确定所述第一分子线性输入规范数据对应的第二特征向量以及所述第二分子线性输入规范数据对应的第三特征向量之前,包括:
获取样本分子线性输入规范数据,以及相应的样本特征向量;
对所述样本分子线性输入规范数据随机进行部分数据遮盖后,输入初始BERT模型,以输出训练结果;
计算所述训练结果与所述样本特征向量的损失值;
若所述损失值达到模型收敛要求,则将所述初始BERT模型确定为所述预设语言模型;
若否,则更新所述初始BERT模型的模型参数,并对更新后的初始BERT模型进行迭代训练,直至所述损失值符合模型收敛要求。
5.根据权利要求1所述的方法,其特征在于,在利用目标图神经网络模型确定所述分子图结构对应的第一特征向量之前,还包括:
获取未标记图数据集和第一标记图数据集,所述第一标记图数据集的训练任务与预设性质预测任务不同;
将所述未标记图数据集作为训练样本,通过对预设的图神经网络模型进行训练,调整所述图神经网络模型的参数,得到第一图神经网络模型;
将所述第一标记图数据集作为训练样本,通过对所述第一图神经网络模型进行训练,调整所述第一图神经网络模型的参数,得到第二图神经网络模型;
将所述预设性质预测任务对应的第二标记图数据集作为训练样本,通过对所述第二图神经网络模型进行训练,调整所述第二图神经网络模型的参数,得到目标图神经网络模型。
6.一种基于自监督学习的药物小分子性质预测装置,其特征在于,包括:
第一确定模块,用于依据目标药物小分子的化学分子结构生成分子图结构,其中,所述分子图结构中携带有邻接矩阵以及属性信息,所述属性信息包含节点初始特征向量和边初始特征向量,所述节点初始特征向量和所述边初始特征向量是依据预设向量生成规则确定的;将所述分子图结构和所述邻接矩阵、所述属性信息输入目标图神经网络模型,获取所述分子图结构中各个节点的节点隐向量;利用所述各个节点的节点隐向量生成所述目标药物小分子的第一特征向量;
第二确定模块,用于提取所述目标药物小分子对应的第一分子线性输入规范数据,以及与所述目标药物小分子不同化学分子结构的药物小分子对应的第二分子线性输入规范数据,并利用预设语言模型确定所述第一分子线性输入规范数据对应的第二特征向量以及所述第二分子线性输入规范数据对应的第三特征向量;
调整模块,用于利用所述第一特征向量、所述第二特征向量和所述第三特征向量计算对比损失函数;依据所述对比损失函数调整所述目标图神经网络模型的模型参数,直至所述目标图神经网络模型输出所述目标药物小分子对应的目标特征向量和所述第二特征向量的特征距离小于第一预设距离阈值且所述目标特征向量和任一所述第三特征向量的特征距离大于第二预设距离阈值;
第三确定模块,用于将所述目标特征向量输入训练完成的性质预测模型中,确定所述目标药物小分子的性质预测结果。
7.根据权利要求6所述的装置,其特征在于,所述第一确定模块,还用于:
计算所述节点隐向量的隐向量平均值,将所述隐向量平均值确定为所述目标药物小分子的第一特征向量;或,
在所述节点隐向量提取对应隐向量值最大的第一节点隐向量,将所述第一节点隐向量确定为所述第一特征向量。
8.根据权利要求6所述的装置,其特征在于,所述第二确定模块,还用于:
按照预设药物小分子标识,在分子线性输入规范数据库中提取与所述目标药物小分子匹配的第一分子线性输入规范数据以及预设数量个与所述目标药物小分子不同化学分子结构的药物小分子对应的第二分子线性输入规范数据,其中,所述第一分子线性输入规范数据和所述第二分子线性输入规范数据是预先基于分子线性输入规范生成并存储至所述分子线性输入规范数据库中的。
9.一种存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至5中任一项所述的基于自监督学习的药物小分子性质预测方法。
10.一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至5中任一项所述的基于自监督学习的药物小分子性质预测方法。
CN202111005170.5A 2021-08-30 2021-08-30 基于自监督学习的药物小分子性质预测方法、装置及设备 Active CN113707235B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111005170.5A CN113707235B (zh) 2021-08-30 2021-08-30 基于自监督学习的药物小分子性质预测方法、装置及设备
PCT/CN2022/071438 WO2023029351A1 (zh) 2021-08-30 2022-01-11 基于自监督学习的药物小分子性质预测方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111005170.5A CN113707235B (zh) 2021-08-30 2021-08-30 基于自监督学习的药物小分子性质预测方法、装置及设备

Publications (2)

Publication Number Publication Date
CN113707235A CN113707235A (zh) 2021-11-26
CN113707235B true CN113707235B (zh) 2023-09-26

Family

ID=78656863

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111005170.5A Active CN113707235B (zh) 2021-08-30 2021-08-30 基于自监督学习的药物小分子性质预测方法、装置及设备

Country Status (2)

Country Link
CN (1) CN113707235B (zh)
WO (1) WO2023029351A1 (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113707235B (zh) * 2021-08-30 2023-09-26 平安科技(深圳)有限公司 基于自监督学习的药物小分子性质预测方法、装置及设备
WO2023115343A1 (zh) * 2021-12-21 2023-06-29 深圳晶泰科技有限公司 数据处理方法、装置、模型训练方法和预测自由能方法
CN114067928B (zh) * 2022-01-10 2022-06-17 北京晶泰科技有限公司 分子属性预测方法及系统、装置、存储介质和处理器
CN114386694B (zh) * 2022-01-11 2024-02-23 平安科技(深圳)有限公司 基于对比学习的药物分子性质预测方法、装置及设备
CN116935975A (zh) * 2022-03-31 2023-10-24 华为云计算技术有限公司 一种分子生成方法及相关装置
CN114864013A (zh) * 2022-04-12 2022-08-05 脸萌有限公司 向量生成方法及装置、数据处理方法及装置、存储介质
CN115132295B (zh) * 2022-04-21 2024-05-24 腾讯科技(深圳)有限公司 分子分类方法、装置、设备及计算机可读存储介质
CN114724646B (zh) * 2022-05-05 2023-06-02 北京科技大学 一种基于质谱图和图结构的分子属性预测方法
CN114882970B (zh) * 2022-06-02 2024-04-16 西安电子科技大学 基于预训练模型和分子图的药物相互作用效果预测方法
CN115274008A (zh) * 2022-08-08 2022-11-01 苏州创腾软件有限公司 基于图神经网络的分子性质预测方法和系统
CN115527626B (zh) * 2022-08-16 2023-04-25 腾讯科技(深圳)有限公司 分子处理方法、装置、电子设备、存储介质及程序产品
CN115719622A (zh) * 2022-11-28 2023-02-28 烟台国工智能科技有限公司 一种化学分子性质预测的方法、系统及介质
CN116959616A (zh) * 2022-11-30 2023-10-27 腾讯科技(深圳)有限公司 噪声数据确定模型的训练、噪声数据的确定方法及装置
CN116189809B (zh) * 2023-01-06 2024-01-09 东南大学 一种基于对抗攻击的药物分子重要节点预测方法
CN117524353B (zh) * 2023-11-23 2024-05-10 大连理工大学 一种基于多维度分子信息的分子大模型、构建方法及应用

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113257369A (zh) * 2021-05-18 2021-08-13 南京邮电大学 一种基于多任务图神经网络的分子毒性预测方法和装置
CN113299354A (zh) * 2021-05-14 2021-08-24 中山大学 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019018780A1 (en) * 2017-07-20 2019-01-24 The University Of North Carolina At Chapel Hill NON-TRANSIENT COMPUTER-READABLE METHODS, SYSTEMS, AND MEDIA FOR THE AUTOMATED DESIGN OF MOLECULES HAVING DESIRED PROPERTIES USING ARTIFICIAL INTELLIGENCE
US20210065913A1 (en) * 2019-09-04 2021-03-04 University Of Central Florida Research Foundation, Inc. Artificial intelligence-based methods for early drug discovery and related training methods
JP7218274B2 (ja) * 2019-11-05 2023-02-06 株式会社 ディー・エヌ・エー 化合物の性質を予測するための化合物性質予測装置、化合物性質予測プログラム及び化合物性質予測方法
CN112164426A (zh) * 2020-09-22 2021-01-01 常州微亿智造科技有限公司 基于TextCNN的药物小分子靶点活性预测方法和装置
CN112530515A (zh) * 2020-12-18 2021-03-19 中国石油大学(华东) 一种预测化合物蛋白质亲和力的新型深度学习模型、计算机设备、存储介质
CN112863696B (zh) * 2021-04-25 2021-09-07 浙江大学 基于迁移学习和图神经网络的药物敏感性预测方法和装置
CN113192571B (zh) * 2021-04-29 2022-08-23 南京邮电大学 一种基于图注意机制迁移学习的小分子药物hERG毒性预测方法和装置
CN113707235B (zh) * 2021-08-30 2023-09-26 平安科技(深圳)有限公司 基于自监督学习的药物小分子性质预测方法、装置及设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113299354A (zh) * 2021-05-14 2021-08-24 中山大学 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
CN113257369A (zh) * 2021-05-18 2021-08-13 南京邮电大学 一种基于多任务图神经网络的分子毒性预测方法和装置

Also Published As

Publication number Publication date
CN113707235A (zh) 2021-11-26
WO2023029351A1 (zh) 2023-03-09

Similar Documents

Publication Publication Date Title
CN113707235B (zh) 基于自监督学习的药物小分子性质预测方法、装置及设备
CN109299216B (zh) 一种融合监督信息的跨模态哈希检索方法和系统
CN113707236B (zh) 基于图神经网络的药物小分子性质预测方法、装置及设备
CN111312329B (zh) 基于深度卷积自动编码器的转录因子结合位点预测的方法
He et al. A generalization of vit/mlp-mixer to graphs
CN114386694B (zh) 基于对比学习的药物分子性质预测方法、装置及设备
US20230075100A1 (en) Adversarial autoencoder architecture for methods of graph to sequence models
CN116417093A (zh) 一种结合Transformer和图神经网络的药物靶标相互作用预测方法
CN113571125A (zh) 基于多层网络与图编码的药物靶点相互作用预测方法
Korfmann et al. Deep learning in population genetics
Liu et al. RBCN: Rectified binary convolutional networks for enhancing the performance of 1-bit DCNNs
CN111582506A (zh) 基于全局和局部标记关系的偏多标记学习方法
CN114999565A (zh) 一种基于表示学习和图神经网络的药物靶标亲和力预测方法
CN111627494A (zh) 基于多维特征的蛋白质性质预测方法、装置和计算设备
Liu et al. Joint graph learning and matching for semantic feature correspondence
Bhardwaj et al. Computational biology in the lens of CNN
CN114613450A (zh) 药物分子的性质预测方法、装置、存储介质及计算机设备
CN109784404A (zh) 一种融合标签信息的多标签分类原型系统及方法
CN113591955A (zh) 一种提取图数据的全局信息的方法、系统、设备及介质
CN117349494A (zh) 空间图卷积神经网络的图分类方法、系统、介质及设备
CN116978464A (zh) 数据处理方法、装置、设备以及介质
Hu et al. Data-free dense depth distillation
CN111259176B (zh) 融合有监督信息的基于矩阵分解的跨模态哈希检索方法
Peng et al. Pocket-specific 3d molecule generation by fragment-based autoregressive diffusion models
Yin et al. Perceptually learning multi-view sparse representation for scene categorization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant