CN113192572A - 一种基于分子相似性和半监督学习的药物虚拟筛选方法和装置 - Google Patents

一种基于分子相似性和半监督学习的药物虚拟筛选方法和装置 Download PDF

Info

Publication number
CN113192572A
CN113192572A CN202110478484.0A CN202110478484A CN113192572A CN 113192572 A CN113192572 A CN 113192572A CN 202110478484 A CN202110478484 A CN 202110478484A CN 113192572 A CN113192572 A CN 113192572A
Authority
CN
China
Prior art keywords
biological activity
similarity
activity value
molecular
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110478484.0A
Other languages
English (en)
Other versions
CN113192572B (zh
Inventor
吴建盛
徐华健
胡海峰
朱燕翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202110478484.0A priority Critical patent/CN113192572B/zh
Publication of CN113192572A publication Critical patent/CN113192572A/zh
Application granted granted Critical
Publication of CN113192572B publication Critical patent/CN113192572B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/90Programming languages; Computing architectures; Database systems; Data warehousing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明揭示了一种基于分子相似性和半监督学习的药物虚拟筛选方法和装置,该方法包括以下步骤:S1:收集数据集,得到有生物活性值的配体分子样本和无生物活性值的配体分子样本;S2:使用S1步骤中得到的有生物活性值的配体分子样本构建回归模型;S3:计算数据集中分子间的相似度;S4:利用S3步骤中得到的分子相似度和S2步骤中得到的回归模型,计算三元组损失;S5:根据S2步骤和S4步骤得到的损失函数训练模型。基于半监督学习方法,在模型训练中引入大量的无实验生物活性值样本,使用分子相似度和三元组损失对无实验生物活性值样本的模型预测值进行约束,解决实际应用场景中大量无生物活性值的样本无法有效参与模型训练的难题。

Description

一种基于分子相似性和半监督学习的药物虚拟筛选方法和 装置
技术领域
本发明涉及一一种基于分子相似性和半监督学习的药物虚拟筛选方法和装置,可用于人工智能药物设计技术领域。
背景技术
药物研发具有投入大,风险高,周期长的特点,一般而言,一个药物研发周期在10年以上,研发投入在数亿美金,并且呈现逐年上升的趋势。药物虚拟筛选是药物发现的重要环节,能大大地降低筛选的时间和成本,对于加速药物研发具有重要意义。近年来,随着人工智能药物设计领域的发展,机器学习算法在药物设计领域得到了大量的应用,基于机器学习的药物虚拟筛选方法已成为其主流的方法,它首先通过有已知活性值的数据集有监督训练机器学习模型,再使用模型预测未知活性的配体分子的活性值,从而筛选出预测活性值较高的配体分子做进一步的先导化合物筛选。
然而,好的机器学习模型往往需要使用大量的已知活性值的配体分子数据来进行训练,然而在实际的应用场景中,通过实验获取已知生物活性的数据集通常耗时耗力。因此,在已知生物活性样本量不足的情况下,如何构建一个性能好的回归预测模型是运用机器学习方法做药物虚拟筛选面临的一个实际问题。
和通过实验得到的生物活性值的数据相比,无生物活性值的小分子数据获取就简单很多,只需要从相应的化学物数据库中下载即可。因此,为解决上述问题,我们使用半监督学习方法,仅需较少的有生物活性值的分子样本,同时使用大量的无生物活性值的分子样本,来完成模型的训练。对于无生物活性值的样本,计算其与有生物活性值的样本的相似度,引入三元组损失,对其模型预测值进行有效约束。
发明内容
本发明的目的就是为了解决现有技术中存在的上述问题,提出一种基于分子相似性和半监督学习的药物虚拟筛选方法和装置。
本发明的目的将通过以下技术方案得以实现:一种基于分子相似性和半监督学习的药物虚拟筛选方法,该方法包括以下步骤:
S1:收集数据集,得到有生物活性值的配体分子样本和无生物活性值的配体分子样本;
S2:使用所述S1步骤中得到的有生物活性值的配体分子样本构建回归模型;
S3:计算数据集中分子间的相似度;
S4:利用所述S3步骤中得到的分子相似度和S2步骤中得到的回归模型,计算三元组损失;
S5:根据S2步骤和S4步骤得到的损失函数训练模型。
优选地,在所述S1步骤中,从公开数据集中收集对特定药物靶标作用的配体分子的活性值Yi及配体分子的SMILES分子式Xi,构建有生物活性值的配体分子数据集;另外对于无生物活性值的样本,只收集配体分子的SMILES分子式X′j,构建无生物活性值的配体分子数据集。
优选地,在所述S2步骤中,构建回归预测模型对有生物活性值的样本做监督回归学习,对配体分子Xi预测的结果记为
Figure BDA0003045846050000021
真实生物活性值值为Yi,计算出均方误差损失LMSE
Figure BDA0003045846050000022
优选地,在所述S3步骤中,首先使用rdkit化学信息包对配体分子的SMILES分子式Xi、X′j做解析处理生成分子指纹Fpi、Fp′j,对得到的分子指纹Fpi、Fp′j计算两分子Xi、X′j间的相似度Sij,公式如下:
Figure BDA0003045846050000023
其中c为两个分子指纹中相同的位数,a为分子指纹Fpi的长度,b为分子指纹Fp′j的长度。
优选地,在所述S4步骤中,对有生物活性值的样本Xi,其生物活性值为Yi,按1:2的比例,取无生物活性值的样本X′j、X′k,经过S2步骤的回归网络模型得到的预测值为
Figure BDA0003045846050000031
引入三元组损失对无生物活性值样本的活性值进行约束;其中三元组损失:
Figure BDA0003045846050000032
其中[.]+的含义为:若括号内的值大于0,则[.]+等于括号内的值;若括号内的值小于0,则[.]+等于0,a和St分别是活性值差值和相似度差值的阈值。
优选地,在所述S5步骤中,根据损失函数更新模型参数,使用均方误差损失和三元组损失之和做总的模型损失函数:
Figure BDA0003045846050000033
使用梯度下降算法,反向传播更新回归预测模型参数,从而训练回归预测模型。
本发明还揭示了一种基于分子相似性和半监督学习的药物虚拟筛选装置,该装置包括数据集的获取和划分模块、回归模型预测模块、三元组损失模块和模型参数更新模块。
优选地,所述数据集的获取和划分模块从公开数据库或者实验等其他途径中,获取配体分子的SMILES分子式和其对特定药物靶标作用的活性值构建有生物活性值数据集,另外只收集SMILES分子式构建无生物活性值数据集
优选地,所述回归模型预测模块能够根据需要选用任意一种回归预测模型,对于有生物活性值样本Xi,经过回归预测模型输出预测值
Figure BDA0003045846050000034
真实的生物活性值为Yi,计算其均方误差Lmse;对于无生物活性值样本X′j,经过回归预测模型输出预测值
Figure BDA0003045846050000035
优选地,所述三元组损失模块包括相似度计算模块,三元组损失计算模块;相似度计算模块,用于计算有生物活性值样本和无生物活性值样本对之间的相似性,对于每一个输入回归预测模块的有生物活性值样本,按1∶2的比例,对每一个有生物活性值样本Xi,选取两个无生物活性值样本X′j、X′k,使用相似度计算公式分别计算Xi和X′j、Xi和X′k的分子相似度Sij、Sik
所述三元组损失计算模块,用于约束无生物活性值样本通过回归模型得到的预测值。使用公式:
Figure BDA0003045846050000041
计算三元组损失Ltri
本发明采用以上技术方案与现有技术相比,具有以下技术效果:该技术方案充分利用没有生物活性值的样本进行训练,在已知生物活性值样本少的实际虚拟筛选场景下具有一定的应用价值。该技术方案可以很好地利用大量无生物活性值的样本来训练模型,具有较好的理论和工程应用价值,它在有活性值样本不足的情况下,有助于提升药物虚拟筛选模型的性能。
基于半监督学习方法,在模型训练中引入大量的无实验生物活性值样本。使用分子相似度和三元组损失对无实验生物活性值样本的模型预测值进行约束,解决实际应用场景中大量无生物活性值的样本无法有效参与模型训练的难题。
附图说明
图1为本发明的一种基于分子相似性和半监督学习的药物虚拟筛选方法的算法流程图。
图2为本发明的一种基于分子相似性和半监督学习的药物虚拟筛选装置的流程图。
图3为本发明的训练模型的流程图。
图4为本发明的预测模型的流程图。
具体实施方式
本发明的目的、优点和特点,将通过下面优选实施例的非限制性说明进行图示和解释。这些实施例仅是应用本发明技术方案的典型范例,凡采取等同替换或者等效变换而形成的技术方案,均落在本发明要求保护的范围之内。
本发明揭示了一一种基于分子相似性和半监督学习的药物虚拟筛选方法和装置,内容主要涉及利用小分子间的相似性,引入半监督学习,来进行药物的虚拟筛选。
一种基于分子相似性和半监督学习的药物虚拟筛选方法,如图1所示,该方法包括以下步骤:
S1:收集数据集,得到有生物活性值的配体分子样本和无生物活性值的配体分子样本;
S2:使用所述S1步骤中得到的有生物活性值的配体分子样本构建回归模型;
S3:计算数据集中分子间的相似度;对有生物活性值的配体分子样本和无生物活性值的配体分子样本计算相似度;
S4:利用所述S3步骤中得到的分子相似度和S2步骤中得到的回归模型,计算三元组损失;
S5:根据S2步骤和S4步骤得到的损失函数训练模型。
在所述S1步骤中,获取对特定药物靶标作用的配体分子的活性值Yi及配体分子的SMILES分子式Xi,对于无生物活性值的样本获取其SMILES分子式X′j即可。
在所述S2步骤中,基于回归预测模型对有生物活性值的样本做监督回归学习,对配体分子Xi预测的结果记为
Figure BDA0003045846050000051
真实生物活性值值为Yi,计算出均方误差损失LMSE
Figure BDA0003045846050000052
在所述S3步骤中,首先使用rdkit化学信息包对配体分子的SMILES分子式Xi、X′j做解析处理生成分子指纹Fpi、Fp′j,对得到的分子指纹Fpi、Fp′j计算两分子Xi、X′j间的相似度Sij,公式如下:
Figure BDA0003045846050000053
其中c为两个分子指纹中相同的位数,a为分子指纹Fpi的长度,b为分子指纹Fp′j的长度。
在所述S4步骤中,对有生物活性值的样本Xi,其生物活性值为Yi,按1:2的比例,取无生物活性值的样本X′j、X′k,经过S2步骤的回归网络模型得到的预测值为
Figure BDA0003045846050000054
引入三元组损失对无生物活性值样本的活性值进行约束;其中三元组损失:
Figure BDA0003045846050000055
其中[.]+的含义为:若括号内的值大于0,则[.]+等于括号内的值;若括号内的值小于0,则[.]+等于0,a和St分别是活性值差值和相似度差值的阈值。
该三元组损失的含义为当样本Xi和样本X′j的相似度大于样本Xi和样本X′k的相似度时,说明样本Xi和样本X′j的活性值差异应该小于样本Xi和样本X′k的活性值差异,如果样本Xi的真实生物活性值和样本Xi预测的活性值差值大于样本Xi和样本X′k的活性值差异,则有三元组损失。通过使用三元组损失约束,在模型训练过程中引入无生物活性值样本的数据,根据其与有活性样本间的相似度来约束其预测活性值大小,用于辅助模型训练。
在所述S5步骤中,根据损失函数更新模型参数,使用均方误差损失和三元组损失之和做总的模型损失函数:
Figure BDA0003045846050000061
使用梯度下降算法,反向传播更新回归预测模型参数,从而训练回归预测模型。
本发明还揭示了一种基于分子相似性和半监督学习的药物虚拟筛选装置,如图2所示,该装置主要包括模型训练模块和模型预测模块,模型训练模块包括数据集的获取和划分模块、回归模型预测模块、三元组损失模块和模型参数更新模块。
所述数据集的获取和划分模块从公开数据库或者实验等其他途径中,获取配体分子的SMILES分子式和其对特定药物靶标作用的活性值,构建有生物活性值数据集。另外只收集SMILES分子式,构建无生物活性值数据集,将构建好的有实验生物活性值和无实验生物活性值数据集分别输入该装置。
所述回归模型预测模块能够根据需要选用任意一种回归预测模型,对于有生物活性值样本Xi,经过回归预测模型输出预测值
Figure BDA0003045846050000062
真实的生物活性值为Yi,计算其均方误差Lmse;对于无生物活性值样本X′j,经过回归预测模型输出预测值
Figure BDA0003045846050000063
所述三元组损失模块包括分子指纹的生成模块,相似度计算模块,三元组损失计算模块;所述分子指纹的生成模块,使用rdkit化学解析包,将SMILES分子式转换成相应的2D分子指纹。
所述相似度计算模块,用于计算有生物活性值样本和无生物活性值样本对之间的相似性,对于每一个输入回归预测模块的有生物活性值样本,按1∶2的比例,对每一个有生物活性值样本Xi,选取两个无生物活性值样本X′j、X′k,使用相似度计算公式分别计算Xi和X′j、Xi和X′k的分子相似度Sij、Sik
所述三元组损失计算模块,于约束无生物活性值样本通过回归模型得到的预测值,根据回归预测模块得到的无生物活性值样本的预测活性值
Figure BDA0003045846050000071
和相似度计算模块得到的相似度Sij、Sik,以及有生物活性值样本的真实活性值Yi,使用公式:
Figure BDA0003045846050000072
计算三元组损失Ltri
所述模型参数更新模块具体包括:根据模型总的损失函数,计算其对回归模型参数的梯度,使用梯度下降算法,对梯度进行反向传播,更新模型参数,不断迭代,训练回归预测模型。所述模型预测模块具体包括:输入待预测分子的SMILES分子式,调用上述模型训练模块中训练好的回归模型,即可进行活性值预测,根据预测得出的活性值做进一步的筛选得到可能成药的配体小分子,用于后续药物设计。
第一步,构建数据集。
从公开数据库或者实验等其他途径中,收集配体分子的SMILES分子式Xi和其对特定药物靶标作用的活性值Yi,构建有实验生物活性值数据集。收集SMILES分子式构建无实验生物活性值数据集。
第二步,使用有实验生物活性值样本。
对于有实验生物活性值样本Xi,使用任意一种回归预测模型对样本进行活性值预测,得到预测活性值
Figure BDA0003045846050000073
并根据数据集的真实实验活性值Yi,计算均方误差损失:
Figure BDA0003045846050000074
第三步,使用无生物活性值样本。
对于无生物活性值样本,在第二步使用有生物活性值样本训练模型的同时,按1∶2的比例,每输入一个有生物活性值样本Xi,输入两个无生物活性值样本X′j、X′k,经过上述回归预测模型,得到预测的活性值Yj、Yk。并计算Xi和X′j、Xi和X′k的分子相似度Sij、Sik。最后使用无生物活性值样本的Yj、Yk和有生物活性值样本的真实活性值Yi,以及相似度Sij、Sik计算三元组损失,用于约束无生物活性值样本的预测活性值,试图达到相似度越大的两个配体分子其活性值差异也越小的约束效果。
第四步,根据损失函数训练回归预测模型。
将第二、第三步中得出的两个损失函数求和作为模型总的损失函数,计算损失函数对模型参数的梯度,对梯度进行反向传播,使用梯度下降算法更新回归预测模型参数,从而训练模型。
第五步,模型测试及使用。
将经过上述步骤训练好的回归预测模型保存,用于测试及预测。输入待预测的配体分子的SMILES分子式,调用回归预测模型,输出其预测活性值,根据预测得出的活性值做进一步的筛选得到可能成药的配体小分子,用于后续药物设计。
需要说明的是,本发明中的回归预测模块是可替换的任何回归预测模型,本发明的主要思想是引入半监督学习机制,通过计算分子间相似性和三元组损失,将大量的无生物活性值样本也用于训练模型,更加符合实际药物虚拟筛选的实际应用场景和需求。
该技术方案可以充分利用大量无生物活性值的样本,更符合实际应用场景中存在大量无生物活性值的小分子样本的情况,有助于解决因缺乏有生物活性值样本而不好训练回归预测模型的难题;相比于单纯的有监督的回归预测,预测的性能可以得到进一步提升;额外使用分子相似性做约束,加入领域知识,能够更好的训练模型。
本发明尚有多种实施方式,凡采用等同变换或者等效变换而形成的所有技术方案,均落在本发明的保护范围之内。

Claims (10)

1.一种基于分子相似性和半监督学习的药物虚拟筛选方法,其特征在于:该方法包括以下步骤:
S1:收集数据集,得到有生物活性值的配体分子样本和无生物活性值的配体分子样本;
S2:使用所述S1步骤中得到的有生物活性值的配体分子样本构建回归模型;
S3:计算数据集中分子间的相似度;
S4:利用所述S3步骤中得到的分子相似度和S2步骤中得到的回归模型,计算三元组损失;
S5:根据S2步骤和S4步骤得到的损失函数训练模型。
2.根据权利要求1所述的一种基于分子相似性和半监督学习的药物虚拟筛选方法,其特征在于:在所述S1步骤中,从公开数据集中收集对特定药物靶标作用的配体分子的活性值Yi及配体分子的SMILES分子式Xi,构建有生物活性值的配体分子数据集;另外对于无生物活性值的样本,只收集配体分子的SMILES分子式X′j,构建无生物活性值的配体分子数据集。
3.根据权利要求1所述的一种基于分子相似性和半监督学习的药物虚拟筛选方法,其特征在于:在所述S2步骤中,构建回归预测模型对有生物活性值的样本做监督回归学习,对配体分子Xi预测的结果记为
Figure FDA0003045846040000011
真实生物活性值值为Yi,计算出均方误差损失
Figure FDA0003045846040000012
4.根据权利要求1所述的一一种基于分子相似性和半监督学习的药物虚拟筛选方法,其特征在于:在所述S3步骤中,首先使用rdkit化学信息包对配体分子的SMILES分子式Xi、X′j做解析处理生成分子指纹Fpi、Fp′j,对得到的分子指纹Fpi、Fp′j计算两分子Xi、X′j间的相似度Sij,公式如下:
Figure FDA0003045846040000021
其中c为两个分子指纹中相同的位数,a为分子指纹Fpi的长度,b为分子指纹Fp′j的长度。
5.根据权利要求1所述的一种基于分子相似性和半监督学习的药物虚拟筛选方法,其特征在于:在所述S4步骤中,对有生物活性值的样本Xi,其生物活性值为Yi,按1∶2的比例,取无生物活性值的样本X′j、X′k,经过S2步骤的回归网络模型得到的预测值为
Figure FDA0003045846040000022
引入三元组损失对无生物活性值样本的活性值进行约束;其中三元组损失:
Figure FDA0003045846040000023
其中[.]+的含义为:若括号内的值大于0,则[.]+等于括号内的值;若括号内的值小于0,则[.]+等于0,a和St分别是活性值差值和相似度差值的阈值。
6.根据权利要求1所述的一种基于分子相似性和半监督学习的药物虚拟筛选方法,其特征在于:在所述S5步骤中,根据损失函数更新模型参数,使用均方误差损失和三元组损失之和做总的模型损失函数:
Figure FDA0003045846040000024
使用梯度下降算法,反向传播更新回归预测模型参数,从而训练回归预测模型。
7.一种基于分子相似性和半监督学习的药物虚拟筛选装置,其特征在于:该装置包括数据集的获取和划分模块、回归模型预测模块、三元组损失模块和模型参数更新模块。
8.根据权利要求7所述的一种基于分子相似性和半监督学习的药物虚拟筛选装置,其特征在于:所述数据集的获取和划分模块从公开数据库或者实验等其他途径中,获取配体分子的SMILES分子式和其对特定药物靶标作用的活性值构建有生物活性值数据集,另外只收集SMILES分子式构建无生物活性值数据集。
9.根据权利要求7所述的一种基于分子相似性和半监督学习的药物虚拟筛选装置,其特征在于:所述回归模型预测模块能够根据需要选用任意一种回归预测模型,对于有生物活性值样本Xi,经过回归预测模型输出预测值
Figure FDA0003045846040000025
真实的生物活性值为Yi,计算其均方误差Lmse;对于无生物活性值样本X′j,经过回归预测模型输出预测值Yj
10.根据权利要求7所述的一种基于分子相似性和半监督学习的药物虚拟筛选装置,其特征在于:所述三元组损失模块包括相似度计算模块,三元组损失计算模块;相似度计算模块,用于计算有生物活性值样本和无生物活性值样本对之间的相似性,对于每一个输入回归预测模块的有生物活性值样本,按1∶2的比例,对每一个有生物活性值样本Xi,选取两个无生物活性值样本X′j、X′k,使用相似度计算公式分别计算Xi和X′j、Xi和X′k的分子相似度Sij、Sik
所述三元组损失计算模块,用于约束无生物活性值样本通过回归模型得到的预测值。使用公式:
Figure FDA0003045846040000031
计算三元组损失Ltri
CN202110478484.0A 2021-04-29 2021-04-29 一种基于分子相似性和半监督学习的药物虚拟筛选方法和装置 Active CN113192572B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110478484.0A CN113192572B (zh) 2021-04-29 2021-04-29 一种基于分子相似性和半监督学习的药物虚拟筛选方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110478484.0A CN113192572B (zh) 2021-04-29 2021-04-29 一种基于分子相似性和半监督学习的药物虚拟筛选方法和装置

Publications (2)

Publication Number Publication Date
CN113192572A true CN113192572A (zh) 2021-07-30
CN113192572B CN113192572B (zh) 2022-08-23

Family

ID=76982958

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110478484.0A Active CN113192572B (zh) 2021-04-29 2021-04-29 一种基于分子相似性和半监督学习的药物虚拟筛选方法和装置

Country Status (1)

Country Link
CN (1) CN113192572B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116312855A (zh) * 2023-02-28 2023-06-23 杭州生奥信息技术有限公司 先导化合物活性优化方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107862173A (zh) * 2017-11-15 2018-03-30 南京邮电大学 一种先导化合物虚拟筛选方法和装置
CN110459274A (zh) * 2019-08-01 2019-11-15 南京邮电大学 一种基于深度迁移学习的小分子药物虚拟筛选方法及其应用
CN112086139A (zh) * 2020-08-24 2020-12-15 南京邮电大学 一种面向小分子药物虚拟筛选的多源迁移学习方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107862173A (zh) * 2017-11-15 2018-03-30 南京邮电大学 一种先导化合物虚拟筛选方法和装置
CN110459274A (zh) * 2019-08-01 2019-11-15 南京邮电大学 一种基于深度迁移学习的小分子药物虚拟筛选方法及其应用
CN112086139A (zh) * 2020-08-24 2020-12-15 南京邮电大学 一种面向小分子药物虚拟筛选的多源迁移学习方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
邓建国等: "监督学习中的损失函数及应用研究", 《大数据》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116312855A (zh) * 2023-02-28 2023-06-23 杭州生奥信息技术有限公司 先导化合物活性优化方法
CN116312855B (zh) * 2023-02-28 2023-09-08 杭州生奥信息技术有限公司 先导化合物活性优化方法

Also Published As

Publication number Publication date
CN113192572B (zh) 2022-08-23

Similar Documents

Publication Publication Date Title
Xiao et al. Modeling the intensity function of point process via recurrent neural networks
Li et al. DeepDSC: a deep learning method to predict drug sensitivity of cancer cell lines
CN109902546A (zh) 人脸识别方法、装置及计算机可读介质
CN112070277B (zh) 基于超图神经网络的药物-标靶相互作用预测方法
CN107862173A (zh) 一种先导化合物虚拟筛选方法和装置
CN111370073B (zh) 一种基于深度学习的药物互作规则预测方法
Huang et al. Particle swarm optimization for compact neural architecture search for image classification
CN116580848A (zh) 一种基于多头注意力机制的分析癌症多组学数据方法
CN107368707A (zh) 基于us‑elm的基因芯片表达数据分析系统及方法
CN113571125A (zh) 基于多层网络与图编码的药物靶点相互作用预测方法
CN113192572B (zh) 一种基于分子相似性和半监督学习的药物虚拟筛选方法和装置
Wang et al. A novel conjoint triad auto covariance (CTAC) coding method for predicting protein-protein interaction based on amino acid sequence
CN111091916A (zh) 人工智能中基于改进粒子群算法的数据分析处理方法及系统
CN111382840B (zh) 一种面向自然语言处理的基于循环学习单元的htm设计方法
Marathe et al. Prediction of heart disease and diabetes using naive Bayes algorithm
CN115274007A (zh) 一种用于发现和优化药物先导化合物的可泛化、可解释的深度图学习方法
CN113345564B (zh) 一种基于图神经网络的患者住院时长早期预测方法及装置
CN112101418A (zh) 一种乳腺肿瘤类型识别方法、系统、介质及设备
Raza et al. Soft computing approach for modeling genetic regulatory networks
WO2021179189A1 (zh) 大脑成瘾性状评估的可视化方法、装置及介质
CN108122028A (zh) 深度非线性主成分分析网络的训练方法、装置及计算机可读存储介质
Cruz-Mendoza et al. LSTM perfomance analysis for predictive models based on Covid-19 dataset
Tempel et al. AutoGCN-Towards Generic Human Activity Recognition with Neural Architecture Search
CN113643765B (zh) 一种基于张量神经网络的药物-药物相互作用预测方法
CN115527626A (zh) 分子处理方法、装置、电子设备、存储介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant