CN115881212A - 一种基于rna靶点的小分子化合物筛选方法及装置 - Google Patents

一种基于rna靶点的小分子化合物筛选方法及装置 Download PDF

Info

Publication number
CN115881212A
CN115881212A CN202211328482.4A CN202211328482A CN115881212A CN 115881212 A CN115881212 A CN 115881212A CN 202211328482 A CN202211328482 A CN 202211328482A CN 115881212 A CN115881212 A CN 115881212A
Authority
CN
China
Prior art keywords
screening
small molecule
model
library
rna target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211328482.4A
Other languages
English (en)
Inventor
邓开峰
普拉文·库马尔
李金星
刘阳
李阳
岳鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xili Technology Shenzhen Co ltd
Original Assignee
Xili Technology Shenzhen Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xili Technology Shenzhen Co ltd filed Critical Xili Technology Shenzhen Co ltd
Priority to CN202211328482.4A priority Critical patent/CN115881212A/zh
Publication of CN115881212A publication Critical patent/CN115881212A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种基于RNA靶点的小分子化合物筛选方法及装置,所述方法包括:在确定关于疾病的RNA靶点并将RNA靶点输入初始分子库后,从初始分子库中筛选与RNA靶点结合的活性小分子;对活性小分子进行样本拓展得到小分子样本集;利用小分子样本集的特征属性对预设的模型进行模型训练得到筛选模型,调用筛选模型进行小分子化合物筛选,得到目标小分子化合物。本发明将关于特定疾病的RNA靶点输入至分子库中并从分子库中查找能与RNA靶点结合的活性小分子,利用活性小分子的特征属性进行模型训练,基于训练后的模型筛选得到目标小分子化合物,能大大减少处理小分子的数量,进而有效缩短筛选时长,提高筛选效率,降低筛选成本。

Description

一种基于RNA靶点的小分子化合物筛选方法及装置
技术领域
本发明涉及筛选化合库的小分子化合物技术领域,尤其涉及一种基于RNA 靶点的小分子化合物筛选方法及装置。
背景技术
小分子就是分子量很小的化合物,通常是指分子量小于1000道尔顿(尤其小于400道尔顿小分子)的生物功能分子。近几十年来,小分子化合物一直是新药的开发来源,为很多疾病的治疗提供了重要基础。
为了筛选可适配制作新药物的小分子化合物,目前常用的方法是高质量质谱筛选方法,通过对包含了数十万个小分子的小分子化合库内进行分离和检测,得到各个小分子的串联质谱,基于串联质谱对小分子化合库进行筛选,以得到大量不同化学结构的化合物,再逐一对每种不同化学结构的小分子化合物进行实验和优化,以筛选得到可制作药物的小分子化合物。
但目前常用的方法有如下技术问题:逐一采用每个小分子化合物进行实验和优化,使得整个筛选过程耗时长,处理效率低且操作成本高;而且当需要给一个功能机理未知或者结构未知的疾病筛选化合物时,需要对一个庞大的小分子库的所有分子进行结合反应和鉴定的实验,最后花费大量时间才能筛选出一种能解决某种疾病的分子,筛选周期长,筛选过程还存在各种不确定性,进一步增加筛选成本。
发明内容
本发明提出一种基于RNA靶点的小分子化合物筛选方法及装置,所述方法可以先确定关于特定疾病的RNA靶点,并从分子库中查找能与RNA靶点结合的活性小分子,利用活性小分子的特征属性进行模型训练,基于训练后的模型筛选得到目标小分子化合物,无需逐一对每个小分子化合物进行验证处理,以缩短筛选时长,提高筛选效率。
本发明实施例的第一方面提供了一种基于RNA靶点的小分子化合物筛选方法,所述方法包括:
在确定关于疾病的RNA靶点并将所述RNA靶点输入初始分子库后,从初始分子库中筛选与所述RNA靶点结合的活性小分子;
对所述活性小分子进行样本拓展得到小分子样本集;
利用所述小分子样本集的特征属性对预设的模型进行模型训练得到筛选模型,调用所述筛选模型进行小分子化合物筛选,得到目标小分子化合物。
在第一方面的一种可能的实现方式中,所述对所述活性小分子进行样本拓展得到小分子样本集,包括:
获取所述活性小分子的特征参数,所述特征参数包括化学特性和分子骨架结构特征;
通过umap聚类方法采用所述特征参数对所述活性小分子进行样本拓展,得到多种不同的分类簇,所述分类簇,包括:与RNA靶点有亲和活性的阳性分子分类簇,与RNA靶点没有亲和活性的阴性分子分类簇;
按照预设的比例值,分别从每个所述分类簇提取对应数量的小分子,并将对应数量的小分子组合成小分子样本集。
在第一方面的一种可能的实现方式中,所述化学特性,包括:分子量,拓扑极性表面积,logP亲脂性,sp3共价键比例,环数量,重原子数量,杂原子,氢键受体数量,氢键供体数量,原子类型、原子数量;
所述分子骨架结构特征,包括:分子骨架片段在单个分子中的占比,分子骨架是否包含预设的分子骨架片段,单个分子中原子的连接关系。
在第一方面的一种可能的实现方式中,所述从初始分子库中筛选与所述 RNA靶点结合的活性小分子,包括:
按照预设的凝胶孔径,从初始分子库中分离若干个不同尺寸的分类小分子,所述分类小分子,包括:游离小分子以及与RNA靶点结合的待筛选小分子;
确定所述待筛选小分子的质荷比,根据所述待筛选小分子电离所述待筛选小分子得到活性小分子。
在第一方面的一种可能的实现方式中,所述预设的模型为深度图卷积网络模型;
所述利用所述小分子样本集的特征属性对预设的模型进行模型训练得到筛选模型,包括:
利用所述小分子样本集的特征属性对所述深度图卷积网络模型进行训练,得到初始模型;
使用所述初始模型对第一待测分子库进行第一次预测评分,并按照预设数量筛选若干个第一次评分结果对应的分子构建成第二待测分子库;
将RNA靶点输入所述第二待测分子库中,从所述第二待测分子库中筛选与 RNA靶点结合的多个待测小分子,构成待测小分子集;
计算所述待测小分子集与所述第二待测分子库的比值,得到预测精度值;
若所述预测精度值小于预设值,停止迭代,并以所述初始模型为训练模型;
若所述预测精度值大于预设值,则合并所述第一待测分子库与所述第二待测分子库得到合并分子库,利用所述合并分子库的特征属性对所述深度图卷积网络模型进行重新训练,直到所述预测精度值小于预设值。
在第一方面的一种可能的实现方式中,在所述利用所述合并分子库的特征属性对所述深度图卷积网络模型进行重新训练的步骤后,所述方法还包括:
当重新训练后的模型对所述合并分子库的评分为零时,则停止迭代,以重新训练的模型为训练模型。
在第一方面的一种可能的实现方式中,在所述利用所述小分子样本集的特征属性对所述深度图卷积网络模型进行训练,得到初始模型的步骤后,所述方法还包括:
利用可求导损失函数计算所述初始模型的误差值;
当所述误差值大于预设误差值时,按照梯度下降方式对所述初始模型进行拟合。
本发明实施例的第二方面提供了一种基于RNA靶点的小分子化合物筛选装置,所述装置包括:
活性筛选模块,用于在确定关于疾病的RNA靶点并将所述RNA靶点输入初始分子库后,从初始分子库中筛选与所述RNA靶点结合的活性小分子;
拓展模块,用于对所述活性小分子进行样本拓展得到小分子样本集;
目标筛选模块,用于利用所述小分子样本集的特征属性对预设的模型进行模型训练得到筛选模型,调用所述筛选模型进行小分子化合物筛选,得到目标小分子化合物。
相比于现有技术,本发明实施例提供的一种基于RNA靶点的小分子化合物筛选方法及装置,其有益效果在于:
1、筛选成本低:对于一个20万小分子量级的商业小分子化合物候选库,对其进行SEC-MS筛选需要耗费约180万元的成本,而通过模型预测,获得同样数量的候选小分子化合物,只需要大约12万元,成本降低为原先的1/15.
2、扩大了化合物搜索空间。相比较于分子相似性搜索,该方法能得到更多的符合条件的潜在候选化合物。从我们的实验来看,对于已经检测的20万小分子侯选库,根据第一轮的300个阳性分子进行相似性搜索只获得了50个高相似度 (Tanimoto similarity>0.7)分子,而使用深度图卷积网络模型M则获得了2500 个新的靶点亲和活性小分子。
3、对于每个目标靶点,获得的候选小分子化合物更具多样性。使用相似性搜索获得的小分子结构之间非常接近,通过相似度搜索获得的50个分子之间的平均相似度也大于0.7。而通过模型M获得的2500个小分子之间的平均相似度低于0.35。
4、容错性高。由于模型M充分考虑了分子量等化学特征,该发明中质谱装置可以在低分辨率的条件下进行,即质谱中可以包含一定比例假阳性的活性小分子。此处分辨率是指质谱仪区分两个质量相近的离子的能力。
附图说明
图1是本发明一实施例提供的一种基于RNA靶点的小分子化合物筛选方法的流程示意图;
图2是本发明一实施例提供的分子骨架片段的示意图;
图3是本发明一实施例提供的各种小分子样本集的示意图;
图4是本发明一实施例提供的两个分子骨架片段的示意图;
图5是本发明一实施例提供的杂环数量小于4个小分子的示意图;
图6是本发明一实施例提供的一种基于RNA靶点的小分子化合物筛选方法的操作流程图;
图7是本发明一实施例提供的一种基于RNA靶点的小分子化合物筛选装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
小分子就是分子量很小的化合物,通常是指分子量小于1000道尔顿(尤其小于400道尔顿小分子)的生物功能分子。近几十年来,小分子化合物一直是新药的开发来源,为很多疾病的治疗提供了重要基础。
为了筛选可适配制作新药物的小分子化合物,目前常用的方法是高质量质谱筛选方法,通过对包含了数十万个小分子的小分子化合库内进行分离和检测,得到各个小分子的串联质谱,基于串联质谱对小分子化合库进行筛选,以得到大量不同化学结构的化合物,再逐一对每种不同化学结构的小分子化合物进行实验和优化,以筛选得到可制作药物的小分子化合物。
但目前常用的方法有如下技术问题:逐一采用每个小分子化合物进行实验和优化,使得整个筛选过程耗时长,处理效率低且操作成本高;而且当需要给一个功能机理未知或者结构未知的疾病筛选化合物时,需要对一个庞大的小分子库的所有分子进行结合反应和鉴定的实验,最后花费大量时间才能筛选出一种能解决某种疾病的分子,筛选周期长,筛选过程还存在各种不确定性,进一步增加筛选成本。
为了解决上述问题,下面将通过以下具体的实施例对本申请实施例提供的一种基于RNA靶点的小分子化合物筛选方法进行详细介绍和说明。
参照图1,示出了本发明一实施例提供的一种基于RNA靶点的小分子化合物筛选方法的流程示意图。
其中,作为示例的,所述基于RNA靶点的小分子化合物筛选方法,可以包括:
S11、在确定关于疾病的RNA靶点并将所述RNA靶点输入初始分子库后,从初始分子库中筛选与所述RNA靶点结合的活性小分子。
在一实施例中,可以先确定所要针对的疾病的RNA靶点,然后将该RNA靶点输入至预先设定的初始分子库中,让RNA靶点与初始分子库内的各个小分子化合物反应。
各个小分子化合物可能与RNA靶点结合,可能与RNA靶点分离。可以先对初始分子库中的各个小分子化合物进行一次筛选,筛选出与RNA靶点结合的小分子,剔除与RNA靶点不结合的小分子,从而能在结合的小分子中再进行进一步筛选,以减少后续筛选的小分子数量,缩短处理时长,提高处理效率。
为了准确筛选与RNA靶点结合的小分子,其中,作为示例的,步骤S11可以包括以下子步骤:
S111、按照预设的凝胶孔径,从初始分子库中分离若干个不同尺寸的分类小分子,所述分类小分子,包括:游离小分子以及与RNA靶点结合的待筛选小分子。
S112、确定所述待筛选小分子的质荷比,根据所述待筛选小分子电离所述待筛选小分子得到活性小分子。
具体地,可以先设定特定凝胶的孔径大小,不同的孔径大小可以分离不同尺寸的分子。各个游离小分子以及与RNA靶点结合的小分子可以通过该方式被分离开来,再从分离的小分子中选出与RNA靶点结合的小分子,得到分类小分子。
接着,可以质谱方法,通过电离化学物质并根据其质荷比(质量-电荷比) 鉴定与RNA靶点结合的小分子,从而得到对应的活性小分子。该小分子就是与 RNA靶点所结合的小分子。
通过RNA靶点的第一步筛选,能有效提取出能与RNA靶点结合的小分子,能大大减少后续筛选处理的小分子数量,有效缩短筛选处理的时长,并提高筛选处理的效率。
在一可选的实施方式中,可以基于分子指纹的分子相似性搜索活性小分子。该方法基于“相似性原理”(SPP)。相似性原理认为,总体相似的分子应具有相似的生物活性。因此,通过搜索小分子库中与阳性分子结构相似的分子,可以得到新的候选化合物。常用的度量为Tanimoto相似度。虽然这个方法是直观的,但活性分子中的微小化学变化使得其几乎或完全无活性,或显着增加其活性的情况是客观存在的。
需要说明的是,结构非常接近的小分子在一个特定的化合物库里的数量也较少。
在又一可选的实施方式中,其于药效团的分子搜索。
通过活性分子中中药效团或定量构效关系(QSAR),提取已知活性分子中的重要官能团,查找小分子库中存在这些官能团新的小分子。
S12、对所述活性小分子进行样本拓展得到小分子样本集。
由于能与RNA靶点结合的活性小分子有不同的化学结构,为了增加相类似结构的小分子数量,以丰富模型的训练样本,可以对活性小分子进行样本拓展,形成小分子样本集。
上述小分子样本集中包含各类与活性小分子结构相同或相类似的小分子。
在一可选的实施例中,步骤S12可以包括以下子步骤:
S121、获取所述活性小分子的特征参数,所述特征参数包括化学特性和分子骨架结构特征。
其中,所述化学特性,包括:分子量,拓扑极性表面积,logP亲脂性,sp3 共价键比例,环数量,重原子数量,杂原子,氢键受体数量,氢键供体数量,原子类型、原子数量;
参照图2,示出了本发明一实施例提供的分子骨架片段的示意图。
所述分子骨架结构特征,包括:分子骨架片段在单个分子中的占比,分子骨架是否包含预设的分子骨架片段,单个分子中原子的连接关系。
S122、通过umap聚类方法采用所述特征参数对所述活性小分子进行样本拓展,得到多种不同的分类簇,所述分类簇,包括:与RNA靶点有亲和活性的阳性分子分类簇,与RNA靶点没有亲和活性的阴性分子分类簇。
可以通过umap聚类可以得到多种不同的分类簇。
参照图3,示出了本发明一实施例提供的各种小分子样本集的示意图。
分类簇可以包括:与RNA靶点亲和活性的阳性分子分类簇;与RNA靶点没有亲和活性的阴性分子分类簇;或者既包含阳性分子又包含阴性分子的分类簇。
S123、按照预设的比例值,分别从每个所述分类簇提取对应数量的小分子,并将对应数量的小分子组合成小分子样本集。
在拓展后,各个分类簇所包含的小分子数量可能有多个,若采用所有小分子进行模型训练,可能会增加耗时。为了缩短处理时间,可以按照预设的比例值,从每个分类簇中筛选若干比例数量的小分子,再将各个小分子组合成小分子样本集。
例如,对于一个需要进行高通量筛选的小分子库,总化合物样本数为200 000 个,该样本数据集为A0
通过上述聚类(根据化学性质和分子骨架,进行分子聚类)、样本拓展和挑选样本等操作,可以形成包含10 000个初始小分子化合物的小分子样本集A1
S13、利用所述小分子样本集的特征属性对预设的模型进行模型训练得到筛选模型,调用所述筛选模型进行小分子化合物筛选,得到目标小分子化合物。
在一实施例中,小分子样本集的各个小分子化合物是与RNA靶点具有亲和活性的小分子,为了能让模型识别这类型的RNA靶点,可以确定小分子样本集的特征属性,利用上述特征属性对模型进行模型训练,得到筛选模型。
再利用训练好的筛选模型对待筛选的分子库进行筛选,从而得到目标小分子化合物。
在其中一种的实施例中,所述预设的模型为深度图卷积网络模型;
其中,作为示例的,步骤S13可以包括以下子步骤:
S131、利用所述小分子样本集的特征属性对所述深度图卷积网络模型进行训练,得到初始模型。
具体地,可以将小分子样本集A1与RNA靶点进行结合反应,部分小分子由于特殊的结构能和RNA靶点通过氢键结合,形成RNA-小分子复合物,通过分子排阻色谱SEC在40C分离RNA-小分子复合物与RNA靶点结合的小分子化合物。排阻色谱的色谱柱填料是凝胶,凝胶表面有不同尺寸的多孔网状结构,末结合上RNA的游离小分子由于体积较小会由于扩散作用进入凝胶内部被滞留,而体积更大的RNA-小分子复合物进入色谱柱时无法通过扩散作用进入凝胶内部,被排阻在凝胶颗粒外面,在颗粒间迅速通过,从而实现分子筛效应,将RNA-小分子复合物分离开来。
随后,在600C将分离出来的RNA-小分子复合物进行解离反应,可以将小分子从RNA-小分子复合物上解离下来。将该小分子结合分子与RNA靶点洗脱后进行SEC-MS质谱鉴定,质谱实验可以得到不同质量-电荷比(质荷比)的峰值图谱,将该图谱波峰下的积分面积作为评分,选取质荷比与质谱波峰对应质荷比相似度大于90%的小分子作为实验鉴定获得的靶点亲和小分子,获得第一轮靶点亲和分子数据集D1。
使用深度图卷积网络模型进分子数据集D1进行训练,得到初始模型M。
在一实施例中,在模型训练的初始阶段,存在真实值与预测值之间的误差,为了减少误差,其中,作为示例的,在步骤S131后,所述方法还可以包括:
S21、利用可求导损失函数计算所述初始模型的误差值。
S22、当所述误差值大于预设误差值时,按照梯度下降方式对所述初始模型进行拟合。
具体地,可以先计算初始模型的误差值,若误差值较大,可以按照梯度下降方式对初始模型进行拟合。通过梯度下降的方法不断减少误差来进行模型拟合,以提高模型预测筛选的准确率。若误差值较小,可以不调整。
在一实施例中,可求导损失函数如下式所示:
Figure BDA0003910167290000101
其中,yi代表第i个小分子是否具有活性,具有活性为1,非活性为0。xi代表小分子的化学特征输入,fθ(xi)代表第i个小分子具有活性的预测概率值。L(θ) 为衡量真实值与预测值之间误差的可求导损失函数。
例如:某分子骨架B的初始化权重为0.1,其得到真实活性分子的概率为0.2,通过梯度下降的方法将分子骨架B的权重调整为0.6,真实活性分子的概率提升为 0.8。该简化过程描述了通过梯度下降的方法不断减少真实值与预测值之间误差来进行模型拟合的原理。
在训练时,图卷积神经网络可以接收以原子类型及其化学特征属性为节点,特征属性之间的连接关系为边的输入数值矩阵,并在模型拟合收敛后,得到各节点和边的重要性权重。因此根据各分子中不同的原子组合类型,初始模型M 具有区分活性与非活性分子的特征识别能力。
例如:
对于某特定RNA靶点,模型判别符合以下条件的分子具有较高的靶点亲和活性。
参照图4,示出了本发明一实施例提供的两个分子骨架片段的示意图。
图4的小分子具有以下两个分子骨架片段,拓扑极性表面积位于50-70区间;
参照图5,示出了本发明一实施例提供的杂环数量小于4个小分子的示意图;
图5的小分子具有以下分子骨架片段,杂环数量小于4个,且重原子数大于 25个。
需要说明的是,不同RNA靶点由于结构和性质不同,其特性属性的权重规则也不相同。因此,需要根据上一轮分子排阻色谱-质谱检测到的活性分子进行计算得到针对该RNA靶点关联的特性权重。
S132、使用所述初始模型对第一待测分子库进行第一次预测评分,并按照预设数量筛选若干个第一次评分结果对应的分子构建成第二待测分子库。
例如,使用初始模型M预测第一待测分子库,对预测结果进行排序。
由于第一待测分子库的各个小分子包含的四种化合物的特征属性(即化学特性、分子骨架、单个分子中原子的连接关系、每个分子中分子骨架片段的连接关系),将各个特征属性输入至初始模型M后,模型会对各个特征属性进行得到,得到的预测结果是预测的打分数值,再根据其打分数值进行排序。可以从高到低或者从低到高排序。
在排序后,可以筛选打分最高的前10 000个分子,将这10 000个小分子构建成第二待测分子库,作为新一轮筛选库A2。
S133、将RNA靶点输入所述第二待测分子库中,从所述第二待测分子库中筛选与RNA靶点结合的多个待测小分子,构成待测小分子集。
具体地,可以将第二待测分子库与RNA靶点进行步骤S131所述的结合反应和质谱鉴定等操作,获得第二轮靶点亲和分子数据集D2,得到待测小分子集。
S134、计算所述待测小分子集与所述第二待测分子库的比值,得到预测精度值。
计算如下式所示:
评估预测精确率P=待测小分子集D2/第二待测分子库A2。
S135、若所述预测精度值小于预设值,停止迭代,并以所述初始模型为训练模型。
S136、若所述预测精度值大于预设值,则合并所述第一待测分子库与所述第二待测分子库得到合并分子库,利用所述合并分子库的特征属性对所述深度图卷积网络模型进行重新训练,直到所述预测精度值小于预设值。
若预测精度值小于预设值,说明模型的预测筛选精度已符合预期,可以停止迭代,并以初始模型为训练模型;若预测精度值大于预设值,说明模型的预测筛选精度未符合预期,需要继续训练,可以合并第一待测分子库与第二待测分子库得到合并分子库,利用合并分子库的特征属性对深度图卷积网络模型进行重新训练,直到所述预测精度值小于预设值。
例如,合并第一待测分子库与第二待测分子库的数据集,采用合并后的分子库重新训练深度图卷积网络,得到迭代模型,然后按照步骤S132至步骤S134 的操作方法,使用迭代模型对合并后的模型进行评分以及计算精度,再进行精度评估,直到预测精度值能满足要求。
在实际操作过程中,不断重复评分与筛选,分子库内的分子数量会不断减少,后续可以筛选的分子数量可能不足以构成一个分子库,若继续采用剩余的分子进行训练,难以提升模型的预测精度。为了跳出迭代循环,其中,作为示例的,所述方法还可以包括:
S137、当重新训练后的模型对所述合并分子库的评分为零时,则停止迭代,以重新训练的模型为训练模型。
在后续第n轮迭代中,都需要去除前n-1轮获得的所有活性分子数据,即为
Figure BDA0003910167290000121
在多次迭代后,分子的数量会不断减少,如10万分子包含1000个活性分子,在这10万个分子中随机采样进行筛选的阳性率为1%,为了获得500个活性分子,需要对5万个分子进行筛选才可以得到。而模型的预测的初始准确率为20%,则只需要对500/0.2=2500个分子即可。然而,当迭代继续进行,余下的阳性分子越来越少,即当前阳性率只有(1000-500)/(10万-2500),约只有0.5%的阳性率。其对应的模型预测准确率也会随之下降,再继续挑选2500个分子则会远少于500个阳性分子。因此,在一定条件下停止迭代,即是综合考虑了实际的数据分布和模型能力后的最佳结果,也即是说此时已经较为充分地获得了库中的阳性分子,模型也具有一定的预测筛选能力,可以直接采用模型进行预测筛选。
参照图6,示出了本发明一实施例提供的一种基于RNA靶点的小分子化合物筛选方法的操作流程图。
具体地,先获取样本构建成分子库,然后将RNA靶点输入至分子库中,让 RNA靶点与分子库的分子进行反应,通过分子排阻色谱和质谱方式从分子库中筛选活性小分子并提取活性小分子的特征属性集合,利用特征属性集合训练模型得到训练模型并对模型进行拟合,最后采用训练好的模型进行预测筛选,得到目标小分子。
在本实施例中,本发明实施例提供了一种基于RNA靶点的小分子化合物筛选方法,其有益效果在于:本发明可以先确定关于特定疾病的RNA靶点,将RNA 靶点输入至分子库中并从分子库中查找能与RNA靶点结合的活性小分子,利用活性小分子的特征属性进行模型训练,基于训练后的模型筛选得到目标小分子化合物,能大大减少处理小分子的数量,无需逐一对每个小分子化合物进行验证处理,进而有效缩短筛选时长,提高筛选效率,降低筛选成本。
本发明实施例还提供了一种基于RNA靶点的小分子化合物筛选装置,参见图7,示出了本发明一实施例提供的一种基于RNA靶点的小分子化合物筛选装置的结构示意图。
其中,作为示例的,所述基于RNA靶点的小分子化合物筛选装置可以包括:
活性筛选模块701,用于在确定关于疾病的RNA靶点并将所述RNA靶点输入初始分子库后,从初始分子库中筛选与所述RNA靶点结合的活性小分子;
拓展模块702,用于对所述活性小分子进行样本拓展得到小分子样本集;
目标筛选模块703,用于利用所述小分子样本集的特征属性对预设的模型进行模型训练得到筛选模型,调用所述筛选模型进行小分子化合物筛选,得到目标小分子化合物。
可选地,所述拓展模块,还用于:
获取所述活性小分子的特征参数,所述特征参数包括化学特性和分子骨架结构特征;
通过umap聚类方法采用所述特征参数对所述活性小分子进行样本拓展,得到多种不同的分类簇,所述分类簇,包括:与RNA靶点有亲和活性的阳性分子分类簇,与RNA靶点没有亲和活性的阴性分子分类簇;
按照预设的比例值,分别从每个所述分类簇提取对应数量的小分子,并将对应数量的小分子组合成小分子样本集。
可选地,所述化学特性,包括:分子量,拓扑极性表面积,logP亲脂性,sp3 共价键比例,环数量,重原子数量,杂原子,氢键受体数量,氢键供体数量,原子类型、原子数量;
所述分子骨架结构特征,包括:分子骨架片段在单个分子中的占比,分子骨架是否包含预设的分子骨架片段,单个分子中原子的连接关系。
可选地,所述活性筛选模块,还用于:
按照预设的凝胶孔径,从初始分子库中分离若干个不同尺寸的分类小分子,所述分类小分子,包括:游离小分子以及与RNA靶点结合的待筛选小分子;
确定所述待筛选小分子的质荷比,根据所述待筛选小分子电离所述待筛选小分子得到活性小分子。
可选地,所述预设的模型为深度图卷积网络模型;
所述目标筛选模块,还用于:
利用所述小分子样本集的特征属性对所述深度图卷积网络模型进行训练,得到初始模型;
使用所述初始模型对第一待测分子库进行第一次预测评分,并按照预设数量筛选若干个第一次评分结果对应的分子构建成第二待测分子库;
将RNA靶点输入所述第二待测分子库中,从所述第二待测分子库中筛选与 RNA靶点结合的多个待测小分子,构成待测小分子集;
计算所述待测小分子集与所述第二待测分子库的比值,得到预测精度值;
若所述预测精度值小于预设值,停止迭代,并以所述初始模型为训练模型;
若所述预测精度值大于预设值,则合并所述第一待测分子库与所述第二待测分子库得到合并分子库,利用所述合并分子库的特征属性对所述深度图卷积网络模型进行重新训练,直到所述预测精度值小于预设值。
可选地,所述目标筛选模块,还用于:
当重新训练后的模型对所述合并分子库的评分为零时,则停止迭代,以重新训练的模型为训练模型。
可选地,所述目标筛选模块,还用于:
利用可求导损失函数计算所述初始模型的误差值;
当所述误差值大于预设误差值时,按照梯度下降方式对所述初始模型进行拟合。
所属技术领域的技术人员可以清楚地了解到,为方便的描述和简洁,上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
进一步的,本申请实施例还提供了一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述实施例所述的基于RNA靶点的小分子化合物筛选方法。
进一步的,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行程序,所述计算机可执行程序用于使计算机执行如上述实施例所述的基于RNA靶点的小分子化合物筛选方法。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (10)

1.一种基于RNA靶点的小分子化合物筛选方法,其特征在于,所述方法包括:
在确定关于疾病的RNA靶点并将所述RNA靶点输入初始分子库后,从初始分子库中筛选与所述RNA靶点结合的活性小分子;
对所述活性小分子进行样本拓展得到小分子样本集;
利用所述小分子样本集的特征属性对预设的模型进行模型训练得到筛选模型,调用所述筛选模型进行小分子化合物筛选,得到目标小分子化合物。
2.根据权利要求1所述的基于RNA靶点的小分子化合物筛选方法,其特征在于,所述对所述活性小分子进行样本拓展得到小分子样本集,包括:
获取所述活性小分子的特征参数,所述特征参数包括化学特性和分子骨架结构特征;
通过umap聚类方法采用所述特征参数对所述活性小分子进行样本拓展,得到多种不同的分类簇,所述分类簇,包括:与RNA靶点有亲和活性的阳性分子分类簇,与RNA靶点没有亲和活性的阴性分子分类簇;
按照预设的比例值,分别从每个所述分类簇提取对应数量的小分子,并将对应数量的小分子组合成小分子样本集。
3.根据权利要求2所述的基于RNA靶点的小分子化合物筛选方法,其特征在于,所述化学特性,包括:分子量,拓扑极性表面积,logP亲脂性,sp3共价键比例,环数量,重原子数量,杂原子,氢键受体数量,氢键供体数量,原子类型、原子数量;
所述分子骨架结构特征,包括:分子骨架片段在单个分子中的占比,分子骨架是否包含预设的分子骨架片段,单个分子中原子的连接关系。
4.根据权利要求1所述的基于RNA靶点的小分子化合物筛选方法,其特征在于,所述从初始分子库中筛选与所述RNA靶点结合的活性小分子,包括:
按照预设的凝胶孔径,从初始分子库中分离若干个不同尺寸的分类小分子,所述分类小分子,包括:游离小分子以及与RNA靶点结合的待筛选小分子;
确定所述待筛选小分子的质荷比,根据所述待筛选小分子电离所述待筛选小分子得到活性小分子。
5.根据权利要求1所述的基于RNA靶点的小分子化合物筛选方法,其特征在于,所述预设的模型为深度图卷积网络模型;
所述利用所述小分子样本集的特征属性对预设的模型进行模型训练得到筛选模型,包括:
利用所述小分子样本集的特征属性对所述深度图卷积网络模型进行训练,得到初始模型;
使用所述初始模型对第一待测分子库进行第一次预测评分,并按照预设数量筛选若干个第一次评分结果对应的分子构建成第二待测分子库;
将RNA靶点输入所述第二待测分子库中,从所述第二待测分子库中筛选与RNA靶点结合的多个待测小分子,构成待测小分子集;
计算所述待测小分子集与所述第二待测分子库的比值,得到预测精度值;
若所述预测精度值小于预设值,停止迭代,并以所述初始模型为训练模型;
若所述预测精度值大于预设值,则合并所述第一待测分子库与所述第二待测分子库得到合并分子库,利用所述合并分子库的特征属性对所述深度图卷积网络模型进行重新训练,直到所述预测精度值小于预设值。
6.根据权利要求5所述的基于RNA靶点的小分子化合物筛选方法,其特征在于,在所述利用所述合并分子库的特征属性对所述深度图卷积网络模型进行重新训练的步骤后,所述方法还包括:
当重新训练后的模型对所述合并分子库的评分为零时,则停止迭代,以重新训练的模型为训练模型。
7.根据权利要求5所述的基于RNA靶点的小分子化合物筛选方法,其特征在于,在所述利用所述小分子样本集的特征属性对所述深度图卷积网络模型进行训练,得到初始模型的步骤后,所述方法还包括:
利用可求导损失函数计算所述初始模型的误差值;
当所述误差值大于预设误差值时,按照梯度下降方式对所述初始模型进行拟合。
8.一种基于RNA靶点的小分子化合物筛选装置,其特征在于,所述装置包括:
活性筛选模块,用于在确定关于疾病的RNA靶点并将所述RNA靶点输入初始分子库后,从初始分子库中筛选与所述RNA靶点结合的活性小分子;
拓展模块,用于对所述活性小分子进行样本拓展得到小分子样本集;
目标筛选模块,用于利用所述小分子样本集的特征属性对预设的模型进行模型训练得到筛选模型,调用所述筛选模型进行小分子化合物筛选,得到目标小分子化合物。
9.一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7任意一项所述的基于RNA靶点的小分子化合物筛选方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行程序,所述计算机可执行程序用于使计算机执行如权利要求1-7任意一项所述的基于RNA靶点的小分子化合物筛选方法。
CN202211328482.4A 2022-10-26 2022-10-26 一种基于rna靶点的小分子化合物筛选方法及装置 Pending CN115881212A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211328482.4A CN115881212A (zh) 2022-10-26 2022-10-26 一种基于rna靶点的小分子化合物筛选方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211328482.4A CN115881212A (zh) 2022-10-26 2022-10-26 一种基于rna靶点的小分子化合物筛选方法及装置

Publications (1)

Publication Number Publication Date
CN115881212A true CN115881212A (zh) 2023-03-31

Family

ID=85759031

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211328482.4A Pending CN115881212A (zh) 2022-10-26 2022-10-26 一种基于rna靶点的小分子化合物筛选方法及装置

Country Status (1)

Country Link
CN (1) CN115881212A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117037950A (zh) * 2023-08-01 2023-11-10 溪砾科技(深圳)有限公司 基于贝叶斯和药效团模型的靶向rna小分子筛选及试验方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111753955A (zh) * 2020-06-15 2020-10-09 百度在线网络技术(北京)有限公司 一种模型参数调整方法、装置、电子设备和存储介质
CN112201313A (zh) * 2020-09-15 2021-01-08 北京晶派科技有限公司 一种自动化的小分子药物筛选方法和计算设备
US20210151123A1 (en) * 2018-03-08 2021-05-20 Jungla Inc. Interpretation of Genetic and Genomic Variants via an Integrated Computational and Experimental Deep Mutational Learning Framework
CN112885415A (zh) * 2021-01-22 2021-06-01 中国科学院生态环境研究中心 基于分子表面点云的雌激素活性快速筛查方法
WO2021258914A1 (zh) * 2020-06-24 2021-12-30 深圳前海微众银行股份有限公司 一种序列标注模型的训练方法及装置
CN114925605A (zh) * 2022-05-16 2022-08-19 北京华大九天科技股份有限公司 一种用于集成电路设计中选取训练数据的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210151123A1 (en) * 2018-03-08 2021-05-20 Jungla Inc. Interpretation of Genetic and Genomic Variants via an Integrated Computational and Experimental Deep Mutational Learning Framework
CN111753955A (zh) * 2020-06-15 2020-10-09 百度在线网络技术(北京)有限公司 一种模型参数调整方法、装置、电子设备和存储介质
WO2021258914A1 (zh) * 2020-06-24 2021-12-30 深圳前海微众银行股份有限公司 一种序列标注模型的训练方法及装置
CN112201313A (zh) * 2020-09-15 2021-01-08 北京晶派科技有限公司 一种自动化的小分子药物筛选方法和计算设备
CN112885415A (zh) * 2021-01-22 2021-06-01 中国科学院生态环境研究中心 基于分子表面点云的雌激素活性快速筛查方法
CN114925605A (zh) * 2022-05-16 2022-08-19 北京华大九天科技股份有限公司 一种用于集成电路设计中选取训练数据的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KUMAR R等: ""A deep neural network-based approach for prediction of mutagenicity of compounds"", 《ENVIRON SCI POLLUT RES INT.》, vol. 28, no. 34, XP037546046, DOI: 10.1007/s11356-021-14028-9 *
牛淇: ""基于图神经网络和XGBoost的抗乳腺癌候选药物预测模型研究"", 《应用数学进展》, vol. 11, no. 4 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117037950A (zh) * 2023-08-01 2023-11-10 溪砾科技(深圳)有限公司 基于贝叶斯和药效团模型的靶向rna小分子筛选及试验方法

Similar Documents

Publication Publication Date Title
US20140297201A1 (en) Computer-assisted structure identification
CN113393911B (zh) 一种基于深度学习的配体化合物快速预筛选方法
US20120191685A1 (en) Method for identifying peptides and proteins from mass spectrometry data
CN115881212A (zh) 一种基于rna靶点的小分子化合物筛选方法及装置
Awan et al. MS-REDUCE: an ultrafast technique for reduction of big mass spectrometry data for high-throughput processing
CN114187979A (zh) 数据处理、模型训练、分子预测和筛选方法及其装置
Roessner et al. Metabolite measurements
CN113903409A (zh) 一种分子数据处理方法、模型构建与预测方法及相关装置
CN114783539A (zh) 一种基于光谱聚类的中药成分分析方法及系统
Saeed et al. An efficient algorithm for clustering of large-scale mass spectrometry data
Karimi et al. Identification of discriminatory variables in proteomics data analysis by clustering of variables
Tang et al. A new method for alignment of LC-MALDI-TOF data
WO2021004355A1 (zh) 构建诱饵库、构建目标-诱饵库、代谢组fdr鉴定的方法及装置
CN114067169A (zh) 一种基于卷积神经网络的拉曼光谱分析方法
CN112151109B (zh) 用于评价生物分子交联质谱鉴定随机性的半监督学习方法
CN114334033A (zh) 抗乳腺癌候选药物分子描述符的筛选方法、系统及终端
CN107991411B (zh) 使用优化的低聚物调度用于质谱生物聚合物分析的方法
CN111739583A (zh) 基于优化数据库(Sub-Lib)的数据非依赖性质谱检测方法
US20040034477A1 (en) Methods for modeling chromatographic variables
CN111383708A (zh) 基于化学基因组学的小分子靶标预测算法及其应用
CN115795225B (zh) 一种近红外光谱校正集的筛选方法及装置
EP4102509A1 (en) Method and apparatus for identifying molecular species in a mass spectrum
CN115753953A (zh) 未知芬太尼类物质的质谱检测方法
Aftab et al. Discovery of Native Protein Complexes by Liquid Chromatography Followed by Quantitative Mass Spectrometry
Awan High-Performance Reductive Strategies for Big Data from LC-MS/MS Proteomics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination