CN115146131B - 一种靶活性天然产物筛选方法及其用途 - Google Patents
一种靶活性天然产物筛选方法及其用途 Download PDFInfo
- Publication number
- CN115146131B CN115146131B CN202211066439.5A CN202211066439A CN115146131B CN 115146131 B CN115146131 B CN 115146131B CN 202211066439 A CN202211066439 A CN 202211066439A CN 115146131 B CN115146131 B CN 115146131B
- Authority
- CN
- China
- Prior art keywords
- natural product
- target
- molecule
- target active
- activity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9035—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/30—Prediction of properties of chemical compounds, compositions or mixtures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Chemical & Material Sciences (AREA)
- Crystallography & Structural Chemistry (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Medical Informatics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明涉及生物医药技术领域,尤其涉及一种靶活性天然产物筛选方法,包括以下步骤:S1、根据靶活性分子评价指标、靶活性分子集多模态描述符和靶活性分子集的构效模型建立靶活性数据集的多模态构效模型;S2、从公开数据集中下载若干天然产物数据集SMILES;S3、采用开源程序RDKIT对若干天然产物数据集SMILES进行标准化处理。本发明能够快速、高效且自动化对靶活性目标分子集的衍生天然产物进行富集、筛选和预测,这极大程度为替代副作用强或环境不友好型的人工合成药寻找天然产物药提供了有利手段,极大降低了天然产物药的研发周期,并促进天然产物药新活性的发现。
Description
技术领域
本发明涉及生物医药技术领域,尤其涉及一种靶活性天然产物筛选方法及其用途。
背景技术
化学合成药物的毒理学性质对人类健康和大自然生态环境的影响存在很大隐患,这需要长期且谨慎的评估。此外,化学合成药物的过渡滥用导致更强耐药性的细菌产生,严重威胁人类及其它生态物种的生存,这已经受到世界各国的重视。相比之下,天然产物作为支持药物发现的化学实体的重要来源,其经过数千年来人类从自然界中的反复尝试和总结得到,并且这些天然产物具有巨大的结构范围和独特的化学多样性,一直是全球先导靶向药物研发的热点。因此,开发具有靶活性的天然产物药,是人与自然和谐共生、绿色可持续发展的新道路。
到目前为止,天然产物新活性的发现及挖掘是漫长且繁琐的。尽管有许多策略被开发,如专利名称为基于阳性化合物残基贡献相似度的分子对接结果筛选方法,申请号为CN202110748005.2的中国专利,提出了基于配体与受体3D结合的虚拟筛选、经典分子动力学结合MMPBSA计算,但其操作不仅繁琐,且筛选出的药物与实验所得的结果相关性很差,难以预料,适用的领域极为局限,不具有普适性,也未通过实验证明模型预测的可靠性。
与构效建模相比,如何利用构效模型来发现候选药是药物发现中最为重要的一步,以往的研究是在构效模型的基础上通过人工借助经验对建模分子进行化学修饰及构效预测,这不仅耗费大量人力,而且人工修饰的化学基团存在很大局限,许多设计的化合物面临着合成困难甚至无法合成。因此,如何利用构效模型快速富集、筛选靶活性的分子,尤其是天然产物,仍是天然产物药发现的主要挑战。
发明内容
针对现有技术的不足,本发明提供了一种靶活性天然产物筛选方法及其用途,能够快速、高效且自动化对靶活性目标分子集的衍生天然产物进行富集、筛选和预测,这极大程度为替代副作用强或环境不友好型的人工合成药寻找天然产物药提供了有利手段,极大降低了天然产物药的研发周期,并促进天然产物药新活性的发现。
为解决上述技术问题,本发明提供了如下技术方案:一种靶活性天然产物筛选方法,包括以下步骤:
S1、根据靶活性分子评价指标、靶活性分子集多模态描述符和靶活性分子集的构效模型建立靶活性数据集的多模态构效模型;
S2、从公开数据集中下载若干天然产物数据集SMILES;
天然产物数据集SMILES包括COCONUT、Super Natural II、NPASS、KNApSaCK和CMAUP;
S3、采用开源程序RDKIT对若干天然产物数据集SMILES进行标准化处理,标准化处理包括合并若干天然产物数据集SMILES并将其命名为天然产物分子数据库MDNP;
S4、采用无监督学习算法对天然产物数据集进行指纹聚类;
S5、采用Mini Batch K-Means算法根据指纹聚类构建多个富集模型,多个富集模型的聚类数为1%-20%;
S6、采用无监督学习算法根据多个富集模型构建镞中心分子库和天然产物镞分子库;
S7、使用镞中心分子库对多模态构效模型中的靶活性分子集进行逐一标记,然后使用天然产物镞分子库进行分子富集;
S8、使用多模态构效模型结合分子富集后的靶活性分子集进行预测,并自定义筛选获得相似度相同或最接近的衍生天然产物镞;
S9、采用Rank对衍生天然产物镞进行排序,最终获得靶活性高的候选天然产物。
进一步地,在步骤S1中,靶活性分子评价指标的建立方法包括以下步骤:
S111、获取用于评估靶活性分子的数据,该数据包括但不限于LC50半致死浓度、IC50半抑制率浓度、EC50半最大效应浓度、TC50半数抑制浓度、MIC最小抑菌浓度、最低感官浓度;
最低感官浓度包括最小涩味浓度、最小甜味浓度、最小苦味浓度、最小咸味浓度、最小鲜味浓度与感官、滋味相关的评价指标;
S112、将上述所获取的数据结合能以通过具体数量或者其它用于评估分子集之间的差异或者强弱相关指标,同时也包括通过特定公式对上述评估指标进行转化来用于建模的数据,包括但不限于pLC50、pIC50、pEC50、pTC50、pMIC;
S113、通过步骤S112中转化而来的建模数据建立靶活性分子评价指标。
进一步地,在步骤S1中,靶活性分子集多模态描述符的建立方法包括以下步骤:
S121、使用单一或者组合使用以下描述符,包括但不限于使用开源量化程序对靶活性分子集进行几何优化和单点能计算,用于提取其拓扑、电子、几何以及热力学方面描述符;
S122、使用开源分子设计程序对靶活性分子集进行分子指纹计算,包括但不限基于拓扑指纹、MACCSkeys指纹、Atom Pairs、topological torsions、摩根指纹、ECFP2、ECFP4、ECFP6;
S123、使用开源分子设计程序对靶活性分子集进行2D和3D拓扑描述符计算;
S124、通过实验或其它预测工具获得若干靶活性分子集的物理化学描述符;
S125、将若干靶活性分子集的物理化学描述符集合做为靶活性分子集多模态描述符。
进一步地,在步骤S1中,靶活性分子集的构效模型的建立方法包括以下步骤:
S131、对靶活性分子集中的描述符进行预处理;
S132、建立靶活性与描述符之间的构效关系并进行优化;
S133、对靶活性分子集的构效模型进行评估。
进一步地,在步骤S4中,采用无监督学习算法对天然产物数据集进行指纹聚类包括以下步骤:
S41、使用开源程序RDKIT计算天然产物分子数据库MDNP中所有分子的指纹,包括拓扑指纹、MACCSkeys指纹、Atom Pairs、topological torsions、摩根指纹、ECFP2、ECFP4和ECFP6;
S42、选择ECFP4作为最终的天然产物分子数据库MDNP分子指纹类型;
S43、从天然产物分子数据库MDNP中随机选取40%的分子集合作为训练集;
S44、采用无监督学习算法分别对训练集的ECFP4指纹进行无监督聚类,聚类数为0.01%-50%;
S45、使用轮廓系数对无监督聚类评估,经评估,确定使用Mini Batch K-Means算法构建多个富集模型,多个富集模型的聚类数为1%~20%。
进一步地,无监督学习算法的采用包括但不限于K-Means算法、Mini Batch K-Means算法、层次聚类算法或DBSCAN算法。
进一步地,在步骤S6中,采用无监督学习算法根据多个富集模型构建镞中心分子库和天然产物镞分子库包括以下步骤:
S61、将多个富集模型分别预测剩余为60%的天然产物分子数据库MDNP的分子集,并给予类标签;
S62、将类标签按照从小到大的顺序进行排列构建天然产物鏃分子库;
S63、将取天然产物鏃分子库中的每个类中心分子提取出来构建鏃中心分子库。
进一步地,在步骤S7中,具体包括以下步骤:
S71、计算靶活性分子集的ECFP4指纹,逐一比对靶活性分子集ECFP4指纹与鏃中心分子库的ECFP4指纹之间的相似度,并将后者的标签进行映射,对靶活性分子集进行中心映射类标记库;
S72、使用步骤S5中的多个富集模型逐一对靶活性分子集ECFP4指纹进行预测,并进行模型类标记库;
S73、将中心映射类标记库和模型类标记库进行合并,之后从天然产物鏃分子库中按照标记索引进行提取每一个靶活性分子的初步富集分子集合库。
进一步地,在步骤S8中,具体包括以下步骤:
S81、计算步骤S73中初步富集分子集合库的分子指纹相似性;
S82、采用开源程序RDKIT计算初步富集分子集合库中每一个分子的基础性质,基础性质包括QED、MW、ALOGP、HBA、HBD、ROTB、PSA、AROM和ALERTS;
S83、根据分子指纹相似性以及基础性质对靶活性分子集进行筛选,筛选标准为:将MFS的阈值设置为0.6-0.9,删除MFS低的天然产物;将QED的阈值设置为0.45以及按照类药物五原则排除初筛假阳性物质;
S84、使用步骤S1中的多模态构效模型对剩余天然产物进行定量预测,获得相似度相同或最接近的衍生天然产物镞。
本发明还提出了另一种技术方案,一种利用上述靶活性天然产物筛选方法的用途,包括:
对衍生天然产物的靶活性进行提前预测和控制;
包括构建多模态的二肽衍生物抑制黑色素、多模态的黄酮降血糖以及多模态的黄酮涩味的多模态构效模型;
对天然靶活性分子进行标记并富集,结合多重定向指标完成靶活性天然产物筛选。
该用途可快速、高效且自动化筛选出具有高活性和低阳性率的靶活性天然产物,大大降低了当前靶活性天然产物药的研发周期,促进天然产物药新活性的发现。
借由上述技术方案,本发明提供了一种靶活性天然产物筛选方法及其用途,至少具备以下有益效果:
1、本发明能够快速、高效且自动化对靶活性目标分子集的衍生天然产物进行富集、筛选和预测,与此前相关方法相比,不仅提高了靶活性预测的精确度、减少了预测误差、并且实现从构效建模到候选药发现的闭环,更加整体且系统化,降低了天然产物药的研发成本和加快天然产物新活性的发现。
2、本发明能够构建预测性高、鲁棒性强的靶活性数据集的多模态构效模型,提供了高效且快速的分子富集,并对靶活性分子集进行预测,能够自定义筛选获得相似度相同或最接近的衍生天然产物镞,以此克服当前研究和专利现状的局限性,具有较高的普适性,其实现从构效建模到候选药发现的闭环,更加整体且系统化,可快速、高效且自动化筛选出具有高活性和低阳性率的靶活性天然产物。
3、本发明采用多模态从不同角度描述来描述靶活性分子集的特征,使多模态构效模型更加全面,所采用的算法为集成机器学习方法,如随机森林和梯度增强决策树,并且采用了Grid Search网格搜索进行超参数的优化,因此,此建模流程大大提高了靶活性预测的精确度、减少了预测误差,使得模型具有强的预测能力和鲁棒性。
4、本发明基于无监督学习建立分子富集模型,覆盖了主流的大型天然产物数据集,该模型基于Mini Batch K-Means算法构建,在保证精度的同时,速度更快,在普通电脑中可轻松对高达50万分子集进行训练,此外,所获得获得的天然产物鏃中心库可以明显区分镞与镞之间的差异,更大程度将ECFP4指纹相似的物质汇集在一起。
5、本发明采用使用多模态构效模型结合分子富集后的靶活性分子集进行预测,并自定义筛选获得相似度相同或最接近的衍生天然产物镞,由此提供靶活性候选天然产物高效筛选通道,高效且自动化实现对靶活性分子衍生天然产物的富集、筛选、预测和排序,大大降低天然产物药的研发成本和加快天然产物新活性的发现。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明实施例一中靶活性天然产物筛选方法的流程图;
图2为本发明实施例二中构建多模态的二肽衍生物抑制黑色素的构效模型;
图3为本发明实施例三中构建了多模态的黄酮降血糖的构效模型;
图4为本发明实施例四中构建了多模态的黄酮涩味的构效模型;
图5为本发明实施例五中针对5280805天然分子进行分子富集的结构图;
图6为本发明实施例六中针对5280441天然分子指纹富集展示列表图;
图7为本发明实施例六中针对5280441天然分子指纹富集展示列表图;
图8为本发明实施例七中针对5280805天然分子进行分子富集的MFS相似热力图;
图9为本发明实施例八中针对SH-BC-893分子分子指纹富集分子基础性质列表图;
图10为本发明实施例九中针对SH-BC-893分子进行分子富集的结构图;
图11为本发明实施例十中针对SH-BC-893分子富集后筛选出的候选天然分子结构图;
图12为本发明实施例十一中筛选的抑制黑色素的候选天然二肽衍生物;
图13为本发明实施例十一中筛选的降血糖的候选天然黄酮衍生物。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图 和具体实施方式对本发明作进一步详细的说明。借此对本申请如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。
到目前为止,天然产物新活性的发现及挖掘是漫长且繁琐的。尽管有许多策略被开发,如专利名称为基于阳性化合物残基贡献相似度的分子对接结果筛选方法,申请号为CN202110748005.2的中国专利,提出了基于配体与受体3D结合的虚拟筛选、经典分子动力学结合MMPBSA计算,但其操作不仅繁琐,且筛选出的药物与实验所得的结果相关性很差,难以预料。
一些专利给出了类似的方案,如基于3D力场描述符构建花色苷抗氧化构效模型(CN201310753332.2)、2D描述符构建的有机化合物对大型蚤极性毒性构效模型和以斑马鱼胚胎为受体的毒性预测方法(CN201510347479.0和CN201911139387.8),以及基于量化力学获得的描述符构建的食源性多肽抗氧化活性构效模型(CN201310753332.2),但这些专利均基于单模态进行构效建模,建模算法不仅陈旧,其计算预测精度较小,误差较大;此外,这些专利适用的领域极为局限,不具有普适性,也未通过实验证明模型预测的可靠性。Danishuddin and Asad U.Khan等人在论文《Descriptors and their selection methodsin QSAR analysis:paradigm for drug design》给出了一种基于多模态建模提高预测准确性的一些思考,然而,其未给出任何实质性的操作步骤和实验数据。此外,不同算法所构建的构效模型结果存在差异,而基于多模态多算法优化构效模型研究较少,相关专利也存在空白。
实施例一
请参照图1,示出了本实施例的一种具体实施方式,能够快速、高效且自动化对靶活性目标分子集的衍生天然产物进行富集、筛选和预测,这极大程度为替代副作用强或环境不友好型的人工合成药寻找天然产物药提供了有利手段,极大降低了天然产物药的研发周期,并促进天然产物药新活性的发现。
一种靶活性天然产物筛选方法,包括以下步骤:
S1、根据靶活性分子评价指标、靶活性分子集多模态描述符和靶活性分子集的构效模型建立靶活性数据集的多模态构效模型。
在步骤S1中,靶活性分子评价指标的建立方法包括以下步骤:
S111、获取用于评估靶活性分子的数据,该数据包括但不限于LC50半致死浓度、IC50半抑制率浓度、EC50半最大效应浓度、TC50半数抑制浓度、MIC最小抑菌浓度、最低感官浓度。
最低感官浓度包括最小涩味浓度、最小甜味浓度、最小苦味浓度、最小咸味浓度、最小鲜味浓度与感官、滋味相关的评价指标。
S112、将上述所获取的数据结合能以通过具体数量或者其它用于评估分子集之间的差异或者强弱相关指标,同时也包括通过特定公式对上述评估指标进行转化来用于建模的数据,包括但不限于pLC50、pIC50、pEC50、pTC50、pMIC,上述评估指标具体指通过具体数量或者其它用于评估分子集之间的差异或者强弱相关指标。
S113、通过步骤S112中转化而来的建模的数据建立靶活性分子评价指标。
在步骤S1中,靶活性分子集多模态描述符的建立方法包括以下步骤:
S121、使用单一或者组合使用以下描述符,包括但不限于使用开源量化程序对靶活性分子集进行几何优化和单点能计算,用于提取其拓扑、电子、几何以及热力学方面描述符。
S122、使用开源分子设计程序对靶活性分子集进行分子指纹计算,包括但不限基于拓扑指纹、MACCSkeys指纹、Atom Pairs、topological torsions、摩根指纹、ECFP2、ECFP4、ECFP6。
S123、使用开源分子设计程序对靶活性分子集进行2D和3D拓扑描述符计算。
S124、通过实验或其它预测工具获得若干靶活性分子集的物理化学描述符,试验为常规的一系列实验手段,或者其他能够从靶活性分子集中获得物理化学描述符的预测工具皆可,其所达到的效果仅仅是获得化学描述符这一特征,如何获取为现有技术的常规手段,此处不在详细赘述。
S125、将若干靶活性分子集的物理化学描述符集合做为靶活性分子集多模态描述符。
在步骤S1中,靶活性分子集的构效模型的建立方法包括以下步骤:
S131、对靶活性分子集中的描述符进行预处理。
靶活性分子集描述符集合X由构成,其中x表示某一个描述符的特征,数字为具体特征的数量和位置,由于这些特征里存在噪音和共线性,影响建模的质量,因此,采用多方法组合进行特征预处理。首先,使用下面的基于Pearson相关系数公式计算获得描述符之间的相关性,并删除共线性高的特征,并使用其它的特征处理方法进一步处理,Pearson相关系数公式为:
式中,x表示某一个描述符的特征,为该描述符的特征的平均值,y为另一个描述符的特征,为该描述符的特征的平均值,R的取值范围是,其中R越接近1,表示描述符之间越相关。相反,R越接近0,表示为描述符之间相关性越差。
本实施例达到对于任意靶活性从0到1实现建模,从1到n实现靶活性衍生天然产物药的发现,并且具有普适性,不仅提高了靶活性预测的精确度、减少了预测误差、而且实现从构效建模到候选药发现的闭环,大大降低天然产物药的研发周期。
其它特征处理方法为:使用Recursive Feature Elimination、SelectFromModel、L1-based feature selection进行二次特征选取,对最终的特征使用进行特征缩放,X为输入筛选后的特征描述符,u和s分别表示平均值和标准差。
本实施例采用多模态从不同角度描述来描述靶活性分子集的特征,使多模态构效模型更加全面,在特征处理中,采用Pearson相关系数和Recursive Feature Elimination、SelectFromModel、L1-based feature selection进行组合进行优化。在多模态构效模型建模中,所采用的算法为集成机器学习方法,如随机森林和梯度增强决策树,并且采用了GridSearch网格搜索进行超参数的优化,因此,此建模流程大大提高了靶活性预测的精确度、减少了预测误差,使得模型具有强的预测能力和鲁棒性。
S132、建立靶活性与描述符之间的构效关系并进行优化。
将预处理后的描述符按照8:2划分训练集和测试集,使用遗传算法、高斯过程回归、支持向量回归、随机森林和梯度增强决策树建立靶活性分子集的构效模型,并基于GridSearch网格搜索对靶活性分子集的构效模型进行超参数优化。
S133、对靶活性分子集的构效模型进行评估。
本实施例能够构建预测性高、鲁棒性强的靶活性数据集的多模态构效模型。提供了高效且快速的分子富集,并对靶活性分子集进行预测,能够自定义筛选获得相似度相同或最接近的衍生天然产物镞,以此克服当前研究和专利现状的局限性,具有较高的普适性,其实现从构效建模到候选药发现的闭环,更加整体且系统化,可快速、高效且自动化筛选出具有高活性和低阳性率的靶活性天然产物。
S2、从公开数据集中下载若干天然产物数据集SMILES。
天然产物数据集SMILES包括COCONUT、Super Natural II、NPASS、KNApSaCK和CMAUP。
S3、采用开源程序RDKIT对若干天然产物数据集SMILES进行标准化处理,标准化处理包括合并若干天然产物数据集SMILES并将其命名为天然产物分子数据库MDNP。
S4、采用无监督学习算法对天然产物数据集进行指纹聚类。
在步骤S4中,采用无监督学习算法对天然产物数据集进行指纹聚类包括以下步骤:
S41、使用开源程序RDKIT计算天然产物分子数据库MDNP中所有分子的指纹,包括拓扑指纹、MACCSkeys指纹、Atom Pairs、topological torsions、摩根指纹、ECFP2、ECFP4和ECFP6。
S42、选择ECFP4作为最终的天然产物分子数据库MDNP分子指纹类型。
S43、从天然产物分子数据库MDNP中随机选取40%的分子集合作为训练集。
S44、采用无监督学习算法分别对训练集的ECFP4指纹进行无监督聚类,聚类数为0.01%-50%。
S45、使用轮廓系数对无监督聚类评估,使用轮廓系数评估聚类模型。经评估,确定使用Mini Batch K-Means算法构建多个富集模型,多个富集模型的聚类数为1%~20%。
无监督学习算法的采用包括但不限于K-Means算法、Mini Batch K-Means算法、层次聚类算法或DBSCAN算法。
本实施例基于无监督学习建立分子富集模型,覆盖了主流的大型天然产物数据集,该模型基于Mini Batch K-Means算法构建,在保证精度的同时,速度更快,在普通电脑中可轻松对高达50万分子集进行训练,此外,所获得获得的天然产物鏃中心库可以明显区分镞与镞之间的差异,更大程度将ECFP4指纹相似的物质汇集在一起。
S5、采用Mini Batch K-Means算法根据指纹聚类构建多个富集模型,多个富集模型的聚类数为1%-20%。
S6、采用无监督学习算法根据多个富集模型构建镞中心分子库和天然产物镞分子库。
在步骤S6中,采用无监督学习算法根据多个富集模型构建镞中心分子库和天然产物镞分子库包括以下步骤:
S61、将多个富集模型分别预测剩余为60%的天然产物分子数据库MDNP的分子集,并给予类标签。
S62、将类标签按照从小到大的顺序进行排列构建天然产物鏃分子库。
S63、将取天然产物鏃分子库中的每个类中心分子提取出来构建鏃中心分子库。
S7、使用镞中心分子库对多模态构效模型中的靶活性分子集进行逐一标记,然后使用天然产物镞分子库进行分子富集。
在步骤S7中,具体包括以下步骤:
S71、计算靶活性分子集的ECFP4指纹,逐一比对靶活性分子集ECFP4指纹与鏃中心分子库的ECFP4指纹之间的相似度,并将后者的标签进行映射,对靶活性分子集进行中心映射类标记库。
S72、使用步骤S5中的多个富集模型逐一对靶活性分子集ECFP4指纹进行预测,并进行模型类标记库。
S73、将中心映射类标记库和模型类标记库进行合并,之后从天然产物鏃分子库中按照标记索引进行提取每一个靶活性分子的初步富集分子集合库。
S8、使用多模态构效模型结合分子富集后的靶活性分子集进行预测,并自定义筛选获得相似度相同或最接近的衍生天然产物镞。
S81、计算步骤S73中初步富集分子集合库的分子指纹相似性(Molecularfingerprint similarity,MFS)。
S82、采用开源程序RDKIT计算初步富集分子集合库中每一个分子的基础性质,基础性质包括QED、MW、ALOGP、HBA、HBD、ROTB、PSA、AROM和ALERTS。
S83、根据分子指纹相似性以及基础性质对靶活性分子集进行筛选,筛选标准为:将MFS的阈值设置为0.6-0.9,删除MFS低的天然产物。将QED的阈值设置为0.45以及按照类药物五原则排除初筛假阳性物质。
S84、使用步骤S1中的多模态构效模型对剩余天然产物进行定量预测,获得相似度相同或最接近的衍生天然产物镞。
S9、采用Rank对衍生天然产物镞进行排序,最终获得靶活性高的候选天然产物,可根据可自定义进行筛选,如ADMET、MW阈值等,并且使用Rank(pValuepre)进行排序,经筛选后最终得到靶活性候选天然产物。
本实施例采用使用多模态构效模型结合分子富集后的靶活性分子集进行预测,并自定义筛选获得相似度相同或最接近的衍生天然产物镞,由此提供靶活性候选天然产物高效筛选通道,高效且自动化实现对靶活性分子衍生天然产物的富集、筛选、预测和排序,大大降低天然产物药的研发成本和加快天然产物新活性的发现。
本实施例利用多模态多算法构建靶活性数据集的多模态构效模型,以实现对衍生天然产物的靶活性进行提前预测和控制。在分子指纹富集方面,通过收集已公开的天然产物分子数据集并计算其分子指纹,基于无监督学习算法构建天然产物鏃分子库和鏃中心分子库。之后,鏃中心分子库负责对靶活性分子进行标记,天然产物鏃分子库对标记进行富集,结合多重定向指标来筛选,以获得具有靶向高活性的天然产物。
该方法能够快速、高效且自动化对靶活性目标分子集的衍生天然产物进行富集、筛选和预测,与此前相关方法相比,不仅提高了靶活性预测的精确度、减少了预测误差、并且实现从构效建模到候选药发现的闭环,更加整体且系统化,降低了天然产物药的研发成本和加快天然产物新活性的发现。
本实施例在靶活性天然产物筛选方法的基础上,还提出了另一种实施方式,一种利用上述靶活性天然产物筛选方法的用途,包括:
对衍生天然产物的靶活性进行提前预测和控制。
包括构建多模态的二肽衍生物抑制黑色素、多模态的黄酮降血糖以及多模态的黄酮涩味的多模态构效模型。
对天然靶活性分子进行标记并富集,结合多重定向指标完成靶活性天然产物筛选。
该用途可快速、高效且自动化筛选出具有高活性和低阳性率的靶活性天然产物,大大降低了当前靶活性天然产物药的研发周期,促进天然产物药新活性的发现。
实施例二
请参照图2,示出了本实施例二的一种具体实施方式,本实施例是在实施例一所提出的靶活性天然产物筛选方法的基础上实现的,相同或相似的部分互相参见即可,并具有相应的方法实施例的有益效果,相同部分在此不再赘述。
在本实施例中,提出了利用上述靶活性天然产物筛选方法的用途,采用该方法构建了多模态的二肽衍生物抑制黑色素的构效模型,结果如图2所示。可以看出,所建的两种构效模型具有很高的相关性,测试集预测的结果和MAE表明所建的构效模型具有较好的预测能力和鲁棒性。
实施例三
请参照图3,示出了本实施例三的一种具体实施方式,本实施例是在实施例一所提出的靶活性天然产物筛选方法的基础上实现的,相同或相似的部分互相参见即可,并具有相应的方法实施例的有益效果,相同部分在此不再赘述。
在本实施例中,提出了利用上述靶活性天然产物筛选方法的用途,采用该方法构建了多模态的黄酮降血糖的构效模型,结果如图3所示。构效模型结果表明,黄酮分子与降血糖活性之间具有很好的相关性,两种模型的均大于0.92,MAE结果显示构效模型的误差率较低,具有较好的预测能力。
实施例四
请参照图4,示出了本实施例四的一种具体实施方式,本实施例是在实施例一所提出的靶活性天然产物筛选方法的基础上实现的,相同或相似的部分互相参见即可,并具有相应的方法实施例的有益效果,相同部分在此不再赘述。
在本实施例中,提出了利用上述靶活性天然产物筛选方法的用途,采用该方法构建了多模态的黄酮涩味的构效模型,结果如图4所示。图4A和图4B为经优化后选择的集成算法随机森林和梯度增强决策树优化构建的最佳黄酮涩味的构效模型。结果表明,两种算法构建的构效模型均表现出较强的相关性,它们的均大于0.88,MAE结果显示构效模型的误差率较低,具有较好的预测能力。
实施例五
请参照图5,示出了本实施例五的一种具体实施方式,本实施例是在实施例一所提出的靶活性天然产物筛选方法的基础上实现的,相同或相似的部分互相参见即可,并具有相应的方法实施例的有益效果,相同部分在此不再赘述。
在本实施例中,提出了利用上述靶活性天然产物筛选方法的用途,采用该方法针对5280805天然分子进行分子富集,部分富集结构图如图5所示。可以明显看出天然产物镞中心库和分子库针对5280805天然分子所富集的天然产物在结构方面具有很强的相似性,不仅包括该分子相似的结构骨架和糖苷位置,同时也给出了不同类型的衍生相似天然产物,对筛选并研究它们构效的差异极为重要。
实施例六
请参照图6,示出了本实施例六的一种具体实施方式,本实施例是在实施例一所提出的靶活性天然产物筛选方法的基础上实现的,相同或相似的部分互相参见即可,并具有相应的方法实施例的有益效果,相同部分在此不再赘述。
在本实施例中,提出了利用上述靶活性天然产物筛选方法的用途,采用该方法针对5280441天然分子进行分子富集,部分富集结果如图6和图7列表所示。本发明内含自动化富集分析报告,不仅实现对目标分子的富集,同时计算富集分子间的MFS相似度以及是否为镞中心分析。
实施例七
请参照图7,示出了本实施例七的一种具体实施方式,本实施例是在实施例一所提出的靶活性天然产物筛选方法的基础上实现的,相同或相似的部分互相参见即可,并具有相应的方法实施例的有益效果,相同部分在此不再赘述。
在本实施例中,提出了利用上述靶活性天然产物筛选方法的用途,采用该方法针对5280805天然分子进行分子富集,并计算它们的MFS相似热力图,结果如图7所示。可以明显看出,前984个分子具有极高的相似性,平均MFS高于0.8,这表明该专利能够很好富集衍生天然产物。
实施例八
请参照图8,示出了本实施例八的一种具体实施方式,本实施例是在实施例一所提出的靶活性天然产物筛选方法的基础上实现的,相同或相似的部分互相参见即可,并具有相应的方法实施例的有益效果,相同部分在此不再赘述。
在本实施例中,提出了利用上述靶活性天然产物筛选方法的用途,采用该方法针对SH-BC-893分子进行分子富集,并计算其基础性质,结果如图8所示。QED是近年来新提出的一种排除假阳性的指标,其在一定程度上取代了类药性五原则。本专利能够自动计算富集后分子集的基础性质,并生成列表分析报告,该报告含有分子的编号、名称、结构图、指纹相似性score、QED、Mw、ALOGP、HBA、HBD、ROTB、PSA、AROM、ALERTS以及标准的SMILES。
实施例九
请参照图9,示出了本实施例九的一种具体实施方式,本实施例是在实施例一所提出的靶活性天然产物筛选方法的基础上实现的,相同或相似的部分互相参见即可,并具有相应的方法实施例的有益效果,相同部分在此不再赘述。
在本实施例中,提出了利用上述靶活性天然产物筛选方法的用途,采用该方法针对SH-BC-893分子进行分子富集,富集后的天然产物结构如图9所示。根据指纹相似性score和QED进行自定义挑选,最终锁定12个SH-BC-893衍生天然产物。
实施例十
请参照图10,示出了本实施例十的一种具体实施方式,本实施例是在实施例一所提出的靶活性天然产物筛选方法的基础上实现的,相同或相似的部分互相参见即可,并具有相应的方法实施例的有益效果,相同部分在此不再赘述。
在本实施例中,提出了利用上述靶活性天然产物筛选方法的用途,采用该方法针对SH-BC-893分子富集后筛选出的候选天然分子结构图,结果如图10所示。原子所在的位置和其性质影响分子的活性,因此,可进一步使用Charge和Alogp原子贡献地图进行自定义筛选。
实施例十一
请参照图11和图12,示出了本实施例十一的一种具体实施方式,本实施例是在实施例一所提出的靶活性天然产物筛选方法的基础上实现的,相同或相似的部分互相参见即可,并具有相应的方法实施例的有益效果,相同部分在此不再赘述。
在本实施例中,提出了利用上述靶活性天然产物筛选方法的用途,采用该方法在本发明实施例中,通过该筛选方法成功筛选到黑色素的候选天然二肽衍生物,结果如图11所示。
通过该筛选方法成功筛选到降血糖的候选天然黄酮衍生物,结果如图12所示。
本发明能够快速、高效且自动化对靶活性目标分子集的衍生天然产物进行富集、筛选和预测,与此前相关方法相比,不仅提高了靶活性预测的精确度、减少了预测误差、并且实现从构效建模到候选药发现的闭环,更加整体且系统化,降低了天然产物药的研发成本和加快天然产物新活性的发现。
以上实施方式对本发明进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (7)
1.一种靶活性天然产物筛选方法,其特征在于,包括以下步骤:
S1、根据靶活性分子评价指标、靶活性分子集多模态描述符和靶活性分子集的构效模型建立靶活性数据集的多模态构效模型;
S2、从公开数据集中下载若干天然产物数据集SMILES,天然产物数据集SMILES包括COCONUT、Super Natural II、NPASS、KNApSaCK和CMAUP;
S3、采用开源程序RDKIT对若干天然产物数据集SMILES进行标准化处理,标准化处理包括合并天然产物数据集SMILES,并将其命名为天然产物分子数据库MDNP;
S4、采用无监督学习算法对天然产物数据集进行指纹聚类;
S5、采用Mini Batch K-Means算法根据指纹聚类构建多个富集模型,多个富集模型的聚类数为1%-20%;
在步骤S4中,采用无监督学习算法对天然产物数据集进行指纹聚类包括以下步骤:
S41、使用开源程序RDKIT计算天然产物分子数据库MDNP中所有分子的指纹,包括拓扑指纹、MACCSkeys指纹、Atom Pairs、topological torsions、摩根指纹、ECFP2、ECFP4和ECFP6;
S42、选择ECFP4作为最终的天然产物分子数据库MDNP分子指纹类型;
S43、从天然产物分子数据库MDNP中随机选取40%的分子集合作为训练集;
S44、采用无监督学习算法分别对训练集的ECFP4指纹进行无监督聚类,聚类数为0.01%-50%;
S45、使用轮廓系数对无监督聚类评估;
S6、采用无监督学习算法根据多个富集模型构建鏃中心分子库和天然产物鏃分子库;
S7、使用鏃中心分子库对多模态构效模型中的靶活性分子集进行逐一标记,然后使用天然产物鏃分子库进行分子富集;
在步骤S7中,具体包括以下步骤:
S71、计算靶活性分子集的ECFP4指纹,逐一比对靶活性分子集的ECFP4指纹与鏃中心分子库的ECFP4指纹之间的相似度,并将鏃中心分子库的ECFP4指纹标签进行映射,构成靶活性分子集的中心映射类标记库;
S72、使用步骤S5中的多个富集模型逐一对靶活性分子集的ECFP4指纹进行预测,构成模型类标记库;
S73、将中心映射类标记库和模型类标记库进行合并,之后从天然产物鏃分子库中按照标记索引提取每一个靶活性分子的初步富集分子集合库;
S8、使用多模态构效模型结合分子富集后的靶活性分子集进行预测,并自定义筛选获得相似度相同或最接近的衍生天然产物鏃;
在步骤S8中,具体包括以下步骤:
S81、计算步骤S73中初步富集分子集合库的分子指纹相似性;
S82、采用开源程序RDKIT计算初步富集分子集合库中每一个分子的基础性质,
基础性质包括QED、MW、ALOGP、HBA、HBD、ROTB、PSA、AROM和ALERTS;
S83、根据分子指纹相似性以及基础性质对靶活性分子集进行筛选,
筛选标准为:将分子指纹相似性的阈值设置为0.6-0.9,删除分子指纹相似性低的天然产物;将QED的阈值设置为0.45以及按照类药物五原则排除初筛假阳性物质;
S84、使用步骤S1中的多模态构效模型对剩余天然产物进行定量预测,获得相似度相同或最接近的衍生天然产物鏃;
S9、采用Rank对衍生天然产物鏃进行排序,最终获得靶活性高的候选天然产物。
2.根据权利要求1所述的靶活性天然产物筛选方法,其特征在于:在步骤S1中,靶活性分子评价指标的建立方法包括以下步骤:
S111、获取用于评估靶活性分子的数据,该数据包括但不限于LC50半致死浓度、IC50半抑制率浓度、EC50半最大效应浓度、TC50半数抑制浓度、MIC最小抑菌浓度、最低感官浓度;
S112、将上述所获取的数据结合能以通过具体数量或者其它用于评估分子集之间的差异或者强弱相关指标,同时也包括通过特定公式对上述评估指标进行转化来用于建模的数据,包括但不限于pLC50、pIC50、pEC50、pTC50、pMIC;
S113、通过步骤S112中转化而来的建模数据建立靶活性分子评价指标。
3.根据权利要求1所述的靶活性天然产物筛选方法,其特征在于:在步骤S1中,靶活性分子集多模态描述符的建立方法包括以下步骤:
S121、使用单一或者组合使用以下描述符,包括但不限于使用开源量化程序对靶活性分子集进行几何优化和单点能计算,用于提取其拓扑、电子、几何以及热力学方面描述符;
S122、使用开源分子设计程序对靶活性分子集进行分子指纹计算,包括但不限基于拓扑指纹、MACCSkeys指纹、Atom Pairs、topological torsions、摩根指纹、ECFP2、ECFP4、ECFP6;
S123、使用开源分子设计程序对靶活性分子集进行2D和3D拓扑描述符计算;
S124、通过实验或其它预测工具获得若干靶活性分子集的物理化学描述符;
S125、将若干靶活性分子集的物理化学描述符集合做为靶活性分子集多模态描述符。
4.根据权利要求1所述的靶活性天然产物筛选方法,其特征在于:在步骤S1中,靶活性分子集的构效模型的建立方法包括以下步骤:
S131、对靶活性分子集中的描述符进行预处理;
S132、建立靶活性与描述符之间的构效关系并进行优化;
S133、对靶活性分子集的构效模型进行评估。
5.根据权利要求1所述的靶活性天然产物筛选方法,其特征在于:无监督学习算法的采用包括但不限于K-Means算法、Mini Batch K-Means算法、层次聚类算法或DBSCAN算法。
6.根据权利要求1所述的靶活性天然产物筛选方法,其特征在于:在步骤S6中,采用无监督学习算法根据多个富集模型构建鏃中心分子库和天然产物鏃分子库包括以下步骤:
S61、将多个富集模型分别预测剩余为60%的天然产物分子数据库MDNP的分子集,并给予类标签;
S62、将类标签按照从小到大的顺序进行排列构建天然产物鏃分子库;
S63、将天然产物鏃分子库中的每个类中心分子提取出来构建鏃中心分子库。
7.一种利用上述权利要求1-6任一项所述的靶活性天然产物筛选方法的用途,其特征在于,包括:
对衍生天然产物的靶活性进行提前预测和控制;
包括构建多模态的二肽衍生物抑制黑色素、多模态的黄酮降血糖以及多模态的黄酮涩味的多模态构效模型;
对天然靶活性分子进行标记并富集,结合多重定向指标完成靶活性天然产物筛选。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211066439.5A CN115146131B (zh) | 2022-09-01 | 2022-09-01 | 一种靶活性天然产物筛选方法及其用途 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211066439.5A CN115146131B (zh) | 2022-09-01 | 2022-09-01 | 一种靶活性天然产物筛选方法及其用途 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115146131A CN115146131A (zh) | 2022-10-04 |
CN115146131B true CN115146131B (zh) | 2022-11-18 |
Family
ID=83415858
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211066439.5A Active CN115146131B (zh) | 2022-09-01 | 2022-09-01 | 一种靶活性天然产物筛选方法及其用途 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115146131B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117476126B (zh) * | 2023-12-28 | 2024-03-19 | 中国农业科学院蜜蜂研究所 | 一种靶向制备降尿酸活性的蜂胶黄酮提取方法及应用 |
CN118136093A (zh) * | 2024-02-26 | 2024-06-04 | 北京医院 | 一种抗金黄色葡萄球菌天然抗菌药物的筛选方法及应用 |
CN118280482B (zh) * | 2024-06-04 | 2024-08-23 | 浙江大学 | 基于深度学习预测抗氧化分子的方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112084975A (zh) * | 2020-09-14 | 2020-12-15 | 中国农业科学院蜜蜂研究所 | 一种基于机器学习模型的昆虫访花行为分析方法 |
CN112505207A (zh) * | 2020-09-27 | 2021-03-16 | 江南大学 | 一种用于抗氧化活性物质筛选的生物代谢组学分析方法 |
CN114878724A (zh) * | 2022-07-12 | 2022-08-09 | 中国农业科学院蜜蜂研究所 | 一种区分不同品种中蜂蜂蜜的方法与应用 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11562444B2 (en) * | 2017-11-09 | 2023-01-24 | Climate Llc | Hybrid seed selection and seed portfolio optimization by field |
-
2022
- 2022-09-01 CN CN202211066439.5A patent/CN115146131B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112084975A (zh) * | 2020-09-14 | 2020-12-15 | 中国农业科学院蜜蜂研究所 | 一种基于机器学习模型的昆虫访花行为分析方法 |
CN112505207A (zh) * | 2020-09-27 | 2021-03-16 | 江南大学 | 一种用于抗氧化活性物质筛选的生物代谢组学分析方法 |
CN114878724A (zh) * | 2022-07-12 | 2022-08-09 | 中国农业科学院蜜蜂研究所 | 一种区分不同品种中蜂蜂蜜的方法与应用 |
Non-Patent Citations (1)
Title |
---|
计算机辅助药物设计在天然产物多靶点药物研发中的应用浅谈;尚佳锌;《智慧健康》;20191031;第5卷(第26期);第1-3页 * |
Also Published As
Publication number | Publication date |
---|---|
CN115146131A (zh) | 2022-10-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115146131B (zh) | 一种靶活性天然产物筛选方法及其用途 | |
Bock et al. | Whole-proteome interaction mining | |
Kohonen et al. | How to make large self-organizing maps for nonvectorial data | |
Heringa | Two strategies for sequence comparison: profile-preprocessed and secondary structure-induced multiple alignment | |
Pandey et al. | Computational approaches for protein function prediction: A survey | |
Wei et al. | An improved protein structural classes prediction method by incorporating both sequence and structure information | |
Sikandar et al. | Decision tree based approaches for detecting protein complex in protein protein interaction network (PPI) via link and sequence analysis | |
Li et al. | Protein loop modeling using deep generative adversarial network | |
CN116072227B (zh) | 海洋营养成分生物合成途径挖掘方法、装置、设备和介质 | |
Wang et al. | PMPTCE-HNEA: Predicting metabolic pathway types of chemicals and enzymes with a heterogeneous network embedding algorithm | |
Xuan et al. | Clpred: a sequence-based protein crystallization predictor using blstm neural network | |
US7047137B1 (en) | Computer method and apparatus for uniform representation of genome sequences | |
CN117594117A (zh) | 一种基于异质图对比学习的药物-靶点相互作用预测方法 | |
Ceroni et al. | Predicting the disulfide bonding state of cysteines with combinations of kernel machines | |
Rost | A neural network for prediction of protein secondary structure | |
Bejerano et al. | Markovian domain fingerprinting: statistical segmentation of protein sequences | |
Rychlewski et al. | Secondary structure prediction using segment similarity. | |
Ku et al. | Protein structure search and local structure characterization | |
Rizzi et al. | A dissimilarity-based classifier for generalized sequences by a granular computing approach | |
Dong et al. | Methods for optimizing the structure alphabet sequences of proteins | |
Kumar et al. | Ensemble Machine Learning Approaches in Molecular Fingerprint based Virtual screening | |
US8428885B2 (en) | Virtual screening of chemical spaces | |
Gundu | Artificial Intelligence: Using BLAST Algorithm for DNA Classification of Thicket Vegetation | |
Eckmann et al. | Target-Free Compound Activity Prediction via Few-Shot Learning | |
Zhang et al. | Unsupervised prediction method for drug-target interactions based on structural similarity |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |