CN106778032B - 药物设计中配体分子海量特征筛选方法 - Google Patents
药物设计中配体分子海量特征筛选方法 Download PDFInfo
- Publication number
- CN106778032B CN106778032B CN201710015626.3A CN201710015626A CN106778032B CN 106778032 B CN106778032 B CN 106778032B CN 201710015626 A CN201710015626 A CN 201710015626A CN 106778032 B CN106778032 B CN 106778032B
- Authority
- CN
- China
- Prior art keywords
- feature
- ligand
- ligand molecular
- ecfp
- magnanimity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
Landscapes
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Chemical & Material Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Crystallography & Structural Chemistry (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Physics & Mathematics (AREA)
- Pharmacology & Pharmacy (AREA)
- Medicinal Chemistry (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了药物设计中配体分子海量特征筛选方法。在基于配体的药物分子虚拟筛选中,由于配体分子数量巨大,使用目前最流行的ECFP方法产生的配体分子指纹特征的维数(每一维特征表示一个子结构)将会是海量的,甚至可达上千万维,在实际任务中会陷入“维数灾难”问题。本方法将使用基于EDPP准则的LASSO方法,对配体分子海量的ECFP分子指纹特征进行筛选,利用鲁棒性选择方法得到配体分子相关特征。配体分子的活性通常与少数子结构有关,本方法将快速并大幅去除不相关特征,选择鲁棒的相关特征,解决“维数灾难”问题,得到与配体活性相关的子结构,推动ECFP方法在药物设计中更广泛的应用。
Description
技术领域
本发明涉及一种基于机器学习的配体分子特征筛选方法,属于计算机辅助药物设计的技术领域。
背景技术
近年来,如何提高药物虚拟筛选的有效性成为制药企业需要迫切解决的问题。由于大量的生物化学实验为提供了充足的数据,而机器学习的方法正好可以利用这些数据来帮助解决问题。
药物虚拟筛选分为基于靶标结构和基于配体的两类方法。基于靶标结构的药物虚拟筛选模拟化合物与靶标之间的物理相互作用来确定是否可能存在药效,如分子对接方法。基于配体的方法主要是在靶标结构未知的情况下,利用已有的数据对化合物的活性进行预测。这类方法最关键的是使用各种方法或分子指纹对化合物进行充分的描述,以研究该化合物是否具有类似活性或治病机理,或归纳得到对化合物活性起关键作用的一些基团的信息。在基于配体的药物虚拟筛选中,配体分子的分子指纹表征是关键。目前,面对海量的化合物分子,最流行的是使用ECFP(Extended-connectivity fingerprints)分子指纹方法进行表征。不同的ECFP分子指纹方法,比如ECFP8、ECFP12等,后面的数字代表配体包含子结构的半径大小,一般来说,半径越大,生成特征越多。由于在药物虚拟筛选中,化合物分子数量巨大,基于ECFP子结构方法产生的特征维数是巨大的。例如,强生制药公司2014年参与的、利用机器学习方法,研究过针对15个药物靶标、基于配体的虚拟筛选的问题,配体分子约为75万个,使用最新的ECFP12分子指纹对配体进行表征,每个配体分子的特征维数高达上千万维。
配体分子海量特征在实际任务中会陷入“维数灾难”问题,即数据样本稀疏、距离计算困难等问题,这是所有机器学习方法共同面临的严重障碍。若能从中选择出重要的特征或者去除不相关特征,往往会降低学习任务的难度,使得后续学习过程仅需在一部分特征上构建模型,则维数灾难问题会大为减轻。配体分子主要是通过药效基团与靶标分子进行作用,而药效基团通常与配体分子的少数子结构有关,即大多数子结构与配体分子的活性无关。如果把配体分子数据集考虑成矩阵,其每行表示一个样本,对应于一个配体分子,而每列表示一个特征,对应于一个特定的子结构。对配体海量特征进行筛选时,需要考虑特征具有的“稀疏性”,即矩阵中的很多列与配体分子的活性是没有关系的,通过特征选择去除这些列,则在实际的学习任务仅需要在较小的矩阵上进行,学习任务的难度可能有所降低,涉及的计算和存储开销会减少,学得模型的可解析性也会提高。最小绝对收缩选择算子(LASSO,Least Absolute Shrinkage and Selection Operator)可以很好地解决上面问题,它将特征选择过程与学习器训练过程融为一体,两者在同一个优化过程中完成,并引入L1范数获得“稀疏”解和降低过拟合风险。考虑到配体分子的特征维数极有可能非常大,传统的LASSO方法时间开销大,也很难很好地解决此问题。本发明选择使用基于加强的对偶多面体投影准则(Enhanced Dual Polytope Projections,EDPP)的LASSO特征选择方法,来大幅加速配体海量特征筛选过程,仅去除掉大部分不相关的特征(即子结构),这样可以帮助理解与配体活性相关的子结构,并使得后续学习过程仅需在小部分特征上构建模型,大幅提高模型的学习效率。
发明内容
本发明针对基于配体的药物虚拟筛选中使用ECFP(Extended-connectivityfingerprints)分子指纹对配体分子进行表征时,因为配体分子海量特征在实际任务中会陷入“维数灾难”问题,提出了一种基于EDPP LASSO的特征筛选方法,主要包含ECFP特征生成过程、基于EDPP的LASSO的特征筛选过程。
鉴于此,本发明的技术方案是一种药物设计中配体分子海量特征筛选方法,包括如下步骤:
步骤1:配体分子ECFP特征生成;
步骤2:基于EDPP LASSO方法的配体分子特征筛选;
步骤3:基于鲁棒性选择方法的配体分子特征选择。
进一步,步骤1从数据库中得到初始数据集其中是每个分子的原子连接图,Yi是每个样本的标记,把每个分子的原子连接图及所需指纹深度输入ECFP生成软件,得到描述样本的ECFP特征,处理过的数据集Dt={(Xi,Yi)|Xi∈R1*m,1≤i≤n}。
步骤2和步骤3的特征筛选过程是通过两步优化,首先根据选取对于满足条件的一定数量的λ={λi|0≤i<K,λi>λi+1},对应于相同数量的特征筛选结果Τ={Τi|Τi∈R1*m,0≤i<K},其中Τi值为1代表特征保留,为0代表是无关特征,可删除,然后综合考虑这些特征筛选结果,把K个Ti叠加起来,这就得到每一位特征被选择的频数,特征被选择的次数越多,代表其越有可能是相关的特征,选取p个被选择次数最多的特征,得到鲁棒的特征选择结果,从而避免了使用单一参数值可能带来模型效果差的问题。
为取得最佳的筛选效果,上述一定数量优选为100。
本发明的有益效果:
1、解决“维数灾难”问题,使得后续学习过程仅需在小部分特征上构建模型,大幅提高模型的学习效率。
2、快速并大幅去除不相关特征,得到鲁棒的相关特征,利于理解与配体活性理解与配体活性相关的子结构,增加模型的可理解性。
附图说明
图1为本发明系统的构架图。
图2为本发明的方法流程图。
具体实施方式
以下结合说明书附图对本发明作进一步的详细说明。
图1为本发明系统的构架图,基于该构架本发明提供了一种基于EDPP准则的LASSO配体海量特征筛选方法,该方法具体实施步骤包括如下:
步骤1:配体分子ECFP特征生成。给定初始数据集其中是每个分子的原子连接图,Yi是每个样本的标记。对初始数据集进行处理,得到描述样本的ECFP特征,即数据集Dt={(Xi,Yi)|Xi∈R1*m,1≤i≤n}。
步骤2:基于EDPP LASSO方法的配体分子特征筛选。对数据集Dt,应用EDPP准则,对于满足条件(λ∈(0,λ0])的λ={λi|0≤i<K,λi>λi+1},得到每个λ值的特征筛选结果Τ={Τi|Τi∈R1*m,0≤i<K},其中Τi值为1代表特征保留,为0代表是无关特征,可删除。
步骤3:基于鲁棒性选择(stability selection)方法的配体分子特征选择。对于步骤2的特征筛选结果,把K个Ti叠加起来,这就得到每一位特征被选择的频数,特征被选择的次数越多,代表其越有可能是相关的特征,选取p个被选择次数最多的特征,得到鲁棒的特征选择结果。
进一步,步骤1中把从数据库中得到的每个分子的原子连接图及所需指纹深度输入ECFP生成软件,会得到每个分子固定长度的ECFP特征。由于数据集的特征是由全体分子生成的,分子之间会有共同的特征,也会有自身独特的特征,因此把所有分子的特征组合起来,删除重复的共有特征,把剩下来的特征作为最后的特征描述。
上述步骤2和步骤3的特征筛选过程是通过两步优化,首先根据选取对于满足条件的一定数量的λ={λi|0≤i<K,λi>λi+1},对应于相同数量的特征筛选结果Τ={Τi|Τi∈R1 *m,0≤i<K},其中Τi值为1代表特征保留,为0代表是无关特征,可删除。然后综合考虑这些特征筛选结果,把K个Ti叠加起来,这就得到每一位特征被选择的频数,特征被选择的次数越多,代表其越有可能是相关的特征,选取p个被选择次数最多的特征,得到鲁棒的特征选择结果,从而避免了使用单一参数值可能带来模型效果差的问题。
作为优选,上述一定数量选取100。
本发明的方法流程图如图2所示,下面给出本发明特征筛选结果Τ的求取过程:
假定数据X∈Rn*m,n为样本个数,m为特征维数,则标准LASSO问题为:
(1)式中通过对损失函数加上1范数的惩罚函数,将变量β的系数进行压缩并使某些回归系数变为0,进而达到特征选择的目的。
对于(1)式可转换求其对偶问题:
其中θ为对偶变量。式(1)和式(2)的最优解是相同的,所以只要求其对
偶问题即可。为了方便起见,把优化问题(2)的解记为θ*(λ)(同理优化问
题(1)的解记为β*(λ))。根据KKT条件有:
y=Xβ*(λ)+λθ*(λ)(3)
其中[*]i代表第i个特征,由式(4)所示的KKT条件,得到
换句话说,可以充分利用(R1)来为LASSO问题找出无关的特征。但是,因为θ*(λ)是一个不知道的值,不能直接利用(R1)来找出无关的特征。所以可以先估计一个区域Θ,其中包含θ*(λ)。所以,(R1)可以被写成如下形式:
只要能找到一个区域包含θ*(λ),区域内每一个θ与乘积的绝对值小于1即可,这样(R1’)就可以作为一条规则用来为LASSO问题找出无关的特征。从(R1)和(R1’),可以看出,找到的区域Θ越小,θ*(λ)的估计就越正确。那么有更多的无关特征就可以通过规则筛选出来。
再来观察对偶问题(2),发现问题(2)的最优解是一个靠近y/λ的动点。为方便起见,设F为问题(2)的动点集。显而易见,可以看出,F是一个封闭的、凸的多面体。换句话说,θ*(λ)是y/λ在多面体F上的投影。从数学上说,希伯尔特空间中,对于一个任意向量ω和一个凸集C,投影操作可以被定义为:
对偶问题的解θ*(λ)可以表示为:
对于等式(6),可以看出当λ足够大的时候,y/λ就是F的一个内点。如果是这种情况,可以有如下判断:1)y/λ是F的一个内点,说明问题(2)的约束都是满足始终成立;2)因为θ*(λ)也是F的一个内点,根据等式(6),那么就有θ*(λ)=PF(y/λ)=y/λ成立。结合1)和2),假设λ足够大,那么β*(λ)=0,也就是说,所有特征都是无关的。
通过上面的分析,那么是否会存在一个特殊的参数λmax?当λ>λmax时,问题(1)的最优解为0。答案是肯定存在的。定义:
等式(7)定义的λmax是问题(1)所有特征都是无关的最小参数。
结合等式(8)和等式(3)有:
所以,如果想要筛选出无关的特征,必须要在λ∈(0,λmax)内才可以。因此首先要找到一个包含最优解θ*(λ)的区域Θ,其次求解(R1’)的最大值,最后根据每个特征对应(R1’)求解出来的最大值判断特征是否有关。
下面将直接给出EDPP的定理。
定理1:对于LASSO问题,在λ0∈(0,λmax],假设对偶问题解θ*(·)已知。对于任何λ∈(0,λ0],定义:
则对偶问题解:
对于λ0∈(0,λmax],λ∈(0,λ0],则[β*(λ)]i=0必满足下式,
EDPP准则为:对于LASSO问题,有一系列参数值λmax=λ0>λ1>…>λκ,对于任何在0≤k<κ,且β*(λk)已知,则[β*(λk+1)]i=0必满足下式:
则对于满足条件的参数λ,按照(15式)一步一步递推,对于每一个λk,如果第i个特征满足上式,则[β*(λk+1)]i=0,则第i位特征为无关特征,筛选结果向量Τk对应位置0,其余为置1,得到特征筛选结果Τ={Τi|Τi∈R1*m,0≤i<K}。
对于具体的学习任务,选取鲁棒性的特征筛选结果。
上面第2步,得到K个λ所对应的K个特征筛选结果Ti,把K个Ti叠加起来,这就得到每一位特征被选择的频数,特征被选择的次数越多,代表其越有可能是相关的特征,选取p个被选择次数最多的特征,得到鲁棒的特征选择结果(p也是一个可调参数)。
本发明的有益效果概括如下:
(1)本发明解决了配体分子海量特征的“维数灾难”问题,使得后续学习过程仅需在小部分特征上构建模型,大幅提高模型的学习效率。
现在的机器学习问题中,具有非常高维度的数据随处可见。例如在许多生物相关的问题中,数据的维度非常高,由于收集数据需要昂贵的实验,因此可用的训练数据相当少。这个时候就会出现特征维度远大于样本数的情况,如果不做其他假设或限制的话,模型难以构建,同时也会引起过拟合的问题。而LASSO方法通过构建一个罚函数得到一个较为精炼的模型,使得它压缩一些系数,同时设定一些系数为零,从而剔除不相关的特征,解决了“维数灾难”问题,使得后续学习过程仅需在小部分特征上构建模型,大幅提高模型的学习效率。
(2)本发明利用基于EDPP准则的LASSO方法,快速并大幅去除不相关特征,得到鲁棒的相关特征,利于理解与配体活性理解与配体活性相关的子结构,增加模型的可理解性。
针对K个满足条件的参数值,得到了K个候选的特征筛选结果,把K个筛选结果叠加起来,这就得到每一位特征被选择的频数,特征被选择的次数越多,代表其越有可能是相关的特征,选取p个被选择次数最多的特征作为最终的特征筛选结果,从而避免了使用单一参数值可能带来模型效果差的问题。
Claims (4)
1.药物设计中配体分子海量特征筛选方法,其特征在于,所述方法包括如下步骤:
步骤1:配体分子扩展连接性指纹ECFP特征生成;
给定初始数据集其中是每个分子的原子连接图,Yi是每个样本的标记,对初始数据集进行处理,得到最终描述样本的ECFP特征,处理过的数据集Dt={(Xi,Yi)|Xi∈R1*m,1≤i≤n};
步骤2:基于加强对偶多面体投影准则EDPP的最小绝对收缩选择算子LASSO方法的配体分子特征筛选,对处理过的数据集Dt,应用EDPP准则,对于满足条件的λ={λi|0≤i<K,λi>λi+1},得到对应于λ的特征筛选结果Τ={Τi|Τi∈R1*m,0≤i<K};Τi每一位的值为1代表特征保留,0代表特征已删除,对于K个特征筛选结果,统计每一位特征的频数,然后降序排序,选取排名前p个的特征作为最终的特征筛选结果;
步骤3:基于鲁棒性选择方法的配体分子特征选择。
2.根据权利要求1所述的药物设计中配体分子海量特征筛选方法,其特征在于,步骤1中把从数据库中得到的每个分子的原子连接图及所需指纹深度输入ECFP生成软件,会得到每个分子固定长度的ECFP特征;由于用于描述配体的ECFP特征维数过高,使用基于EDPP的LASSO特征筛选方法剔除不相关的特征,把有关的特征保留下来。
3.根据权利要求1所述的药物设计中配体分子海量特征筛选方法,其特征在于:所述步骤2和步骤3的特征筛选过程是通过两步优化,首先根据选取满足条件的λ值,得到对应于相同λ数量的特征筛选结果,然后综合考虑这些特征筛选结果,把保留下来的特征进行统计,之后按频数降序排序,选取排名前p个特征作为最后的结果。
4.根据权利要求3所述的药物设计中配体分子海量特征筛选方法,其特征在于所述λ值为100。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611155103 | 2016-12-14 | ||
CN2016111551030 | 2016-12-14 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106778032A CN106778032A (zh) | 2017-05-31 |
CN106778032B true CN106778032B (zh) | 2019-06-04 |
Family
ID=58948511
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710015626.3A Active CN106778032B (zh) | 2016-12-14 | 2017-02-17 | 药物设计中配体分子海量特征筛选方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106778032B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107862173B (zh) * | 2017-11-15 | 2021-04-27 | 南京邮电大学 | 一种先导化合物虚拟筛选方法和装置 |
CN108399316A (zh) * | 2018-03-02 | 2018-08-14 | 南京邮电大学 | 药物设计中配体分子特征筛选装置和筛选方法 |
CN108536999A (zh) * | 2018-03-21 | 2018-09-14 | 南京邮电大学 | 一种配体小分子关键子结构筛选方法及装置 |
CN112435720B (zh) * | 2020-12-04 | 2021-10-26 | 上海蠡图信息科技有限公司 | 一种基于自注意力机制与多药物特征组合的预测方法 |
CN112818028B (zh) * | 2021-01-12 | 2021-09-17 | 平安科技(深圳)有限公司 | 数据指标筛选方法、装置、计算机设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1046038B1 (en) * | 1998-01-08 | 2005-10-12 | University College Dublin | Use of mass fingerprinting for identification of protein affinity ligands |
EP1073891B1 (en) * | 1998-04-23 | 2006-08-09 | Duke University | Method of predicting receptor modulating activity |
CN104318243A (zh) * | 2014-10-14 | 2015-01-28 | 西安电子科技大学 | 基于稀疏表示和空谱拉普拉斯图的高光谱数据降维方法 |
CN104408480A (zh) * | 2014-11-28 | 2015-03-11 | 安徽师范大学 | 一种基于Laplacian算子的特征选择方法 |
CN105404899A (zh) * | 2015-12-02 | 2016-03-16 | 华东师范大学 | 基于多方向上下文信息和稀疏编码模型的图像分类方法 |
-
2017
- 2017-02-17 CN CN201710015626.3A patent/CN106778032B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1046038B1 (en) * | 1998-01-08 | 2005-10-12 | University College Dublin | Use of mass fingerprinting for identification of protein affinity ligands |
EP1073891B1 (en) * | 1998-04-23 | 2006-08-09 | Duke University | Method of predicting receptor modulating activity |
CN104318243A (zh) * | 2014-10-14 | 2015-01-28 | 西安电子科技大学 | 基于稀疏表示和空谱拉普拉斯图的高光谱数据降维方法 |
CN104408480A (zh) * | 2014-11-28 | 2015-03-11 | 安徽师范大学 | 一种基于Laplacian算子的特征选择方法 |
CN105404899A (zh) * | 2015-12-02 | 2016-03-16 | 华东师范大学 | 基于多方向上下文信息和稀疏编码模型的图像分类方法 |
Non-Patent Citations (1)
Title |
---|
"基于深度学习的口服生物利用度分类研究";史新宇 等;《计算机科学》;20160430;第43卷(第4期);第260-263页 |
Also Published As
Publication number | Publication date |
---|---|
CN106778032A (zh) | 2017-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106778032B (zh) | 药物设计中配体分子海量特征筛选方法 | |
CN109190023B (zh) | 协同推荐的方法、装置及终端设备 | |
Vlasblom et al. | Markov clustering versus affinity propagation for the partitioning of protein interaction graphs | |
Ferrari et al. | Clustering algorithm selection by meta-learning systems: A new distance-based problem characterization and ranking combination methods | |
US20160283533A1 (en) | Multi-distance clustering | |
Han et al. | Depth selection for deep ReLU nets in feature extraction and generalization | |
Wang et al. | Graphical features of functional genes in human protein interaction network | |
CN113516019B (zh) | 高光谱图像解混方法、装置及电子设备 | |
CN111429980A (zh) | 一种材料晶体结构特征的自动化获取方法 | |
Zeng et al. | A novel HMM-based clustering algorithm for the analysis of gene expression time-course data | |
Zhang et al. | A novel hierarchical clustering approach based on universal gravitation | |
Maâtouk et al. | Evolutionary biclustering algorithms: an experimental study on microarray data | |
CN114792397A (zh) | 一种sar影像城市道路提取方法、系统以及存储介质 | |
Bulysheva et al. | Segmentation modeling algorithm: a novel algorithm in data mining | |
AU2021346093A1 (en) | Method and system for subsampling of cells from single-cell genomics dataset | |
CN103678709B (zh) | 一种基于时序数据的推荐系统攻击检测方法 | |
CN111462817A (zh) | 一种分类模型构建方法、装置、分类模型及分类方法 | |
Poitier et al. | Estimation of true efficient frontier of organisational performance using data envelopment analysis and support vector machine learning | |
CN114530197B (zh) | 基于矩阵补全的药物靶点预测方法及系统 | |
CN116779044A (zh) | 基于多标签特征选择的基因分类方法、系统及设备 | |
US20200142910A1 (en) | Data clustering apparatus and method based on range query using cf tree | |
Shumaila | A comparison of k-means and mean shift algorithms | |
Pan et al. | Stagewise learning for noisy k-ary preferences | |
Yang et al. | Minimal-redundancy-maximal-relevance feature selection using different relevance measures for omics data classification | |
Huang et al. | Research on hybrid feature selection method based on iterative approximation Markov blanket |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |