CN107862173A

CN107862173A - 一种先导化合物虚拟筛选方法和装置

Info

Publication number: CN107862173A
Application number: CN201711129689.8A
Authority: CN
Inventors: 吴建盛; 朱文勇; 张邱鸣; 姜烨; 孙顾威
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University
Priority date: 2017-11-15
Filing date: 2017-11-15
Publication date: 2018-03-30
Anticipated expiration: 2037-11-15
Also published as: CN107862173B

Abstract

本发明公开了一种先导化合物虚拟筛选方法和装置。包括先导化合物在药物靶标上的分子指纹的生成和先导化合物与药物靶标相互作用的生物活性的预测。分子指纹生成包括基于模块单元的分子指纹、加权分子指纹和生物活性三个部分。生物活性预测是利用配体分子指纹和生物活性值作为随机森林回归模型的输入，构建了预测模型。另外，本发明的装置包括基于配体的虚拟筛选的通用工具、先导化合物与药物靶标作用的生物活性的预测工具和先导化合物在药物靶标上的分子指纹的生成工具。目前用于生物活性预测、性能优越的分子指纹往往长度较大，而本发明设计的深度学习算法可以生成短的、性能好的分子指纹，得到最好的药物靶标配体的生物活性预测模型。

Description

一种先导化合物虚拟筛选方法和装置

技术领域

本申请涉及一种先导化合物虚拟筛选方法和装置，属于计算机技术领域。

背景技术

随着上个世纪末生命科学的快速发展，人类基因组计划(Human Genome Project，HGP)的完成和后续功能基因组计划的实施，药物研究和医学药物产业进入了一个新的历史时期。

众所周知，新药物的研发是一个高投入、低效率的工作，包括靶点识别与验证、生物检测、先导化合物的发现及优化、临床验证、上市这五个步骤。其中，先导化合物是通过各种途径和手段得到的具有某种生物活性和化学结构的化合物，其具有药理学或生物学活性，可被用于开发新药，以提高药力、选择性，改善药物动力学性质。与此同时，它还有衍生化和改变结构的发展潜力，可用作研究模型，经过结构优化和生物测定，可以发现并研制出具有相应活性的新药。

据统计，一种新药物从筛选到成功上市，平均需要10到14年的时间，中间过程的花费更是高达2至3.5亿美元。目前，临床阶段的候选药物淘汰率高达90％，因此，如何缩短先导化合物的发现及优化这一阶段所花费的时间，加快临床研究的速度就成了各大制药公司和学术机构的研究重点。随着21世纪计算机化学以及生物学的快速发展，虚拟药物筛选技术已经成为药物化学发展的重要分支，尤其在药物先导结构和新靶标的发现方面起到了举足轻重的作用。

由于实体的药物筛选需要构建大规模的化合物库，提取或培养大量实验必须的靶酶或者靶细胞，并且需要复杂的设备支持，因而进行实体的药物筛选要投入巨额的资金。但是，作为现代计算机技术与传统制药领域优秀结合的产物，虚拟药物筛选是将药物筛选的过程在计算机上模拟，对化合物可能的活性做出预测，进而对比较有可能成为药物的化合物进行有针对性的实体筛选，从而可以极大地减少药物开发成本。所以，其快速廉价的特点使之成为发展最为迅速的药物筛选技术之一。

但是，建立合理的药效团模型、准确测定或预测靶标蛋白质的分子结构、精确和快速地计算候选化合物与靶标相互作用的自由能变化是进行虚拟药物筛选的关键，也是限制虚拟筛选准确性的瓶颈。所以，虚拟筛选在提高准确性方面还存在很大的技术瓶颈。

虚拟筛选技术可以分为基于受体生物大分子结构(Structure-based)和基于配体小分子(Ligand-based)这两种类型。基于受体生物大分子结构的虚拟筛选技术是采用理论计算和分子模拟的方法，根据受体分子的三维结构为基础建立受体-配体小分子的复合物三维结构，以及结合过程中发生的相互作用两个发面来设计能与受体结合腔互补的新分子。所以，这种类型主要是通过模拟化合物与药物靶标的物理学相互作用现象来进行化合物筛选，但它往往需要知道靶标和化合物分子精确的三维结构。基于配体小分子的虚拟筛选技术多用于手提大分子三维结构尚未解析的情况，主要是通过已知的数据来预测化合物与靶标相互作用，而其中基于机器学习的方法是主流的方法，在药物虚拟筛选中得到了成功的应用。

在实际的药物设计商业应用中，虚拟筛选通常需要有好的预测性能。目前已有大量的基于机器学习的虚拟筛选方法，这些方法通过提取化合物分子的特征，如各种分子指纹和分子描述符，并使用贝叶斯统计方法、最近邻方法、支持向量机和人工神经网络等机器学习方法对化合物分子进行高通量的虚拟筛选。尤其是，近年来深度学习方法已经成功应用于基于配体的药物虚拟筛选及其分子指纹生成研究，并表现出了较好的预测性能。

目前，基于机器学习的虚拟筛选方法一般做法都是，先使用软件得到固定长度的化合物特征，包括分子指纹和分子描述符等，再调用机器学习方法构建模型。然而，这些一般方法得到的手工提取的特征通常与是固定不变的，与相应的药物靶标以及其作用活性无关，也就是说，普遍使用的虚拟筛选方法不能通过自适应学习得到相对应的化合物特征，以弥补手工提取的特征和作用于不同药物靶标的活性值之间存在的语义鸿沟。除此以外，传统的手工提取特征通常需要研究者对相应领域的知识具有一定的了解，这样就限制了没有领域知识基础的人群的使用。

目前已有很多的分子指纹类型，主要可以分为基于关键子结构的分子指纹、基于拓扑结构或路径的分子指纹以及环形指纹。目前，在基于配体活性的虚拟筛选中，具有良好性能的分子指纹通常长度较大。例如，在删除了很少发生的特征之后，长度大小为仍为43000的扩展连通性环形指纹向量就可以很清楚的说明这一点。而且，由于化合物数量往往非常巨大，如果需要构建好的基于机器学习的配体活性虚拟筛选模型将非常耗时，并且在实际的应用中通常难于构建如此庞大虚拟筛选模型。因此，在如今实际的虚拟药物筛选中，急切地需要能够得到相对较短的、性能较好的分子指纹的生成方法。

发明内容

本发明目的在于针对上述现有技术的不足，提出了一种先导化合物虚拟筛选方法，该方法无需使用者对领域知识有深入透彻的理解就可以使用。

本发明解决其技术问题所采取的技术方案是：一种先导化合物虚拟筛选方法，该方法包括如下步骤：

步骤1：进行关于H_l(l∈[1，L]，V∈[1，5])，W，P，O；f←0s，F←0s的初始化。

步骤2：从给定一组用于训练的n个配体的数据D中随机抽取一批子集S。

步骤3：通过Rdkit，计算得到子集S中每一个分子的化学信息数据。

步骤4：利用公式通过累加操作考虑原子α的所有近邻原子信息。

步骤5：利用公式通过卷积操作考虑原子α的连接化学键的信息。

步骤6：利用公式c_a＝s(m_aH_l)，通过卷积操作计算c_a，其中m_a是I_a和用于表征原子连接的化学键信息的权重矩阵乘积的ReLU激活函数的结果，c_a是m_a和连接权重向量乘积的softmax函数的结果。

步骤7：利用公式f＝f+c_a，对分子进行累加操作依次得到每一模块单元的分子指纹f，即分子指纹f是每一模块单元的c_a的累加。

步骤8：利用公式将每个模块单元得到的分子指纹f(记为f_l)加权组合在一起，生成新的加权分子指纹F。加权分子指纹生成部分只包含一层，即对由各模块单元生成的分子指纹进行加权得到新的分子指纹。

步骤9：利用公式预测得到生物配体的活性。由于药物靶标与配体相互作用的生物活性值跨度太大，在本发明构建的回归预测模型中，使用的活性值为-log₁₀v，其中v是生物活性值，以此来缩小生物活性值的跨度。生物活性生成部分由两个全连接层构成。

步骤10：得到预测活性值后，利用公式计算目标损失函数。通过使用训练数据集中配体分子个数、分子的真实活性值与预测活性值，以及加权深度学习模型中需要求解的权重参数，进行预测活性值的优化，来达到模型的最小化预测活性值与真实活性值的均方误差的目的。该优化包括两部分，第一部分是正则化的二次成本函数，其考虑了估计项目与观测值的偏差；第二部分是控制模型复杂性并避免过度拟合的正则化条件。

步骤11：通过公式用Adam算法来对加权深度学习模型中的所有权重参数θ进行更新，为每个模块单元给定属性向量m_a的特征维度、指纹长度B和中间层的M个神经元。不断更新梯度和平方斜率的指数移动平均值，并在初始化时间步长期间，将这些移动平均值被初始化为全为0的向量，并在最后权重参数θ会通过导致偏差校正的估计量以及步长进一步更新。

步骤12：判断模型优化是否达到预期的标准，如果没有，返回步骤2继续执行操作；反之，返回生成的新的加权分子指纹F。

步骤13：构建随机森林回归预测模型：P＝Predictor(F,Y)。随机森林是M个决策树{T₁(x)，...，T_M(x)}的集合，其中，x＝{x₁，...，x_k}是配体指纹的k维向量。随机森林模型产生M个输出结果其中，是第m个树的配体预测值。继而，再组合所有树的输出以产生一个最终预测即为个体树预测的平均值。在给定一组用于训练的n个配体的数据D＝{(X₁，Y₁)，...，(X_n，Y_n)}后，其中，X_i(i＝1，...，n)是指纹向量，Y_i是配体的活性值，随机森林回归预测模型进行了如下的训练程序：

(1)从n个配体的训练数据中，绘制一个引导样本数据集，即通过从D中随机取样替代，产生n个训练样本；

(2)对于每个引导样本数据集，使用以下方案生成树：在每个节点，选择随机获取到的特征子集中的最佳分割。树生长到最大尺寸，即直到没有更多的分裂是可能的，而不是进行修剪；

(3)重复上述步骤直到M个这样的树生长出来。

本发明还提供了一种用于先导化合物虚拟筛选的装置，该装置包括基于配体的虚拟筛选的通用工具demo_new、先导化合物与药物靶标作用的生物活性的预测工具demo_activity、先导化合物在药物靶标上的分子指纹的生成工具demo_fp三个部分。

装置的demo_new部分提供了自主开发药物靶标的虚拟筛选工具。输入：SMILES格式的化合物及其生物活性值。输出：模型的性能(RMSE、r2和q2值)。包括：输入SMILES格式的化合物及其生物活性值→训练加权深度学习模型→得到加权分子指纹→构建随机森林回归模型→得到RMSE等指标。

装置的demo_activity部分可以预测先导化合物与药物靶标相互作用的生物活性值，并将其应用于针对这些药物靶标的新药设计，药物副作用的预测及药物研发风险的评估。输入：SMILES格式的化合物。输出：与这些GPCR药物靶标作用的生物活性值。包括：输入SMILES格式的化合物---基于我们训练好的加权深度学习模型得到分子指纹----基于我们训练好的随机森林模型得到作用的生物活性值。

装置的demo_fp部分可以得到先导化合物在药物靶标上的多种短的分子指纹，可用于化合物的相似性搜索、药效基团搜索等。包括：输入：SMILES格式的化合物。输出：分子指纹。其步骤为：输入SMILES格式的化合物---基于我们训练好的加权深度学习模型得到分子指纹。

有益效果：

1、本发明能够很好地应用于药物靶标的配体生物活性预测模型，并且能够设计出以获得的短的、性能好的分子指纹生成方法。

2、通过本发明设计出的深度学习算法，用户可以在此基础上很容易自主开发感兴趣的药物靶标的虚拟筛选工具；也可以预测新化合物与药物靶标相互作用的生物活性值，并将其应用于针对这些药物靶标的新药设计，药物副作用的预测及药物研发风险的评估；也可以得到新化合物在药物靶标上的多种短的分子指纹，以此用于化合物的相似性搜索、药效基团搜索。

附图说明

图1为本发明的新型加权深度学习模型(WDL)的前馈结构图。

图2为本发明的方法流程图。

图3为本发明的装置框架图。

具体实施方式

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一个简单地介绍，显而易见地是，下面描述中的附图是本发明的一个算法模型，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

为使本发明的算法、模型的技术方案和优点更加清楚，下面将结合本发明算法、模型中的附图，对本发明算法、模型进行清楚、完整地描述。基于本发明中的算法、模型，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他算法、模型，都属于本发明保护的范围。

本发明提出了一种全新的两阶段算法WDL-RF包括基于新型加权深度学习的分子指纹生成阶段和基于随机森林模型的作用活性预测阶段，将分子指纹生成和生物活性预测融合为一体。

在本发明中，新型加权深度学习方法(WDL)为“端到端”的数据驱动的分子指纹自动生成方法，无需手工提取特征，性能好，弥补了传统手工提取的特征和作用活性值之间存在的差距。

由于药物靶标与配体相互作用的生物活性值跨度太大，在本发明中构建的回归预测模型中，由于生物活性值跨度过于庞大，难以确立一个统一的标准，所以构建了以生物活性值为主要决定因素的活性值。活性值可以反映配体分子与药物靶标作用的生物活性值大小，在我们的数据集中，给其赋予了一定合理的取值范围，值越小表示配体的生物活性越低。

另外，对每个药物靶标数据集，为了得到更好的配体作用生物活性回归预测模型，本发明添加了一些对照配体样本。具体做法是：对每个药物靶标数据集，从另外的药物靶标数据集中随机选择一些与目标药物靶标不发生作用的对照配体。对于对照配体样本，其回归模型中的活性值取取值范围内的最小值。

本发明利用第一阶段生成的配体分子指纹和反应生物活性值作为随机森林回归模型的输入，用来构建预测模型。

本发明分子指纹的长度都统一选取了一个固定的值，并使用随机森林回归方法来构建配体生物活性预测模型。在本发明中，分子指纹输出结果总共有五个层面。其中，第一层到第四层分别表示加权深度学习模型中不同层生成的分子指纹；第五层为本文默认的分子指纹，即其他四层的加权分子指纹。本发明使用的加权分子指纹几乎在所有药物靶标数据集和所有评价指标上，均要好于不同层生成的分子指纹。这是因为不同层模块单元生成的分子指纹包含的信息不同，而本发明的加权分子指纹，综合考虑了所有不同的信息，所以模型的预测性能得到了提高。

由于药物靶标与配体相互作用的生物活性值跨度太大，在本发明构建的回归预测模型中，使用的response＝-log₁₀v，其中v是生物活性值。

本发明提出新型加权深度学习模型(WDL)的前馈结构图，其包括三个部分，即基于模块单元的分子指纹生成(Ⅰ)、加权分子指纹生成(Ⅱ)和生物活性生成(Ⅲ)。

基于模块单元的分子指纹的生成部分，包含了多个模块单元。对于每个模块单元，都划分成4层，分别为累加，卷积，卷积和累加这四种操作。

加权分子指纹生成部分只包含一层，即对由各模块单元生成的分子指纹进行加权得到新的分子指纹，即本文默认的加权分子指纹。生物活性生成部分是由两个全连接层构成。

起初，本发明给定配体分子数据集D＝{(x₁，y₁)，...，(x_n，y_n)}，其中i＝1，...，n，其中x_i表示第i个配体分子，y_i表示其生物活性值。对配体分子x_i，假设其含有A_i个原子，本发明通过Rdkit工具得到每个原子的属性向量m_j，其中j＝1，...，A_i。

假设本发明的模型含有L个模块单元，对于第l个模块单元，假设配体分子x_i中的任意原子α属性向量为m_a，其含有N_a个近邻原子。

首先，本发明先通过累加操作考虑了原子α的所有近邻原子信息，及利用公式

然后，再通过第一个卷积操作考虑了原子α的连接化学键的信息，利用公式

其中，l∈[1，L]；V代表原子α的连接化学键数量，V∈[1，5]；权重矩阵用于表征原子连接的化学键信息，需要迭代更新。σ(.)为ReLU激活函数，即

继而，本发明利用第二个卷积操作计算

c_a＝s(m_aH_l) (4)

其中，l∈[1，L]；H_l为连接权重向量，需要迭代更新；s(.)表示作为索引的可微分类比的softmax函数，即

最后，本发明再对分子进行累加操作依次得到每一模块单元的分子指纹f，即

f＝f+c_a (6)

对分子x_l，本发明将每个模块单元得到的分子指纹f(记为f_l)加权组合在一起，生成新的加权分子指纹F，利用公式

其中L是模块单元的数量，l∈[1，L]，W是模块单元生成的分子指纹与加权分子指纹层之间的连接权重；σ(.)为ReLU激活函数。

得到加权分子指纹F_i后，本发明通过两个全连接层得到配体分子x_i预测活性值，假设加权分子指纹层第j个神经元与中间层第m个神经元之间的连接权重为P_jm，即

z_m＝σ(∑p_jmF_ij) (8)

假设中间层第m个神经元与输出层神经元s之间的连接权为oms，则

其中σ(.)为ReLU激活函数。

得到预测活性值后，本发明模型的目的是最小化预测活性值与真实活性值的均方误差，所以本发明中的提出优化方案是

其中n表示训练数据集中配体分子个数，y_i和分别表示分子x_i的真实活性值与预测活性值，θ为加权深度学习模型中需要求解的权重参数。

本发明的优化方案中，第一项是正则化的二次成本函数，其考虑了估计项目与观测值的偏差。第二项是控制模型复杂性并避免过度拟合的正则化条件，其中，λ是用于平衡损失函数项和正则化约束条件，且λ＝e^-2。

本发明利用Adam算法来对本发明的加权深度学习模型中的所有权重参数θ进行更新，为每个模块单元给定属性向量m_a的特征维度、指纹长度B和中间层的M个神经元。权重参数θ由H_l∈R^A×B，W∈R^B×B，P∈R^B×M和O∈R^M组成。

Adam是一种采用基于一阶梯度的方法来计算每个参数自适应学习率的随机优化方法。假设为目标函数方程(11)在第t轮迭代时参数θ的梯度。Adam方法通过式(6)–(9)计算梯度的一阶矩估计m_t、二阶矩估计v_t和它们的偏差矫正和f(θ)为目标函数，即为等式(10)。并且使用表示梯度，在时间步长t上评估的E_t和θ的偏导数向量。

该算法更新了梯度m_t和平方斜率v_t的指数移动平均值，其中超参数β₁，β₁∈[0，1)控制这些移动平均线的指数衰减率，

m_t＝β_l·m_t-1+(1-β₁)·g_t (11)

v_t＝β₂·v_t-1+(1-β₂)·g_t ² (12)

其中，g_t ²表示元素的平方g_t⊙g_t。

移动平均值本身是第一个时刻的估计(平均值)和第二个原始时刻的梯度(非中心方差)。在初始化时间步长期间，这些移动平均值被初始化为全为0的向量，这会导致偏向零的时刻估计，但是这种初始化偏差可以抵消导致偏差校正的估计量和

其中，是β₁，β₂的t次幂。

最后，权重参数θ会被更新，通过

其中，α为步长。。

在基于Adam算法的优化中，本发明采用mini-batch的策略,例如每一轮更新迭代中随机选取100样本个数100个样本，最大迭代次数设为250。

在训练过程中，普遍实施的正则化技术dropout仅是通过保持神经元活动的一些概率来实现的，否则将其设置为零，用来克服过拟合的产生。

本发明利用第一阶段生成的配体分子指纹和反应生物的活性值作为随机森林回归模型的输入，构建预测模型。

在本发明中，随机森林是M个决策树{T₁(x)，...，T_M(x)}的集合，其中，x＝{x₁，...，x_k}是配体指纹的k维向量。随机森林模型产生M个输出结果其中，是第m个树的配体预测值。然后，再组合所有树的输出以产生一个最终预测即为个体树预测的平均值。

给定一组用于训练的n个配体的数据D＝{(X₁，Y₁)，...，(X_n，Y_n)}，其中，X_i(i＝1，...，n)是指纹向量，Y_i是配体的生物活性值，训练程序如下：

从n个配体的训练数据中，绘制一个引导样本数据集，即通过从D中随机取样替代，产生n个训练样本；

对于每个引导样本数据集，使用以下方案生成树：在每个节点，选择随机获取到的特征子集中的最佳分割。树生长到最大尺寸，即直到没有更多的分裂是可能的，而不是进行修剪；

重复上述步骤直到M个这样的树生长出来。

随机森林回归模型的预测性能通过所谓的Out-Of-Bags(OOB)样本进行评估。平均而言，每棵树使用约1-e^-1≈2/3的训练配体生长，所以将剩下的e^-1≈1/3作为OOB。

具体的，表2提供了本发明的算法WDL-RF的伪代码。

表2

本发明考虑到随机森林对不同的参数值更为鲁棒及性能更好。所以在WDL-RF算法中，使用的是随机森林回归模型。

本发明考虑了随机森林回归模型中主要参数n_estimates和max_features对结果的影响。其中，n_estimates是随机森林中生成决策树的数量，max_features是每次生成决策树时选择的特征个数。本发明中参数max_features考虑了all(m),sqrt(m)和log2(m)三种情况，其中m为分子指纹的维数，all(m)表示使用分子指纹所有的维数。通过多次比较n_estimates默认值取100，max_features设为

本发明采用三种评价指标：均方根误差(RMSE)、相关系数r²、预测平方相关系数q²。均方根误差(RMSE)是回归预测中最常用的评价指标为：

其中y_i和分别为真实活性值和预测活性值，n为配体样本数量。RMSE值越小，表示模型越好。

相关系数r²是2012年Merck公司组织的关于药物活性预测的Kaggle challenge中使用的评价指标为：

其中y_i为真实活性值，为真实活性值的平均值，为预测活性值，为预测活性值的平均值，n为配体样本数量。r²值越大，表示模型越好。

预测平方相关系数q²也常用于活性值回归预测模型的评价

其中，y_i为已知活性值，为真实活性值的平均值，为预测活性值，n为配体样本数量。q²值越大，表示模型越好。

本发明为了消除随机挑选对照样本对结果的影响，对每个药物靶标数据集，随机选取了3组对照配体样本，分别构建配体作用生物活性预测模型，并通过计算“均值±方差”作为最终的结果。

Claims

1.一种先导化合物虚拟筛选方法，其特征在于，所述方法包括如下步骤：

步骤1：进行关于W，P，O；f←0s，F←0s的初始化；

步骤2：从给定一组用于训练的n个配体的数据D中随机抽取一批子集S；

步骤3：通过Rdkit工具和配体的smile格式，得到子集S中每一个分子的化学信息数据；

步骤4：利用公式通过累加操作考虑原子α的所有近邻原子信息；

步骤5：利用公式通过卷积操作考虑原子α的连接化学键的信息；

步骤6：利用公式c_a＝s(m_aH_l)，通过卷积操作计算c_a，其中m_a是I_a和用于表征原子连接的化学键信息的权重矩阵乘积的ReLU激活函数的结果，c_a是m_a和连接权重向量乘积的softmax函数的结果；

步骤7：利用公式f＝f+c_a，对分子进行累加操作依次得到每一模块单元的分子指纹f，即分子指纹f是每一模块单元的c_a的累加；

步骤8：利用公式将每个模块单元得到的分子指纹f(记为f_l)加权组合在一起，生成新的加权分子指纹F，加权分子指纹生成部分只包含一层，即对由各模块单元生成的分子指纹进行加权得到新的分子指纹；

步骤9：利用公式预测得到生物配体的活性，使用的活性值为-log₁₀v，其中v是生物活性值，以此来缩小生物活性值的跨度，生物活性生成部分是由两个全连接层构成；

步骤10：得到预测活性值后，通过公式的计算，可以得到目标损失函数，通过使用训练数据集中配体分子个数、分子的真实活性值与预测活性值，以及加权深度学习模型中需要求解的权重参数，进行预测活性值的优化，所述优化包括第一部分是正则化的二次成本函数，其考虑了估计项目与观测值的偏差，第二部分是控制模型复杂性并避免过度拟合的正则化条件；

步骤11：通过公式用Adam算法来对加权深度学习模型中的所有权重参数θ进行更新，为每个模块单元给定属性向量m_a的特征维度、指纹长度B和中间层的M个神经元，不断更新梯度和平方斜率的指数移动平均值，并在初始化时间步长期间，将这些移动平均值初始化为全0的向量，并在最后权重参数θ会通过导致偏差校正的估计量以及步长进一步更新；

步骤12：判断模型优化是否达到预期的标准，如果没有，返回步骤2继续执行操作；反之，返回生成的新的加权分子指纹F；

步骤13：构建随机森林回归预测模型：P＝Predictor(F，Y)，随机森林是M个决策树{T₁(x)，...，T_M(x)}的集合，其中，x＝{x₁，..，x_k}是配体指纹的k维向量，随机森林模型产生M个输出结果其中，是第m个树的配体预测值，继而，再组合所有树的输出以产生一个最终预测即为个体树预测的平均值，在给定一组用于训练的n个配体的数据D＝{(X₁，Y₁)，...，(X_n，Y_n)}后，其中，n为用于训练的配体个数，X_i(i＝1，...，n)是指纹向量，Y_i是配体的活性值。

2.根据权利要求1所述的一种先导化合物虚拟筛选方法，其特征在于，所述步骤13包括：

(2)对于每个引导样本数据集，使用以下方案生成树：在每个节点，选择随机获取到的特征子集中的最佳分割，树生长到最大尺寸，即直到没有更多的分裂是可能的，而不是进行修剪；

(3)重复上述步骤(1)-(2)直到M个这样的树生长出来，其中M为随机森林回归预测模型中树的个数。

3.一种用于先导化合物虚拟筛选的装置，其特征在于，所述装置包括基于配体的虚拟筛选的通用工具demo_new、先导化合物与药物靶标作用的生物活性的预测工具demo_activity和先导化合物在药物靶标上的分子指纹的生成工具demo_fp。

4.根据权利要求3所述的一种用于先导化合物虚拟筛选的装置，其特征在于，所述装置的demo_new提供了自主开发药物靶标的虚拟筛选工具，输入：SMILES格式的化合物及其生物活性值，输出：模型的性能。

5.根据权利要求3所述的一种用于先导化合物虚拟筛选的装置，其特征在于，所述装置的demo_activity预测先导化合物与药物靶标相互作用的生物活性值，并将其应用于针对这些药物靶标的新药设计，药物副作用的预测及药物研发风险的评估，输入：SMILES格式的化合物，输出：与这些GPCR药物靶标作用的生物活性值。

6.根据权利要求3所述的一种用于先导化合物虚拟筛选的装置，其特征在于，所述装置的demo_fp得到先导化合物在药物靶标上的多种短的分子指纹，用于化合物的相似性搜索、药效基团搜索，输入：SMILES格式的化合物，输出：分子指纹。