CN112102899A

CN112102899A - 一种分子预测模型的构建方法和计算设备

Info

Publication number: CN112102899A
Application number: CN202010968001.0A
Authority: CN
Inventors: 王小东; 张瑞宁; 卢世祺; 石方骏; 唐麒淳; 裴磊; 赖力鹏; 马健; 温书豪
Original assignee: Beijing Jingpai Technology Co ltd
Current assignee: Beijing Jingpai Technology Co ltd
Priority date: 2020-09-15
Filing date: 2020-09-15
Publication date: 2020-12-18

Abstract

本发明公开了一种分子预测模型的构建方法，适于在计算设备中执行，该计算设备中存储有特征类型集合、特征工程集合和预测模型集合，该方法包括步骤：采集特定分子类型的多条分子数据，该分子数据包括性能数据和至少一种特征数据；从特征类型集合、特征工程集合和预测模型集合中任选一个或多个特征类型、特征工程和预测模型进行遍历组合，得到多种组合方式；结合该多条分子数据以及每种组合方式中的特征类型、特征工程和预测模型，对每种组合方式进行训练，得到训练后的模型及模型评价指标；以及根据模型评价指标选取特征类型、特征工程和预测模型的最优组合方式，用于进行同类型分子的性质预测。本发明还一并公开了适于执行该方法的计算设备。

Description

一种分子预测模型的构建方法和计算设备

技术领域

本发明涉及药物虚拟筛选领域，尤其涉及一种分子预测模型的构建方法和计算设备。

背景技术

众所周知，药物研发是一个漫长的过程，存在着研发周期长，研发成果率低，研发费用高的困境。而随着计算机技术的更新以及大数据技术的发展，人工智能正在各行各业中发挥巨大的应用价值，在制药行业也受到了广泛的关注。在新药发现过程中，虚拟筛选可以提高活性分子的富集，通过对化合物的性能进行预测，可以节约大量的人力、物力，缩短药物研发周期，加速研究成果的转化，因此近年来已引起科研机构和制药公司的高度重视。

在药物的早期设计阶段，针对某个疾病相关的蛋白质靶点，寻找具有优良活性、成药属性及可合成的药物分子是一个关键工作。而如何能从分子库中快速又准确地筛选出活性优良的药物分子，以实现基于固定靶点的分子化合物活性预测的虚拟筛选，就成为了药物研发工作的重中之重。

发明内容

为此，本发明提供了一种分子预测模型的构建方法和计算设备，以力图解决或至少缓解上面存在的至少一个问题。

根据本发明的一个方面，提供了一种分子预测模型的构建方法，适于在计算设备中执行，所述计算设备中存储有特征类型集合、特征工程集合和预测模型集合，该方法包括步骤：采集特定分子类型的多条分子数据，分子数据包括性能数据和至少一种特征数据；从特征类型集合、特征工程集合和预测模型集合中任选一个或多个特征类型、特征工程和预测模型进行遍历组合，得到多种组合方式；对于每种组合方式，获取该组合方式中的特征类型所对应的特征数据，采用对应的特征工程对该特征数据进行处理，得到样本输入；以性能数据为样本标签，以预测的性能值为样本输出，对该组合方式中的预测模型进行训练，得到训练后的模型及模型评价指标；以及根据模型评价指标选取特征类型、特征工程和预测模型的最优组合方式，用于进行同类型分子的性质预测。

可选地，在根据本发明的方法中，分子类型包括小分子类型和大分子类型，且大分子类型具有多肽、蛋白质、抗体、聚糖、核酸中的至少一种类型，每种分子类型都有对应的特征类型集合和最优组合方式。

可选地，在根据本发明的方法中，还包括同类型分子的性质预测步骤：确定待测分子所属的分子类型及该分子类型的最优组合方式；从该待测分子数据中提取属于该最优组合方式的特征数据；采用该最优组合方式的特征工程对该特征数据进行处理；以及将处理结果输入到该最优组合方式的预测模型中，得到预测的分子性能。

可选地，在根据本发明的方法中，计算设备还存储有每个预测模型的超参数集合，选取特征类型、特征工程和预测模型进行遍历组合的步骤包括：从特征类型集合、特征工程集合、预测模型集合和各预测模型的超参数集合中任选至少一个特征类型、至少一个特征工程、一个预测模型、以及该预测模型下的至少一个超参数进行遍历组合。

可选地，在根据本发明的方法中，基于特征类型、特征工程、预测模型和预测模型下的超参数生成多维搜索空间，该搜索空间中的每一点代表一个组合方式，以便采用该多条分子数据对每个点进行训练。

可选地，在根据本发明的方法中，多条分子数据被划分为训练集和验证集，所述训练集用于训练预测模型，所述验证集用于输出模型评价指标。

可选地，在根据本发明的方法中，还包括步骤：提供每种组合方式训练后的可视化页面，该可视化页面包括所采用的特征类型、特征工程类型、预测模型类型、模型的超参数、以及评价指标值。

可选地，在根据本发明的方法中，分子特征包括至少一种分子指纹和/或至少一种分子描述符；特征工程处理包括数据编码、数据缩放、数据分布转换、特征筛选和特征降维类中的至少一种；预测模型包括至少一种回归模型和/或至少一种分类模型；模型评价指标包括决定系数、正确率、精确率、曲线下面积、均分误差、平方根误差中的至少一种。

可选地，在根据本发明的方法中，分子指纹包括基于子结构的指纹、基于拓扑或路径的指纹和圆形指纹中的至少一种；分子描述符包物理化学性质、构成、拓扑、几何、电荷和热力学描述符、以及分子类型、原子类型和键类型描述符中的至少一种。

可选地，在根据本发明的方法中，数据编码包括目标编码、顺序编码、标签编码、分类计数编码中的至少一种；数据缩放包括数据标准化、数据归一化、数据正则化中的至少一种；数据分布转换包括偏态对数变换、分位数变换、Yeo-Johnson变换和Box-Cox变换中的至少一种；特征降维包括主成分分析法、核主成分分析、稀疏主成分分析中的至少一种。

可选地，在根据本发明的方法中，回归模型包括随机森林、支持向量机、随机梯度下降、贝叶斯回归弹性网络回归、核岭回归中的至少一种；分类模型包括自适应增强分类器、随机森林分类器、KNN近邻算法、支持向量机、随机梯度下降分类器的至少一种。

可选地，在根据本发明的方法中，每条分子数据表示为结构化的表格数据，该表格数据中的其中一列为性能数据，其他列为特征数据；性能数据为整数型数值或浮点型数值，特征数据为以下任意一种：整数型数值、浮点型数值、属于类别型的字符串数据、能够被矢量化处理的字符串数据。

可选地，在根据本发明的方法中，多条分子数据为针对特定靶点的多个活性分子的数据。

根据本发明的再一方面，提供了一种计算设备，包括：存储器；一个或多个处理器；一个或多个程序，其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行如上所述的分子性能预测方法的指令。

根据本发明的再一方面，提供了一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当计算设备执行时，使得所述计算设备执行如上所述的分子性能预测方法。

根据本发明的技术方案，提取多个已知分子的特征数据和性能数据，并基于这些数据构建多种性质预测模型。通过将多种特征类型、多种特征工程和多种性质预测模型进行随机组合，得到特征类型、特征工程和性质预测模型的最优组合策略。这样，采用该最优组合策略对待测分子进行处理，即可得到每个分子的预测性能。

本发明可针对小分子类型、多肽类型、蛋白质类型、核酸类型等分别训练对应的最优组合策略，且每种分子类型都有对应的特征类型集合，这样可预测同源分子的分子性能。而且，本发明还可以训练基于特定靶点的最优组合策略，通过该组合来筛选药物分子，能够得到药物分子针对该特定靶点的准确性能属性，从而从整体上提高药物筛选的效率和准确度。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

为了实现上述以及相关目的，本文结合下面的描述和附图来描述某些说明性方面，这些方面指示了可以实践本文所公开的原理的各种方式，并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述，本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开，相同的附图标记通常指代相同的部件或元素。

图1示出了根据本发明的一些实施方式的计算设备100的示意图；

图2示出了根据本发明一个实施例的分子预测模型的构建方法200的流程图；以及

图3示出了根据本发明一个实施例的筛选最优组合方式的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1是根据本发明一个实施例的计算设备100的框图。在基本的配置102中，计算设备100典型地包括系统存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和系统存储器106之间的通信。

取决于期望的配置，处理器104可以是任何类型的处理，包括但不限于：微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用，或者在一些实现中，存储器控制器118可以是处理器104的一个内部部分。

取决于期望的配置，系统存储器106可以是任意类型的存储器，包括但不限于：易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器106可以包括操作系统120、一个或者多个应用122以及程序数据124。在一些实施方式中，应用122可以布置为在操作系统上利用程序数据124进行操作。程序数据124包括指令，在根据本发明的计算设备100中，程序数据124包含用于执行分子预测模型的构建方法200的指令。

计算设备100还可以包括有助于从各种接口设备(例如，输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156，它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如，键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160，其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。

网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块，并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号，它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例，通信介质可以包括诸如有线网络或者专线网络之类的有线介质，以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。

计算设备100可以实现为服务器，例如文件服务器、数据库服务器、应用程序服务器和WEB服务器等，也可以实现为小尺寸便携(或者移动)电子设备的一部分，这些电子设备可以是诸如蜂窝电话、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。计算设备100还可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。在一些实施例中，计算设备100被配置为执行分子预测模型的构建方法200。

此外，计算设备100中存储有特征类型集合、特征工程集合和预测模型集合，其中特征类型集合包括至少一种特征类型，该特征工程集合包括至少一个特征工程，预测模型集合包括至少一个性质预测模型。

根据本发明的一个实施例，特征类型集合中的特征类型包括至少一种分子指纹和/或至少一种分子描述符。分子指纹是编码分子的一种方式，具体是提取分子的结构特征，然后哈希生成一系列比特向量，分子指纹有多种类型，多数使用2D分子图形信息，因此称为2D指纹，也有一些分子指纹能够存储3D分子信息，如药效团指纹。分子指纹包括基于子结构的指纹、基于拓扑或路径的指纹和圆形指纹中的至少一种。

分子描述符是指分子的物理化学等属性的数字化表示，其包括物理化学性质、构成、拓扑、几何、电荷和热力学描述符、以及分子类型、原子类型(如碳原子类型、氧原子类型)和键类型(如单键类型、双键类型等)描述符中的至少一种。通常由特定的算法和指定的程序将分子内部化学信息转换成以数字表示的形式。

可选地，分子指纹和分子描述符可包括以下任意一种或多种参数：不同半径的扩展连通性指纹(Extended Connectivity Fingerprints，ECFP)、官能团类型指纹(Functional Class Fingerprints，FCFP)、扩展指纹(Extended Fingerprints，EXTFP)、杂化状态指纹(Hybridization Fingerprints，HYBFP)、最短路径指纹(Shortest PathFingerprints，SPFP)、不同半径和维度的摩根指纹(Morgan Fingerprints，MORGANFP)。

此外，计算设备100还可存储不同分子类型的特征类型集合，分子类型包括小分子类型和大分子类型，其中大分子包括多肽、蛋白质、抗体、聚糖、核酸中的至少一种。基于此，计算设备可分别存储小分子的特征类型集合和大分子的特征类型集合。

例如，小分子的特征类型集合如前文所述的至少一种分子指纹和/或至少一种分子描述符。大分子的特征类型集合包括计算化学建模特征和深度学习特征。其中，计算化学建模特征例如包括氢键数、几何势等，当然不限于此；深度学习特征例如包括将分子经过词向量模型编码后的特征。

进一步地，计算设备还可分别存储多肽、蛋白质、核酸等每种大分子类型的特征类型集合。关于每种特征类型集合中的特征类型，本领域技术人员可以根据需要自行选定所需特征，本发明对此不作限制。

根据本发明的另一个实施例，特征工程处理包括数据编码、数据缩放、数据分布转换、特征筛选和特征降维类中的至少一种。

其中，数据编码包括Target目标编码、Ordinal顺序编码、标签编码、、Sort Count分类计数编码中的至少一种。数据缩放包括数据标准化(Sandrad_Scaler)、数据归一化(Minmax_Scaler)、数据正则化(Normalizer)中的至少一种。其中，数据标准化是基于特征矩阵的列，将属性值转换至服从正态分布；数据归一化是基于最大最小值，将数据转换到[0,1]区间；数据正则化是基于特征矩阵的行，将样本向量转换为单位向量。

数据分布转换包括偏态对数变换、分位数变换、Yeo-Johnson变换和Box-Cox变换、Gaussian高斯转换、Power转换、Quantile分位数转换中的至少一种。特征筛选类包括递归特征排除法(RFE筛选法)和/或基于评价指标的筛选方法。特征降维包括主成分分析法PCA、核主成分分析Kernel PCA、稀疏主成分分析Sparse PCA中的至少一种。

根据本发明的又一个实施例，预测模型为分子性质预测模型，其能够基于输入的分子矢量化特征来预测分子是否具有某些性质或性能值为多少。预测模型可包括至少一种回归模型和/或至少一种分类模型。

回归模型包括随机森林、支持向量机、随机梯度下降、Bayesian贝叶斯回归、ElasticNet弹性网络回归、Lasso回归、Kernel Ridge核岭回归、Stacking回归中的至少一种。分类模型包括Adaboost自适应增强分类器、随机森林分类器、逻辑回归、GBDT梯度提升决策树、KNN近邻算法、支持向量机、lightgbm分类器、随机梯度下降分类器、Stacking分类的至少一种。

预测模型有对应的模型评价指标，例如决定系数R2、正确率Accuracy、精确率Presicion、曲线下面积AUC、均分误差MSE、平方根误差RMSE等。作为优选地，回归模型可基于决定系数和均分误差来判定哪个模型比价好，分类模型可根据精确率、准确率等来判定哪个模型比较好。

根据本发明的再一个实施例，计算设备100还存储有每种预测模型的超参数集合，该超参数集合包括该预测模型的至少一个超参数。应当理解的是，本领域技术人员可以根据需要自行设定每种模型的候选超参数，本发明对此不作限制。

图2示出了根据本发明一个实施例的分子预测模型的构建方法200的流程图。方法200在计算设备(如在计算设备100)中执行，以训练针对特定分子类型的特征类型、特征工程和预测模型的最优组合方式。

如图2所示，该方法始于步骤S210。在步骤S210中，采集特定分子类型的多条分子数据，该分子数据包括性能数据和至少一种特征数据。

也就是，可分别采集小分子类型或大分子类型的分子数据，或者针对性的采集蛋白质类型、多肽类型、核酸类型的分子数据。采集到的分子数据可以csv格式表示，具体包含简化分子输入线性规范序列(SMILES分子结构信息)、分子编号、分子特征数据和性能数据。特征数据为以上任意一种特征类型所对应的数据。性能数据例如为活性值数据，当然也可以为稳定性、吸收性、抗癌性、选择性等其他性质，本发明对此不作限制。活性值数据例如可以为IC50、Ki、Kd、Ka、Km、Kon、Koff、EC50、ED50等，本发明对此不作限制等。

根据本发明的一个实施例，每条分子数据表示为结构化的表格数据，该表格数据中的其中一列为性能数据，其他列为特征数据。其中，性能数据为整数型数值或浮点型数值，所述特征数据为以下任意一种：整数型数值、浮点型数值、属于类别型的字符串数据、能够被矢量化处理的字符串数据。

这里，可根据输入分子的数据特征，自动将其划分为连续型数据、数值类类别和非数值类别。同时，可根据数据的类型、分布、缺失值、离群点等情况，自动进行基础数据清洗，如清除离散点、转换缺失值等。

作为优选地，多条分子数据为针对特定靶点的多个活性分子的数据。一般可从现存数据库(如PDBbind数据集)或针对特定靶点的专利中获取与该特定靶点相关的多个活性分子的数据。特定靶点可以是激酶、蛋白受体(GPCR)、离子通道、核酸受体等。活性分子例如为活性小分子、多肽分子和蛋白分子，当然不限于此。其中活性小分子一般都具有共同的母核结构。

随后，在步骤S220中，从特征类型集合、特征工程集合和预测模型集合中任选一个或多个特征类型、特征工程和预测模型进行遍历组合，得到多种组合方式。

也就是，所生成的每种组合方式中，包括至少一个特征类型、至少一个特征工程、一个预测模型。而且，考虑到每种预测模型还有对应的超参数集合，因此，在步骤S220中，还可以从特征类型集合、特征工程集合、预测模型集合和各预测模型的超参数集合中任选至少一个特征类型、至少一个特征工程、一个预测模型、以及该预测模型下的至少一个超参数进行遍历组合。此时，每种组合方式包括至少一个特征类型、至少一个特征工程、一个预测模型、以及该预测模型下的至少一个超参数。

根据本发明一个实施例，在步骤S220中，还可以基于特征类型、特征工程、预测模型和预测模型下的超参数生成多维搜索空间，并将所选取的特征类型、特征工程、预测模型和模型超参数构成搜索空间中的一个点。这样该搜索空间的每一个点都代表一个组合方式，以便采用该多条分子数据对每个点进行训练。

优选地，本发明可计算30种特征类型，12种特征工程方法，9种分类模型或9种回归模型。在此基础上，如图3所示，可选用不同类型不同数目的特征、不同类型不同数目的特征工程和不同的模型进行随机组合，构成搜索空间。随后，计算设备会对该搜索空间进行随机采样，每个采样点都代表了不同特征与特征处理方法以及建模方法的一个组合。之后，按照采样内容顺序执行相应的模块，以达到在整个搜索空间上搜索合适模型的目的。另外，考虑到有些特征工程与模型时间组合产生的效果并不理想，因此本发明可以根据过往经验对此类组合做排斥处理，降低这些组合的出现概率。

随后，在步骤S230中，对于每种组合方式，获取该组合方式中的特征类型所对应的特征数据，采用对应的特征工程对该特征数据进行处理，得到样本输入。

这里，若组合方式1中的有三种特征类型、两种特征工程、随机森林模型和该模型下的三个超参数。将每条分子数据作为一个样本，分别提起该分子数据中属于该三种特征类型的特征数据，然后用该两种特征工程对该特征数据进行处理，所得到的结果即为预测模型的样本输入。

随后，在步骤S240中，以性能数据为样本标签，以预测的性能值为样本输出，对该组合方式中的预测模型进行训练，得到训练后的模型及模型评价指标。

对于每种组合方式，每个分子都有对应的性能数据作为样本标签，步骤S230中生成了该分子的样本输入，则输入到该组合方式中的预测模型中，即可对该模型进行训练。训练过程中，根据实际值与预测值的差值或损失函数来循环迭代模型，直至损失函数最小或达到迭代次数，得到训练好的模型。这里，还可以将该多条分子数据划分为训练集和验证集，其中训练集用于训练模型，验证集用于输出模型的各评价指标。

根据本发明的一个实施例，方法200还可以每种组合方式训练后的可视化页面，该可视化页面包括所采用的特征类型、特征工程类型、预测模型类型、模型的超参数、评价指标值、以及指标图示，方便用户直观看到每种组合的训练结果。

随后，在步骤S250中，根据模型评价指标选取特征类型、特征工程和预测模型的最优组合方式，用于进行同类型分子的性质预测。

这里，如果组合方式中考虑模型的超参数，则步骤S250选取的是特征类型、特征工程、预测模型和该预测模型的超参数的最优组合方式。用户可根据可视化页面中的评价指标值和/或指标图的变化趋势，选取最优的组合方式。而且，还可以获取用户在可视化页面中所选取的多个模型，调整该多个模型的权重后，生成新的模型可视化结果，以便用户从中选取最终的最优组合方式。

这里，当用户根据模型的可视化网页选出多个模型时，程序会对这几个模型进行评估和打分投票，根据打分结果挑选出最好的集成模型。而且，对于打分投票的模型，还可以调整各个模型投票所占比重，返回投票打分的可视化网页，从而便于用户确定出更满意的或评价指标更高的模型。

例如，回归模型选取贝叶斯回归模型，特征类型选取二维指纹特征、EstateFP特征，特征工程选取类别选择器，模型超参数选取是否存在截距、标准化开关等。分类模型选取逻辑回归模型，分子类型包括二维指纹特征、AP2D特征等，特征工程包括最大最小值归一化、标准化等，超参数选取正则项系数的倒数C、分类权重、是否存在截距等。

本发明采用启发式搜索策略来在搜索空间中寻找表现最优的点，支持多种启发式搜索策略，例如基于序列模型优化算法(Sequential Model-Based Optimization，SMBO)，随机搜索方法(Random Search)、进化算法(Evolutionary Algorithm)、以及RandomSearch与SMAC联用算算法。

经过上述空间搜索的优化方法，可快速有效得到每种分子类型的最优组合方式。根据本发明的一个实施例，在确定该最优组合方式之后，方法200还可以包括同类型分子的性质预测步骤：确定待测分子所属的分子类型及该分子类型的最优组合方式；从该待测分子数据中提取属于该最优组合方式的特征数据；采用该最优组合方式的特征工程对该特征数据进行处理；以及将处理结果输入到该最优组合方式的预测模型中，得到预测的分子性能。

根据本发明的技术方案，提供了一种自动建模方法，自动生成了特定分子类型的特征类型、特征工程、预测模型和超参数的最优组合方式，解决了人工建模存在的搜索空间不全、稳定性差、确定性差、搜索过程中可控性差、无法可视化和效率低下等问题。而且，本发明还可以基于特定靶点的活性分子建立该特征类型、特征工程、预测模型和超参数的最优组合方式，这样可根据该最优组合方式预测各待测分子针对该特定靶点的活性值，从而方便快速、高效地筛选到具有较高成药性的生物活性分子。

这里讨论的技术参考处理器核、处理器、服务器、数据库、软件应用和其他基于计算机的系统、以及所采取的动作和发送到这些系统以及从这些系统发送的信息。基于计算机的系统的固有灵活性允许组件之间和之中的任务和功能性的各种可能的配置、组合以及划分。例如，这里讨论的处理可以使用单个设备或组件或组合工作的多个设备或组件来实现。数据库和应用可以在单个系统上实现或跨多个系统分布。分布式组件可以顺序或并行操作。

A9、如A8所述的方法，其中，

所述分子指纹包括基于子结构的指纹、基于拓扑或路径的指纹和圆形指纹中的至少一种；

所述分子描述符包物理化学性质、构成、拓扑、几何、电荷和热力学描述符、以及分子类型、原子类型和键类型描述符中的至少一种。

A10、如A8所述的方法，其中，

所述数据编码包括目标编码、顺序编码、标签编码、分类计数编码中的至少一种；

所述数据缩放包括数据标准化、数据归一化、数据正则化中的至少一种；

所述数据分布转换包括偏态对数变换、分位数变换、Yeo-Johnson变换和Box-Cox变换中的至少一种；

所述特征降维包括主成分分析法、核主成分分析、稀疏主成分分析中的至少一种。

A11、如A8所述的方法，其中，

所述回归模型包括随机森林、支持向量机、随机梯度下降、贝叶斯回归弹性网络回归、核岭回归中的至少一种；

所述分类模型包括自适应增强分类器、随机森林分类器、KNN近邻算法、支持向量机、随机梯度下降分类器的至少一种。

A12、如A1-A11中任一项所述的方法，其中，

每条分子数据表示为结构化的表格数据，所述表格数据中的其中一列为性能数据，其他列为特征数据；

所述性能数据为整数型数值或浮点型数值，所述特征数据为以下任意一种：整数型数值、浮点型数值、属于类别型的字符串数据、能够被矢量化处理的字符串数据。

A13、如A1-A12中任一项所述的方法，其中，所述多条分子数据为针对特定靶点的多个活性分子的数据。这里描述的各种技术可结合硬件或软件，或者它们的组合一起实现。从而，本发明的方法和设备，或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介，例如可移动硬盘、U盘、软盘、CD-ROM或者其它任意机器可读的存储介质中的程序代码(即指令)的形式，其中当程序被载入诸如计算机之类的机器，并被所述机器执行时，所述机器变成实践本发明的设备。

在程序代码在可编程计算机上执行的情况下，计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件)，至少一个输入装置，和至少一个输出装置。其中，存储器被配置用于存储程序代码；处理器被配置用于根据该存储器中存储的所述程序代码中的指令，执行本发明的方法。

以示例而非限制的方式，可读介质包括可读存储介质和通信介质。可读存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息传递介质。以上的任一种的组合也包括在可读介质的范围之内。

在此处所提供的说明书中，算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与本发明的示例一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

此外，所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种分子预测模型的构建方法，适于在计算设备中执行，所述计算设备中存储有特征类型集合、特征工程集合和预测模型集合，该方法包括步骤：

采集特定分子类型的多条分子数据，所述分子数据包括性能数据和至少一种特征数据；

从所述特征类型集合、特征工程集合和预测模型集合中任选一个或多个特征类型、特征工程和预测模型进行遍历组合，得到多种组合方式；

对于每种组合方式，获取该组合方式中的特征类型所对应的特征数据，采用对应的特征工程对该特征数据进行处理，得到样本输入；

以所述性能数据为样本标签，以预测的性能值为样本输出，对该组合方式中的预测模型进行训练，得到训练后的模型及模型评价指标；以及

根据所述模型评价指标选取特征类型、特征工程和预测模型的最优组合方式，用于进行同类型分子的性质预测。

2.如权利要求1所述的方法，其中，所述分子类型包括小分子类型和大分子类型，且所述大分子类型具有多肽、蛋白质、抗体、聚糖、核酸中的至少一种类型，每种分子类型都有对应的特征类型集合和最优组合方式。

3.如权利要求1或2所述的方法，还包括同类型分子的性质预测步骤：

确定待测分子所属的分子类型及该分子类型的最优组合方式；

从该待测分子数据中提取属于该最优组合方式的特征数据；

采用该最优组合方式的特征工程对该特征数据进行处理；以及

将处理结果输入到该最优组合方式的预测模型中，得到预测的分子性能。

4.如权利要求1-3中所述的方法，其中，所述计算设备还存储有每个预测模型的超参数集合，选取特征类型、特征工程和预测模型进行遍历组合的步骤包括：

从所述特征类型集合、特征工程集合、预测模型集合和各预测模型的超参数集合中任选至少一个特征类型、至少一个特征工程、一个预测模型、以及该预测模型下的至少一个超参数进行遍历组合。

5.如权利要求4所述的方法，还包括步骤：

基于特征类型、特征工程、预测模型和预测模型下的超参数生成多维搜索空间，该搜索空间中的每一点代表一个组合方式，以便采用该多条分子数据对每个点进行训练。

6.如权利要求1-5中任一项所述的方法，其中，

所述多条分子数据被划分为训练集和验证集，所述训练集用于训练预测模型，所述验证集用于输出所述模型评价指标。

7.如权利要求1-6中任一项所述的方法，还包括步骤：

提供每种组合方式训练后的可视化页面，所述可视化页面包括所采用的特征类型、特征工程类型、预测模型类型、模型的超参数、以及评价指标值。

8.如权利要求1-7中任一项所述的方法，其中，

所述特征类型包括至少一种分子指纹和/或至少一种分子描述符；

所述特征工程处理包括数据编码、数据缩放、数据分布转换、特征筛选和特征降维类中的至少一种；

所述预测模型包括至少一种回归模型和/或至少一种分类模型；

所述模型评价指标包括决定系数、正确率、精确率、曲线下面积、均分误差、平方根误差中的至少一种。

9.一种计算设备，包括：

存储器；

一个或多个处理器；

一个或多个程序，其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求1-8所述方法中的任一方法的指令。

10.一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当计算设备执行时，使得所述计算设备执行根据权利要求1-8所述的方法中的任一方法。