CN111445945A

CN111445945A - 一种小分子活性预测方法、装置和计算设备

Info

Publication number: CN111445945A
Application number: CN202010202803.0A
Authority: CN
Inventors: 宋哲炜; 李远鹏; 唐麒淳; 胡笑文; 赖力鹏; 温书豪; 马健
Original assignee: Beijing Jingpai Technology Co ltd
Current assignee: Beijing Jingpai Technology Co ltd
Priority date: 2020-03-20
Filing date: 2020-03-20
Publication date: 2020-07-24

Abstract

本发明公开了一种小分子活性预测方法，适于在计算设备中执行，该计算设备中存储有训练好的小分子活性预测模型，该模型能够预测小分子和蛋白质的结合活性，该方法包括步骤：接收用户输入的蛋白质和小分子序列，并生成该蛋白质和小分子的晶体构象数据；从该晶体构象数据中提取多个子图，生成每个子图的距离矩阵，并提取各距离矩阵的多个特征值来生成该晶体构象数据的特征向量；以及将该特征向量输入到所述训练好的小分子活性预测模型中，得到预测的该小分子活性值。本发明还一并公开了该小分子活性预测模型的训练方法、以及小分子活性预测装置、小分子活性预测模型的训练装置和用于执行该方法的计算设备。

Description

一种小分子活性预测方法、装置和计算设备

技术领域

本发明涉及药物虚拟筛选领域，尤其涉及一种小分子活性的预测方法、装置和计算设备。

背景技术

众所周知，药物研发是一个漫长的过程，存在着研发周期长，研发成果率低，研发费用高的困境。而随着计算机技术的更新以及大数据技术的发展，人工智能正在各行各业中发挥巨大的应用价值，在制药行业也受到了广泛的关注。在新药发现过程中，虚拟筛选可以提高活性分子的富集，通过对化合物的性能进行预测，可以节约大量的人力、物力，缩短药物研发周期，加速研究成果的转化，因此近年来已引起科研机构和制药公司的高度重视。

在药物的早期设计阶段，针对某个疾病相关的蛋白质靶点，寻找具有优良活性、成药属性及可合成的小分子是一个关键工作。而如何能从分子库中快速又准确地筛选出活性优良的小分子，以实现基于固定靶点的小分子化合物活性预测的虚拟筛选，就成为了药物研发工作的重中之重。

发明内容

为此，本发明提供了一种小分子活性预测方法、装置和计算设备，以力图解决或至少缓解上面存在的至少一个问题。

根据本发明的一个方面，提供了一种小分子活性预测模型的训练方法，适于在计算设备中执行，包括：收集多个已知蛋白质和小分子结合的晶体构象数据和活性数据；从每个晶体构象数据中提取多个子图，每个子图代表一种蛋白质原子和一种小分子原子之间的所有连接信息；生成每个子图的距离矩阵，并提取各距离矩阵的多个特征值来生成对应晶体构象数据的特征向量；以及以特征向量为样本输入，以小分子的活性值为样本输出，以对应的活性数据为样本标签，对预训练的小分子活性预测模型进行训练，得到训练后的模型。

可选地，在根据本发明的训练方法中，晶体构象数据包括蛋白质和小分子的每个原子的原子坐标、原子类型和原子间的连接方式；活性数据和活性值包括小分子和蛋白质的结合亲和力；子图M(A,B)的连接信息包括该晶体构象数据中所有蛋白质原子A和所有小分子原子B的原子坐标和连接方式。

可选地，在根据本发明的训练方法中，从每个晶体构象数据中共提取m*n个子图，其中，m为蛋白质的原子种类，n为小分子的原子种类。

可选地，在根据本发明的训练方法中，小分子的原子种类包括C、N、O、S中的至少一种；蛋白质的原子种类包括H、C、N、O、S、P、F、Cl、Br、I中的至少一种。

可选地，在根据本发明的训练方法中，生成每个子图的距离矩阵的步骤包括：对于子图M(A,B)，统计该子图中蛋白质原子A的个数p和小分子原子B的个数q；分别计算该p个A原子与q个B原子之间的距离，生成(p+q)*(p+q)的距离矩阵，作为该子图M(A,B)的距离矩阵。

可选地，在根据本发明的训练方法中，提取各距离矩阵的多个特征值来生成该晶体构象数据的特征向量的步骤包括：对于每一距离矩阵，提取该距离矩阵的多个特征值，并计算该多个特征值的统计标量；以及将该晶体构象数据的所有距离矩阵的统计标量进行拼接，得到该晶体构象数据的特征向量。

可选地，在根据本发明的训练方法中，提取各距离矩阵的多个特征值来生成该晶体构象数据的特征向量的步骤包括：对于每一距离矩阵，提取该距离矩阵的迹以及多个特征值，并计算该多个特征值的统计标量；以及将该晶体构象数据的所有距离矩阵的迹和统计标量进行拼接，得到该晶体构象数据的特征向量。

可选地，在根据本发明的训练方法中，多个特征值的统计标量包括该多个特征值的总和、平方和、最小值、最大值、平均值、中位数、标准差、方差和特征值个数中的至少一种。

可选地，在根据本发明的训练方法中，小分子活性预测模型的超参数包括：距离矩阵类型、编码原子距离的非线性函数和编码原子间非共价作用范德华力系数中的至少一种。

可选地，在根据本发明的训练方法中，距离矩阵类型包括拉普拉斯矩阵和/或邻接矩阵；非线性函数包括洛伦兹函数和/或指数函数；超参数还包括洛伦兹函数指数系数和/或指数函数系数。

可选地，在根据本发明的训练方法中，还包括步骤：生成多种类型的小分子活性预测模型，并采用以下至少一种评价指标来计算每种预测模型的准确度，以得到最优模型：构象打分能力，用于判断模型找到小分子和多个蛋白质中的最优构象；筛选能力，用于判断模型能否找到每个蛋白质对应的最高活性的小分子、以及该小分子的最优构象；排序能力，用来判断模型能否对不同小分子在同一蛋白质里的活性排序；活性打分能力，用来判断复合物的真实活性值与模型预测值的相关性。

可选地，在根据本发明的训练方法中，小分子活性预测模型为随机森林模型、支持向量机模型、逻辑回归模型或深度学习模型。

根据本发明的另一方面，提供了一种小分子活性预测方法，适于在计算设备中执行，该计算设备中存储有训练好的小分子活性预测模型，该模型采用如上所述的方法训练得到，该小分子活性预测方法包括步骤：接收用户输入的蛋白质和小分子序列，并生成该蛋白质和小分子的晶体构象数据；从该晶体构象数据中提取多个子图，生成每个子图的距离矩阵，并提取各距离矩阵的多个特征值来生成该晶体构象数据的特征向量；以及将该特征向量输入到所述训练好的小分子活性预测模型中，得到预测的该小分子活性值。

可选地，在根据本发明的预测方法中，生成每个子图的距离矩阵的步骤包括：对于子图M(A,B)，统计该子图中蛋白质原子A的个数p和小分子原子B的个数q；分别计算该p个A原子与q个B原子之间的距离，生成(p+q)*(p+q)的距离矩阵，作为该子图M(A,B)的距离矩阵。

可选地，在根据本发明的预测方法中，提取各距离矩阵的多个特征值来生成该晶体构象数据的特征向量的步骤包括：对于每一距离矩阵，提取该距离矩阵的多个特征值，并计算该多个特征值的统计标量；以及将该晶体构象数据的所有距离矩阵的统计标量进行拼接，得到该晶体构象数据的特征向量。

可选地，在根据本发明的预测方法中，提取各距离矩阵的多个特征值来生成该晶体构象数据的特征向量的步骤包括：对于每一距离矩阵，提取该距离矩阵的迹以及多个特征值，并计算该多个特征值的统计标量；以及将该晶体构象数据的所有距离矩阵的迹和统计标量进行拼接，得到该晶体构象数据的特征向量。

可选地，在根据本发明的预测方法中，距离矩阵包括拉普拉斯矩阵和/或邻接矩阵；多个特征值的统计标量包括该多个特征值的总和、平方和、最小值、最大值、平均值、中位数、标准差、方差和特征值个数中的至少一种。

根据本发明的又一方面，提供了一种小分子活性预测模型的训练装置，适于驻留在计算设备中，所述装置包括：数据收集模块，适于收集多个已知蛋白质和小分子结合的晶体构象数据和活性数据；子图生成模块，适于从每个晶体构象数据中提取多个子图，每个子图代表一种蛋白质原子和一种小分子原子之间的所有连接信息；向量生成模块，适于生成每个子图的距离矩阵，并提取各距离矩阵的多个特征值来生成对应晶体构象数据的特征向量；以及模型训练模块，适于以特征向量为样本输入，以小分子的活性值为样本输出，以对应的活性数据为样本标签，对预训练的小分子活性预测模型进行训练，得到训练后的模型。

根据本发明的又一方面，提供了一种小分子活性预测装置，适于驻留在计算设备中，该计算设备中存储有训练好的小分子活性预测模型，该模型采用如上所述的方法训练得到，该小分子活性预测装置包括：请求接收模块，适于接收用户输入的蛋白质和小分子序列，并生成该蛋白质和小分子的晶体构象数据；计算模块，适于从该晶体构象数据中提取多个子图，生成每个子图的距离矩阵，并提取各距离矩阵的多个特征值来生成该晶体构象数据的特征向量；活性值预测模块，适于将该特征向量输入到所述训练好的小分子活性预测模型中，得到预测的该小分子活性值。

根据本发明的再一方面，提供了一种计算设备，包括：存储器；一个或多个处理器；一个或多个程序，其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行如上所述任一方法的指令。

根据本发明的再一方面，提供了一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当计算设备执行时，使得所述计算设备执行如上所述的任一方法。

根据本发明的技术方案，提供了一种能预测小分子和蛋白质亲和力的机器模型，该模型基于小分子化合物在蛋白质口袋中的三维结构信息，提取蛋白质里面的原子与小分子里面的原子相互关联的子图信息，并从该子图信息中提取矢量特征信息，最后基于该矢量特征信息输出小分子活性预测值。该模型能够提供更准确的打分函数以取代对接软件打分函数，同时还能提高小分子化合物活性筛选的准确度，极大的加速小分子药物研发流程。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

为了实现上述以及相关目的，本文结合下面的描述和附图来描述某些说明性方面，这些方面指示了可以实践本文所公开的原理的各种方式，并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述，本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开，相同的附图标记通常指代相同的部件或元素。

图1示出了根据本发明的一些实施方式的示例计算机系统9100的示意图；

图2A示出了根据本发明一个实施例的计算设备200的示意图；

图2B以软件栈的形式示出了包括人工智能的应用在计算设备200中的实现方式；

图3示出了根据本发明一个实施例的小分子活性预测模型的训练方法300的流程图；

图4A示出了根据本发明一个实施例的蛋白质和小分子结合的晶体构象示例；

图4B示出了根据本发明一个实施例的所提取的某子图和距离矩阵的示意图；

图5示出了根据本发明一个实施例的小分子活性预测方法500的流程图；

图6示出了根据本发明一个实施例的小分子活性预测模型的训练装置600的结构图；以及

图7示出了根据本发明一个实施例的小分子活性预测装置700的结构图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1描绘了根据本公开的示例实施例的示例计算系统9100的框图。系统9100包括通过网络9180通信地耦接的用户计算设备9110、服务器计算系统9130和训练计算系统9150。

用户计算设备9110可以是任何类型的计算设备，包括但不限于例如个人计算设备(例如，膝上型或者桌面型计算机)、移动计算设备(智能电话或平板电脑)、游戏控制台或控制器、可穿戴计算设备、嵌入式计算设备、边缘计算设备或任何其他类型的计算设备。用户计算设备9110可以作为端智能设备部署在用户现场处，并与用户进行交互而处理用户输入。

用户计算设备9110可以存储或包括一个或多个机器学习模型9120。机器学习模型9120可以被设计用于执行各种任务，诸如图像分类、目标检测、语音识别、机器翻译、内容过滤、分子序列生成、分子活性预测等等。机器学习模型9120可以是诸如神经网络(例如，深度神经网络)或者包括非线性模型和/或线性模型在内的其他类型的机器学习模型。机器学习模型9120的示例包括但不限于各类深度神经网络(DNN)，或者各类经典机器学习模型(例如，支持向量机模型、随机森林模型、逻辑回归模型)。

在一些实现方式中，用户计算设备9110可以通过网络9180从服务器计算系统130接收机器学习模型9120，存储在用户计算设备的存储器中并由在用户计算设备中的应用来使用或者实现。

在另一些实现方式中，用户计算设备9110可以调用在服务器计算系统9130中存储和实现的机器学习模块9140。例如，机器学习模型9140可以由服务器计算系统9130实现为Web服务的一部分，从而用户计算设备9110可以例如通过网络9180并根据客户端-服务器关系来调用作为Web服务实现的机器学习模型9140。因此，可以在用户计算设备9110处使用的机器学习模块包括在用户计算设备9110处存储和实现的机器学习模型9120和/或在服务器计算系统9130处存储和实现的机器学习模型9140。

用户计算设备9110还可以包括接收用户输入的一个或多个用户输入组件9122。例如，用户输入组件9122可以是对用户输入对象(例如，手指或指示笔)的触摸敏感的触敏组件(例如，触敏显示屏或触摸板)。触敏组件可用于实现虚拟键盘。其他示例用户输入组件包括麦克风、传统键盘、摄像头或用户可以通过其提供用户输入的其他设备。

服务器计算系统9130可以包括一个或多个服务器计算设备。在服务器计算系统9130包括多个服务器计算设备的情况下，这些服务器计算设备可以根据顺序计算架构、并行计算架构或其一些组合来操作。

如上所述，服务器计算系统9130可以存储或包括一个或多个机器学习模型9140。类似于机器学习模型9120，机器学习模型9140可以被设计用于执行小分子的活性预测等等。模型9140可以包括各种机器学习模型。示例的机器学习模型包括神经网络或其他多层非线性模型。示例神经网络包括前馈神经网络、深度神经网络、递归神经网络和卷积神经网络。

用户计算设备9110和/或服务器计算系统9130可以经由与通过网络9180通信地耦接的训练计算系统9150的交互来训练模型9120和/或9140。训练计算系统9150可以与服务器计算系统9130分离，或者可以是服务器计算系统9130的一部分。

类似于服务器计算系统9130，训练计算系统9150可以包括一个或多个服务器计算设备或以其他方式由一个或多个服务器计算设备实现。

训练计算系统9150可以包括模型训练器9160，其使用诸如例如误差的反向传播的各种训练或学习技术训练存储在用户计算设备9110和/或服务器计算系统9130处的机器学习模型9120和/或9140。在一些实现方式中，执行误差的反向传播可以包括执行通过时间截断的反向传播(truncated backpropagation through time)。模型训练器9160可以执行多种泛化技术(例如，权重衰减、丢失等)以改进正在训练的模型的泛化能力。

具体地，模型训练器9160可以基于训练数据9162的集合来训练机器学习模型9120和/或9140。训练数据9162可以包括多个不同的训练数据集合，每个训练数据集合例如分别有助于训练机器学习模型9120和/或9140执行多个不同的任务的。例如，训练数据集合包括有助于机器学习模型9120和/或9140执行对象检测、对象识别、对象分割、图像分类、小分子活性预测和/或其他任务的数据集。

在一些实现方式中，如果用户已经明确同意，则训练示例可以由用户计算设备9110提供。因此，在这样的实现方式中，提供给用户计算设备9110的模型9120可以由训练计算系统9150在从用户计算设备9110接收的特定于用户的数据上训练。在一些情况下，该过程可以被称为个性化模型。

另外，在一些实现方式中，模型训练器9160可以对在服务器计算系统9130中的机器学习模型9140进行修改以获得适于在用户计算设备9110中使用的机器学习模型9120。这些修改例如包括减少模型中的各种参数数量、以更小的精度来存储参数值等，以使得训练后的机器学习模型9120和/或9140适于考虑到服务器计算系统9130和用户计算设备9110的不同处理性能来运行。

模型训练器9160包括用于提供所期望的功能性的计算机逻辑。模型训练器9160可以用控制通用处理器的硬件、固件和/或软件来实现。例如，在一些实现方式中，模型训练器9160包括存储在存储设备上、加载到存储器中并由一个或多个处理器执行的程序文件。在其他实现方式中，模型训练器9160包括一个或多个计算机可执行指令的集合，其存储在诸如RAM、硬盘或光学或磁性介质的有形计算机可读存储介质中。在一些实现方式中，模型训练器9160可以跨多个不同的设备复制和/或分布。

网络9180可以是任何类型的通信网络，诸如局域网(例如，内联网)、广域网(例如，因特网)或其一些组合，并且可以包括任何数量的有线或无线链路。通常，通过网络9180的通信可以经由任何类型的有线和/或无线连接，使用各种通信协议(例如，TCP/IP、HTTP、SMTP、FTP)、编码或格式(例如，HTML、XML和JSON)和/或保护方案(例如，VPN、HTTPS、SSL)来承载。

图1示出了可用于实现本发明的一个示例计算系统。本发明也可以使用其他计算系统实现。例如，在一些实现方式中，用户计算设备9110可以包括模型训练器9160和训练数据集9162。在这样的实现方式中，模型9120可以在用户计算设备9110本地训练并使用。在一些这样的实现方式中，用户计算设备9110可以实现模型训练器9160，以基于特定于用户的数据来个性化模型120。

图1所示的示例计算系统9100中的用户计算设备9110、服务器计算系统9130和训练计算系统9150均可以通过如下所述的计算设备9200来实现。图2A示出了根据本发明一个实施例的计算设备9200的示意图。

如图2A所示，在基本的配置9202中，计算设备9200典型地包括系统存储器9206和一个或者多个处理器9204。存储器总线9208可以用于在处理器9204和系统存储器9206之间的通信。

取决于期望的配置，处理器9204可以是任何类型的处理，包括但不限于：微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)、图形处理器(GPU)、神经网络处理器(NPU)或者它们的任何组合。处理器9204可以包括诸如一级高速缓存9210和二级高速缓存9212之类的一个或者多个级别的高速缓存、处理器核心9214和寄存器9216。示例的处理器核心9214可以包括运算逻辑单元(ALU)、浮点数单元(FPU)或者它们的任何组合。示例的存储器控制器9218可以与处理器9204一起使用，或者在一些实现中，存储器控制器9218可以是处理器9204的一个内部部分。

取决于期望的配置，系统存储器9206可以是任意类型的存储器，包括但不限于：易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器9206可以包括操作系统9220、一个或者多个应用9222以及数据9224。在一些实施方式中，一个或多个处理器9204执行应用中的程序指令并处理数据9224来实现应用9222的功能。

计算设备9200还可以包括接口总线9240。接口总线9240实现了从各种接口设备(例如，输出设备9242、外设接口9244和通信设备9246)经由总线/接口控制器9230到基本配置9202的通信。示例的输出设备9242包括图形处理单元9248和音频处理单元9250。它们可以被配置为有助于经由一个或者多个A/V端口9252与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口9244可以包括串行接口控制器9254和并行接口控制器9256，它们可以被配置为有助于经由一个或者多个I/O端口9258和诸如输入设备(例如，键盘、鼠标、笔、语音输入设备、视频输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备9246可以包括网络控制器9260，其可以被布置为便于经由一个或者多个通信端口9264与一个或者多个其他计算设备9262通过网络通信链路(例如，通过网络9180)的通信。

计算设备9200还可以包括储存接口总线9234。储存接口总线9234实现了从储存设备9232(例如，可移除储存器9236和不可移除储存器9238)经由总线/接口控制器9230到基本配置9202的通信。操作系统9220、应用9222以及数据9224的至少一部分可以存储在可移除储存器9236和/或不可移除储存器9238上，并且在计算设备9200上电或者要执行应用9222时，经由储存接口总线9234而加载到系统存储器9206中，并由一个或者多个处理器9204来执行。

在一些实现方式中，在利用计算设备9200来实现服务器计算系统9130和/或训练计算系统9150时，计算设备9200可以不包括输出设备9242和外设接口9244，以便让计算设备9200专用于机器学习模型9140的推理和训练。

应用9222在操作系统9220上执行，即操作系统9220提供了各种对硬件设备(例如，储存设备9232、输出设备9242、外设接口9244和通信设备)进行操作的接口，并同时提供了应用上下文管理的环境(例如，存储空间管理和分配、中断处理、进程管理等)。应用9222利用操作系统9220提供的接口和环境来控制计算设备9200执行相应功能。在一些实现方式中，一些应用9222还提供了接口。这样另一些应用9222可以调用这些接口来实现功能。

图2B以软件栈的方式示出了应用9222在计算设备9200中的实现。如图2B所示，采用了机器学习模型9120/9140来进行推理的应用称为机器学习应用9602。如上所述，机器学习应用9602可以实现任何类型的机器智能，包括但不限于：图像识别、映射和定位、自主导航、语音合成、医学成像、语言翻译、分子序列生成、分子活性预测等。

机器学习框架9604可以提供机器学习操作单元库。机器学习操作单元是机器学习算法通常执行的基本操作。当机器学习模型9120/9140基于机器学习框架9604来设计和运行时，可以使用由机器学习框架9604提供的操作单元来执行必要的计算。示例性的操作单元包括张量卷积、激活函数和池化，它们是在训练卷积神经网络(CNN)时执行的计算操作。机器学习框架9604还可以提供操作单元以用于实现由许多机器学习算法执行的基本线性代数子程序，比如矩阵和向量运算。利用机器学习框架9604可以显著简化机器学习模型的开发过程，并提高其执行效率。例如，在没有机器学习框架9604的情况下，机器学习模型的开发者需要从头开始创建和优化与机器学习算法相关联的主要计算逻辑，然后在开发出新的并行处理器时重新优化所述计算逻辑，这需要大量的时间和精力。市面上已知的机器学习框架9604例如包括谷歌公司的tensorflow和脸谱公司的pytorch等。本发明不受限于具体的机器学习框架9604，任何便于实现机器学习模型的机器学习框架都在本发明的保护范围之内。

机器学习框架9604可以处理从机器学习应用9602接收的输入数据，并生成适当的输出至计算框架9606。计算框架9606可以使提供给底层硬件驱动器9608的底层指令抽象化，以使得机器学习框架9604能够利用硬件9610(例如，如2A中的处理器9204)提供的硬件加速功能而无需非常熟悉硬件9610的架构。另外，计算框架9606可以跨越多种类型和各代硬件9610来实现针对机器学习框架9604的硬件加速。例如，目前已知的计算框架9606包括Nvidia公司的CUDA等。本发明不受限于具体的计算框架9606，任何能够将硬件驱动器9608的指令进行抽象化并利用硬件9610的硬件加速功能的计算框架都在本发明的保护范围之内。

根据一种实施方式，底层硬件驱动器9608可以包含在操作系统9220中，而计算框架9606和机器学习框架9604可以实现为单独的应用，或者并入到各个应用9222中。所有这样的配置方式都是示意性的，并都在本发明的保护范围之内。

根据本发明的一个实施例，机器学习模型9120和/或9140为小分子活性预测模型。图3示出了根据本发明一个实施例的小分子活性预测模型的训练方法300的流程图。方法300在计算设备中执行，如在计算设备9200中执行，以便训练该模型来预测小分子与蛋白质的结合活性。

如图3所示，该方法始于步骤S310。在步骤S310中，收集多个已知蛋白质和小分子结合的晶体构象数据和活性数据。

一般地，可从公开数据集(例如，PDBbind数据集)中获取这些蛋白质小分子的相关数据，其中从PDBbind通用数据集(PDBbind general)中获取的数据用于构造模型的训练集，从PDBbind精制数据集(PDBbind refined)中获取的数据用于构造模型的验证集。训练数据可为110000个，即从通用数据集获取11000个蛋白质和小分子的晶体构象数据和活性数据。验证数据可为3000个，即从精制数据集获取3000个蛋白质和小分子的晶体构象数据和活性数据。在此基础上，可以进一步分析训练集的数据样本与验证集的数据样本的活性数值的分布差异性，用以更好的建立模型。

根据一个实施例，晶体构象数据包括蛋白质和小分子的每个原子的原子坐标、原子类型和原子间的连接方式。活性数据包括小分子和蛋白质的结合亲和力，其可以用目前常用的生物活性参数表示，例如IC50、EC50、Ki、Kd、Ka、Km、Kon、Koff等，本发明对此不作限制。下表示出了根据本发明一个实施例的所获取的晶体构象数据和活性数据的示例：

PDB_code	Resolution	Release_year	-log Kd/Ki	Kd/Ki	Reference
						3zzf	2.20	2012	0.40	Ki＝400mM	3zzf.pdf(NLG)
3gww	2.46	2009	0.45	IC50＝355mM	3gwu.pdf(SFX)
						1w8l	1.80	2004	0.49	Ki＝320mM	1w8l.pdf(1P3)

其中PDB_code代表样本所包括的蛋白质与小分子结构的晶体结构的构象信息，通过该编码可找到对应的构象信息，该构象信息包括蛋白质和小分子的每一个原子的坐标与原子类型、以及原子与原子的连接方式。-logKd/Ki是经过标准化处理之后的样本标签。Ki是抑制常数，反映抑制剂对靶标的抑制强度，该值越小说明抑制能力越强。Kd是解离常数，反映化合物对靶标的亲和力大小，该值越小亲和力越强。Resolution是蛋白质与小分子的晶体结构的构象解析度(一种实验参数)。Release_year是该晶体结构发表的年份，Reference是该晶体结构发表的期刊。

随后，在步骤S320中，从每个晶体构象数据中提取多个子图，每个子图代表一种蛋白质原子和一种小分子原子之间的所通用有连接信息。

其中，子图M(A,B)的连接信息包括该晶体构象数据中所有蛋白质原子A和所有小分子原子B的原子坐标和连接方式。这里，从每个晶体构象数据中共提取m*n个子图，其中，m为蛋白质的原子种类，n为小分子的原子种类。根据一个实施例，小分子的原子种类包括C、N、O、S中的至少一种；蛋白质的原子种类包括H、C、N、O、S、P、F、Cl、Br、I中的至少一种。当然，根据实际分子结构，蛋白质和小分子还可以加入其他原子类型，m和n还可以取其他数值，本发明对此不作限制。

图4A示出了根据本发明一个实施例的小分子在蛋白质口袋的晶体构象示例，本发明基于小分子化合物在蛋白质口袋中的三维结构信息，提取蛋白质里面的原子与小分子里面的原子相互关联的子图信息。如上所述，蛋白质的原子类型可以为10种，小分子的原子类型可以为4种。因此，根据原子类型的差异性，共可整理出4*10＝40种子图信息。例如子图M(C,S)代表某晶体构象中蛋白质的所有碳原子和小分子的所有硫原子之间的连接信息，子图M(O,N)代表该晶体构象中蛋白质的所有氧原子和小分子的所有氮原子之间的连接信息。

随后，在步骤S330中，生成每个子图的距离矩阵，并提取各距离矩阵的多个特征值来生成对应晶体构象数据的特征向量。

一个晶体构象可以有40种子图，通过计算子图中不同原子之间的距离，可将每个子图的具体特征表示为一个距离矩阵。该距离局矩阵可以为拉普拉斯矩阵或邻接矩阵。

根据一个实施例，生成距离矩阵的步骤包括：对于子图M(A,B)，统计该子图中蛋白质原子A的个数p和小分子原子B的个数q；分别计算该p个A原子与q个B原子之间的距离，生成(p+q)*(p+q)的距离矩阵，作为该子图M(A,B)的距离矩阵。

图4B示出了根据本发明一个实施例的M(O,N)子图及其距离矩阵的示意图。左边的两个原子关联图代表一个晶体构象中蛋白质的所有氧原子和小分子的所有氮原子之间的连接关系。其中，蛋白质的氧原子为1号和4号原子，小分子的氮原子为2号和3号原子，因此生成4*4的距离矩阵。该距离矩阵的的距离值为欧几里得距离。

在邻接矩阵中，同种原子之间距离为0，即原子1和原子1的距离为0；同物质之间的原子距离为0，即氮原子的两个原子之间距离为0，生成的邻接矩阵如右上角所示。应当理解的是，40种原子子图中，如果蛋白质或小分子不含有某原子，则该原子对应的子图的距离矩阵值均为0。基于该邻接矩阵可提取出多个特征值，如特征值

等。基于拉普拉斯矩阵同样可提取多个特征值，如特征值

已知某晶体构象中每个子图的距离矩阵的特征值，则可求得该晶体构象数据的特征向量。

具体地，对于每一距离矩阵，提取该距离矩阵的多个特征值，并计算该多个特征值的统计标量；以及将该晶体构象数据的所有距离矩阵的统计标量进行拼接，得到该晶体构象数据的特征向量。其中，该多个特征值的统计标量包括该多个特征值的总和、平方和、最小值、最大值、平均值、中位数、标准差、方差和特征值个数中的至少一种。当然还可以设置其他类型的统计标量，如取第二大特征值等，本发明对此不作限制。

一般地，可从每个距离矩阵中提取300个特征值，并计算这300个特征值的统计标量，如总和、平均值等。一个晶体构象中有40个子图，通常每个子图都提取9个统计标量，将这些信息进行拼接，即可作为该晶体构象的特征向量。例如，拼接为40*9的向量矩阵作为该晶体构象的特征向量。

根据本发明的另一个实施例，还可以将距离矩阵的特征值和距离矩阵的迹(距离矩阵中主对角线元素之和)进行拼接，作为晶体构象的特征向量。具体地，对于每一距离矩阵，提取该距离矩阵的迹以及多个特征值，并计算该多个特征值的统计标量；以及将该晶体构象数据的所有距离矩阵的迹和统计标量进行拼接，得到该晶体构象数据的特征向量。这里，9个统计标量和迹一共10种参数，因此可拼接为40*10的向量矩阵作为该晶体构象的特征向量。

除了距离矩阵的迹之外，还可以计算子图的拓扑连接关系，即用节点、弧段和多边形所表示的实体之间的邻接、关联、包含和连通关系，该拓扑结构包括拓扑线段和节点。

随后，在步骤S340中，以特征向量为样本输入，以小分子的活性值为样本输出，以对应的活性数据为样本标签，对预训练的小分子活性预测模型进行训练，得到训练后的模型。其中，该活性值包括小分子和蛋白质的结合亲和力。

这里，每个训练样本包括一个晶体构象的特征向量，通过模型得到对应的预测值。已知该晶体构象的实际活性值，则可根据对应的差值或损失函数来循环迭代模型，直至损失函数最小或达到迭代次数，得到训练好的模型。

小分子活性预测模型可以为经典的机器学习模型，也可以为深度学习模型，如深度神经网络模型。本领域技术人员可以根据需要自行选择所需的模型，以及该模型的结构、参数和超参数，本发明对此不作限制。其中，模型的超参数可以包括：距离矩阵类型、编码原子距离的非线性函数和编码原子间非共价作用范德华力系数中的至少一种。距离矩阵类型包括拉普拉斯矩阵和/或邻接矩阵；非线性函数包括洛伦兹函数和/或指数函数。此时，该超参数还包括洛伦兹函数指数系数和/或指数函数系数。

作为优选地，该小分子活性预测模型为随机森林模型，该模型为梯度提升回归树(GradientBoostingRegressor，GBDT)，决策树数目为10000，最大深度为7，学习率为0.01，最大特征数取特征总数的开方。

根据本发明的一个实施例，方法300还可以包括步骤：生成多种类型的小分子活性预测模型，如随机森林模型、支持向量机模型、逻辑回归模型或深度学习模型等，并采用构象打分能力、筛选能力、排序能力和活性打分能力中的至少一种评价指标来计算每种预测模型的准确度，以得到最优模型。

其中，构象打分能力用于判断模型找到小分子和多个蛋白质中的最优构象。每个小分子对应一个蛋白质后有100个不同的构象，模型的构象打分能力代表能否找到最接近晶体结构的构象。对于所有分子而言，模型找到了最优构象的分子数比例就是构象打分能力的量化标准。

筛选能力用于判断模型能否找到每个蛋白质对应的最高活性的小分子、以及该小分子的最优构象。假设有65个蛋白质，每个蛋白质对应195个小分子，65个蛋白质分别与195个小分子对接，对接后产生195*65*100个构象，测试模型能否在找到每个蛋白质对应的最高活性的小分子的同时也找到该小分子的最优构象。

排序能力用来判断模型能否对不同小分子在同一蛋白质里的活性排序。同一个靶点(蛋白质)对不同小分子有对应的活性值，该能力可测试例如65个蛋白质，每个蛋白质对应3到4个小分子，以判断模型是否把每个蛋白质上对应的活性高、中、低的小分子排序正确。

活性打分能力用来判断复合物的真实活性值与模型预测值的相关性。具体可利用PDBbind-core-new和CASF-2013的实验数据，来与通过小分子活性预测模型预测得到的logKd/Ki值计算相关性。

小分子活性预测模型训练好之后，即可用该模型预测未知小分子与蛋白质的结合活性。图5示出了根据本发明一个实施例的小分子活性预测方法500的流程图。方法500在计算设备中执行，如在计算设备9200中执行，该计算设备存储有训练好的小分子活性预测模型，该模型能够预测小分子与蛋白质的结合活性，且由方法300训练而成。

如图5所示，该方法始于步骤S510。在步骤S510中，接收用户输入的蛋白质和小分子序列，并生成该蛋白质和小分子的晶体构象数据。其中，可用目前常用的分子对接软件类生成该蛋白质和小分子的晶体构象数据。

随后，在步骤S520中，从该晶体构象数据中提取多个子图，生成每个子图的距离矩阵，并提取各距离矩阵的多个特征值来生成该晶体构象数据的特征向量。

根据一个实施例，可提取m*n个子图，每个子图代表一种蛋白质原子和一种小分子原子在该晶体构象中的所有连接关系。m为蛋白质的原子种类，n为小分子的原子种类。优选地，m＝10，n＝4。

在生成距离矩阵时，对于子图M(A,B)，统计该子图中蛋白质原子A的个数p和小分子原子B的个数q。之后，分别计算该p个A原子与q个B原子之间的距离，生成(p+q)*(p+q)的距离矩阵，作为该子图M(A,B)的距离矩阵。其中，距离矩阵包括拉普拉斯矩阵和/或邻接矩阵。

根据另一个实施例，在生成该晶体构象数据的特征向量时，对于每一距离矩阵，提取该距离矩阵的多个特征值，并计算该多个特征值的统计标量之后，将该晶体构象数据的所有距离矩阵的统计标量进行拼接，得到该晶体构象数据的特征向量。其中，多个特征值的统计标量包括该多个特征值的总和、平方和、最小值、最大值、平均值、中位数、标准差、方差和特征值个数中的至少一种。

进一步地，在生成该晶体构象数据的特征向量时，还可以提取各距离矩阵的迹以及多个特征值，并计算该多个特征值的统计标量。之后，将该晶体构象数据的所有距离矩阵的迹和统计标量进行拼接，得到该晶体构象数据的特征向量。

随后，在步骤S530中，将该特征向量输入到训练好的小分子活性预测模型中，得到预测的该小分子活性值。

图6示出了根据本发明一个实施例的小分子活性预测模型的训练装置600的结构框图，该装置可以驻留在计算设备中，如驻留在计算设备9200中。如图6所示，装置600包括数据收集模块610、子图生成模块620、向量生成模块630和模型训练模块640。

数据收集模块610收集多个已知蛋白质和小分子结合的晶体构象数据和活性数据。数据收集模块610可以进行与上面在步骤S310中描述的处理相对应的处理，这里不再展开赘述。

子图生成模块620从每个晶体构象数据中提取多个子图，每个子图代表一种蛋白质原子和一种小分子原子之间的所有连接信息。子图生成模块620从每个晶体构象数据中共提取m*n个子图，其中，m为蛋白质的原子种类，n为小分子的原子种类。子图生成模块620可以进行与上面在步骤S320中描述的处理相对应的处理，这里不再展开赘述。

向量生成模块630生成每个子图的距离矩阵，并提取各距离矩阵的多个特征值来生成对应晶体构象数据的特征向量。对于子图M(A,B)，向量生成模块630统计该子图中蛋白质原子A的个数p和小分子原子B的个数q；分别计算该p个A原子与q个B原子之间的距离，生成(p+q)*(p+q)的距离矩阵，作为该子图M(A,B)的距离矩阵。

在一种实现方式中，向量生成模块630提取每一距离矩阵的多个特征值，并计算该多个特征值的统计标量，并将该晶体构象数据的所有距离矩阵的统计标量进行拼接，得到该晶体构象数据的特征向量。在另一种实现方式中，向量生成模块630提取每一距离矩阵的迹以及多个特征值，并计算该多个特征值的统计标量，并将该晶体构象数据的所有距离矩阵的迹和统计标量进行拼接，得到该晶体构象数据的特征向量。向量生成模块630可以进行与上面在步骤S330中描述的处理相对应的处理，这里不再展开赘述。

模型训练模块640以特征向量为样本输入，以小分子的活性值为样本输出，以对应的活性数据为样本标签，对预训练的小分子活性预测模型进行训练，得到训练后的模型。根据一个实施例，模型训练模块640还可以生成多种类型的小分子活性预测模型，并采用构象打分能力、筛选能力、排序能力和活性打分能力中的至少一种评价指标来计算每种预测模型的准确度，以得到最优模型。模型训练模块640可以进行与上面在步骤S340中描述的处理相对应的处理，这里不再展开赘述。

图7示出了根据本发明一个实施例的小分子活性预测装置700的结构框图，该装置可以驻留在计算设备中，如驻留在计算设备9200中。如图7所示，装置700包括请求接收模块710、计算模块720和活性值预测模块730。

请求接收模块710接收用户输入的蛋白质和小分子序列，并生成该蛋白质和小分子的晶体构象数据。请求接收模块710可以进行与上面在步骤S510中描述的处理相对应的处理，这里不再展开赘述。

计算模块720从该晶体构象数据中提取多个子图，生成每个子图的距离矩阵，并提取各距离矩阵的多个特征值来生成该晶体构象数据的特征向量。计算模块720可以进行与上面在步骤S520中描述的处理相对应的处理，这里不再展开赘述。

活性值预测模块730将该特征向量输入到训练好的小分子活性预测模型中，得到预测的该小分子活性值。活性值预测模块730可以进行与上面在步骤S530中描述的处理相对应的处理，这里不再展开赘述。

根据本发明的技术方案，提供了一种基于固定靶点的小分子化合物活性预测的虚拟筛选方法，以机器学习为出发点，训练了一种能预测小分子-蛋白质亲和力的机器学习模型，该模型提供更准确的打分函数以取代对接软件打分函数。该模型开发后能提高小分子化合物活性筛选的准确度，极大的加速小分子药物研发流程。

A6、如A1-A5中任一项所述的方法，其中，所述提取各距离矩阵的多个特征值来生成该晶体构象数据的特征向量的步骤包括：对于每一距离矩阵，提取该距离矩阵的多个特征值，并计算该多个特征值的统计标量；以及将该晶体构象数据的所有距离矩阵的统计标量进行拼接，得到该晶体构象数据的特征向量。A7、如A1-A5中任一项所述的方法，其中，所述提取各距离矩阵的多个特征值来生成该晶体构象数据的特征向量的步骤包括：对于每一距离矩阵，提取该距离矩阵的迹以及多个特征值，并计算该多个特征值的统计标量；以及将该晶体构象数据的所有距离矩阵的迹和统计标量进行拼接，得到该晶体构象数据的特征向量。

A8、如A6所述的方法，其中，所述多个特征值的统计标量包括该多个特征值的总和、平方和、最小值、最大值、平均值、中位数、标准差、方差和特征值个数中的至少一种。A9、如A1-A8中任一项所述的方法，其中，所述小分子活性预测模型的超参数包括：距离矩阵类型、编码原子距离的非线性函数和编码原子间非共价作用范德华力系数中的至少一种。A10、如A9所述的方法，其中，所述距离矩阵类型包括拉普拉斯矩阵和/或邻接矩阵；所述非线性函数包括洛伦兹函数和/或指数函数；所述超参数还包括洛伦兹函数指数系数和/或指数函数系数。

A11、如A1-A10中任一项所述的方法，还包括步骤：生成多种类型的小分子活性预测模型，并采用以下至少一种评价指标来计算每种预测模型的准确度，以得到最优模型：构象打分能力，用于判断模型找到小分子和多个蛋白质中的最优构象；筛选能力，用于判断模型能否找到每个蛋白质对应的最高活性的小分子、以及该小分子的最优构象；排序能力，用来判断模型能否对不同小分子在同一蛋白质里的活性排序；活性打分能力，用来判断复合物的真实活性值与模型预测值的相关性。A12、如A11所述的方法，其中，所述小分子活性预测模型为随机森林模型、支持向量机模型、逻辑回归模型或深度学习模型。

B14、如B13所述的方法，其中，所述生成每个子图的距离矩阵的步骤包括：对于子图M(A,B)，统计该子图中蛋白质原子A的个数p和小分子原子B的个数q；分别计算该p个A原子与q个B原子之间的距离，生成(p+q)*(p+q)的距离矩阵，作为该子图M(A,B)的距离矩阵。B15、如B13或B14所述的方法，其中，所述提取各距离矩阵的多个特征值来生成该晶体构象数据的特征向量的步骤包括：对于每一距离矩阵，提取该距离矩阵的多个特征值，并计算该多个特征值的统计标量；以及将该晶体构象数据的所有距离矩阵的统计标量进行拼接，得到该晶体构象数据的特征向量。

B16、如B13或B14所述的方法，其中，所述提取各距离矩阵的多个特征值来生成该晶体构象数据的特征向量的步骤包括：对于每一距离矩阵，提取该距离矩阵的迹以及多个特征值，并计算该多个特征值的统计标量；以及将该晶体构象数据的所有距离矩阵的迹和统计标量进行拼接，得到该晶体构象数据的特征向量。B17、如B15所述的方法，其中，所述距离矩阵包括拉普拉斯矩阵和/或邻接矩阵；所述多个特征值的统计标量包括该多个特征值的总和、平方和、最小值、最大值、平均值、中位数、标准差、方差和特征值个数中的至少一种。

这里讨论的技术参考处理器核、处理器、服务器、数据库、软件应用和其他基于计算机的系统、以及所采取的动作和发送到这些系统以及从这些系统发送的信息。基于计算机的系统的固有灵活性允许组件之间和之中的任务和功能性的各种可能的配置、组合以及划分。例如，这里讨论的处理可以使用单个设备或组件或组合工作的多个设备或组件来实现。数据库和应用可以在单个系统上实现或跨多个系统分布。分布式组件可以顺序或并行操作。

这里描述的各种技术可结合硬件或软件，或者它们的组合一起实现。从而，本发明的方法和设备，或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介，例如可移动硬盘、U盘、软盘、CD-ROM或者其它任意机器可读的存储介质中的程序代码(即指令)的形式，其中当程序被载入诸如计算机之类的机器，并被所述机器执行时，所述机器变成实践本发明的设备。

在程序代码在可编程计算机上执行的情况下，计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件)，至少一个输入装置，和至少一个输出装置。其中，存储器被配置用于存储程序代码；处理器被配置用于根据该存储器中存储的所述程序代码中的指令，执行本发明的方法。

以示例而非限制的方式，可读介质包括可读存储介质和通信介质。可读存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息传递介质。以上的任一种的组合也包括在可读介质的范围之内。

在此处所提供的说明书中，算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与本发明的示例一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

此外，所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种小分子活性预测模型的训练方法，适于在计算设备中执行，包括：

收集多个已知蛋白质和小分子结合的晶体构象数据和活性数据；

从每个晶体构象数据中提取多个子图，每个子图代表一种蛋白质原子和一种小分子原子之间的所有连接信息；

生成每个子图的距离矩阵，并提取各距离矩阵的多个特征值来生成对应晶体构象数据的特征向量；以及

以所述特征向量为样本输入，以小分子的活性值为样本输出，以对应的活性数据为样本标签，对预训练的小分子活性预测模型进行训练，得到训练后的模型。

2.如权利要求1所述的方法，其中，

所述晶体构象数据包括蛋白质和小分子的每个原子的原子坐标、原子类型和原子间的连接方式；

所述活性数据和活性值包括小分子和蛋白质的结合亲和力；

子图M(A,B)的连接信息包括该晶体构象数据中所有蛋白质原子A和所有小分子原子B的原子坐标和连接方式。

3.如权利要求2所述的方法，其中，从每个晶体构象数据中共提取m*n个子图，其中，m为蛋白质的原子种类，n为小分子的原子种类。

4.如权利要求3所述的方法，其中，

小分子的原子种类包括C、N、O、S中的至少一种；

蛋白质的原子种类包括H、C、N、O、S、P、F、Cl、Br、I中的至少一种。

5.如权利要求1-4中任一项所述的方法，其中，所述生成每个子图的距离矩阵的步骤包括：

对于子图M(A,B)，统计该子图中蛋白质原子A的个数p和小分子原子B的个数q；

分别计算该p个A原子与q个B原子之间的距离，生成(p+q)*(p+q)的距离矩阵，作为该子图M(A,B)的距离矩阵。

6.一种小分子活性预测方法，适于在计算设备中执行，所述计算设备中存储有训练好的小分子活性预测模型，该模型采用如权利要求1-5中任一项所述的方法训练得到，所述小分子活性预测方法包括步骤：

接收用户输入的蛋白质和小分子序列，并生成该蛋白质和小分子的晶体构象数据；

从该晶体构象数据中提取多个子图，生成每个子图的距离矩阵，并提取各距离矩阵的多个特征值来生成该晶体构象数据的特征向量；以及

将该特征向量输入到所述训练好的小分子活性预测模型中，得到预测的该小分子活性值。

7.一种小分子活性预测模型的训练装置，适于驻留在计算设备中，所述装置包括：

数据收集模块，适于收集多个已知蛋白质和小分子结合的晶体构象数据和活性数据；

子图生成模块，适于从每个晶体构象数据中提取多个子图，每个子图代表一种蛋白质原子和一种小分子原子之间的所有连接信息；

向量生成模块，适于生成每个子图的距离矩阵，并提取各距离矩阵的多个特征值来生成对应晶体构象数据的特征向量；以及

模型训练模块，适于以所述特征向量为样本输入，以小分子的活性值为样本输出，以对应的活性数据为样本标签，对预训练的小分子活性预测模型进行训练，得到训练后的模型。

8.一种小分子活性预测装置，适于驻留在计算设备中，所述计算设备中存储有训练好的小分子活性预测模型，该模型采用如权利要求1-5中任一项所述的方法训练得到，所述小分子活性预测装置包括：

请求接收模块，适于接收用户输入的蛋白质和小分子序列，并生成该蛋白质和小分子的晶体构象数据；

计算模块，适于从该晶体构象数据中提取多个子图，生成每个子图的距离矩阵，并提取各距离矩阵的多个特征值来生成该晶体构象数据的特征向量；

活性值预测模块，适于将该特征向量输入到所述训练好的小分子活性预测模型中，得到预测的该小分子活性值。

9.一种计算设备，包括：

存储器；

一个或多个处理器；

一个或多个程序，其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求1-6所述方法中的任一方法的指令。

10.一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当计算设备执行时，使得所述计算设备执行根据权利要求1-6所述的方法中的任一方法。