CN114822717A

CN114822717A - 基于人工智能的药物分子处理方法、装置、设备及存储介质

Info

Publication number: CN114822717A
Application number: CN202110119170.1A
Authority: CN
Inventors: 于洋; 郑良振; 刘艺璇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-01-28
Filing date: 2021-01-28
Publication date: 2022-07-29
Also published as: US20230050156A1; EP4239640A4; JP2023548923A; EP4239640A1; WO2022161323A1

Abstract

本申请提供了一种基于人工智能的药物分子处理方法、装置、电子设备及计算机可读存储介质；涉及人工智能技术；方法包括：确定针对目标蛋白的多个候选药物分子；基于多个候选药物分子以及目标蛋白进行活性预测处理，得到每个候选药物分子的活性信息；对目标蛋白进行同源建模处理，得到具有与目标蛋白的同源结构的参考蛋白；基于参考蛋白以及多个候选药物分子进行分子对接处理，得到每个候选药物分子的分子对接信息；基于每个候选药物分子的活性信息以及每个候选药物分子的分子对接信息，对多个候选药物分子进行筛选处理，将筛选得到的候选药物分子作为目标药物分子。通过本申请，能够高效地从大量的候选药物分子中筛选出有价值的药物分子。

Description

基于人工智能的药物分子处理方法、装置、设备及存储介质

技术领域

本申请涉及智慧医学技术，尤其涉及一种基于人工智能的药物分子处理方法、装置、电子设备及计算机可读存储介质。

背景技术

人工智能(Artificial Intelligence，AI)是计算机科学的一个综合技术，通过研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，例如自然语言处理技术以及机器学习/深度学习等几大方向，随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

药物筛选是从大量的药物分子中筛选出对某些疾病(例如多囊卵巢综合症)有参考价值的目标药物分子的技术。目前化合物库中存在大量的候选药物分子可能存在参考价值，但是从大量的候选药物分子中挖掘出有参考价值的数据依赖于人工筛选，准确性和效率都不理想，成本非常高。

相关技术缺乏基于人工智能来对候选药物分子进行高效筛选的方案。

发明内容

本申请实施例提供一种基于人工智能的药物分子处理方法、装置、电子设备及计算机可读存储介质，实现高效地从大量的候选药物分子中筛选出有价值的药物分子。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种基于人工智能的药物分子处理方法，包括：

确定针对目标蛋白的多个候选药物分子；

基于所述多个候选药物分子以及所述目标蛋白进行活性预测处理，得到每个所述候选药物分子的活性信息；

对所述目标蛋白进行同源建模处理，得到具有与所述目标蛋白的同源结构的参考蛋白；

基于所述参考蛋白以及所述多个候选药物分子进行分子对接处理，得到每个所述候选药物分子的分子对接信息；

基于每个所述候选药物分子的活性信息以及每个所述候选药物分子的分子对接信息，对所述多个候选药物分子进行筛选处理，将筛选得到的候选药物分子作为目标药物分子。

本申请实施例提供一种基于人工智能的药物分子处理装置，包括：

确定模块，用于确定针对目标蛋白的多个候选药物分子；

预测模块，用于基于所述多个候选药物分子以及所述目标蛋白进行活性预测处理，得到每个所述候选药物分子的活性信息；

处理模块，用于对所述目标蛋白进行同源建模处理，得到具有与所述目标蛋白的同源结构的参考蛋白；基于所述参考蛋白以及所述多个候选药物分子进行分子对接处理，得到每个所述候选药物分子的分子对接信息；

筛选模块，用于基于每个所述候选药物分子的活性信息以及每个所述候选药物分子的分子对接信息，对所述多个候选药物分子进行筛选处理，将筛选得到的候选药物分子作为目标药物分子。

上述技术方案中，所述确定模块还用于基于目标蛋白对化合物库中的化合物进行筛选处理，得到多个筛选后的化合物；

对所述多个筛选后的化合物进行预处理，将预处理的化合物作为针对目标蛋白的候选药物分子。

上述技术方案中，所述确定模块还用于基于目标蛋白对化合物库中的化合物进行基于分子成药规则的筛选处理，得到多个符合成药规则的化合物；

对所述多个符合成药规则的化合物进行去重处理，将去重处理后的化合物作为筛选后的化合物。

上述技术方案中，所述确定模块还用于基于目标基团对所述多个筛选后的化合物进行化学过滤处理，得到多个过滤后的化合物；

在所述多个过滤后的化合物中去除手性化合物的对映异构体，将去除所述对映异构体的化合物作为针对目标蛋白的候选药物分子。

上述技术方案中，所述预测模块还用于针对所述多个候选药物分子中的任一候选药物分子执行以下处理：

对所述候选药物分子的分子结构进行编码处理，得到所述候选药物分子的嵌入特征；

对所述目标蛋白的蛋白质结构进行编码处理，得到所述目标蛋白的嵌入特征；

对所述候选药物分子的嵌入特征以及所述目标蛋白的嵌入特征进行融合处理，得到活性融合特征；

对所述活性融合特征进行映射处理，得到所述候选药物分子的活性信息。

上述技术方案中，所述预测模块还用于基于所述候选药物分子的分子结构，构建所述候选药物分子的分子图；

对所述候选药物分子的分子图进行图像编码处理，得到所述候选药物分子的嵌入特征。

上述技术方案中，所述预测模块还用于基于所述目标蛋白的蛋白质结构，确定所述目标蛋白的蛋白序列；

对所述目标蛋白的蛋白序列进行文本转换处理，得到所述目标蛋白的嵌入特征。

上述技术方案中，所述预测模块还用于将所述候选药物分子的嵌入特征以及所述目标蛋白的嵌入特征进行加和处理，将所述加和处理的结果作为所述活性融合特征；或者，

将所述候选药物分子的嵌入特征以及所述目标蛋白的嵌入特征进行拼接处理，将所述拼接处理的结果作为所述活性融合特征。

上述技术方案中，所述预测模块还用于对所述候选药物分子的嵌入特征以及所述目标蛋白的嵌入特征进行映射处理，得到包含所述候选药物分子以及所述目标蛋白的中间特征向量；

对包含所述中间特征向量进行仿射变换，得到所述活性融合特征。

上述技术方案中，所述预测模块还用于对所述活性融合特征映射至隐向量空间，得到所述活性融合特征的隐向量；

将所述活性融合特征的隐向量进行非线性映射处理，将得到的所述候选药物分子的活性分值作为所述候选药物分子的活性信息。

上述技术方案中，所述处理模块还用于针对蛋白库中的任一候选蛋白执行以下处理：

将所述候选蛋白的序列与所述目标蛋白的序列进行相似度处理，得到所述候选蛋白与所述目标蛋白之间的相似度；

当所述相似度大于相似度阈值时，基于所述候选蛋白的三维结构进行结构优化处理，将所述结构优化处理的结果作为具有与所述目标蛋白的同源结构的参考蛋白。

上述技术方案中，所述处理模块还用于基于所述参考蛋白进行分子动力学模拟处理，得到所述参考蛋白的活性位点以及结合口袋；

对所述多个候选药物分子分别进行预处理，得到每个所述候选药物分子的分子构象；

针对每个所述候选药物分子的分子构象执行以下处理：基于所述参考蛋白的活性位点、所述结合口袋以及所述候选药物分子的分子构象进行分子对接打分，将所述分子对接打分的结果作为所述候选药物分子的分子对接信息。

上述技术方案中，所述处理模块还用于对所述多个候选药物分子分别进行格式转换处理，得到每个所述候选药物分子的转换格式；

基于每个所述候选药物分子的转换格式，构建每个所述候选药物分子的三维构象；

基于每个所述候选药物分子的三维构象，确定能够加氢原子的位置；

在所述可加氢原子的位置加上氢原子，以得到所述候选药物分子的分子构象。

上述技术方案中，所述筛选模块还用于对所述多个候选药物分子进行聚类处理，得到多个药物类别集合；

在所述多个药物类别集合中，筛选出满足活性信息要求以及分子对接信息要求的候选药物分子以作为所述目标药物分子。

上述技术方案中，所述筛选模块还用于针对所述多个药物类别集合的任一药物类别集合执行以下处理：

将所述药物类别集合中活性信息最高的候选药物分子作为待筛选药物分子；

对所述待筛选药物分子的活性信息、分子对接信息以及药物性质进行加权求和处理，得到所述待筛选药物分子的综合药物信息；

基于多个所述待筛选药物分子的综合药物信息，对多个所述待筛选药物分子进行降序排序处理，将排序在前的部分所述待筛选药物分子作为所述目标药物分子。

本申请实施例提供一种用于药物分子处理的电子设备，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的基于人工智能的药物分子处理方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本申请实施例提供的基于人工智能的药物分子处理方法。

本申请实施例具有以下有益效果：

基于候选药物分子的活性信息以及候选药物分子的分子对接信息，从大量的候选药物分子中筛选到针对目标蛋白的目标药物分子，从而保证目标药物分子的活性以及与目标蛋白的结合能力，以高效自动地筛选出有价值的目标药物分子。

附图说明

图1是本申请实施例提供的医药系统的应用场景示意图；

图2是本申请实施例提供的用于药物分子处理的电子设备的结构示意图；

图3-图5是本申请实施例提供的基于人工智能的有机物样本处理方法的流程示意图；

图6是本申请实施例提供的预测模型的结构示意图；

图7是相关技术提供的G蛋白偶联受体GPR54/Kiss-1信号通路的示意图；

图8是相关技术提供的苗头化合物1的结构优化的示意图；

图9是本申请实施例提供的基于深度学习的化合物活性打分的流程示意图；

图10A-图10B是本申请实施例提供的潜在活性分子的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，所涉及的术语“第一\第二”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)深度学习(Deep Learning，DL)：机器学习(Machine Learning，ML)领域中一个新的研究方向，被引入机器学习使其更接近于最初的目标—人工智能(ArtificialIntelligence，AI)。深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息，对诸如文字、图像和声音等数据的解释有很大的帮助。深度学习的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。

2)卷积神经网络(CNN，Convolutional Neural Networks)：一类包含卷积计算且具有深度结构的前馈神经网络(FNN，Feedforward Neural Networks)，是深度学习(deeplearning)的代表算法之一。卷积神经网络具有表征学习(representation learning)能力，能够按其阶层结构对输入图像进行平移不变分类(shift-invariantclassification)。

3)分子线性输入规范(Simplified Molecular Input Line EntrySpecification，SMILES)：一种用美国信息交换标准代码(American Standard Code forInformation Interchange，ASCII)字符串明确描述分子结构的规范。SMILES表达式可以用一串字符来描述一个三维化学结构，例如，环己烷(C6H12)的SMILES表达式为C1CCCCC1，即C1CCCCC1表示为环己烷。

4)药物分子：药物的化学结构，例如苯环为一种药物分子。

5)药物性质：表征药物分子结构的性质，例如，溶解度、血脑屏障通透性以及毒性(某类药物分子与生命机体接触或进入生物活体体内后，能引起直接或间接损害作用、即该类药物分子具有生物毒性)等。

6)分子对接(docking)：分子模拟的重要方法之一，通过受体的特征以及受体和药物分子之间的相互作用方式来进行药物设计的方法，其本质是多个分子之间的识别过程，其过程涉及分子之间的空间匹配和能量匹配。在药物研发领域主要用于计算和查看小分子和靶点蛋白的结合方式和关键的结合作用。分子对接方法有一定的简化，根据简化的程度和方式，可以分为刚性对接、半柔性对接和柔性对接。

7)同源建模(Homology Modeling)：蛋白质的三维结构是理解其生物和生理学功能以及基于靶点结构进行药物设计的重要信息。同源建模是一种从蛋白质的氨基酸序列出发，以实验解析的同源蛋白质的三维结构为模板，构建出目标蛋白质三维结构的方法。

8)结合口袋(Binding Pocket)：在药物设计中，小分子和蛋白质结合发挥调控蛋白质功能的空腔称为结合口袋。

9)G蛋白偶联受体(GPCR，G Protein-Coupled Receptors)：是一大类膜蛋白受体的总称。这类受体的共同点是其立体结构中都有七个跨膜α螺旋，且其肽链的C端和连接第5和第6个跨膜螺旋的胞内环上都有G蛋白的结合位点。

10)先导化合物：简称先导物，通过各种途径和手段得到的具有某种生物活性和化学结构的化合物，用于进一步的化合物结构改造。

本申请实施例提供了一种基于人工智能的药物分子处理方法、装置、电子设备及计算机可读存储介质，能够高效地从大量的候选药物分子中筛选出有价值的目标药物分子。

本申请实施例所提供的基于人工智能的药物分子处理方法，可以由终端/服务器独自实现；也可以由终端和服务器协同实现，例如终端独自承担下文所述的基于人工智能的药物分子处理方法，或者，终端向服务器发送针对药物分子的筛选请求(包括目标蛋白信息)，服务器根据接收的该针对药物分子的筛选请求执行基于人工智能的药物分子处理方法，获得针对目标蛋白的目标药物分子，医药研发人员可以根据筛选得到的目标药物分子快速地进行后续的药物分子研究、分析等。

本申请实施例提供的用于药物分子处理的电子设备可以是各种类型的终端设备或服务器，其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器；终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

以服务器为例，例如可以是部署在云端的服务器集群，向用户开放人工智能云服务(AI as a Service，AIaaS)，AIaaS平台会把几类常见的AI服务进行拆分，并在云端提供独立或者打包的服务，这种服务模式类似于一个AI主题商城，所有的用户都可以通过应用程序编程接口的方式来接入使用AIaaS平台提供的一种或者多种人工智能服务。

例如，其中的一种人工智能云服务可以为药物分子处理服务，即云端的服务器封装有本申请实施例提供的药物分子处理的程序。用户通过终端(运行有客户端，例如药物筛查客户端等)调用云服务中的药物分子处理服务，以使部署在云端的服务器调用封装的药物分子处理的程序，基于候选药物分子的活性信息以及候选药物分子的分子对接信息，从多个候选药物分子中筛选出目标药物分子，后续基目标药物分子响应针对药物分子的筛选请求，例如，对于药物筛查应用，获取针对GPCR的化合物库，基于化合物库中候选药物分子的活性信息以及候选药物分子的分子对接信息，从多个候选药物分子中筛选出针对GPCR的目标药物分子，由于G蛋白偶联受体对于生殖系统综合症有一定的作用，后续药物研发人员可以从目标药物分子中快速得到对生殖系统综合症有积极作用的药物分子。

参见图1，图1是本申请实施例提供的医药系统10的应用场景示意图，终端200通过网络300连接服务器100，网络300可以是广域网或者局域网，又或者是二者的组合。

终端200(运行有客户端，例如药物筛查客户端等)可以被用来获取目标蛋白以及化合物库(包括多个候选药物分子)，例如，药物研发人员通过终端200的输入界面输入目标蛋白(例如GPCR)以及用于进行药物筛选的化合物库(例如ZINC库)，以得到目标蛋白以及化合物库，并自动生成针对药物分子的筛选请求。

在一些实施例中，终端中运行的客户端中可以植入有药物分子处理插件，用以在客户端本地实现基于人工智能的药物分子处理方法。例如，终端200获取针对药物分子的筛选请求(包括针对目标蛋白的化合物库)后，调用药物分子处理插件，以实现基于人工智能的药物分子处理方法，基于候选药物分子的活性信息以及候选药物分子的分子对接信息，从多个候选药物分子中筛选出目标药物分子，后续基于目标药物分子响应针对药物分子的筛选请求。

在一些实施例中，终端200获取针对药物分子的筛选请求后，调用服务器100的药物分子处理接口(可以提供为云服务的形式，即药物分子处理服务)，服务器100基于候选药物分子的活性信息以及候选药物分子的分子对接信息，从多个候选药物分子中筛选出目标药物分子，后续基于目标药物分子响应针对药物分子的筛选请求，例如，对于药物筛查应用，药物研发人员通过药物筛查客户端的输入界面输入目标蛋白(例如GPCR)以及用于进行药物筛选的化合物库(例如ZINC库)，以得到目标蛋白以及化合物库，并自动生成针对药物分子的筛选请求，并调用服务器100的药物分子处理接口，基于化合物库中候选药物分子的活性信息以及候选药物分子的分子对接信息，从多个候选药物分子中筛选出针对GPCR的目标药物分子，由于G蛋白偶联受体对于生殖系统综合症有一定的作用，后续药物研发人员可以从目标药物分子中快速得到对生殖系统综合症有积极作用的药物分子。

下面说明本申请实施例提供的用于药物分子处理的电子设备的结构，参见图2，图2是本申请实施例提供的用于药物分子处理的电子设备500的结构示意图，以电子设备500是服务器为例说明，图2所示的用于有机物样本处理的电子设备500包括：至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。电子设备500中的各个组件通过总线系统540耦合在一起。可理解，总线系统540用于实现这些组件之间的连接通信。总线系统540除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统540。

处理器510可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

存储器550包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本申请实施例描述的存储器550旨在包括任意适合类型的存储器。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。

在一些实施例中，存储器550能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统551，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块552，用于经由一个或多个(有线或无线)网络接口520到达其他计算设备，示例性的网络接口520包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

在一些实施例中，本申请实施例提供的药物分子处理装置可以采用软件方式实现，例如，可以是上文所述的终端中的药物分子处理插件，可以是上文所述的服务器中药物分子处理服务。当然，不局限于此，本申请实施例提供的药物分子处理装置可以提供为各种软件实施例，包括应用程序、软件、软件模块、脚本或代码在内的各种形式。

图2示出了存储在存储器550中的药物分子处理装置555，其可以是程序和插件等形式的软件，例如药物分子处理插件，并包括一系列的模块，包括确定模块5551、预测模块5552、处理模块5553以及筛选模块5554；其中，确定模块5551、预测模块5552、处理模块5553以及筛选模块5554用于实现本申请实施例提供的药物分子处理功能。

如前所述，本申请实施例提供的基于人工智能的有机物样本处理方法可以由各种类型的电子设备实施。参见图3，图3是本申请实施例提供的基于人工智能的有机物样本处理方法的流程示意图，结合图3示出的步骤进行说明。

在下面步骤中，目标蛋白表示对某疾病有作用或影响的蛋白质，例如，对于生殖系统综合症有一定的作用的G蛋白偶联受体GPR54/Kiss-1。

在步骤101中，确定针对目标蛋白的多个候选药物分子。

作为获取候选药物分子的示例，用户通过终端的输入界面输入目标蛋白(例如GPCR)以及用于进行药物筛选的化合物库(例如ZINC库)，以得到目标蛋白以及化合物库，并自动生成针对药物分子的筛选请求，并发送至服务器，服务器解析针对药物分子的筛选请求，得到目标蛋白以及化合物库，从化合物库中读取针对目标蛋白的多个候选药物分子，以便后续基于多个候选药物分子进行筛选处理，得到对目标蛋白有作用的目标药物分子。

在一些实施例中，确定针对目标蛋白的多个候选药物分子，包括：基于目标蛋白对化合物库中的化合物进行筛选处理，得到多个筛选后的化合物；对多个筛选后的化合物进行预处理，将预处理的化合物作为针对目标蛋白的候选药物分子。

例如，由于化合物库中存在海量的化合物，需要耗费大量的计算量，因此可以基于目标蛋白对化合物库中的化合物进行粗筛，以获取可能对目标蛋白有作用的候选药物分子，减小候选药物分子的数量，以提高后续药物筛选的效率。

在一些实施例中，基于目标蛋白对化合物库中的化合物进行筛选处理，得到多个筛选后的化合物，包括：基于目标蛋白对化合物库中的化合物进行基于分子成药规则的筛选处理，得到多个符合成药规则的化合物；对多个符合成药规则的化合物进行去重处理，将去重处理后的化合物作为筛选后的化合物。

例如，先基于目标蛋白对化合物库中的化合物进行基于分子成药规则的筛选处理，得到符合成药规则的化合物，即具有药理学活性或生物学活性的化合物，然后再对符合成药规则的化合物进行去重，再次减少化合物的数量。其中，分子成药规则用于评估化合物能否作为药物分子(并不是所有化合物都能作为药物分子的)，例如分子成药规则为：250≤分子量≤750；-2≤化合物的油水分配系数的对数值≤7；氢键受体+氢键供体<10；可旋转键的数量<10；拓扑极性表面积<150。

在一些实施例中，对多个筛选后的化合物进行预处理，将预处理的化合物作为针对目标蛋白的候选药物分子，包括：基于目标基团对多个筛选后的化合物进行化学过滤处理，得到多个过滤后的化合物；在多个过滤后的化合物中去除手性化合物的对映异构体，将去除对映异构体的化合物作为针对目标蛋白的候选药物分子。

其中，目标基团表示药物化学里面不想要的基团，例如含有毒性基团(toxicophore groups)和活性基团(reactive groups)的分子，即去除筛选后的化合物中包含有目标基团的化合物，进行药物化学过滤。由于化合物库中含有很多手性化合物的对映异构体，这些手性化合物的分子量、分子结构相同，但左右排列相反的化合物，即作用类似，因此可以去除手性化合物的对映异构体，以减小候选药物分子的数量，减小后续对候选药物分子的计算量。

在步骤102中，基于多个候选药物分子以及目标蛋白进行活性预测处理，得到每个候选药物分子的活性信息。

例如，在获取多个候选药物分子后，对每个候选药物分子以及目标蛋白进行活性预测，得到每个候选药物分子的活性打分(活性信息)，通过活性打分评估候选药物分子的活性，以便后续基于活性信息进行药物筛选。

参见图4，图4是本申请实施例提供的基于人工智能的药物分子处理方法的一个可选的流程示意图，图4示出图3中的步骤102可以通过步骤1021-步骤1024实现：在步骤1021中，针对多个候选药物分子中的任一候选药物分子执行以下处理：对候选药物分子的分子结构进行编码处理，得到候选药物分子的嵌入特征；在步骤1022中，对目标蛋白的蛋白质结构进行编码处理，得到目标蛋白的嵌入特征；在步骤1023中，对候选药物分子的嵌入特征以及目标蛋白的嵌入特征进行融合处理，得到活性融合特征；在步骤1024中，对活性融合特征进行映射处理，得到候选药物分子的活性信息。

例如，如图6所示，通过预测网络的编码器对候选药物分子的分子结构(分子图)进行编码，得到候选药物分子的嵌入特征，对目标蛋白的蛋白质结构(蛋白质序列)进行编码处理，得到目标蛋白的嵌入特征，然后融合候选药物分子的嵌入特征以及目标蛋白的嵌入特征，并对融合得到的活性融合特征进行映射，得到候选药物分子的活性打分，从而通过人工智能技术，学习到候选药物分子的活性，以便后续基于准确的候选药物分子的活性进行筛选处理。

承接上述示例，基于候选药物分子的分子结构，构建候选药物分子的分子图；通过图像编码器(例如，DMPNN)对候选药物分子的分子图进行图像编码处理，得到候选药物分子的嵌入特征，从而通过图像编码获取准确的候选药物分子的嵌入特征。

承接上述示例，基于目标蛋白的蛋白质结构，确定目标蛋白的蛋白序列；通过文本转换器(例如Doc-to-Vector)对目标蛋白的蛋白序列进行文本转换形式的编码处理，得到目标蛋白的嵌入特征，从而通过文本编码获取准确的目标蛋白的嵌入特征。

承接上述示例，对候选药物分子的嵌入特征以及目标蛋白的嵌入特征进行融合处理，得到活性融合特征，包括以下3种方式：

方式1、将候选药物分子的嵌入特征以及目标蛋白的嵌入特征进行加和处理，将加和处理的结果作为活性融合特征。

方式2、将候选药物分子的嵌入特征以及目标蛋白的嵌入特征进行拼接处理，将拼接处理的结果作为活性融合特征。

方式3、对候选药物分子的嵌入特征以及目标蛋白的嵌入特征进行映射处理，得到包含候选药物分子以及目标蛋白的中间特征向量，对包含中间特征向量进行仿射变换，得到活性融合特征。

其中，方式1和方式2的融合方式比较简单，可以节约融合的计算量，方式3的融合方式比较精确，可以进行准确的融合，以得到准确的活性融合特征，以便后续进行准确的活性预测。

承接上述示例，对活性融合特征进行映射处理，得到候选药物分子的活性信息，包括：对活性融合特征映射至隐向量空间，得到活性融合特征的隐向量；将活性融合特征的隐向量进行非线性映射处理，将得到的候选药物分子的活性分值作为候选药物分子的活性信息。

例如，通过预测网络中的全连接层对活性融合特征映射至隐向量空间，得到活性融合特征的隐向量，然后通过预测网络中的激活层将活性融合特征的隐向量进行非线性映射处理，将得到的候选药物分子的活性分值(活性打分)作为候选药物分子的活性信息。

在步骤103中，对目标蛋白进行同源建模处理，得到具有与目标蛋白的同源结构的参考蛋白。

由于没有目标蛋白(例如GPR54蛋白)的晶体结构的信息，无法基于目标蛋白进行分子对接处理，因此需要利用同源建模的方法建立一个具有与目标蛋白的同源结构的参考蛋白，即具有与目标蛋白的同源结构的蛋白质的序列信息。

在一些实施例中，对目标蛋白进行同源建模处理，得到具有与目标蛋白的同源结构的参考蛋白，包括：针对蛋白库中的任一候选蛋白执行以下处理：将候选蛋白的序列与目标蛋白的序列进行相似度处理，得到候选蛋白与目标蛋白之间的相似度；当相似度大于相似度阈值时，基于候选蛋白的三维结构进行结构优化处理，将结构优化处理的结果作为具有与目标蛋白的同源结构的参考蛋白。

例如，当两个蛋白的序列相似，则两个蛋白的结构相似，即存在同源关系(同源结构)的两个蛋白序列具有相似的结构。首先将蛋白库(包括多个候选蛋白)中的任一蛋白(已知结构的蛋白质)作为候选蛋白(模板蛋白)，将候选蛋白的序列与目标蛋白的序列进行比对，得到候选蛋白与目标蛋白之间的相似度，当相似度大于相似度阈值时，基于候选蛋白的三维结构进行结构优化，即以候选蛋白为原型，构建目标蛋白的主链结构模型，在候选蛋白与目标蛋白对比中形成空位的区域，使用环区建模得到完整的主链结构模型，构建并优化模型的侧链，以实现对整个结构模型的优化，从而得到具有与目标蛋白的同源结构的参考蛋白的序列。

在步骤104中，基于参考蛋白以及多个候选药物分子进行分子对接处理，得到每个候选药物分子的分子对接信息。

在获取参考蛋白的结构后，基于参考蛋白以及每个候选药物分子进行分子对接处理，得到每个候选药物分子与参考蛋白的分子对接打分，并将候选药物分子与参考蛋白的分子对接打分作为候选药物分子的分子对接信息，基于分子对接信息评估候选药物分子的结合抑制作用，以便后续基于分子对接信息进行准确地药物筛选。

参见图5，图5是本申请实施例提供的基于人工智能的药物分子处理方法的一个可选的流程示意图，图5示出图3中的步骤104可以通过步骤1041-步骤1043实现：在步骤1041中，基于参考蛋白进行分子动力学模拟处理，得到参考蛋白的活性位点以及结合口袋；在步骤1042中，对多个候选药物分子分别进行预处理，得到每个候选药物分子的分子构象；在步骤1043中，针对每个候选药物分子的分子构象执行以下处理：基于参考蛋白的活性位点、结合口袋以及候选药物分子的分子构象进行分子对接打分，将分子对接打分的结果作为候选药物分子的分子对接信息。

例如，通过分子动力学模拟无配体结合的参考蛋白结构，将参考蛋白插入到双层膜结构(POPE)中，并用水分子填充模拟空间，加入0.15M浓度的盐离子(NaCl)，在300K温度下，恒压体系下模拟超过100ns的时间。将上述模拟体系中的最后80ns时间的模拟轨迹的参考蛋白进行聚类，取最后类中心结构作为分子对接的受体结构(活性位点)。使用FTMap方法(分子对接方法)，将一系列化学基团或分子(例如苯，异丁醇，尿酸和乙醇等)对接到口袋区域，可以富集到多种化学分子的区域，即构成了在下一步中的分子对接的口袋区域(结合口袋)。

承接上述示例，对多个候选药物分子分别进行预处理，包括：对多个候选药物分子分别进行格式转换处理，得到每个候选药物分子的转换格式；基于每个候选药物分子的转换格式，构建每个候选药物分子的三维构象；基于每个候选药物分子的三维构象，确定能够加氢原子的位置；在可加氢原子的位置加上氢原子，以得到候选药物分子的分子构象。

例如，将候选药物分子从SMILES格式转化为PDB/MOL2/PDBQT/SDF formats；基于候选药物分子的转换格式构建候选药物分子的三维构象；确定候选药物分子可加氢原子的位置(呈碱性的位置)，加上氢原子。

在步骤105中，基于每个候选药物分子的活性信息以及每个候选药物分子的分子对接信息，对多个候选药物分子进行筛选处理，将筛选得到的候选药物分子作为目标药物分子。

例如，在得到每个候选药物分子的活性信息以及每个候选药物分子的分子对接信息后，基于每个候选药物分子的活性信息以及分子对接信息进行药物筛选，以得到目标药物分子，从而保证目标药物分子的活性以及结合抑制性，为后续药物分子的研究以及分子提供参考指导，缩短药物的研究周期。

在一些实施例中，基于每个候选药物分子的活性信息以及每个候选药物分子的分子对接信息，对多个候选药物分子进行筛选处理，将筛选得到的候选药物分子作为目标药物分子，包括：对多个候选药物分子进行聚类处理，得到多个药物类别集合；在多个药物类别集合中，筛选出满足活性信息要求以及分子对接信息要求的候选药物分子以作为目标药物分子。

例如，对候选药物分子进行聚类，得到多个药物类别集合(簇)，并基于多个药物类别集合进行筛选处理，得到满足活性信息要求以及分子对接信息要求的候选药物分子以作为目标药物分子。通过聚类处理，得到结构上具有多样性骨架的药物分子，从而提高目标药物分子的多样性。

承接上述示例，可以在每个药物类别集合中，选取活性信息最高或者分子对接信息最高的候选药物分子作为目标药物分子。

在一些实施例中，在多个药物类别集合中，筛选出满足活性信息要求以及分子对接信息要求的候选药物分子以作为目标药物分子，包括：针对多个药物类别集合的任一药物类别集合执行以下处理：将药物类别集合中活性信息最高的候选药物分子作为待筛选药物分子；对待筛选药物分子的活性信息、分子对接信息以及药物性质进行加权求和处理，得到待筛选药物分子的综合药物信息；基于多个待筛选药物分子的综合药物信息，对多个待筛选药物分子进行降序排序处理，将排序在前的部分待筛选药物分子作为目标药物分子。

例如，在每个药物类别集合中选取活性信息最高的候选药物分子作为待筛选药物分子，确定待筛选药物分子的活性信息、分子对接信息以及药物性质(包括溶解度、血脑屏障通透性、毒性等)，并确定活性信息的权重、分子对接信息的权重以及药物性质的权重，基于活性信息的权重、分子对接信息的权重以及药物性质的权重，对待筛选药物分子的活性信息、分子对接信息以及药物性质进行加权求和，得到待筛选药物分子的综合药物信息，基于多个待筛选药物分子的综合药物信息，对多个待筛选药物分子进行降序排序处理，将排序在前的部分待筛选药物分子作为目标药物分子，从而从众多的候选药物分子中，筛选出活性强、结合抑制能力强、安全的目标药物分子，为后续药物分子的研究以及分子提供指导性帮助，缩短药物的研究周期。

下面，将说明本申请实施例在一个实际的医疗应用场景中的示例性应用。

多囊卵巢综合症(PCOS，Polycystic Ovarian Syndrome)是荷尔蒙失调引起的一种疾病，目前尚不知道具体是什么原因造成的这种失调。卵巢产生雌激素和孕激素，它们是雌性激素。卵巢也产生雄性激素，它们是雄性荷尔蒙。在多囊卵巢综合征中，卵巢产生过多的雄激素，这样造成一个荷尔蒙失调，荷尔蒙失调可以对身体有广泛的影响，这些影响可以轻微的或严重的，其影响人群大约有十分之一的妇女人群。像任何慢性疾病一样，多囊卵巢综合征会在某种程度上影响生活，但是如果不治疗，多囊卵巢综合征有引起其它健康问题的风险，包括：心脏病，糖尿病，肥胖，子宫内膜癌以及不育等。

相关技术中，治疗PCOS主要是通过激素治疗来增加雌性荷尔蒙水平，或者减少升高的雄性荷尔蒙的影响。目前市场上还没有一个主要针对多囊卵巢综合症这一疾病的药物。如图7所示，异常的MAPK/ERK信号通道导致PCOS患者代谢信号缺陷、卵巢雄激素分泌过多，G蛋白偶联受体GPR54/Kiss-1对于生殖系统综合症有一定的作用，在卵巢里的几个关键蛋白的表达水平能够显著地受多肽分子Kisspeptin(Kp神经元产生的一类激素，通过调节生物体内雌激素含量来调控生殖活动)和GPR54蛋白的结合影响，从而能够缓解多囊卵巢综合症。

申请人在实现本申请实施例的过程中发现，虽然Kisspeptin能够与GPR54结合达到缓解PCOS的效果，但是由于其在中枢神经系统内的高度表达，因而不能直接通过注射Kisspeptin来达到治疗的目的。因此，寻找一种能够选择性和GPR54蛋白结合的小分子，同时这样的分子又不会通过血脑屏障而对中枢神经系统产生毒副作用，就非常具有研究前景和临床价值。

但是，针对GPR54靶点开发的药物分子非常少，原因主要有：1)靶点GPR54的晶体结构未知，对于基于结构的药物分子设计很难实现；2)相关活性分子的数据比较少。如图8所示，通过设计-合成-测试-再设计的循环过程根据构效关系优化分子期望找到活性理想的先导化合物(苗头化合物1)，活性为1.2uM。

然而，上述的药物设计策略需要花费大量的人力物力不断的试错尝试，然后再优化的过程，不仅效率低、周期长，而且准确率比较低。同时在这个过程中需要不断的测试血脑屏障通过率以及其他的ADMET性质，以保障药物分子的安全性、理化性质以及体内代谢稳定性的问题。

为了解决上述问题，本申请实施例提供一种人工智能用于针对多囊卵巢综合症的药物虚拟筛选方法，采用人工智能的方法筛选出了潜在的针对GPR54(目标蛋白)有抑制作用的50个小分子药物(目标药物分子)，即通过人工智能的方法筛选出对多囊卵巢综合症有抑制作用的药物分子，为后期开发治疗多囊卵巢综合症的苗头化合物发现提供指导性帮助，无需花费大量的人力物力不断的试错尝试，提高分子筛选的效率。

本申请实施例首先通过分析GPR54靶点的氨基酸序列的信息，利用同源建模的方式建立用于进一步评价小分子活性的docking模型。利用人工智能的算法模型对全部GPCR靶点的小分子的学习，很好地对ZINC分子库进行活性预测打分，并利用ADMET模型对每个小分子的性质进行预测，从而达到尽可能保证分子活性的同时，又可以按照分子的ADMET的性质进行筛选。

其中，人工智能用于针对多囊卵巢综合症的药物虚拟筛选方法包括8个部分(待筛选化合物库的选择、化合物库的预处理、基于深度学习的化合物活性打分、分子对接模型建立、分子对接打分、后处理筛选、化合物ADMET性质预测、最终化合物筛选)，下面具体说明人工智能用于针对多囊卵巢综合症的药物虚拟筛选方法的处理流程，如下所示：

1)待筛选化合物库的选择

考虑到分子虚拟筛选的时间和精度，这里选择了ZINC库中的带有in-vitro活性的子库，共计276003个小分子。

2)化合物库的预处理

首先对选定的化合物库进行预处理，主要包括以下处理：

步骤1、基于分子成药性规则(Lipinski’s Rule of Five，评估化合物能否作为药物，或者一个具有药理学活性或生物学活性的化合物能否成为口服药物的经验法则)的筛选，具体筛选条件如下：

·250≤分子量(MW，Molecule Weight)≤750

·-2≤化合物的油水分配系数的对数值(clogP)≤7

·氢键受体(HBA)+氢键供体(HBD)<10

·可旋转键的数量(Num.of rotatable bonds)<10

·拓扑极性表面积(TPSA)<150

步骤2、去重；

步骤3、药物化学过滤器(MCF，Medicinal Chemistry Filter)：用来去除含有药物化学里面不想要的基团(目标基团，例如含有毒性基团(toxicophore)和活性基团(reactive groups))的分子；

步骤4、去除可能存在的手性化合物的对映异构体(只保留一个SMILES结构)：由于化合物库中含有很多手性化合物(分子量、分子结构相同，但左右排列相反的化合物)的对映异构体(构成手性关系的分子之间，把一方叫做另一方的对映异构体)，因而经过这步可以去除大部分的小分子。

其中，经过步骤1，得到260300个分子；经过步骤2，得到160455个无重复的小分子；经过步骤3和步骤4，得到18907个分子。

3)基于深度学习的化合物活性打分(DL活性打分)

如图9所示，利用已知的全部GPCR蛋白的序列和已知的具有与GPCR有结合活性的小分子(候选药物分子)的SMILES作为输入，GPCR蛋白的序列基于文本转换器(例如Doc-to-Vector)得到蛋白质的嵌入特征，具有与GPCR有结合活性的小分子基于图编码器(例如DMPNN)得到小分子的嵌入特征，然后再通过全连接层基于小分子的嵌入特征以及蛋白质的嵌入特征，进行预测小分子和GPCR蛋白的结合强度，使用如图9所示的模型对上述选择的18907个分子进行了一个深度学习的活性预测，得到这18907个分子分别对应的活性打分(以IC50值的负对数pIC50表示)。

4)分子对接(docking)模型建立

A)GPR54的同源建模

由于没有GPR54蛋白的晶体结构的信息，因此需要利用同源建模的方法建立一个模型。其中，同源建模所得到的结构包括7TM的类似结构。

B)活性氨基酸(活性位点)和口袋检测

大多数的GPCR蛋白都含有很多的结合口袋(包含活性位点)，这里选择位于7TMhelices的结合位置。

由于不知道配体的活性位点或结合口袋的确切位置，因此需要利用分子动力学(MD，Molecular Dynamics)模拟(MD模拟是结合物理数学和化学的综合分子模拟方法)来预测和确认小分子结合位置以及哪些活性氨基酸可能构成结合口袋。通过分子动力学模拟无配体结合的蛋白质结构，将蛋白质插入到双层膜结构(POPE)中，并用水分子填充模拟空间，加入0.15M浓度的盐离子(NaCl)，在300K温度下，恒压体系下模拟超过100ns的时间。将上述模拟体系中的最后80ns时间的模拟轨迹的蛋白质结构进行聚类，取最后类中心结构作为分子对接的受体结构。使用FTMap方法(分子对接方法)，将一系列化学基团或分子(例如苯，异丁醇，尿酸和乙醇等)对接到口袋区域，可以富集到多种化学分子的区域，即构成了在下一步中的分子对接的口袋区域。

5)分子对接(docking)打分

准备输入文件用于docking软件(AutoDock Vina)，在这个过程中需要决定化合物库中的每一个分子正确的分子构象。其中，原子带的电荷以及氢键作用是对于成功的虚拟筛选是非常重要的。氢键作用能够显著的增加小分子和蛋白的结合能力，因此是否存在一个质子化的氢原子和蛋白质上特定位置的原子的结合这样一个质子化的状态就十分的重要。下面是对化合物库中分子的处理步骤：

a.将小分子从SMILES格式转化为PDB/MOL2/PDBQT/SDF formats；

b.小分子的3D构象的生成；

c.确定小分子可加氢原子的位置(呈碱性的位置)，加上氢原子；

d.计算电荷数；

e.设定正确的原子类型。

其中，将处理后的小分子与同源建模所得到的结构结合，确定能量减低的数值，减低的数值越大，分子对接打分越高，结合越强。

6)后处理筛选

对于经过两个模型打分的分子，进行聚类(clustering)。为了得到结构上具有多样性骨架的分子，对上述1.8万个小分子进行clustering，共得到6446个簇(cluster)，随后分别从6446个簇中分别选出DL活性打分最高的分子。

其中，clustering是基于相似度(Tanimoto Similarity)的聚类，目的是提高分子的多样性，减少相似的分子。设定相似度阈值，使分子之间相似度大于0.6的分子聚到一类。

7)化合物ADMET性质(药物的吸收，分配，代谢，排泄和毒性)预测

这里选择了药物分子比较重要的几个基本性质，除血脑屏障通过率(BBBP)，还有动力学溶解度(S，衡量药物分子在体内环境的溶解性)以及毒性。到此，对上述得到的18907个化合物分别做了5个标签：DL活性打分，docking打分，溶解度(Solubility)，血脑屏障通透性(BBBP)，毒性(Toxicity)。后续的化合物挑选，将主要结合这五个标签来综合选择化合物。

8)最终化合物筛选

对后处理筛选得到的6446个分子按照DL活性打分(pIC50)进行了从高到低的排序，然后结合溶解度、血脑屏障通透性、毒性、以及docking打分的情况选出了如图10A-图10B所示的潜在活性分子(目标药物分子)，包括50个化合物。这里性质的参考如下：溶解度log(S,mol/L)选择大于-4.5，BBBP选择小于0.5的概率值，没有见到明显的预测毒性。

综上，本申请实施例提出的人工智能用于针对多囊卵巢综合症的药物虚拟筛选方法，针对多囊卵巢综合症这一发病率高的慢性病利用人工智能的算法筛选出50个潜在的具有抑制活性的药物分子，拓展了化学结构的多样性，为后续的针对这一疾病的进一步开发提供了后续的苗头化合物。

至此已经结合本申请实施例提供的服务器的示例性应用和实施，说明本申请实施例提供的基于人工智能的药物分子处理方法。本申请实施例还提供药物分子处理装置，实际应用中，药物分子处理装置中的各功能模块可以由电子设备(如终端设备、服务器或服务器集群)的硬件资源，如处理器等计算资源、通信资源(如用于支持实现光缆、蜂窝等各种方式通信)、存储器协同实现。图2示出了存储在存储器550中的药物分子处理装置555，其可以是程序和插件等形式的软件，例如，软件C/C++、Java等编程语言设计的软件模块、C/C++、Java等编程语言设计的应用软件或大型软件系统中的专用软件模块、应用程序接口、插件、云服务等实现方式，下面对不同的实现方式举例说明。

示例一、药物分子处理装置是移动端应用程序及模块

本申请实施例中的药物分子处理装置555可提供为使用软件C/C++、Java等编程语言设计的软件模块，嵌入到基于Android或iOS等系统的各种移动端应用中(以可执行指令存储在移动端的存储介质中，由移动端的处理器执行)，从而直接使用移动端自身的计算资源完成相关的药物分子筛选任务，并且定期或不定期地通过各种网络通信方式将处理结果传送给远程的服务器，或者在移动端本地保存。

示例二、药物分子处理装置是服务器应用程序及平台

本申请实施例中的药物分子处理装置555可提供为使用C/C++、Java等编程语言设计的应用软件或大型软件系统中的专用软件模块，运行于服务器端(以可执行指令的方式在服务器端的存储介质中存储，并由服务器端的处理器运行)，服务器使用自身的计算资源完成相关的药物分子筛选任务。

本申请实施例还可以提供为在多台服务器构成的分布式、并行计算平台上，搭载定制的、易于交互的网络(Web)界面或其他各用户界面(UI，User Interface)，形成供个人、群体或单位使用的药物分子平台(用于药物分子筛选)等。

示例三、药物分子处理装置是服务器端应用程序接口(API，Application ProgramInterface)及插件

本申请实施例中的药物分子处理装置555可提供为服务器端的API或插件，以供用户调用，以执行本申请实施例的基于人工智能的药物分子处理方法，并嵌入到各类应用程序中。

示例四、药物分子处理装置是移动设备客户端API及插件

本申请实施例中的药物分子处理装置555可提供为移动设备端的API或插件，以供用户调用，以执行本申请实施例的基于人工智能的药物分子处理方法。

示例五、药物分子处理装置是云端开放服务

本申请实施例中的药物分子处理装置555可提供为向用户开发的药物分子处理云服务，供个人、群体或单位获取目标药物分子。

其中，药物分子处理装置555包括一系列的模块，包括确定模块5551、预测模块5552、处理模块5553以及筛选模块5554。下面继续说明本申请实施例提供的药物分子处理装置555中各个模块配合实现药物分子处理方案。

确定模块5551，用于确定针对目标蛋白的多个候选药物分子；预测模块5552，用于基于所述多个候选药物分子以及所述目标蛋白进行活性预测处理，得到每个所述候选药物分子的活性信息；处理模块5553，用于对所述目标蛋白进行同源建模处理，得到具有与所述目标蛋白的同源结构的参考蛋白；基于所述参考蛋白以及所述多个候选药物分子进行分子对接处理，得到每个所述候选药物分子的分子对接信息；筛选模块5554，用于基于每个所述候选药物分子的活性信息以及每个所述候选药物分子的分子对接信息，对所述多个候选药物分子进行筛选处理，将筛选得到的候选药物分子作为目标药物分子。

在一些实施例中，所述确定模块5551还用于基于目标蛋白对化合物库中的化合物进行筛选处理，得到多个筛选后的化合物；对所述多个筛选后的化合物进行预处理，将预处理的化合物作为针对目标蛋白的候选药物分子。

在一些实施例中，所述确定模块5551还用于基于目标蛋白对化合物库中的化合物进行基于分子成药规则的筛选处理，得到多个符合成药规则的化合物；对所述多个符合成药规则的化合物进行去重处理，将去重处理后的化合物作为筛选后的化合物。

在一些实施例中，所述确定模块5551还用于基于目标基团对所述多个筛选后的化合物进行化学过滤处理，得到多个过滤后的化合物；在所述多个过滤后的化合物中去除手性化合物的对映异构体，将去除所述对映异构体的化合物作为针对目标蛋白的候选药物分子。

在一些实施例中，所述预测模块5552还用于针对所述多个候选药物分子中的任一候选药物分子执行以下处理：对所述候选药物分子的分子结构进行编码处理，得到所述候选药物分子的嵌入特征；对所述目标蛋白的蛋白质结构进行编码处理，得到所述目标蛋白的嵌入特征；对所述候选药物分子的嵌入特征以及所述目标蛋白的嵌入特征进行融合处理，得到活性融合特征；对所述活性融合特征进行映射处理，得到所述候选药物分子的活性信息。

在一些实施例中，所述预测模块5552还用于基于所述候选药物分子的分子结构，构建所述候选药物分子的分子图；对所述候选药物分子的分子图进行图像编码处理，得到所述候选药物分子的嵌入特征。

在一些实施例中，所述预测模块5552还用于基于所述目标蛋白的蛋白质结构，确定所述目标蛋白的蛋白序列；对所述目标蛋白的蛋白序列进行文本转换处理，得到所述目标蛋白的嵌入特征。

在一些实施例中，所述预测模块5552还用于将所述候选药物分子的嵌入特征以及所述目标蛋白的嵌入特征进行加和处理，将所述加和处理的结果作为所述活性融合特征；或者，将所述候选药物分子的嵌入特征以及所述目标蛋白的嵌入特征进行拼接处理，将所述拼接处理的结果作为所述活性融合特征。

在一些实施例中，所述预测模块5552还用于对所述候选药物分子的嵌入特征以及所述目标蛋白的嵌入特征进行映射处理，得到包含所述候选药物分子以及所述目标蛋白的中间特征向量；对包含所述中间特征向量进行仿射变换，得到所述活性融合特征。

在一些实施例中，所述预测模块5552还用于对所述活性融合特征映射至隐向量空间，得到所述活性融合特征的隐向量；将所述活性融合特征的隐向量进行非线性映射处理，将得到的所述候选药物分子的活性分值作为所述候选药物分子的活性信息。

在一些实施例中，所述处理模块5553还用于针对蛋白库中的任一候选蛋白执行以下处理：将所述候选蛋白的序列与所述目标蛋白的序列进行相似度处理，得到所述候选蛋白与所述目标蛋白之间的相似度；当所述相似度大于相似度阈值时，基于所述候选蛋白的三维结构进行结构优化处理，将所述结构优化处理的结果作为具有与所述目标蛋白的同源结构的参考蛋白。

在一些实施例中，所述处理模块5553还用于基于所述参考蛋白进行分子动力学模拟处理，得到所述参考蛋白的活性位点以及结合口袋；对所述多个候选药物分子分别进行预处理，得到每个所述候选药物分子的分子构象；针对每个所述候选药物分子的分子构象执行以下处理：基于所述参考蛋白的活性位点、所述结合口袋以及所述候选药物分子的分子构象进行分子对接打分，将所述分子对接打分的结果作为所述候选药物分子的分子对接信息。

在一些实施例中，所述处理模块5553还用于对所述多个候选药物分子分别进行格式转换处理，得到每个所述候选药物分子的转换格式；基于每个所述候选药物分子的转换格式，构建每个所述候选药物分子的三维构象；基于每个所述候选药物分子的三维构象，确定能够加氢原子的位置；在所述可加氢原子的位置加上氢原子，以得到所述候选药物分子的分子构象。

在一些实施例中，所述筛选模块5554还用于对所述多个候选药物分子进行聚类处理，得到多个药物类别集合；在所述多个药物类别集合中，筛选出满足活性信息要求以及分子对接信息要求的候选药物分子以作为所述目标药物分子。

在一些实施例中，所述筛选模块5554还用于针对所述多个药物类别集合的任一药物类别集合执行以下处理：将所述药物类别集合中活性信息最高的候选药物分子作为待筛选药物分子；对所述待筛选药物分子的活性信息、分子对接信息以及药物性质进行加权求和处理，得到所述待筛选药物分子的综合药物信息；基于多个所述待筛选药物分子的综合药物信息，对多个所述待筛选药物分子进行降序排序处理，将排序在前的部分所述待筛选药物分子作为所述目标药物分子。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例上述的基于人工智能的药物分子处理方法。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的基于人工智能的问答处理方法，例如，如图3-5示出的基于人工智能的药物分子处理方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种基于人工智能的药物分子处理方法，其特征在于，所述方法包括：

确定针对目标蛋白的多个候选药物分子；

2.根据权利要求1所述的方法，其特征在于，所述确定针对目标蛋白的多个候选药物分子，包括：

基于目标蛋白对化合物库中的化合物进行筛选处理，得到多个筛选后的化合物；

3.根据权利要求2所述的方法，其特征在于，所述基于目标蛋白对化合物库中的化合物进行筛选处理，得到多个筛选后的化合物，包括：

基于目标蛋白对化合物库中的化合物进行基于分子成药规则的筛选处理，得到多个符合成药规则的化合物；

4.根据权利要求2所述的方法，其特征在于，所述对所述多个筛选后的化合物进行预处理，将预处理的化合物作为针对目标蛋白的候选药物分子，包括：

基于目标基团对所述多个筛选后的化合物进行化学过滤处理，得到多个过滤后的化合物；

5.根据权利要求1所述的方法，其特征在于，所述基于所述多个候选药物分子以及所述目标蛋白进行活性预测处理，得到每个所述候选药物分子的活性信息，包括：

针对所述多个候选药物分子中的任一候选药物分子执行以下处理：

6.根据权利要求5所述的方法，其特征在于，所述对所述候选药物分子的分子结构进行编码处理，得到所述候选药物分子的嵌入特征，包括：

基于所述候选药物分子的分子结构，构建所述候选药物分子的分子图；

7.根据权利要求5所述的方法，其特征在于，所述对所述目标蛋白的蛋白质结构进行编码处理，得到所述目标蛋白的嵌入特征，包括：

基于所述目标蛋白的蛋白质结构，确定所述目标蛋白的蛋白序列；

8.根据权利要求5所述的方法，其特征在于，所述对所述候选药物分子的嵌入特征以及所述目标蛋白的嵌入特征进行融合处理，得到活性融合特征，包括：

将所述候选药物分子的嵌入特征以及所述目标蛋白的嵌入特征进行加和处理，将所述加和处理的结果作为所述活性融合特征；或者，

9.根据权利要求5所述的方法，其特征在于，所述对所述候选药物分子的嵌入特征以及所述目标蛋白的嵌入特征进行融合处理，得到活性融合特征，包括：

对所述候选药物分子的嵌入特征以及所述目标蛋白的嵌入特征进行映射处理，得到包含所述候选药物分子以及所述目标蛋白的中间特征向量；

10.根据权利要求5所述的方法，其特征在于，所述对所述活性融合特征进行映射处理，得到所述候选药物分子的活性信息，包括：

对所述活性融合特征映射至隐向量空间，得到所述活性融合特征的隐向量；

11.根据权利要求1所述的方法，其特征在于，所述对所述目标蛋白进行同源建模处理，得到具有与所述目标蛋白的同源结构的参考蛋白，包括：

针对蛋白库中的任一候选蛋白执行以下处理：

12.根据权利要求1所述的方法，其特征在于，所述基于所述参考蛋白以及所述多个候选药物分子进行分子对接处理，得到每个所述候选药物分子的分子对接信息，包括：

基于所述参考蛋白进行分子动力学模拟处理，得到所述参考蛋白的活性位点以及结合口袋；

13.根据权利要求12所述的方法，其特征在于，所述对所述多个候选药物分子分别进行预处理，得到每个所述候选药物分子的分子构象，包括：

对所述多个候选药物分子分别进行格式转换处理，得到每个所述候选药物分子的转换格式；

14.根据权利要求1所述的方法，其特征在于，所述基于每个所述候选药物分子的活性信息以及每个所述候选药物分子的分子对接信息，对所述多个候选药物分子进行筛选处理，将筛选得到的候选药物分子作为目标药物分子，包括：

对所述多个候选药物分子进行聚类处理，得到多个药物类别集合；

15.根据权利要求14所述的方法，其特征在于，所述在所述多个药物类别集合中，筛选出满足活性信息要求以及分子对接信息要求的候选药物分子以作为所述目标药物分子，包括：

针对所述多个药物类别集合的任一药物类别集合执行以下处理：

16.一种基于人工智能的药物分子处理装置，其特征在于，所述装置包括：

确定模块，用于确定针对目标蛋白的多个候选药物分子；

17.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至15任一项所述的基于人工智能的药物分子处理方法。

18.一种计算机可读存储介质，其特征在于，存储有可执行指令，用于被处理器执行时实现权利要求1至15任一项所述的基于人工智能的药物分子处理方法。