CN114822716A

CN114822716A - 目标药物筛选方法、装置、电子设备及存储介质

Info

Publication number: CN114822716A
Application number: CN202110112362.XA
Authority: CN
Inventors: 于洋; 叶菲; 田莉; 徐绍勇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-01-27
Filing date: 2021-01-27
Publication date: 2022-07-29

Abstract

本申请实施例公开了一种目标药物筛选方法、装置、电子设备及存储介质，涉及人工智能、大数据以及云技术等领域。该方法包括：从第一药物数据库中读取药物数据；第一药物数据库中存储着各已知药物的药物数据；将读取到的药物数据输入目标病毒对应的抗病毒药物筛选模型，得到各已知药物对目标病毒的活性值；抗病毒药物筛选模型为根据抗病毒药物数据训练得到；抗病毒药物数据中包括病毒集中病毒所对应的抗病毒药物数据；病毒集中包括至少一种与目标病毒相关的病毒；基于活性值从各已知药物中筛选对应于目标病毒的目标药物。采用上述方式，从各已知药物中筛选对应于目标病毒的目标药物，提高了针对突发疾病筛选出有效的治疗药物的效率。

Description

目标药物筛选方法、装置、电子设备及存储介质

技术领域

本申请实施例涉及人工智能、大数据以及云技术领域，尤其涉及一种目标药物筛选方法、装置、电子设备及存储介质。

背景技术

传统的早期苗头化合物筛选，主要是通过高通量的湿实验筛选 (high-throughput screen，简称HTS)，但是这种方法耗费巨大，同时周期很长，并且假阳性的概率很高。

传统的药物研发流程要经历从靶点的发现和验证，苗头化合物的发现，先导化合物的发现和优化，候选化合物的确认及开发和临床研究等多个阶段。研究方法不仅周期长，效率低而且价格昂贵。一个药物的成功开发往往需要 15年以上的时间，耗资超过30亿美元以上，每年上市的原创新药只有15种左右。新药研发成本的高昂直接带来的就是药品价格的昂贵，很难惠及所有的患者。此外，目前已知的4000多种疾病仍有90％左右是无药可治的。

因此，当面对突发的疾病时，如何解决传统药物研发过程中存在的周期长，效率低，成本高的问题，成为亟需解决的问题。

发明内容

本申请实施例提供一种目标药物筛选方法、装置、电子设备及存储介质，从各已知药物中筛选对应于目标病毒的目标药物，提高了针对突发疾病筛选出有效的治疗药物的效率。

一方面，本申请实施例提供一种目标药物筛选方法，该方法包括：

从第一药物数据库中读取药物数据；上述第一药物数据库中存储着各已知药物的药物数据；

将读取到的药物数据输入目标病毒对应的抗病毒药物筛选模型，得到各上述已知药物对上述目标病毒的活性值；上述抗病毒药物筛选模型为根据抗病毒药物数据训练得到；上述抗病毒药物数据中包括病毒集中病毒所对应的抗病毒药物数据；上述病毒集中包括至少一种与上述目标病毒相关的病毒；

基于上述活性值从各上述已知药物中筛选对应于上述目标病毒的目标药物。

一方面，本申请实施例提供了一种目标药物筛选装置，该装置包括：

药物数据读取模块，用于从第一药物数据库中读取药物数据；上述第一药物数据库中存储着各已知药物的药物数据；

活性值确定模块，用于将读取到的药物数据输入目标病毒对应的抗病毒药物筛选模型，得到各上述已知药物对上述目标病毒的活性值；上述抗病毒药物筛选模型为根据抗病毒药物数据训练得到；上述抗病毒药物数据中包括病毒集中病毒所对应的抗病毒药物数据；上述病毒集中包括至少一种与上述目标病毒相关的病毒；

目标药物筛选模块，用于基于上述活性值从各上述已知药物中筛选对应于上述目标病毒的目标药物。

在一种可行的实施例中，上述抗病毒药物筛选模型是通过药物筛选模型确定模块通过以下方式确定的，上述药物筛选模型确定模块用于：

获取测试数据集，其中，上述测试数据集包括与上述目标病毒相关的至少一个初始抗病毒药物数据与每个初始抗病毒药物数据对应的第一真实活性值；

通过至少两个预先训练好的活性预测模型分别对上述至少一个初始抗病毒药物数据进行活性预测，得到与每个上述活性预测模型匹配的、且与上述至少一个初始抗病毒药物数据对应的第一预测活性值；

根据上述第一预测活性值与上述第一真实活性值，确定与每个上述活性预测模型匹配的、且与上述至少一个初始抗病毒药物数据对应的目标相关性系数；

将上述目标相关性系数中大于或等于预定阈值对应的初始抗病毒药物数据及相匹配的活性预测模型，确定为上述抗病毒药物筛选模型。

在一种可行的实施例中，上述至少两个预先训练好的活性预测模型是通过训练模块通过以下方式对神经网络模型训练得到的，上述训练模块用于：

获取第一训练数据集；

基于上述第一训练数据集和至少两个神经网络模型分别对应的第一损失函数对至少两个神经网络模型进行迭代训练，直至上述第一损失函数收敛，将收敛时的至少两个神经网络模型作为至少两个初始活性预测模型；

获取第二训练数据集，其中，上述第二训练数据集包括与上述目标病毒相关的训练样本数据；

基于上述第二训练数据集和至少两个初始活性预测模型分别对应的第二损失函数对至少两个初始活性预测模型进行迭代训练，直至上述第二损失函数收敛，将收敛时的至少两个初始活性预测模型作为至少两个活性预测模型。

在一种可行的实施例中，上述第一训练数据集中的每个第一样本数据包括上述第一样本数据对应的第二真实活性值，上述训练模块，用于：

对于至少两个神经网络模型中的每个神经网络模型，将上述第一训练数据集中的每个第一样本数据分别输入至上述神经网络模型中，通过上述神经网络模型预测得到每个第一样本数据的第二预测活性值；

基于各上述第一样本数据分别对应的第二预测活性值和第二真实活性值，计算上述第一损失函数的第一相关性系数；

对于至少两个神经网络模型中的每个神经网络模型，基于上述第一训练数据集和上述第一相关性系数对上述神经网络模型进行迭代训练，直至上述第一损失函数收敛，收敛条件为上述第一相关性系数大于或等于预定阈值。

在一种可行的实施例中，上述训练模块，用于：

将第二药物数据库中满足携带有活性值标签且包含大于或等于第一阈值的化合物的抗病毒药物数据，确定为上述第一训练数据集。

在一种可行的实施例中，上述第二训练数据集中的每个第二样本数据包括上述第二样本数据对应的第三真实活性值，上述训练模块，用于：

对于至少两个初始活性预测模型中的每个初始活性预测模型，将上述第二训练数据集中的每个第二样本数据分别输入至上述初始活性预测模型中，通过上述初始活性预测模型预测得到每个第二样本数据的第三预测活性值；

基于各上述第二样本数据分别对应的第三预测活性值和第三真实活性值，计算上述第二损失函数的第二相关性系数；

对于至少两个初始活性预测模型中的每个初始活性预测模型，基于上述第二训练数据集和上述第二相关性系数对上述初始活性预测模型进行迭代训练，直至上述第二损失函数收敛，收敛条件为上述第二损失值大于或等于预定阈值。

在一种可行的实施例中，上述目标药物筛选模块，至少用于以下之一：

对于各上述已知药物中的每一个已知药物，对上述已知药物对应的活性值进行归一化处理，得到上述已知药物对应的活性值的归一化值，若上述归一化值大于或等于第二阈值，则将上述已知药物作为一个初始目标药物；从各上述已知药物中筛选出各初始目标药物，从上述各初始目标药物中筛选对应于上述目标病毒的目标药物；

对于各上述已知药物中的每一个已知药物，若上述已知药物对应的活性值中存在大于或等于第三阈值的值，则将上述已知药物作为一个初始目标药物；从各上述已知药物中筛选出各初始目标药物，从上述各初始目标药物中筛选对应于上述目标病毒的目标药物。

在一种可行的实施例中，上述目标药物筛选模块，用于：

基于小分子成药性规则、骨架相似性规则、药物安全性规则、已撤市信息或已报道信息，从上述各初始目标药物中筛选对应于上述目标病毒的目标药物，上述已报道信息用于表示已经报道过的对于治疗上述目标病毒有效的药物。

在一种可行的实施例中，若上述目标病毒为新型冠状病毒肺炎 COVID-19，则上述目标药物包括至少8个针对宿主细胞靶点的药物分子和至少21个针对COVID-19病毒蛋白酶靶点的药物分子。

一方面，本申请实施例提供了一种电子设备，包括处理器和存储器，该处理器和存储器相互连接；

上述存储器用于存储计算机程序；

上述处理器被配置用于在调用上述计算机程序时，执行上述目标药物筛选方法的任一可选实施方式所提供的方法。

一方面，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行以实现上述目标药物筛选方法的任一种可能的实施方式所提供的方法。

一方面，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行目标药物筛选方法的任一种可能的实施方式所提供的方法。

本申请实施例所提供的方案的有益效果在于：

本申请实施例中，本申请实施例所提供的目标药物筛选方法、装置、电子设备及存储介质，从存储着各已知药物的药物数据的第一药物数据库中读取药物数据，然后通过抗病毒药物筛选模型对读取到的药物数据进行活性预测，得到各已知药物对目标病毒的活性值，基于活性值从各已知药物中筛选出对应于目标病毒的目标药物，其中，抗病毒药物筛选模型是通过包含与目标病毒相关的病毒的抗病毒药物数据训练得到的。采用这种方式，可以基于活性值从已有的药物数据库中存储的已知药物筛选得到用来治疗突发的目标病毒的目标药物，达到了“老药新用”的目的，避免了由于传统药物研发过程周期长，效率低，成本高，而导致无法及时在短时间内找到具有活性的化合物来应对突如其来的疾病，提高了针对突发疾病筛选出有效的治疗药物的效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种目标药物筛选方法的应用环境示意图；

图2是本申请实施例提供的一种目标药物筛选方法的流程示意图；

图3是本申请实施例提供的一种可能的药物作用的靶点的原理示意图；

图4是本申请实施例提供的一种可选的活性预测模型的训练流程示意图；

图5是本申请实施例提供的一种可选的活性预测模型的预测效果的示意图；

图6是本申请实施例提供的一种可选的目标药物筛选的流程示意图；

图7是本申请实施例提供的一种目标药物筛选装置的结构示意图；

图8是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本发明实施例中出现的术语包括：

1、新型冠状病毒肺炎(Corona Virus Disease 2019，COVID-19)，简称“新冠肺炎”。

2、老药新用(drug repurposing)：是在已经上市的药物分子中重新筛选其他适应症的一种方法。优势在于已经上市的分子的安全性已经得到相关临床实验的验证。

3、计算机辅助药物设计(Computer Aided Drug Design，简称CADD)，是依据生物化学、酶学、分子生物学以及遗传学等生命科学的研究成果，针对这些基础研究中所揭示的包括酶、受体、离子通道及核酸等潜在的药物设计靶点，并参考其它类源性配体或天然产物的化学结构特征，以计算机化学为基础，通过计算机的模拟、计算和预算药物与受体生物大分子之间的相互作用，考察药物与靶点的结构互补、性质互补等，设计出合理的药物分子。它是发现苗头化合物和设计优化先导化合物的方法。

4、基于结构的药物发现平台(Structure-based drug design，简称SBDD)，即基于结构的药物设计，从配体和靶点的三维结构出发，以分子识别为基础而进行的一种药物设计方法。根据药物与其作用的靶点如受体、酶、离子通道、核酸、抗原等来寻找和设计合理的药物分子。

5、基于小分子结构的药物分子设计(Ligand based drug design，简称 LBDD)，LBDD根据已知活性的分子，构建结构-活性关系或药效团模型，包括定量构效关系(Quantitative Structure-Activity Relationship，简称QSAR)、药效基团模型、配体映射、基于分子形状的叠合等具体的方法。

6、IC₅₀(half maximal inhibitory concentration)是指被测量的拮抗剂的半抑制浓度。它能指示某一药物或者物质(抑制剂)在抑制某些生物过程或者功能 (或者是包含在此过程或者功能中的某些物质，比如酶，细胞受体或是微生物) 的半量时对应的浓度。在凋亡方面，可以理解为一定浓度的某种药物诱导肿瘤细胞凋亡50％，该浓度称为50％抑制浓度，即凋亡细胞与全部细胞数之比等于50％时所对应的浓度，IC₅₀值可以用来衡量药物诱导凋亡的能力，即诱导能力越强，该数值越低，当然也可以反向说明某种细胞对药物的耐受程度。

7、pIC₅₀即-log₁₀(IC₅₀)。

本申请实施例提供的目标药物筛选方法涉及人工智能、大数据以及云技术的多种领域，如语音技术中的语音识别、云技术(Cloud technology)中的云计算、云服务以及大数据领域中的相关数据计算处理等领域。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。本申请实施例所提供的目标药物筛选方法可基于云技术中的云计算(cloud computing)实现。

云计算是指通过网络以按需、易扩展的方式获得所需资源，是网格计算 (GridComputing)、分布式计算(Distributed Computing)、并行计算(Parallel Computing)、效用计算(Utility Computing)、网络存储(Network Storage Technologies)、虚拟化(Virtualization)、负载均衡(Load Balance)等传统计算机和网络技术发展融合的产物。

人工智能云服务，一般也被称作是AIaaS(AI as a Service，AI即服务)。这是目前主流的一种人工智能平台的服务方式，具体来说AIaaS平台会把几类常见的人工智能服务进行拆分，并在云端提供独立或者打包的服务，如处理目标药物筛选请求等。

大数据(Big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。随着云时代的来临，大数据也吸引了越来越多的关注。基于大数据需要特殊的技术，以有效地实施本实施例所提供的目标药物筛选方法，其中适用于大数据的技术，包括大规模并行处理数据库、数据挖掘、分布式文件系统、分布式数据库、以及上述云计算等。

根据本发明实施例的一个方面，提供了一种目标药物筛选方法。为了更好的理解和说明本申请实施例所提供的方案，下面首先结合一个具体的实施例对本申请所提供的可选实施方案进行说明。

作为一个示例，图1中示出了本申请实施例所适用的一种目标药物筛选系统的结构示意图，可以理解的是，本申请实施例所提供的目标药物筛选方法可以适用于但不限于应用于如图1所示的应用场景中。

本示例中，以筛选出针对目标病毒有效的目标药物为例进行说明，如图 1所示，该示例中的目标药物筛选系统可以包括但不限于服务器101、网络 102、用户终端103。服务器101可以通过网络102与用户终端103通信，服务器101可以通过网络102向用户终端103发送筛选出的目标药物。上述用户终端103中包括人机交互屏幕1031，处理器1032及存储器1033。人机交互屏幕1031用于显示该目标药物的相关信息。存储器1033用于存储该目标药物。服务器101包括数据库1011和处理引擎1011。

如图1所示，本申请中的目标药物筛选方法的具体实现过程可以包括步骤S1-S4：

步骤S1，服务器101中的处理引擎1011从第一药物数据库中读取药物数据；上述第一药物数据库中存储着各已知药物的药物数据。其中，服务器 101中的数据库1011用于存储读取到的药物数据。

步骤S2，服务器101中的处理引擎1011将读取到的药物数据输入目标病毒对应的抗病毒药物筛选模型，得到各上述已知药物对上述目标病毒的活性值；上述抗病毒药物筛选模型为根据抗病毒药物数据训练得到；上述抗病毒药物数据中包括病毒集中病毒所对应的抗病毒药物数据；上述病毒集中包括至少一种与上述目标病毒相关的病毒。其中，服务器101中的数据库1011 用于存储各已知药物的活性值。

步骤S3，服务器101中的处理引擎1011基于上述活性值从各上述已知药物中筛选对应于上述目标病毒的目标药物。其中，服务器101中的数据库 1011用于存储该目标药物。

步骤S4，服务器101通过网络102将目标药物发送至用户终端103，用户终端103接收该目标药物，用户可以通过用户终端101中的人机交互屏幕 1031查看该目标药物的相关信息。

可理解，上述仅为一种示例，本实施例在此不作限定。

其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、 CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器或服务器集群。上述网络可以包括但不限于：有线网络，无线网络，其中，该有线网络包括：局域网、城域网和广域网，该无线网络包括：蓝牙、Wi-Fi及其他实现无线通信的网络。用户终端可以是智能手机(如Android手机、iOS手机等)、平板电脑、笔记本电脑、数字广播接收器、MID(Mobile InternetDevices，移动互联网设备)、PDA(个人数字助理)、台式计算机、车载终端(例如车载导航终端、车载电脑等)、智能音箱、智能手表等，用户终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，但并不局限于此。具体也可基于实际应用场景需求确定，在此不作限定。

参见图2，图2是本申请实施例提供的一种目标药物筛选方法的流程示意图，该方法可以由任一电子设备执行，如可以是服务器或者用户终端，也可以是用户终端和服务器交互完成，可选的，可以由服务器执行，如图2所示，本申请实施例提供的目标药物筛选方法包括如下步骤：

步骤S201，从第一药物数据库中读取药物数据；上述第一药物数据库中存储着各已知药物的药物数据。

步骤S202，将读取到的药物数据输入目标病毒对应的抗病毒药物筛选模型，得到各上述已知药物对上述目标病毒的活性值；上述抗病毒药物筛选模型为根据抗病毒药物数据训练得到；上述抗病毒药物数据中包括病毒集中病毒所对应的抗病毒药物数据；上述病毒集中包括至少一种与上述目标病毒相关的病毒。

步骤S203，基于上述活性值从各上述已知药物中筛选对应于上述目标病毒的目标药物。

可选的，目标病毒可以是引起突发疾病的病毒，例如，该目标病毒可以是新型冠状病毒肺炎(Corona Virus Disease 2019，COVID-19)，简称“新冠肺炎”。即2019新型冠状病毒感染引起的急性呼吸道传染病。

当出现这种突发的疾病时，需要及时寻找到有效的药物来治疗这种突发的疾病。面对如此紧迫的疫情，如何在最短的时间内带来新药是摆在人们眼前的重要问题。传统药物研发需要消耗大量的资源，一般包括10-20年的研发周期和20-30亿美元的研发费用。因此，基于CADD和AI的虚拟筛选就显得十分的必要和可行，也是国内外药企和高校在大力投入开发的领域。

随着计算机技术的发展，计算机辅助的药物设计(CADD)的方法结合传统的基于药化专家的经验的湿实验的技术发挥越来越重要的作用。两种比较常见的作为早期苗头化合物发现的CADD的方法：基于蛋白质或者核糖核酸(RibonucleicAcid，简称RNA)结构的药物设计(SBDD)和基于配体小分子的药物设计(LBDD)。SBDD的算法需要分析靶点的3D结构来确认关键的靶点和小分子的结合位置或者口袋位置和相互作用。这一方法的缺点就是需要知道靶点的3D结构信息，而这点对于某些新靶点或者研究比较少的靶点，或者很难得到晶体结构的靶点来说很难获得这样的信息。而LBDD的算法对于结构全新的分子的预测却难以给出一个很好的效果。

为了解决上述问题，当面对突发的疾病时，可以采用老药新用的方式，在已经上市的药物分子中重新筛选其他适应症，来对抗引起这种突发疾病的目标病毒。“老药新用”的策略指的是在已经批准上市的药物分子，即所谓“老药”，寻找新的作用机制和疾病用途，即“新用”。通过分析针对治疗新型冠状病毒可能的相关靶点，然后利用人工智能的先进算法学习已知活性分子的特征进而对上市的药物分子或进入临床阶段的分子进行筛选，找寻对新冠病毒有抑制活性的分子。

从存储着各已知药物的药物数据的第一药物数据库中读取药物数据。然后将读取到的药物数据输入至目标病毒对应的抗病毒药物筛选模型，通过该抗病毒药物筛选模型对各已知药物针对目标病毒的活性情况进行活性预测，得到各已知药物针对该目标病毒的活性值，然后基于各已知药物的活性值，从各已知药物中筛选出对应于该目标病毒有效的目标药物，将该目标药物作为治疗该目标病毒的有效药物。其中，在进行活性预测时，是对各已知药物针对目标病毒相关的至少一个靶点和/或目标病毒的宿主细胞相关的至少一个靶点的活性情况进行预测的，对于任意一个已知药物，得到的活性值包括至少一个活性值。举例来说，假设目标病毒相关的靶点和/或目标病毒的宿主细胞的靶点的数量为6，那么，任意一个已知药物的对应的活性值的数量即为6。

其中，抗病毒药物筛选模型可以理解为生物测试实验assay(即与目标病毒相关的抗病毒药物数据)以及相匹配的活性预测模型(用于进行活性预测的模型)。第一药物数据库可以为理解为一种药物分子库，如该第一药物数据库可以为DrugBank数据库，该DrugBank数据库是一个整合了生物信息学和化学信息学资源，并提供详细的药物数据与药物靶标信息及其机制的全面分子信息，包括药物化学、药理学、药代动力学、ADME及其相互作用信息。其中，“ADME”即“药代动力学”，指机体对外源化学物的吸收(absorption)、分布(distribution)、代谢(metabolism)及排泄(excretion)过程。目前DrugBank 5.0 包含了10971种药物和4900种蛋白靶标的信息。这些药物包括2,391种食品药品监督管理局(Foodand Drug Administration，简称FDA)批准的小分子药物，934种批准的生物技术药物，109种营养药物和5090多种实验研发中的药物。该数据库允许网络版查询和下载。

目标药物可以理解为针对目标病毒有活性的药物分子，以新型冠状病毒为例，该目标药物可以为针对新型冠状病毒有活性的药物分子。

通过本申请实施例，可以在已经上市的药物分子库中进行筛选，找到针对目标病毒有活性的药物分子。由于这些分子都是经过人体内的安全性的临床实验验证的，药物的安全性能够得到一定的保证。后续的实验只需要验证药物分子在体内是否具有对抗目标病毒的有效性即可，可以大大缩短药物的研发周期和临床实验的周期，提高药物筛选的效率。

在一种可选的实施例中，抗病毒药物筛选模型是通过以下方式确定的：

可选的，以新型冠状病毒为例，新型冠状病毒的基因组长度为29.9kb。其中除了编码结构蛋白，大部分被转录并翻译成病毒复制和基因表达所必须的蛋白质。其中包括冠状病毒复制的关键蛋白酶Mpro protease，NSP12 RNA polymerase，等。基因组分析表明，新型冠状病毒COVID-19与SARS，中东呼吸综合症冠状病毒(Middle East RespiratorySyndrome，简称MERS)，同属于beta类冠状病毒(beta-coronavirus)。新型冠状病毒COVID-19的基因序列与SARS的基因组序列高度同源，同源性为87.2％。这一结果揭示，充分分析利用SARS药物研究数据和经验对于新型冠状病毒的药物研发有重要作用。

除了SARS相关的研究数据之外，一些临床结果表明人类免疫缺陷病毒 (humanimmunodeficiency virus，简称HIV)的药物，包括克力芝的主要成分洛匹那韦(lopinavir)和利托那韦(ritonavir)，可以对新型冠状病毒起效。同时，生物信息学的研究进一步表明，HIV病毒和冠状病毒在蛋白酶底物上具有一定的相似性。临床数据和生物信息学数据分析说明HIV艾滋病病毒相关活性数据对于研究新型冠状病毒可能具有重要价值。另外，吉利德研发的名为瑞德西韦(Remdesivir)，是针对埃博拉病毒而研发一款新药。这一药物在个别临床测试中被证明对新型冠状病毒患者有效。基于这些信息，选择了与SARS， MERS，HIV等病毒有关的实验数据，帮助新型冠状病毒的研发。

参见图3，图3是本申请实施例提供的一种可能的药物作用的靶点的原理示意图。如图3所示，大多数病毒通过受体介导的内吞作用进入细胞 (Endocytosis)，利用丝氨酸蛋白酶TMPRSS2激活S蛋白。COVID-19用来感染肺细胞的受体可能是ACE2，ACE2是一种细胞表面蛋白，存在于肾脏、血管、心脏细胞，尤其是肺泡Ⅱ型上皮细胞(alveolar epithelialtypeⅡcell， AT2)上。这些AT2特别容易受到病毒感染。已知的内吞调节因子之一是AP2 关联激酶1(AAK1)和细胞周期蛋白G相关激酶(GAK)。抑制AAK1可能反过来阻断病毒进入细胞以及病毒颗粒在细胞内的组装。此外也可以选择在病毒基因复制过程中起关键作用的SARS-CoV-2主蛋白酶(Mpro，3CLpro) 和类木瓜蛋白酶(PLpro)，负责病毒多蛋白的切割，这是病毒存活的关键。二氢乳清酸脱氢酶(DHODH)位于线粒体内膜的外侧面，是催化嘧啶核苷酸从头合成途径第四步氧化还原反应的关键酶，那些快速增殖的病毒复制，需要依赖从头合成途径来大量合成嘧啶核苷酸以满足病毒复制对核酸的需求，因此，可以通过抑制DHODH的活性，来抑制嘧啶碱基的从头合成，从而抑制快速增殖的病毒的RNA的生物合成，起到抗病毒的作用。其中，CatB/L 是SARS-CoV-2病毒侵入人体时起协助作用的半胱氨酸蛋白酶组织蛋白酶B 和L。

基于与SARS，MERS，HIV等病毒有关的实验数据，选择了如表1所示的与新型冠状病毒有关的8个初始生物测试实验数据(即初始抗病毒药物数据)。该8个初始生物测试实验数据对应于8个靶点，其中，有2个靶向新型冠状病毒的蛋白酶protease的靶点和6个和病毒在宿主细胞中复制过程必须的靶点。可理解，每个初始抗病毒药物数据至少包括如表1所示的Assay ID、蛋白质靶点、化合物数量、plC₅₀的中位值、plC₅₀的方差、骨架种类这些数据。具体详见表1所示。

表1

其中，Assay ID是初始生物测试实验数据(即初始抗病毒药物数据)在第一药物数据库(如ChEMBL数据库)中的ID。IC₅₀(half maximal inhibitory concentration)是指被测量的拮抗剂的半抑制浓度。它能指示某一药物或者物质(抑制剂)在抑制某些生物过程或功能(或者是包含在此过程或者功能中的某些物质，比如酶，细胞受体或是微生物)的半量。在凋亡方面，可以理解为一定浓度的某种药物诱导肿瘤细胞凋亡50％，该浓度称为50％抑制浓度，即凋亡细胞与全部细胞数之比等于50％时所对应的浓度，IC₅₀值可以用来衡量药物诱导凋亡的能力，即诱导能力越强，该数值越低，当然也可以反向说明某种细胞对药物的耐受程度。pIC₅₀＝-log₁₀(IC₅₀)。

其中，骨架种类(scaffold size)的分析是用开源的化学信息学软件RDkit 按照基于分子骨架结构和侧链结构的研究Bemis-Murcko方法分析统计的。

对于表1所示的8个初始生物测试实验数据(即初始抗病毒药物数据) 中的每个初始生物测试实验数据，可以将该初始生物测试实验数据按照一定的比例(如8:1:1等)分为训练数据集、验证数据集和测试数据集，训练数据集用于活性预测模型拟合的数据样本，验证数据集是活性预测模型训练过程中单独留出的样本集，它可以用于调整活性预测模型的超参数和用于对活性预测模型的能力进行初步评估。测试数据集，用来评估最终的活性预测模型的泛化能力。但不能作为调参、选择特征等算法相关的选择的依据。对于活性预测模型的具体训练过程将在后文描述。

按照上述方式得到该8个初始生物测试实验数据(即初始抗病毒药物数据)对应的测试数据集，该测试数据集包括与目标病毒相关的至少一个初始抗病毒药物数据以及与每个初始抗病毒药物数据对应的第一真实活性值(如 plC₅₀)。以表1中的Assay ID为688482为例，SARS 3CLpro为病毒的蛋白质靶点，能够针对该病毒的的蛋白质靶点有效的药物为表1中的101个化合物，第一真实活性值即为对该SARS 3CLpro具有活性的101个化合物的plC₅₀值 (表中未示出)，表中示出了该101个化合物的plC₅₀值的中位值。

可选的，可以预先训练好用于进行活性预测的至少两个活性预测模型，为了挑选出活性预测效果好的活性预测模型，并确定出最终用于目标药物筛选的至少一个抗病毒药物数据，可以使用该至少两个预先训练好的活性预测模型分别对测试数据集中的至少一个初始抗病毒药物数据进行活性预测，得到与每个活性预测模型相匹配的、并且与至少一个初始抗病毒药物数据对应的第一预测活性值。然后基于第一真实活性值和预测得到的第一预测活性值，确定出与每个活性预测模型匹配的、并且与至少一个初始抗病毒药物数据对应的目标相关性系数，然后将目标相关性系数中大于或等于预定阈值对应的初始抗病毒药物数据及相匹配的活性预测模型，确定为至少一个抗病毒药物筛选模型。

其中，预先训练好的活性预测模型可以为基于元学习的神经网络(Meta-learningNeural Network，简称MetaNN)、全幅定量构效关系(Profile Quantitative Structure–Activity Relationship，简称PQSAR)、多任务神经网络 (Multitask neural network，简称Multitask-NN)和随机森林算法(Random Forest，简称RF)中的至少一种。

与每个活性预测模型匹配的、并且与至少一个初始抗病毒药物数据对应的该目标相关性系数可以采用Pearson相关系数(Pearson CorrelationCoefficient)R² _ext，该目标相关性系数的计算方式如下：

其中，对于任意一个初始抗病毒药物数据，y_i ^obs是该初始抗病毒药物数据的第i个化合物对应的第一真实活性值，y_i ^pred是对应的活性预测模型通过活性预测得到的第一预测活性值。

对于每个初始抗病毒药物数据，当相关性系数R² _ext可以达到R² _ext>＝0.30 时，可以将目标相关性系数(即R² _ext)中大于或等于预定阈值(如0.3)的初始抗病毒药物数据及相匹配的活性预测模型，确定为至少一个抗病毒药物筛选模型，其中，R² _ext>＝0.3在虚拟筛选时被认为是金标准，大于此值，虚拟筛选的成功率可以从20％提高到80％左右。

其中，虚拟筛选(virtual screening，简称VS)也称计算机筛选，即在进行生物活性筛选之前，利用计算机上的分子对接软件模拟目标靶点与候选药物之间的相互作用，计算两者之间的亲和力大小，以降低实际筛选化合物数目，同时提高苗头化合物发现效率。

在一个示例中，按照上述方式，使用预先训练好的MetaNN、PQSAR、 Multitask-NN和RF对表1中的8个初始生物测试实验数据(即初始抗病毒药物数据)分别进行活性预测，可以得到如表2所示的结果，其中，MetaNN、 Multitask-NN、PQSAR和RF每一列对应的值为R² _ext的大小。

表2

结合活性预测模型MetaNN、PQSAR、Multitask-NN和RF的预测能力(即 R² _ext的大小)，并按照R² _ext>0.3的标准选择了最终的6个assay模型(即6个初始抗病毒药物数据)，如表2中加粗显示的assay ID(即688589、1535447、 1536390、36763、1528876、35562)对应的各数据，从表2中可以看出，活性预测模型MetaNN对688589、1535447、1536390、36763的活性预测效果最好，活性预测模型PQSAR对1528876、35562的活性预测效果最好。可以将这6个assay模型以及与之相匹配的活性预测模型作为一个抗病毒药物筛选模型。例如，以688589此ID为例，将该688589对应的生物测试实验数据 (即初始抗病毒药物数据)以及相匹配的活性预测模型MetaNN作为一个抗病毒药物筛选模型。

可理解，上述仅为一种示例，本实施例在此不作任何限定。

通过本申请实施例，可以使用多个训练好的活性预测模型对测试数据集进行活性预测，从而确定出至少一个抗病毒药物筛选模型，采用这种方式，可以在既满足选用活性预测效果好的活性预测模型，同时可以确定出满足 R² _ext>＝0.3的抗病毒药物数据，提高了最终目标药物筛选的准确率。

在一种可选的实施例中，上述至少两个预先训练好的活性预测模型是通过以下方式对神经网络模型训练得到的：

获取第一训练数据集；

可选的，前文描述了可以通过活性预测模型确定出与目标病毒相关的至少一个生物测试实验模型，对第一药物数据库中的各化合物在至少一个生物测试实验模型上进行活性预测，得到上述各化合物的各活性值也可以通过活性预测模型实现，以下详述活性预测模型的训练过程。

获取第一训练数据集，该第一训练数据集中的每个第一训练样本数据可以包括分子的结构特征和生物活性这两种信息。其中，该分子的结构特征可以为病毒的结构特征，生物活性可以为对该病毒具有活性的药物的活性值，在此不作限定。

通过获取到的第一训练数据集对至少两个神经网络模型(如MetaNN、 PQSAR、Multitask-NN和RF)进行迭代训练，并通过深度学习，学习到分子的结构特征和生物活性之间的关系，在训练过程中，可以使用第一损失函数来判断至少两个神经网络模型是否训练结束，如果第一损失函数收敛，则结束训练，如果第一损失函数未收敛，则调整神经网络模型的参数，继续迭代训练，直至第一损失函数收敛，将收敛时的至少两个神经网络模型作为至少两个初始活性预测模型，该至少两个初始活性预测模型具备根据分子的结构特征预测生物活性的能力。

为了提高初始活性预测模型对与目标病毒相关的化合物的活性预测能力，可以获取与目标病毒相关的训练样本数据作为第二训练数据集，对至少两个初始活性预测模型进行进一步的训练，并通过深度学习，学习到与目标病毒相关的分子的结构特征和生物活性之间的关系，在训练过程中，可以使用第二损失函数来判断至少两个初始活性预测模型是否训练结束，如果第二损失函数收敛，则结束训练，如果第二损失函数未收敛，则调整至少两个初始活性预测模型的参数，继续迭代训练，直至第二损失函数收敛，将收敛时的至少两个初始活性预测模型作为至少两个活性预测模型，该至少两个初始活性预测模型具备根据与目标病毒相关的分子的结构特征预测生物活性的能力。

在一种可选的实施例中，上述获取第一训练数据集，包括：

可选的，第二药物数据库可以为理解为一种药物分子库，如该第二药物数据库可以为ChEMBL数据库，该ChEMBL数据库是欧洲生物信息研究所 (European BioinformaticsInstitute，EBI)开发的一个在线的免费数据库，它通过从大量文献中收集各种靶点及化合物的生物活性数据，为药物化学家们提供了一个非常便利的查询靶点或化合物的生物活性数据的平台。截至2019 年10月29日，该数据库共收集了12482个靶点，187.9万个化合物，共有 15500万条生物活性信息。通过该数据库，用户可以快速查询到某个靶点目前已报道的化合物及其活性信息，也可以查询某个化合物在哪些靶点做过生物活性测试及其数据。

然后对该第二药物数据库中的数据进行筛选，将满足携带有活性值标签且包含大于或等于第一阈值(如50等)的化合物的样本生物测试实验模型(即抗病毒药物数据)，确定为第一训练数据集。

具体地，以第二药物数据库为ChEMBL数据库为例进行说明，选择带有 IC₅₀标签的所有生物测试实验数据assay(即抗病毒药物数据)，并且每个assay 中必须有至少50(即第一阈值)个化合物，收集得到一共4276个assay的数据集合(即第一训练数据集)，涉及大约50万化合物，140万个数据点。在数据清洗过程中，去除了小分子中含有盐的部分，然后按照assay对小分子进行数据分类，对于一个分子可能被测试了多次的情况，使用了几何平均数(geometric mean)的方式做了平均。

对于表1所示的8个初始生物测试实验数据中的每个初始生物测试实验数据，前文描述了可以将该初始生物测试实验数据按照一定的比例(如8:1:1) 分为训练数据集、验证数据集和测试数据集，该第二训练数据集可以为表1 中的8个初始生物测试实验数据对应的训练数据集。

在一示例中，在按照上述方式得到第一训练数据集(即4276个assay的数据集合)和第二训练数据集(即表1所示的8个初始生物测试实验数据对应的训练数据集)之后，可以使用这两个训练数据集进行训练，得到最终的活性预测模型。

参见图4，图4是本申请实施例提供的一种可选的活性预测模型的训练流程示意图，图4中所示的为活性预测模型MetaNN的训练过程，使用从 ChEMBL数据库中筛选出来的4276个assay的数据集合(即第一训练数据集) 对该MetaNN进行第一次训练，利用4276个assay上的活性分子(即图中所示的每个assay上的化合物)的pIC₅₀值数据，通过多层感知机(Multilayer perceptron)对每个assay上的化合物进行活性预测，将预测得到的活性值和4276个assay中的真实活性值，计算得到相关性系数R² _ext，当该相关性系数 R² _ext满足训练结束条件，则训练结束，训练结束时的MetaNN能够学习到分子的结构特征和生物活性的关系，具备根据分子的结构特征进行活性预测的能力。当第一次训练完成时，可以使用与目标病毒相关的assaynew(即表1 中的8个初始生物测试实验数据)进行第二次迁移学习(Transfer Learning) 训练，训练过程类似于第一次训练，在此不再详述，训练结束时，该MetaNN 具备对与目标病毒相关的化合物的活性值进行活性预测的能力。

对于活性预测模型PQSAR、Multitask-NN和RF可参考对MetaNN的训练过程，在此不再赘述。

在一个示例中，在按照上述方式训练完MetaNN、PQSAR和RF时，为了对比这几个活性预测模型的效果，对这几个模型在4276个assay对应的平均R² _ext进行了一个综合的比较，比较结果如图5所示，其中，曲线1对应于 MetaNN，曲线2对应于PQSAR，曲线3对应于RF，可以看出，MetaNN、在4276个assay对应的平均R² _ext的效果最好，PQSAR位于两者中间，RF的效果最差。

通过本申请实施例，可以对多个神经网络模型进行初步训练，使其能够学习到的结构特征和生物活性的关系，具备活性预测的能力，再通过与目标病毒相关的训练数据集进行训练，可以使活性预测模型具备对与目标病毒相关的化合物的活性预测能力，提高了活性预测模型的活性预测能力。

在一种可选的实施例中，上述第一训练数据集中的每个第一样本数据包括上述第一样本数据对应的第二真实活性值，上述基于上述第一训练数据集和至少两个神经网络模型分别对应的第一损失函数对至少两个神经网络模型进行迭代训练，直至上述第一损失函数收敛，包括：

可选的，第一训练数据集中的每个第一样本数据的具体来源可参考前文描述，第一相关性系数可参考前文描述的目标相关性系数R² _ext的计算方式，收敛条件为第一相关性系数R² _ext>＝0.3。具体的训练过程可参考前文描述，在此不再赘述。

在一种可选的实施例中，上述第二训练数据集中的每个第二样本数据包括上述第二样本数据对应的第三真实活性值，上述基于上述第二训练数据集和至少两个初始活性预测模型分别对应的第二损失函数对至少两个初始活性预测模型进行迭代训练，直至上述第二损失函数收敛，包括：

可选的，第二训练数据集中的每个第二样本数据的具体来源可参考前文描述，第二相关性系数可参考前文描述的目标相关性系数R² _ext的计算方式，收敛条件为第二相关性系数R² _ext>＝0.3。具体的训练过程可参考前文描述，在此不再赘述。

按照前文描述，可以训练得到活性预测模型，以及确定出6个生物测试实验模型，然后使用活性预测效果较好的MetaNN和PQSAR进行活性预测，对第一药物数据库(即Drugbank库)中的各化合物进行活性预测，并根据预测得到的活性值，进行目标药物的筛选。

具体地，参见图6，图6是本申请实施例提供的一种可选的目标药物筛选的流程示意图。如图6所示，具体步骤如下：

S601，获取Drugbank库中的各已知药物；

S602，使用MetaNN和PQSAR对Drugbank库中的各已知药物进行虚拟筛选(virtualscreening)、活性打分，得到各已知药物的各活性值；

S603，基于各已知药物的活性值，进行人工可视化筛选(Visual selection)；

S604，通过人工可视化筛选得到目标药物(还可以称为苗头化合物) (virtualhits)；

S605，对得到的目标药物进行湿实验验证(Experiment validation)。

通过上述过程，可以得到符合预设条件的29个目标药物，以下详述如何得到该29个目标药物。

在一种可选的实施例中，上述基于上述活性值从上述已知药物中筛选对应于上述目标病毒的目标药物，至少包括以下之一：

可选的，可以通过活性预测模型对第一药物数据库中的每个已知药物进行活性预测，得到每个已知药物针对目标病毒的各活性值，然后基于各活性值，对各已知药物进行筛选，筛选过程具体如下：

对于各已知药物中的每个已知药物，可以对该已知药物针对与目标病毒相关的各靶点和/或目标病毒的宿主细胞的各靶点的各活性值进行归一化处理，得到归一化处理之后的归一化值，若该归一化值大于或等于第二阈值(如 3等)，则将该已知药物作为一个初始目标药物。

或者，对于各已知药物中的每一个已知药物，若已知药物在针对与目标病毒相关的各靶点和/或目标病毒的宿主细胞的各靶点的各活性值中存在大于或等于第三阈值(如7等)的值，则将该已知药物作为一个初始目标药物。

按照上述方式，可以从第一药物数据库中筛选出各初始目标药物，然后再从各初始目标药物中筛选出对应于目标病毒的目标药物。

具体地，可以根据第一药物数据库中每个已知药物(还可以成为分子) 在6个assay上(即表1中加粗显示的6个生物测试实验数据)的预测得到的pIC₅₀结果(活性值)，对每个已知药物对应的6个pIC₅₀进行归一化Z-scale 操作(使用平均值和标准方差进行归一化)。对于Z-scale值大于3(即第二阈值)的或者已知药物在单个assay上的预测活性值pIC₅₀大于7(即第三阈值)的即被优先挑选出来。通过Z-scale可以去除掉不同实验数据敏感性的差异。Z-scale大于3，可以将一组已知药物中真正的活性显著超越其他已知药物的那一小部分已知药物选出来。通过上述操作，可以初步挑选出满足条件的263个分子(即各初始目标药物)

通过本申请实施例，可以通过归一化操作或者判断活性值是否满足大于或等于第三阈值的条件，初步筛选出符合条件的各初始目标药物，为后续的药物筛选奠定了基础。

在一种可选的实施例中，从上述各初始目标药物中筛选对应于上述目标病毒的目标药物，包括：

基于小分子成药性规则、骨架相似性规则、药物安全性规则、已撤市信息或已报道信息，从上述各初始目标药物中筛选对应于上述目标病毒的目标药物，上述已报道信息用于表示已经报道过的对于治疗上述目标病毒有效的并且安全的药物。

可选的，通过前文描述，263个分子被初步筛选出来，随后可以通过人工的挑选，确定满足预设条件的29个老药分子，具体的人工筛选流程如下：

1、基于小分子成药性规则，去除263个分子中含有的大环类，多肽类以及分子量很大的天然产物的药物分子，以及去掉含有活性官能团的化合物，可以得到57个分子。

2、基于骨架相似性规则，从相似骨架的药物分子中选择一个作为代表性的分子，同时进一步查看药物分子的以及报道的安全性信息(即药物安全性规则)，除去有毒性很大的分子或者已经被撤市的药物分子(即已撤市信息)，得到35个分子。

3、基于已报道信息，除去其他文献已经报道的6个分子，如氯喹 (Chloroquine)，阿莫待奎(Amodiaquine)，伊马替尼(Imatinib)，硼替佐米 (Bortezomib)，美尔喹宁(Mefloquine)，羟氯喹(Hydroxychloroquine)。

在一种可选的实施例中，若上述目标病毒为新型冠状病毒肺炎 COVID-19，则上述目标药物包括至少8个针对宿主细胞靶点的药物分子和至少21个针对COVID-19病毒蛋白酶靶点的药物分子。

可选的，按照上述过程，可以得到如表3和表4所示的29个分子(即目标药物)，其中有8个分子是针对宿主细胞，另外21个是针对病毒的PLpro 蛋白酶抑制。具体药物分子的名称和作用靶点，以及活性预测结果如表3和表4所示：

表3

表4

通过本申请实施例，面对新型冠状病毒，除了文献已经报道的药物分子，又找到了29个基于病毒自身和宿主细胞的靶点的老药分子，对加快研发出治愈新型冠状病毒的药物，提出了更多的技术成果。并且，本申请实施例中的老药新用策略除了新型冠状病毒，还可以用于针对其他靶点的药物开发，提高了药物开发、药物筛选的效率。

参见图7，图7是本申请实施例提供的一种目标药物筛选装置的结构示意图。本申请实施例提供的目标药物筛选装置1包括：

药物数据读取模块11，用于从第一药物数据库中读取药物数据；所述第一药物数据库中存储着各已知药物的药物数据；

活性值确定模块12，用于将读取到的药物数据输入目标病毒对应的抗病毒药物筛选模型，得到各所述已知药物对所述目标病毒的活性值；所述抗病毒药物筛选模型为根据抗病毒药物数据训练得到；所述抗病毒药物数据中包括病毒集中病毒所对应的抗病毒药物数据；所述病毒集中包括至少一种与所述目标病毒相关的病毒；

目标药物筛选模块13，用于基于所述活性值从各所述已知药物中筛选对应于所述目标病毒的目标药物。

在一种可行的实施例中，所述抗病毒药物筛选模型是通过药物筛选模型确定模块通过以下方式确定的，所述药物筛选模型确定模块用于：

获取测试数据集，其中，所述测试数据集包括与所述目标病毒相关的至少一个初始抗病毒药物数据与每个初始抗病毒药物数据对应的第一真实活性值；

通过至少两个预先训练好的活性预测模型分别对所述至少一个初始抗病毒药物数据进行活性预测，得到与每个所述活性预测模型匹配的、且与所述至少一个初始抗病毒药物数据对应的第一预测活性值；

根据所述第一预测活性值与所述第一真实活性值，确定与每个所述活性预测模型匹配的、且与所述至少一个初始抗病毒药物数据对应的目标相关性系数；

将所述目标相关性系数中大于或等于预定阈值对应的初始抗病毒药物数据及相匹配的活性预测模型，确定为所述抗病毒药物筛选模型。

在一种可行的实施例中，所述至少两个预先训练好的活性预测模型是通过训练模块通过以下方式对神经网络模型训练得到的，所述训练模块用于：

获取第一训练数据集；

基于所述第一训练数据集和至少两个神经网络模型分别对应的第一损失函数对至少两个神经网络模型进行迭代训练，直至所述第一损失函数收敛，将收敛时的至少两个神经网络模型作为至少两个初始活性预测模型；

获取第二训练数据集，其中，所述第二训练数据集包括与所述目标病毒相关的训练样本数据；

基于所述第二训练数据集和至少两个初始活性预测模型分别对应的第二损失函数对至少两个初始活性预测模型进行迭代训练，直至所述第二损失函数收敛，将收敛时的至少两个初始活性预测模型作为至少两个活性预测模型。

在一种可行的实施例中，上述训练模块，用于：

将第二药物数据库中满足携带有活性值标签且包含大于或等于第一阈值的化合物的抗病毒药物数据，确定为所述第一训练数据集。

对于各所述已知药物中的每一个已知药物，对所述已知药物对应的活性值进行归一化处理，得到所述已知药物对应的活性值的归一化值，若所述归一化值大于或等于第二阈值，则将所述已知药物作为一个初始目标药物；从各所述已知药物中筛选出各初始目标药物，从所述各初始目标药物中筛选对应于所述目标病毒的目标药物；

对于各所述已知药物中的每一个已知药物，若所述已知药物对应的活性值中存在大于或等于第三阈值的值，则将所述已知药物作为一个初始目标药物；从各所述已知药物中筛选出各初始目标药物，从所述各初始目标药物中筛选对应于所述目标病毒的目标药物。

在一种可行的实施例中，上述目标药物筛选模块，用于：

基于小分子成药性规则、骨架相似性规则、药物安全性规则、已撤市信息或已报道信息，从所述各初始目标药物中筛选对应于所述目标病毒的目标药物，所述已报道信息用于表示已经报道过的对于治疗所述目标病毒有效的药物。

本申请实施例中，从存储着各已知药物的药物数据的第一药物数据库中读取药物数据，然后通过抗病毒药物筛选模型对读取到的药物数据进行活性预测，得到各已知药物对目标病毒的活性值，基于活性值从各已知药物中筛选出对应于目标病毒的目标药物，其中，抗病毒药物筛选模型是通过包含与目标病毒相关的病毒的抗病毒药物数据训练得到的。采用这种方式，可以基于活性值从已有的药物数据库中存储的已知药物筛选得到用来治疗突发的目标病毒的目标药物，达到了“老药新用”的目的，避免了由于传统药物研发过程周期长，效率低，成本高，而导致无法及时在短时间内找到具有活性的化合物来应对突如其来的疾病，提高了针对突发疾病筛选出有效的治疗药物的效率。

具体实现中，上述装置1可通过其内置的各个功能模块执行如上述图2 中各个步骤所提供的实现方式，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。

参见图8，图8是本申请实施例提供的电子设备的结构示意图。如图8 所示，本实施例中的电子设备1000可以包括：处理器1001，网络接口1004 和存储器1005，此外，上述电子设备1000还可以包括：用户接口1003，和至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004 可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1004 可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图8所示，作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在图8所示的电子设备1000中，网络接口1004可提供网络通讯功能；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序。

应当理解，在一些可行的实施方式中，上述处理器1001可以是中央处理单元(central processing unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor，DSP)、专用集成电路(application specific integratedcircuit，ASIC)、现成可编程门阵列(field-programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。该存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如，存储器还可以存储设备类型的信息。

具体实现中，上述电子设备1000可通过其内置的各个功能模块执行如上述图2中各个步骤所提供的实现方式，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，被处理器执行以实现图2中各个步骤所提供的方法，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。

上述计算机可读存储介质可以是前述任一实施例提供的任务处理装置的内部存储单元，例如电子设备的硬盘或内存。该计算机可读存储介质也可以是该电子设备的外部存储设备，例如该电子设备上配备的插接式硬盘，智能存储卡(smart media card,SMC)，安全数字(secure digital,SD)卡，闪存卡 (flash card)等。上述计算机可读存储介质还可以包括磁碟、光盘、只读存储记忆体(read-only memory，ROM)或随机存储记忆体(randomaccess memory，RAM)等。进一步地，该计算机可读存储介质还可以既包括该电子设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该电子设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行图2中各个步骤所提供的方法。

本申请的权利要求书和说明书及附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或电子设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或电子设备固有的其它步骤或单元。在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置展示该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

以上所揭露的仅为本申请较佳实施例而已，不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种目标药物筛选方法，其特征在于，包括：

从第一药物数据库中读取药物数据；所述第一药物数据库中存储着各已知药物的药物数据；

将读取到的药物数据输入目标病毒对应的抗病毒药物筛选模型，得到各所述已知药物对所述目标病毒的活性值；所述抗病毒药物筛选模型为根据抗病毒药物数据训练得到；所述抗病毒药物数据中包括病毒集中病毒所对应的抗病毒药物数据；所述病毒集中包括至少一种与所述目标病毒相关的病毒；

基于所述活性值从各所述已知药物中筛选对应于所述目标病毒的目标药物。

2.根据权利要求1所述的方法，其特征在于，所述抗病毒药物筛选模型是通过以下方式确定的：

3.根据权利要求2所述的方法，其特征在于，所述至少两个预先训练好的活性预测模型是通过以下方式对神经网络模型训练得到的：

获取第一训练数据集；

4.根据权利要求3所述的方法，其特征在于，所述第一训练数据集中的每个第一样本数据包括所述第一样本数据对应的第二真实活性值，所述基于所述第一训练数据集和至少两个神经网络模型分别对应的第一损失函数对至少两个神经网络模型进行迭代训练，直至所述第一损失函数收敛，包括：

对于至少两个神经网络模型中的每个神经网络模型，将所述第一训练数据集中的每个第一样本数据分别输入至所述神经网络模型中，通过所述神经网络模型预测得到每个第一样本数据的第二预测活性值；

基于各所述第一样本数据分别对应的第二预测活性值和第二真实活性值，计算所述第一损失函数的第一相关性系数；

对于至少两个神经网络模型中的每个神经网络模型，基于所述第一训练数据集和所述第一相关性系数对所述神经网络模型进行迭代训练，直至所述第一损失函数收敛，收敛条件为所述第一相关性系数大于或等于预定阈值。

5.根据权利要求3所述的方法，其特征在于，所述获取第一训练数据集，包括：

6.根据权利要求3所述的方法，其特征在于，所述第二训练数据集中的每个第二样本数据包括所述第二样本数据对应的第三真实活性值，所述基于所述第二训练数据集和至少两个初始活性预测模型分别对应的第二损失函数对至少两个初始活性预测模型进行迭代训练，直至所述第二损失函数收敛，包括：

对于至少两个初始活性预测模型中的每个初始活性预测模型，将所述第二训练数据集中的每个第二样本数据分别输入至所述初始活性预测模型中，通过所述初始活性预测模型预测得到每个第二样本数据的第三预测活性值；

基于各所述第二样本数据分别对应的第三预测活性值和第三真实活性值，计算所述第二损失函数的第二相关性系数；

对于至少两个初始活性预测模型中的每个初始活性预测模型，基于所述第二训练数据集和所述第二相关性系数对所述初始活性预测模型进行迭代训练，直至所述第二损失函数收敛，收敛条件为所述第二损失值大于或等于预定阈值。

7.根据权利要求1所述的方法，其特征在于，所述基于所述活性值从所述已知药物中筛选对应于所述目标病毒的目标药物，至少包括以下之一：

8.根据权利要求7所述的方法，其特征在于，从所述各初始目标药物中筛选对应于所述目标病毒的目标药物，包括：

9.根据权利要求1所述的方法，其特征在于，若所述目标病毒为新型冠状病毒肺炎COVID-19，则所述目标药物包括至少8个针对宿主细胞靶点的药物分子和至少21个针对COVID-19病毒蛋白酶靶点的药物分子。

10.一种目标药物筛选装置，其特征在于，所述装置包括：

药物数据读取模块，用于从第一药物数据库中读取药物数据；所述第一药物数据库中存储着各已知药物的药物数据；

活性值确定模块，用于将读取到的药物数据输入目标病毒对应的抗病毒药物筛选模型，得到各所述已知药物对所述目标病毒的活性值；所述抗病毒药物筛选模型为根据抗病毒药物数据训练得到；所述抗病毒药物数据中包括病毒集中病毒所对应的抗病毒药物数据；所述病毒集中包括至少一种与所述目标病毒相关的病毒；

目标药物筛选模块，用于基于所述活性值从各所述已知药物中筛选对应于所述目标病毒的目标药物。

11.一种电子设备，其特征在于，包括处理器和存储器，所述处理器和存储器相互连接；

所述存储器用于存储计算机程序；

所述处理器被配置用于在调用所述计算机程序时，执行如权利要求1至9任一项所述的方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现权利要求1至9任一项所述的方法。