CN114187979A

CN114187979A - 数据处理、模型训练、分子预测和筛选方法及其装置

Info

Publication number: CN114187979A
Application number: CN202210136614.7A
Authority: CN
Inventors: 徐鑫; 李远鹏; 张博文; 王纵虎
Original assignee: Beijing Jingtai Technology Co ltd
Current assignee: Beijing Jingtai Technology Co ltd
Priority date: 2022-02-15
Filing date: 2022-02-15
Publication date: 2022-03-15

Abstract

本申请提供一种数据处理、模型训练、分子预测和筛选方法及其装置。该数据处理方法包括：获取初始分子数据集，其中，所述初始分子数据集包括若干初始分子以及所述初始分子的渗透值；对所述初始分子数据集进行数据清洗处理，排除所述初始分子数据集中与所述渗透值无关的初始分子数据，得到候选分子数据集；将所述候选分子数据集中的候选分子进行分子矢量化，获取所述候选分子的特征数据，由所述候选分子的特征数据和候选分子的渗透值组成最终的模型分子数据集。通过上述方式，终端设备通过对数据集进行数据清洗处理，能够提高数据质量，对后续分子渗透性预测模型的构建提供保障，进而可提高分子渗透性预测的准确度。

Description

数据处理、模型训练、分子预测和筛选方法及其装置

技术领域

本申请涉及计算化学技术领域，特别是涉及一种数据处理方法、模型训练方法、分子预测方法、分子筛选方法及其装置。

背景技术

在新药发现的每个阶段，药物的成药性属性（吸收、分布、代谢、排泄和毒性）都起着至关重要的作用，因此能及时评估药物的成药性属性能有效地提升药物发现效率。对于一种新的口服药物，生物利用度反映了药物在循环系统中的比例，是药效的重要指标。而吸收能力的筛选是评估口服药物生物利用度的最重要部分之一，小肠是口服药物的主要吸收部位，所以肠道吸收不良容易导致药物研发早期失败的概率较高。因此，评估口服药物的吸收能力在ADMET分析中至关重要。已有的研究报告表明，人类的肠道吸收与药物的肠道渗透性之间存在明显的相关性。我们可以通过药物的肠道渗透性来评价药物的肠道吸收能力。由于Caco-2细胞模型在形态和功能上与人类肠细胞相似，因此被广泛用于评估药物的体外人类肠道渗透性。

然而，传统的Caco-2细胞模型很难完成高通量筛选（High ThroughputScreening，HTS），因为它的培养期很长（21天），足够的培养时间才能使细胞完全分化为肠细胞样表型。此外，Caco-2细胞所需的21天培养期增加了污染的概率，花费的成本较大。虽然科学家们通过各种努力已经将Caco-2细胞的培养时间缩短到7天，但传统的实验方法仍然是昂贵和耗时的，很难实现药物的HTS，更不用说在药物发现的早期阶段进行虚拟筛选了。

发明内容

本申请提供了一种数据处理方法、模型训练方法、分子预测方法、分子筛选方法及其装置。

本申请提供了一种数据处理方法，所述数据处理方法包括：

获取初始分子数据集，其中，所述初始分子数据集包括若干初始分子以及所述初始分子的渗透值；

对所述初始分子数据集进行数据清洗处理，排除所述初始分子数据集中与所述渗透值无关的初始分子数据，得到候选分子数据集；

将所述候选分子数据集中的候选分子进行分子矢量化，获取所述候选分子的特征数据，由所述候选分子的特征数据和所述候选分子的渗透值组成最终的模型分子数据集。

其中，所述初始分子的渗透值包括第一方向渗透值和/或第二方向渗透值，其中，第一方向和第二方向相反；

所述将所述候选分子数据集中的候选分子进行分子矢量化之前，所述方法还包括：

根据所述候选分子数据集中的候选分子的渗透值，将所述候选分子数据集划分为两个目标分子数据集；

所述将所述候选分子数据集中的候选分子进行分子矢量化，获取所述候选分子的特征数据，由所述候选分子的特征数据和所述候选分子的渗透值组成最终的模型分子数据集，包括：

对两个所述目标分子数据集中的候选分子分别进行分子矢量化，获得对应的候选分子的特征数据，并由两个所述目标分子数据集对应的候选分子的特征数据和渗透值组成最终的两个模型分子数据集。

其中，所述对所述初始分子数据集进行数据清洗处理之前，所述数据处理方法还包括：

对所述初始分子数据集中的初始分子进行结构标准化处理，得到标准结构的候选分子；

其中，所述结构标准化处理，包括以下至少一种操作：对所述初始分子数据集中的初始分子进行加氢操作；对所述初始分子数据集中的初始分子进行固定酸碱度的结构质子化操作。

其中，所述排除所述初始分子数据集中与所述渗透值无关的初始分子数据，包括以下至少一种操作：

排除所述初始分子数据集中不符合所述渗透值属性定义描述的初始分子数据；

排除所述初始分子数据集中不符合所述渗透值预设数值单位的初始分子数据。

其中，所述排除所述初始分子数据集中与所述渗透值无关的初始分子数据之后，所述数据处理方法还包括：

获取所述初始分子数据集中包括至少两个渗透值的初始分子；

判断所述初始分子中的至少两个渗透值是否相同；

若是，保留相同的渗透值；

若否，计算不相同的至少两个渗透值的平均值，并根据所述平均值确定所述初始分子的最终渗透值。

其中，所述计算不相同的至少两个渗透值的平均值，并根据所述平均值确定所述初始分子的最终渗透值，包括：

计算不相同的至少两个渗透值的平均值；

计算每一渗透值与所述平均值的差异值；

若所有渗透值与所述平均值的差异值均小于或等于预设阈值，将所述平均值作为所述初始分子的最终渗透值；

若存在渗透值与所述平均值的差异值大于所述预设阈值，从所述至少两个渗透值中选择满足预设条件的渗透值作为所述初始分子的最终渗透值。

其中，所述将所述候选分子数据集中的候选分子进行分子矢量化，获取所述候选分子的特征数据，包括：

利用多种预设分子指纹对所述候选分子数据集中的候选分子进行矢量化处理，得到每一所述候选分子的多种指纹特征矢量；

将每一所述候选分子的多种指纹特征矢量进行拼接，得到所述候选分子的特征数据。

其中，所述将每一所述候选分子的多个特征矢量进行拼接，得到所述候选分子的特征数据，包括：

将每一所述候选分子的多个特征矢量进行拼接，得到所述候选分子的特征数据矩阵；

删除所述特征数据矩阵中特征矢量值为预设值的比例高于预设比例的特征列；

对于所述特征数据矩阵中任意两个特征列，计算任意两个特征列的相关系数，删除所述相关系数高于预设系数的任意两个特征列中的其中一个特征列；

将剩余的特征数据矩阵作为所述候选分子的特征数据。

本申请还提供了一种模型训练方法，所述模型训练方法包括：

获取模型分子训练集，其中，所述模型分子训练集由上述的数据处理方法处理得到；

按照预设模型超参数构建待训练模型；

利用所述模型分子训练集对所述待训练模型进行训练，得到用于预测分子的渗透值的分子渗透性预测模型。

其中，利用所述模型分子训练集对所述待训练模型进行训练，得到用于预测分子的渗透值的分子渗透性预测模型，包括：

获取所述模型分子训练集中各训练分子的训练权重；

将所述模型分子训练集中各训练分子按照对应的训练权重对所述待训练模型进行训练，得到用于预测分子的渗透值的分子渗透性预测模型。

其中，所述获取所述模型分子训练集中各训练分子的训练权重，包括：

获取模型分子测试集；

计算所述模型分子测试集中的测试分子与所述模型分子训练集中的训练分子之间的相似度，并根据所述相似度确定各训练分子的训练权重。

其中，所述计算所述模型分子测试集中的测试分子与所述模型分子训练集中的训练分子之间的相似度，并根据所述相似度确定各训练分子的训练权重，包括：

计算所述模型分子测试集中的每一测试分子与所述模型分子训练集中的训练分子之间的最大摩根相似度；

将所述模型分子训练集中最大摩根相似度高于或等于预设相似度的训练分子的训练权重设置为第一训练权重；

将所述模型分子训练集中最大摩根相似度低于所述预设相似度的训练分子的训练权重设置为第二训练权重，其中，所述第一训练权重大于所述第二训练权重。

本申请还提供了一种分子预测方法，所述分子预测方法包括：

获取待预测的目标分子；

利用上述的模型训练方法训练得到的分子渗透性预测模型对所述目标分子进行预测，得到所述目标分子的渗透值。

本申请还提供了一种分子筛选方法，所述分子筛选方法包括：

利用上述的分子预测方法预测得到多个目标分子的渗透值；

基于所述渗透值从多个所述目标分子中筛选出候选分子。

本申请还提供了一种数据处理装置，所述数据处理装置包括获取模块、清洗模块以及处理模块；其中，

所述获取模块，用于获取初始分子数据集，其中，所述初始分子数据集包括若干初始分子以及所述初始分子的渗透值；

所述清洗模块，用于对所述初始分子数据集进行数据清洗处理，排除所述初始分子数据集中与所述渗透值无关的初始分子数据，得到候选分子数据集；

所述处理模块，用于将所述候选分子数据集中的候选分子进行分子矢量化，获取所述候选分子的特征数据，由所述候选分子的特征数据和所述候选分子的渗透值组成最终的模型分子数据集。

本申请还提供了一种模型训练装置，所述模型训练装置包括获取模块、构建模块以及训练模块；其中，

所述获取模块，用于获取模型分子训练集，其中，所述模型分子训练集由上述的数据处理方法处理得到；

所述构建模块，用于按照预设模型超参数构建待训练模型；

所述训练模块，用于利用所述模型分子训练集对所述待训练模型进行训练，得到用于预测分子的渗透值的分子渗透性预测模型。

本申请还提供了一种分子预测装置，所述分子预测装置包括获取模块以及预测模块；其中，

所述获取模块，用于获取待预测的目标分子；

所述预测模块，用于利用上述的模型训练方法训练得到的分子渗透性预测模型对所述目标分子进行预测，得到所述目标分子的渗透值。

本申请还提供了一种分子筛选装置，所述分子筛选装置包括预测模块以及筛选模块；其中，

所述预测模块，用于利用上述的分子预测方法预测得到多个目标分子的渗透值；

所述筛选模块，用于基于所述渗透值从多个所述目标分子中筛选出候选分子。

本申请还提供了一种终端设备，所述终端设备包括处理器和存储器，所述存储器中存储有程序数据，所述处理器用于执行所述程序数据以实现如上述的数据处理方法、模型训练方法、分子预测方法和/或分子筛选方法。

本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储程序数据，所述程序数据在被处理器执行时，用以实现上述的数据处理方法、模型训练方法、分子预测方法和/或分子筛选方法。

本申请的有益效果是：终端设备获取初始分子数据集，其中，所述初始分子数据集包括若干初始分子以及所述初始分子的渗透值；对所述初始分子数据集进行数据清洗处理，排除所述初始分子数据集中与所述渗透值无关的初始分子数据，得到候选分子数据集；将所述候选分子数据集中的候选分子进行分子矢量化，获取所述候选分子的特征数据，由所述候选分子的特征数据和候选分子的渗透值组成最终的模型分子数据集。通过上述方式，终端设备通过对数据集进行数据清洗处理，能够提高数据质量，对后续分子渗透性预测模型的构建提供保障，进而可提高分子渗透性预测的准确度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。其中：

图1是本申请提供的数据处理方法一实施例的流程示意图；

图2是本申请提供的模型训练方法一实施例的流程示意图；

图3是本申请提供的模型预测结果一实施例的示意图；

图4是本申请提供的分子预测方法一实施例的流程示意图；

图5是本申请提供的分子筛选方法一实施例的流程示意图；

图6是本申请提供的数据处理装置一实施例的结构示意图；

图7是本申请提供的模型训练装置一实施例的结构示意图；

图8是本申请提供的分子预测装置一实施例的结构示意图；

图9是本申请提供的分子筛选装置一实施例的结构示意图；

图10是本申请提供的终端设备一实施例的结构示意图；

图11是本申请提供的计算机可读存储介质一实施例的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参阅图1，图1是本申请提供的数据处理方法一实施例的流程示意图。

其中，本申请的数据处理方法应用于一种终端设备，其中，本申请的终端设备可以为服务器，也可以为由服务器和本地终端相互配合的系统。相应地，终端设备包括的各个部分，例如各个单元、子单元、模块、子模块可以全部设置于服务器中，也可以分别设置于服务器和本地终端中。

进一步地，上述服务器可以是硬件，也可以是软件。当服务器为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块，例如用来提供分布式服务器的软件或软件模块，也可以实现成单个软件或软件模块，在此不做具体限定。在一些可能的实现方式中，本申请实施例的数据处理方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

具体而言，如图1所示，本申请实施例的数据处理方法具体包括以下步骤：

步骤S11：获取初始分子数据集，其中，初始分子数据集包括若干初始分子以及初始分子的渗透值。

在本申请实施例中，终端设备通过数据处理方法获取用于训练有良好预测能力的分子渗透性预测模型的数据。例如，分子渗透性预测模型可以具体为一种Caco-2-QSAR模型，能够应用于具体业务场景，例如公司业务场景、学校业务场景、医院业务场景等。

其中，Caco-2为一种人克隆结肠腺癌细胞，Caco-2细胞中存在有与小肠上皮相同的各种转运系统、代谢酶，因此可以用来作为研究与吸收相关的药物相互作用的体外模型。QSAR（Quantitative structure–activity relationship）模型构建出定量的构效关系，使用数学模型来描述分子结构和分子的某种生物活性之间的关系。下面以Caco-2细胞为标的探讨化合物分子对于Caco-2细胞的渗透性。

在获取初始分子数据集前，可以先确定Caco-2细胞属性的基本数据参数、定义以及实验条件等。对于Caco-2细胞属性而言，可以选用Papp和/或LogPapp作为Caco-2细胞的基本数据参数，并确定Caco-2细胞描述渗透性有两个方向的数据参数，即Papp和LogPapp均可以包括一个或两个方向的数据参数。Papp作为一种表观渗透系数，可以用于表征化合物对于细胞的渗透能力；而LogPapp为对表观渗透系数进行Log运算，其作为一种基本数据参数便于减少Papp的数量级，便于进行研究和比较。

其中，两个方向的数据参数具体可以分为a to b方向的数据参数和b to a方向的数据参数。a to b表示化合物从Caco-2细胞的顶端（apical，相当于肠腔侧）往基底外侧（basolateral，相当于肠内壁侧）方向渗透，b to a表示化合物从Caco-2细胞的基底外侧（basolateral，相当于肠内壁侧）往顶端（apical，相当于肠腔侧）方向渗透。

至于实验条件，本申请实施例选用Caco-2细胞模型实验中无额外的试剂，并且药物实验浓度较小的实验条件。

确定后以上Caco-2细胞的基本数据参数、定义以及实验条件后，终端设备即可以收集相关的数据，即化合物分子及其渗透值，其中，渗透值可以通过Papp等基本数据参数进行表征。具体地，终端设备可以通过预设搜索标的从现有文献和/或药物发现数据库（如ChEMBL、PubChem等）搜索出相关的化合物作为初始分子。例如，从ChEMBL数据库中进行搜索的方法可以是分别在a to b，b to a的条件下搜索“assay（化验/试验）”，得到“assay”在ChEMBL数据库对应的化合物。需要说明的是，在文献调研中也可以采用与ChEMBL相同的搜索方法，在此不再赘述。

其中，ChEMBL为一个大型的、开放访问的药物发现数据库，旨在收集药物研究和开发过程中的药物化学数据和知识。

终端设备通过以上方式搜索出大量的初始分子以及对应的实验数据之后，利用搜索的初始分子构建初始分子数据集。其中，初始分子数据集包括若干初始分子的化学式或化学结构，以及初始分子的渗透值。

其中，渗透值可以用Papp参数来表征，也可以用LogPapp参数来表征，还可以用其它参数来表征，如Log10(Papp*10^-6)。由于不同的数据来源用于表征渗透值的参数可能有差异，从不同数据来源收集到用于表征分子渗透值的参数后，可以将其转换为统一表示，从而保证数据的统一性。

渗透值可以包括第一方向渗透值和/或第二方向渗透值，即a to b渗透值和b toa渗透值。本申请实施例的终端设备可以采用a to b渗透值和b to a渗透值组成一个模型分子数据集，用于后续的模型训练；另外，本申请实施例的终端设备也可以分别采用a to b渗透值和b to a渗透值组成两个方向的模型分子数据集，分别用于训练不同方向的预测模型，从而可以有针对性的进行预测。

步骤S12：对初始分子数据集进行数据清洗处理，排除初始分子数据集中与渗透值无关的初始分子数据，得到候选分子数据集。

在本申请实施例中，终端设备从以上数据来源获取并构建初始分子数据集后，需要分别对初始分子数据集进行数据清洗处理。例如，终端设备可以排除初始分子数据集中与渗透值无关的初始分子数据，简化初始分子数据集，减少初始分子数据集的冗余数据，得到候选分子数据集。

首先，终端设备需要对初始分子数据集中的初始分子进行结构标准化处理，例如，可以对初始分子进行固定pH（酸碱度）的结构质子化操作和/或加氢操作，使得初始分子的SMILES式标准化，从而使得不同数据来源收集到的初始分子的SMILES式统一表达方式。

其中，SMILES（Simplified Molecular Input Line Entry System）格式，即简化分子线性输入规范，是一种用ASCII字符串明确描述分子结构的规范。

然后，终端设备可以进一步排除初始分子数据集中不符合渗透值属性定义描述的初始分子数据，在本申请实施例中，终端设备可以排除非Papp数据和非LogPapp数据，以及数值单位异常的数据。终端设备可以预先设定关于渗透值的数值单位，若搜索到的数据中数据的数值单元与预设数值单位不一致，或者无法转化，即可以认为该数据为数值单位异常的数据，进而从初始分子数据集中进行排除。

进一步地，终端设备将从不同数据来源收集到的数据进行整合，对于合并前和合并后的数据中存在的矛盾值，即一个分子存在多个渗透值的情况，可以进行以下处理：若一个初始分子的多个渗透值均相同，则不作处理；若一个初始分子的多个渗透值不同，则计算多个渗透值之间的极差。当极差小于或等于预设阈值时，则计算多个渗透值的平均值，并将平均值作为该初始分子的最终渗透值。当极差超过预设阈值时，可以删除该初始分子及其对应的渗透值，或者可以进一步分析各渗透值对应的实验条件从中选择一个渗透值作为初始分子的最终渗透值。

在一实施方式中，若一个初始分子的多个渗透值不同时，还可以采用以下方式来确定该初始分子的渗透值：计算该初始分子的多个渗透值的平均值，计算每一渗透值与平均值的差异值，如果差异值都小于或等于预设阈值时，将平均值作为初始分子的最终渗透值；如果有差异值大于预设阈值，则可以进一步从多个渗透值中选取满足预设条件的渗透值作为该初始分子的最终渗透值。差异值可以包括但不限于绝对差值、相对偏差等，其中，相对偏差的计算方式可以为（|渗透值-平均值|/平均值）*100%，预设阈值可以设为5%。

其中，针对从多个渗透值中选取满足预设条件的渗透值，可以通过收集不同渗透值对应的实验数据来决定，根据实验数据选出满足预设条件的渗透值作为初始分子的最终渗透值，这样能够保证得到的渗透值的准确性更高。具体的，可以根据实验条件中的实验浓度来作为筛选依据，如选择最小实验浓度对应的渗透值。当然，也可以结合其它实验条件来一并作为筛选依据，如实验温度、实验溶剂、PH值等。

除此以外，获得初始分子的最终渗透值的技术手段，也不限于如下其他的实施方式：

方式一：可以从多个渗透值中选取与平均值的差异值小于预设阈值的一个渗透值作为该初始分子的最终渗透值。选取的该渗透值可以是偏差小于预设阈值的任一个渗透值，或者是与平均值的相对偏差最小的那个渗透值。

方式二：可以从多个渗透值中获取与平均值的相对偏差小于预设阈值的所有渗透值，并计算这些渗透值的平均值，此时可以将该平均值作为该初始分子的最终渗透值。

方式三：可以直接将初始分子的多个渗透值的平均值作为最终渗透值。

方式四：可以将初始分子的多个渗透值按照高低进行排序，将位于中间位置的渗透值作为最终渗透值。

初始分子数据集进行数据清洗和矛盾值处理之后，终端设备获得的候选分子数据集可以全部作为模型训练的训练集和/或测试集。在模型训练之前，终端设备下一步还需要对候选分子数据集中的候选分子进行矢量化。

步骤S13：将候选分子数据集中的候选分子进行分子矢量化，获取候选分子的特征数据，由候选分子的特征数据和候选分子的渗透值组成最终的模型分子数据集。

在本申请实施例中，分子矢量化是将分子的SMILES格式转换为机器学习模型可识别的数值表示格式。现有的矢量化方法有多种，包括片段类指纹、2D指纹和3D指纹，同时还有近年兴起的神经网络隐变量表示。

在本申请实施例中，终端设备应用的矢量化方法为片段类指纹。本申请实施例的片段类指纹中可以包含11种指纹信息，分别是Morgan(ECFP4)分子指纹(环形拓扑片段指纹，2**32维稀疏)、RDKit topological分子指纹(路径拓扑片段指纹，2**32维稀疏)、Topological-torsion分子指纹(基于原子特征的二面角（4个连续原子）指纹，2**36维稀疏)、MACCS分子指纹(一种SMARTS片段指纹，167维)、Electrotopological state分子描述符(一种原子指纹和原子描述符的组合，158维稀疏)、按照RECAP算法切割的片段指纹(2**40维稀疏)、按照Hussain and Rea算法切割的片段指纹(2**40维稀疏)、按照BRICS算法切割的片段指纹(2**40维稀疏)、对环以外的单键进行切割的片段指纹(2**40维稀疏)、Klekota Roth分子SMARTS指纹(4860维)、Substructure分子SMARTS指纹(303维)。上述11种指纹种类皆为现有指纹种类，可通过公开途径获得。在矢量化过程中，指纹的数量和种类不受限，这里仅为示例。矢量化所采用的工具可根据数据特点选择现有矢量化工具，例如ArcGIS，GIS 等，都可以应用于本申请实施例中。

其中，上述每一种指纹都能够产生多个特征矢量，因此，终端设备可以通过对初始分子进行矢量化处理，以得到每一个初始分子的多种指纹特征矢量，一种指纹特征矢量可以包括多个特征矢量。

经过以上矢量化处理后，对11 个指纹的矢量结果进行拼接。由于最终的分子矢量维度过高不利于模型构建，有必要进行一定的维度压缩，终端设备基于一定的规则，压缩拼接后的矢量，进而得到特征数据。

具体规则可以如下：将每一候选分子的多个特征矢量进行拼接，得到候选分子的特征数据矩阵；删除特征数据矩阵中特征矢量值为预设值的比例高于预设比例的特征列；对于特征数据矩阵中任意两个特征列，计算任意两个特征列的相关系数，删除相关系数高于预设系数的任意两个特征列中的其中一个特征列；将剩余的特征数据矩阵作为候选分子的特征数据。例如，非0 且比例小于0.01 的列特征矢量被删除，其他则保留；计算列特征矢量两两间的相关系数，如小于0.8，两列都保留，反之，删除其中一列，保留剩下一列。完成维度压缩后，得到结构化的矢量格式，即可用来构建模型。

在本申请实施例中，终端设备获取初始分子数据集，其中，所述初始分子数据集包括若干初始分子以及所述初始分子的渗透值；对所述初始分子数据集进行数据清洗处理，排除所述初始分子数据集中与所述渗透值无关的初始分子数据，得到候选分子数据集；将所述候选分子数据集中的候选分子进行分子矢量化，获取所述候选分子的特征数据，由所述候选分子的特征数据和候选分子的渗透值组成最终的模型分子数据集。通过上述方式，终端设备通过对数据集进行数据清洗处理，能够提高数据质量，对后续分子渗透性预测模型的构建提供保障，进而可提高分子渗透性预测的准确度。通过上述方式，从公开数据库收集来的数据样本空间相对较大，并且经过了较细致的清洗操作，数据质量较高，有利于提升模型的表现；清洗后数据的矢量化过程综合了多种片段类型的指纹，并对转化后的特征维度进行了粗略地筛选，这能有效提升构建模型的表现。

在一实施方式中，初始分子的渗透值包括第一方向渗透值和/或第二方向渗透值，可以理解为，初始分子数据集中有些初始分子可以仅包含第一方向渗透值，有些初始分子可以仅包含第二方向渗透值，有些初始分子可以既包含第一方向渗透值，又包含第二方向渗透值。基于不同方向的渗透值，可以将经过数据清洗后得到的候选分子数据集划分为至少两个目标分子数据集，例如，划分为两个目标分子数据集，一个目标分子数据集中包含具有第一方向渗透值的候选分子，另一个目标分子数据集中包含具有第二方向渗透值的候选分子，对于同时具有第一方向渗透值和第二方向渗透值的候选分子可以同时归入为上述两个目标分子数据集。

进一步地，可以分别对上述两个目标分子数据集中的候选分子进行分子矢量化，得到两组候选分子的特征数据。每组候选分子的特征数据与这些候选分子的渗透值共同组成模型分子数据集，得到两个模型分子数据集。进一步地，可以利用这两个模型分子数据集分别进行模型训练，得到两个预测模型，方便后续有针对性的对分子进行不同方向的渗透值预测。

请参阅图2，图2是本申请提供的模型训练方法一实施例的流程示意图。

具体而言，如图2所示，本申请实施例的模型训练方法具体包括以下步骤：

步骤S21：获取模型分子训练集，其中，模型分子训练集由上述的数据处理方法处理得到。

在本申请实施例中，模型分子训练集可以为上述实施例中的模型分子数据集，也可以将上述实施例中的模型分子数据集按照预设比例划分为模型分子训练集和模型分子测试集。

在其他实施例中，模型分子测试集也可以采用实际业务数据中搜索出的分子数据进行构建。由于模型训练方法产出的分子渗透性预测模型可以应用在特定的业务场景中，分子渗透性预测模型的测试集可以为实际业务数据。

步骤S22：按照预设模型超参数构建待训练模型。

在本申请实施例中，模型构建过程是由一种自动化机器学习平台完成。这一过程中包含了机器学习模型选择和具体的模型超参数搜索，最后获得在训练集数据上表现最好的模型。在实际操作过程中，由于收集获得的数据的样本空间是有限的，构建得到的模型的预测能力也同样是有限的。针对这一限制性条件，可以基于特定的模型应用场景调整模型拟合的样本权重，即，模型分子训练集中的训练分子可以以不同的训练权重进行模型训练，使得能在特定的应用场景中，构建的模型具有不错的预测能力。

首先，终端设备基于准备好的结构化矢量数据，如上述实施例构建的模型分子数据集，构建了一个基本模型，在这个模型中，所有样本的样本权重是一致的。基本模型的模型超参数可以设置为：

LGBMRegressor（bagging_fraction=0.7,bagging_freq=1,boosting_type=’gbdt’,early_stopping_rounds=250,feature_fraction=0.9,lambda_l1=2.0367222296126533e-0.7,lambda_l2=1.7880752579101575e-0.5,learning_rate=0.01162034048044983,max_depth=82,min_child_weight=0.006652850900222653,n_estimators=2000,n_jobs=13,num_leaves=80,random_state=42,subsample_for_bin=200000,use_categorical_feature=Ture）

需要说明的是，上述设置只是模型超参数的其中一种设置方式，按照需求可以调整上述模型超参数的参数数值以及超参数组合等。

其中，模型种类为LGBMRegressor（LightGBM回归模型，LightGBM是基于决策树算法的梯度提升框架），括号中为模型中所设置的超参数，bagging_fraction—用于在不进行重采样的情况下随机选择部分数据；bagging_freq—随机取样频率；boosting_type—提升学习种类；early_stopping_rounds—用于停止无提升的训练；feature_fraction—每次迭代中随机选择特征的比例；lambda_l1—L1正则化权重项；lambda_l2—L2正则化权重项；learning_rate—学习率；max_depth—限制树模型的最大深度；min_child_weight—一个叶子上数据的最小数量，可以用来处理过拟合；n_estimators—迭代次数；n_jobs—并行线程数；num_leaves—一棵树上的叶子数；random_state—随机数种子；subsample_for_bin—构建bins的样本数；use_categorical_feature—是否使用分类型特征。

步骤S23：利用模型分子训练集对待训练模型进行训练，得到用于预测分子的渗透值的分子渗透性预测模型。

在本申请实施例中，完成模型构建后，产出的模型需要应用在特定的业务场景中，即模型的测试集为实际业务数据。由于在特定的应用场景中，待预测的数据在上述基本模型上的表现较差，所以基于基本模型，对数据的样本权重做了调整。

具体的，可以获取模型分子训练集中各训练分子的训练权重；将模型分子训练集中各训练分子按照对应的训练权重对待训练模型进行训练，得到用于预测分子的渗透值的分子渗透性预测模型。

其中，获取模型分子训练集中各训练分子的训练权重的具体实现方式可以为：终端设备可以从实际业务数据中搜索测试分子，组成模型分子测试集，利用模型分子测试集调整模型分子训练集中训练分子在模型训练中的权重。具体的可以通过计算模型分子测试集中的测试分子与模型分子训练集中的训练分子之间的相似度，并根据该相似度来确定各训练分子的训练权重。

例如，终端设备可以计算模型分子测试集中的每一测试分子与模型分子训练集中的训练分子之间的最大摩根相似度，其中，一个测试分子对应至少一个最大摩根相似度的训练分子。然后标记出最大摩根相似度值大于或等于预设相似度（如0.6、0.7、0.75等）的所有训练分子，并将这些训练分子的训练权重设为第一训练权重（如5、6或其它值），其余训练分子的训练权重设为第二训练权重（如0.8、1或其它值）。其中，第一训练权重要大于第二训练权重。训练权重为第二训练权重的其余训练分子可以包括最大摩根相似度值小于预设相似度值的训练分子，也可以包括非最大摩根相似度值对应的训练分子。再根据基本模型搜索到的模型种类和模型超参数构建新模型，使用设置训练权重后的数据重新拟合后得到适用于特定应用场景的新模型。

其中，相似度值大于或等于预设相似度的训练分子与测试分子的相似度很高，说明这些训练分子更接近特定的业务场景，因此，在模型训练中，提高这些训练分子的训练权重，重新拟合后得到的新模型在特定应用场景测试集的表现有了显著提升。

权重调整完成之后，终端设备按照调整后的训练权重将模型分子训练集输入待训练模型进行训练。其中，模型分子训练集中的训练分子的特征数据和渗透值（渗透值可以看作为真实标签）作为待训练模型的输入，待训练模型输出训练分子预测的渗透值数据，即预测标签。终端设备利用预测标签与真实标签的差异对待训练模型进行迭代训练优化，直至训练出最终能够用于预测分子的渗透值的分子渗透性预测模型。

在本申请实施例中，终端设备在训练待训练模型时，可以统一以Papp作为分子的渗透值数据格式。在收集训练集时，若收集到渗透值数据格式为LogPapp的分子时，可以将LogPapp转换为Papp，从而统一模型分子训练集的渗透值数据格式。

进一步地，模型分子训练集中每个分子的标签值也可以由分子的Papp渗透值转化，具体转化公式为：标签值=log10(Papp*10^-6)。

需要说明的是，由于本申请实施例中的Papp包括两个方向的数据参数，即a to b，和b to a。终端设备利用a to b，和b to a两个方向的Papp数据参数分别训练不同方向的分子渗透性预测模型，训练过程可以参考上述相关内容，在此不再赘述。

基于上述的模型构建方案，由Caco-2 a to b数据构建的基本模型（QSAR_1036）及改变训练权重后的调整模型（QSAR_SW6）在特定场景测试集上的表现分别为R2（决定系数）=0.13，R2=0.55。其中，基本模型为所有训练分子的训练权重一致的模型，调整模型为根据实际业务场景调整不同训练分子的训练权重的模型。

具体预测结果如图3所示，其中横坐标为测试样本实验值，纵坐标为模型预测值。从测试结果上来看，提升与待测样本相似的训练样本的训练权重，可以显著提升在特定场景测试集上的表现。

在本申请实施例中，模型训练方法训练得到的分子渗透性预测模型用于预测药物分子的Caco-2渗透性，能有效地给予药物科学家药物的吸收性质，可以帮助其进行药物筛选并优化药物分子的结构。相比较行业中已有的Caco-2模型，本申请实施例产出模型的训练集样本空间占有优势，并且针对特定应用场景做了模型调整，使得模型预测能力有了显著地提升。

请继续参阅图4，图4是本申请提供的分子预测方法一实施例的流程示意图。

如图4所示，本申请实施例的分子预测方法包括以下步骤：

步骤S31：获取待预测的目标分子。

在本申请实施例中，终端设备获取待预测的目标分子的具体方式可参阅上述步骤S11，在此不再赘述。当然，目标分子也可以是用户手动输入的，这里不对目标分子的获取方式作限定。

步骤S32：利用模型训练方法训练得到的分子渗透性预测模型对目标分子进行预测，得到目标分子的渗透值。

在本申请实施例中，终端设备将目标分子输入预先训练好的分子渗透性预测模型，以获取预测模型对目标分子预测的渗透值。在对目标分子进行预测之前，可以先对目标分子进行标准化处理，如加氢和/或结构质子化，得到标准的SMILES式，再将标准的SMILES式进行矢量化处理，得到目标分子的特征数据，并将该特征数据输入分子渗透性预测模型，预测得到目标分子的渗透值。

请继续参阅图5，图5是本申请提供的分子筛选方法一实施例的流程示意图。

如图5所示，本申请实施例的分子筛选方法包括以下步骤：

步骤S41：利用分子预测方法预测得到多个目标分子的渗透值。

在本申请实施例中，终端设备利用上述实施例的分子预测方法预测得到多个目标分子的预测结果。其中，预测结果包括每个目标分子的渗透值。

步骤S42：基于渗透值从多个目标分子中筛选出候选分子。

其中，可以预先设置筛选机制，根据该筛选机制从中挑选出合适的一个或多个候选分子。例如，设置需要筛选的渗透值的数值区间，将渗透值位于该数值区间的分子挑选出来作为候选分子，从而方便用户能够快速、准确地从多个药物分子中选出合适的候选分子。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

为实现上述实施例的数据处理方法，本申请还提出了一种数据处理装置，具体请参阅图6，图6是本申请提供的数据处理装置一实施例的结构示意图。

本申请实施例的数据处理装置500包括获取模块51、清洗模块52以及处理模块53。

其中，所述获取模块51，用于获取初始分子数据集，其中，所述初始分子数据集包括若干初始分子以及所述初始分子的渗透值。

所述清洗模块52，用于对所述初始分子数据集进行数据清洗处理，排除所述初始分子数据集中与所述渗透值无关的初始分子数据，得到候选分子数据集。

所述处理模块53，用于将所述候选分子数据集中的候选分子进行分子矢量化，获取所述候选分子的特征数据，由所述候选分子的特征数据和所述候选分子的渗透值组成最终的模型分子数据集。

可选的，初始分子的渗透值可以包括第一方向渗透值和/或第二方向渗透值，其中，第一方向和第二方向相反；

图6所示的数据处理装置500还可以包括分割模块（图中未示出），其中：

分割模块，用于处理模块53将所述候选分子数据集中的候选分子进行分子矢量化之前，根据所述候选分子数据集中的候选分子的渗透值，将所述候选分子数据集划分为两个目标分子数据集；

相应地，处理模块53具体可以用于对两个所述目标分子数据集中的候选分子分别进行分子矢量化，获得对应的候选分子的特征数据，并由两个所述目标分子数据集对应的候选分子的特征数据和渗透值组成最终的两个模型分子数据集。

可选的，所述清洗模块52，还用于在对所述初始分子数据集进行数据清洗处理之前，对所述初始分子数据集中的初始分子进行结构标准化处理，得到标准结构的候选分子；其中，所述结构标准化处理，包括以下至少一种操作：对所述初始分子数据集中的初始分子进行加氢操作；对所述初始分子数据集中的初始分子进行固定酸碱度的结构质子化操作。

可选的，所述清洗模块52排除所述初始分子数据集中与所述渗透值无关的初始分子数据，包括以下至少一种操作：排除所述初始分子数据集中不符合所述渗透值属性定义描述的初始分子数据；排除所述初始分子数据集中不符合所述渗透值预设数值单位的初始分子数据。

可选的，图6所示的数据处理装置500还可以包括整合模块、判断模块和计算模块（图中均未示出），其中：

整合模块，用于在清洗模块52排除所述初始分子数据集中与所述渗透值无关的初始分子数据之后，获取所述初始分子数据集中包括至少两个渗透值的初始分子；

判断模块，用于判断所述初始分子中的至少两个渗透值是否相同；若是，保留相同的渗透值；

计算模块，用于当所述判断模块判断出所述初始分子中的至少两个渗透值不同时，计算不相同的至少两个渗透值的平均值，并根据所述平均值确定所述初始分子的最终渗透值。

可选的，计算模块，具体可以用于计算不相同的至少两个渗透值的平均值；计算每一渗透值与平均值的差异值；在所有渗透值与所述平均值的差异值均小于或等于预设阈值的情况下，将所述平均值作为所述初始分子的最终渗透值；在存在渗透值与所述平均值的差异值大于所述预设阈值的情况下，从所述至少两个渗透值中选取满足预设条件的渗透值作为所述初始分子的最终渗透值。

可选的，所述处理模块53将所述候选分子数据集中的候选分子进行分子矢量化，获取所述候选分子的特征数据的具体实施方式可以包括：利用多种预设分子指纹对所述候选分子数据集中的候选分子进行矢量化处理，得到每一所述候选分子的多种指纹特征矢量；将每一所述候选分子的多种指纹特征矢量进行拼接，得到所述候选分子的特征数据。

可选的，所述处理模块53将每一所述候选分子的多个特征矢量进行拼接，得到所述候选分子的特征数据的具体实施方式可以包括：将每一所述候选分子的多个特征矢量进行拼接，得到所述候选分子的特征数据矩阵；删除所述特征数据矩阵中特征矢量值为预设值的比例高于预设比例的特征列；对于所述特征数据矩阵中任意两个特征列，计算任意两个特征列的相关系数，删除所述相关系数高于预设系数的任意两个特征列中的其中一个特征列；将剩余的特征数据矩阵作为所述候选分子的特征数据。

为实现上述实施例的模型训练方法，本申请还提出了一种模型训练装置，具体请参阅图7，图7是本申请提供的模型训练装置一实施例的结构示意图。

本申请实施例的模型训练装置600包括获取模块61、构建模块62以及训练模块63。

其中，所述获取模块61，用于获取模型分子训练集，其中，所述模型分子训练集由上述的数据处理方法处理得到。

所述构建模块62，用于按照预设模型超参数构建待训练模型。

所述训练模块63，用于利用所述模型分子训练集对所述待训练模型进行训练，得到用于预测分子的渗透值的分子渗透性预测模型。

可选的，训练模块63可以进一步包括：

获取单元，用于获取所述模型分子训练集中各训练分子的训练权重；

训练单元，用于将所述模型分子训练集中各训练分子按照对应的训练权重对所述待训练模型进行训练，得到用于预测分子的渗透值的分子渗透性预测模型。

可选的，获取单元可以进一步包括：

获取子单元，用于获取模型分子测试集；

计算子单元，用于计算所述模型分子测试集中的测试分子与所述模型分子训练集中的训练分子之间的相似度，并根据所述相似度确定各训练分子的训练权重。

可选的，计算子单元具体可以用于计算所述模型分子测试集中的每一测试分子与所述模型分子训练集中的训练分子之间的最大摩根相似度；将所述模型分子训练集中最大摩根相似度高于或等于预设相似度的训练分子的训练权重设置为第一训练权重；将所述模型分子训练集中最大摩根相似度低于所述预设相似度的训练分子的训练权重设置为第二训练权重，其中，所述第一训练权重大于所述第二训练权重。

为实现上述实施例的分子预测方法，本申请还提出了一种分子预测装置，具体请参阅图8，图8是本申请提供的分子预测装置一实施例的结构示意图。

本申请实施例的分子预测装置700包括获取模块71以及预测模块72。

其中，所述获取模块71，用于获取待预测的目标分子。

所述预测模块72，用于利用上述实施例中的模型训练方法训练得到的分子渗透性预测模型对所述目标分子进行预测，得到目标分子的渗透值。

为实现上述实施例的分子筛选方法，本申请还提出了一种分子筛选装置，具体请参阅图9，图9是本申请提供的分子筛选装置一实施例的结构示意图。

本申请实施例的分子筛选装置800包括预测模块81以及筛选模块82。

其中，所述预测模块81，用于利用上述的分子预测方法预测得到多个目标分子的渗透值。

所述筛选模块82，用于基于所述渗透值从多个所述目标分子中筛选出候选分子。

为实现上述实施例的数据处理方法、模型训练方法、分子预测方法和/或分子筛选方法，本申请还提出了一种终端设备，具体请参阅图10，图10是本申请提供的终端设备一实施例的结构示意图。

本申请实施例的终端设备300包括存储器31和处理器32，其中，存储器31和处理器32耦接。

存储器31用于存储程序数据，处理器32用于执行程序数据以实现上述实施例所述的数据处理方法、模型训练方法、分子预测方法和/或分子筛选方法。

在本实施例中，处理器32还可以称为CPU（Central Processing Unit，中央处理单元）。处理器32可能是一种集成电路芯片，具有信号的处理能力。处理器32还可以是通用处理器、数字信号处理器（DSP，Digital Signal Process）、专用集成电路（ASIC，ApplicationSpecific Integrated Circuit）、现场可编程门阵列（FPGA，Field Programmable GateArray）或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器32也可以是任何常规的处理器等。

为实现上述实施例的数据处理方法、模型训练方法、分子预测方法和/或分子筛选方法，本申请还提供了一种计算机可读存储介质，如图11所示，计算机可读存储介质400用于存储程序数据41，程序数据41在被处理器执行时，用以实现如上述实施例所述的数据处理方法、模型训练方法、分子预测方法和/或分子筛选方法。

本申请还提供一种计算机程序产品，其中，上述计算机程序产品包括计算机程序，上述计算机程序可操作来使计算机执行如本申请实施例所述的数据处理方法、模型训练方法、分子预测方法和/或分子筛选方法。该计算机程序产品可以为一个软件安装包。

本申请上述实施例所述的数据处理方法、模型训练方法、分子预测方法和/或分子筛选方法，在实现时以软件功能单元的形式存在并作为独立的产品销售或使用时，可以存储在装置中，例如一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）或处理器（processor）执行本发明各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种数据处理方法，其特征在于，所述数据处理方法包括：

2.根据权利要求1所述的数据处理方法，其特征在于，

所述初始分子的渗透值包括第一方向渗透值和/或第二方向渗透值，其中，第一方向和第二方向相反；

3.根据权利要求1所述的数据处理方法，其特征在于，

所述对所述初始分子数据集进行数据清洗处理之前，所述数据处理方法还包括：

4.根据权利要求1所述的数据处理方法，其特征在于，

所述排除所述初始分子数据集中与所述渗透值无关的初始分子数据，包括以下至少一种操作：

5.根据权利要求1所述的数据处理方法，其特征在于，

所述排除所述初始分子数据集中与所述渗透值无关的初始分子数据之后，所述数据处理方法还包括：

判断所述初始分子中的至少两个渗透值是否相同；

若是，保留相同的渗透值；

6.根据权利要求5所述的数据处理方法，其特征在于，

所述计算不相同的至少两个渗透值的平均值，并根据所述平均值确定所述初始分子的最终渗透值，包括：

计算不相同的至少两个渗透值的平均值；

计算每一渗透值与所述平均值的差异值；

若存在渗透值与所述平均值的差异值大于所述预设阈值，从所述至少两个渗透值中选取满足预设条件的渗透值作为所述初始分子的最终渗透值。

7.根据权利要求1所述的数据处理方法，其特征在于，

所述将所述候选分子数据集中的候选分子进行分子矢量化，获取所述候选分子的特征数据，包括：

8.根据权利要求7所述的数据处理方法，其特征在于，

所述将每一所述候选分子的多个特征矢量进行拼接，得到所述候选分子的特征数据，包括：

将剩余的特征数据矩阵作为所述候选分子的特征数据。

9.一种模型训练方法，其特征在于，所述模型训练方法包括：

获取模型分子训练集，其中，所述模型分子训练集由权利要求1~8任一项所述的数据处理方法处理得到；

按照预设模型超参数构建待训练模型；

10.根据权利要求9所述的模型训练方法，其特征在于，

所述利用所述模型分子训练集对所述待训练模型进行训练，得到用于预测分子的渗透值的分子渗透性预测模型，包括：

获取所述模型分子训练集中各训练分子的训练权重；

11.根据权利要求10所述的模型训练方法，其特征在于，所述获取所述模型分子训练集中各训练分子的训练权重，包括：

获取模型分子测试集；

12.根据权利要求11所述的模型训练方法，其特征在于，

所述计算所述模型分子测试集中的测试分子与所述模型分子训练集中的训练分子之间的相似度，并根据所述相似度确定各训练分子的训练权重，包括：

13.一种分子预测方法，其特征在于，所述分子预测方法包括：

获取待预测的目标分子；

利用权利要求9-12任一项所述的模型训练方法训练得到的分子渗透性预测模型对所述目标分子进行预测，得到所述目标分子的渗透值。

14.一种分子筛选方法，其特征在于，所述分子筛选方法包括：

利用权利要求13所述的分子预测方法预测得到多个目标分子的渗透值；

基于所述渗透值从多个所述目标分子中筛选出候选分子。

15.一种数据处理装置，其特征在于，所述数据处理装置包括获取模块、清洗模块以及处理模块；其中，

16.一种模型训练装置，其特征在于，所述模型训练装置包括获取模块、构建模块以及训练模块；其中，

所述获取模块，用于获取模型分子训练集，其中，所述模型分子训练集由权利要求1~8任一项所述的数据处理方法处理得到；

所述构建模块，用于按照预设模型超参数构建待训练模型；

17.一种分子预测装置，其特征在于，所述分子预测装置包括获取模块以及预测模块；其中，

所述获取模块，用于获取待预测的目标分子；

所述预测模块，用于利用权利要求9-12任一项所述的模型训练方法训练得到的分子渗透性预测模型对所述目标分子进行预测，得到所述目标分子的渗透值。

18.一种分子筛选装置，其特征在于，所述分子筛选装置包括预测模块以及筛选模块；其中，

所述预测模块，用于利用权利要求13所述的分子预测方法预测得到多个目标分子的渗透值；

19.一种终端设备，其特征在于，所述终端设备包括处理器和存储器，所述存储器中存储有程序数据，所述处理器用于执行所述程序数据以实现如权利要求1-8任一项所述的数据处理方法、权利要求9-12任一项所述的模型训练方法、权利要求13所述的分子预测方法和/或权利要求14所述的分子筛选方法。

20.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序数据，所述程序数据在被处理器执行时，用以实现权利要求1-8任一项所述的数据处理方法、权利要求9-12任一项所述的模型训练方法、权利要求13所述的分子预测方法和/或权利要求14所述的分子筛选方法。