CN113903409B

CN113903409B - 一种分子数据处理方法、模型构建与预测方法及相关装置

Info

Publication number: CN113903409B
Application number: CN202111488881.2A
Authority: CN
Inventors: 徐鑫; 李远鹏; 张博文; 王纵虎; 赖力鹏; 温书豪; 马健
Original assignee: Beijing Jingtai Technology Co ltd
Current assignee: Beijing Jingtai Technology Co ltd
Priority date: 2021-12-08
Filing date: 2021-12-08
Publication date: 2023-07-07
Anticipated expiration: 2041-12-08
Also published as: CN113903409A

Abstract

本申请提供了一种分子数据处理方法、模型构建与预测方法及相关装置。该分子数据处理方法包括获取初始分子数据集，所述初始分子数据集包括多个初始分子以及每一所述初始分子对应的溶解度值；对所述初始分子数据集进行预处理，得到候选分子数据集；对所述候选分子数据集中的候选分子进行矢量化处理，得到每一所述候选分子的特征数据；利用所述候选分子数据集和所述特征数据构建训练数据集。本申请技术方案能够提高数据质量，对后续分子水溶性预测模型的构建提供保障，进而可提高分子水溶性预测的准确度。

Description

一种分子数据处理方法、模型构建与预测方法及相关装置

技术领域

本申请涉及计算化学技术领域，具体而言，涉及一种分子数据处理方法、模型构建与预测方法及相关装置。

背景技术

水溶性是化合物分子重要的物理化学性质之一，也是影响化合物分子生物利用度关键参数之一。该属性也会影响该分子在体内的吸收、分布、代谢和排泄等各种生理阶段。低水溶性的化合物分子在胃肠道水溶液中溶解度差、溶出率低，常导致药物吸收缓慢、生物利用度不足等问题。因此，如能在药物研发的早期阶段就开展化合物分子的水溶性研究，可以在一定程度上避免研发后期由于较差的水溶性导致药物研发失败的情况，同时对临床用药具有一定指导意义。

目前，市面上已有不少关于化合物分子水溶性预测的软件。然而，这些软件普遍存在预测准确性不高的问题，究其原因，主要在于用于构建水溶性预测模型所采用的数据质量较低的问题。因此，如何提高构建模型的数据质量，是目前亟待解决的问题。

发明内容

为解决现有技术中用于构建水溶性预测模型的数据质量较低的问题，本申请提供了一种分子数据处理方法，该方法包括：获取初始分子数据集，该初始分子数据集包括多个初始分子以及每一初始分子对应的溶解度值；对初始分子数据集进行预处理，得到候选分子数据集；按照预设划分规则，将所述候选分子数据集划分为M个分子数据子集，所述M为大于或等于2的整数；对每一所述分子数据子集中的候选分子进行矢量化处理，得到对应的候选分子的特征数据；利用每一所述分子数据子集和对应的特征数据分别构建训练数据集，得到M个所述训练数据集。

根据本发明实施例的一个方面，提供了一种分子水溶性预测模型的构建方法，该方法采用上述分子数据处理方法得到的训练数据集进行模型训练，从而得到至少两个分子水溶性预测模型。

根据本发明实施例的另一方面，还提供了一种分子水溶性的预测方法，该方法可以包括：获取待预测分子；对待预测分子进行结构标准化处理，得到标准结构的待预测分子；对上述标准结构的待预测分子进行矢量化处理，得到该标准结构的待预测分子的特征数据；确定所述待预测分子的分子类型；根据所述分子类型，从利用上述分子水溶性预测模型的构建方法构建得到的至少两个分子水溶性预测模型中选取与所述分子类型对应的目标分子水溶性预测模型；将上述标准结构的待预测分子和特征数据输入所述目标分子水溶性预测模型进行预测，得到待预测分子的溶解度值。

根据本发明实施例的另一方面，还提供了一种分子数据处理装置，该装置可以包括：数据获取模块，用于获取初始分子数据集，该初始分子数据集包括多个初始分子以及每一初始分子对应的溶解度值；预处理模块，用于对上述初始分子数据集进行预处理，得到候选分子数据集；数据划分模块，用于按照预设划分规则，将所述候选分子数据集划分为M个分子数据子集，所述M为大于或等于2的整数；矢量化模块，用于对每一所述分子数据子集中的候选分子进行矢量化处理，得到对应的候选分子的特征数据；数据构建模块，用于利用每一所述分子数据子集和对应的特征数据分别构建训练数据集，得到M个所述训练数据集。

根据本发明实施例的另一方面，还提供了一种分子水溶性预测模型的构建装置，该装置可以包括：模型训练模块，用于采用上述分子数据处理装置所得到的训练数据集进行模型训练，得到至少两个分子水溶性预测模型。

根据本发明实施例的另一方面，还提供了一种分子水溶性的预测装置，该装置可以包括：分子获取模块，用于获取待预测分子；结构处理模块，用于对待预测分子进行结构标准化处理，得到标准结构的待预测分子；矢量化模块，用于对标准结构的待预测分子进行矢量化处理，得到标准结构的待预测分子的特征数据；类型确定模块，用于确定所述待预测分子的分子类型；模型选取模块，用于根据所述分子类型，从利用上述分子水溶性预测模型的构建装置构建得到的至少两个分子水溶性预测模型中选取与所述分子类型对应的目标分子水溶性预测模型；模型预测模块，用于将上述标准结构的待预测分子和特征数据输入所述目标分子水溶性预测模型进行预测，得到待预测分子的溶解度值。

根据本发明实施例的另一方面，还提供了一种电子设备，该电子装备包括：一处理器；一存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行上述分子数据处理方法、分子水溶性预测模型的构建方法和分子水溶性的预测方法。

根据本发明实施例的另一方面，还提供了一种计算机可读存储介质，该计算机可读存储介质其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行上述分子数据处理方法、分子水溶性预测模型的构建方法和分子水溶性的预测方法。

本申请提供的方法，在获取到包含多个初始分子以及每一初始分子对应的溶解度值组成的初始分子数据集后，可以对初始分子数据集进行预处理，得到候选分子数据集，并按照预设划分规则对候选分子数据集进行划分，以得到至少两个分子数据子集；进一步地，可以对每一分子数据子集中的分子进行矢量化处理，得到相应的特征数据，并利用每一分子数据子集及其对应的特征数据分别构建样本数据集，得到至少两个训练数据集。本申请的技术方案，通过对分子进行预处理，能够统一分子的表示，并剔除掉不符合要求的分子，从而提高了数据质量；另外，对预处理得到的数据集做进一步的划分，能够使分子归类更为准确，有助于进一步提高数据质量。通过多个训练数据集针对性的构建水溶性预测模型，能够提高模型的多样性和精度，进而可提高分子水溶性预测的准确度。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本发明实施例的分子数据处理方法的流程图；

图2是根据本发明实施例的分子水溶性的预测方法的流程图；

图3示出了本申请一可选实施例所提供的有机分子水溶性模型构建方法的流程图；

图4示出了本申请一可选实施例提供的预测结果评估曲线图；

图5是根据本发明实施例的分子数据处理装置的结构示意图；

图6是根据本发明实施例的分子水溶性的预测装置的结构示意图；

图7示出了本申请一可选实施例提供的有机分子水溶性预测装置示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了便于描述，以下对本申请实施例涉及的部分名词或术语进行说明：

ChEMBL：一个大型的、开放访问的药物发现数据库，收集有药物研究和开发过程中的药物化学数据和知识

PubChem：有机小分子生物活性数据，是一个公开的化学模组数据库

Aqsol：一个水溶性相关的数据集

RDkit：开源的化学信息python软件包

SMILES：用ASCII字符串明确描述分子结构的规范

Mol：RDkit中一种分子表示形式

Openbabel：化学领域常用的一个文件格式转换工具

以下，将通过具体实施例进一步说明本申请提供的分子数据处理方法及效果。

实施例1

图1是根据本发明实施例的分子数据处理方法的流程图，如图1所示，该方法包括如下步骤：

步骤S101，获取初始分子数据集，初始分子数据集包括多个初始分子以及每一初始分子对应的溶解度值。

本申请上述步骤S101中的初始分子数据集可以是已经预存的公开的分子数据集，例如ChEMBL，PubChem，也可以是通过Aqsol收集的包含了分子-溶解度数据的分子数据集合，且可以进行单位统一(mol/L)。

步骤S103，对初始分子数据集进行预处理，得到候选分子数据集。

可选的，本申请步骤S103提供了一种对上述初始分子数据集进行预处理的过程，该预处理过程可以包括对步骤S101中的初始分子数据集进行标准化处理，标准化处理后的初始分子数据集是具有标准化结构信息的分子数据集，具体的，可以采用对收集到的化合物分子进行结构信息的标准化处理后确定标准化结构信息。

优选的，预处理过程还可以进一步实现对该初始分子数据集也进行优化处理，具体的，可以通过优化化合物分子及其对应的溶解度，得到包括了该标准化结构信息及溶解度的优化数据集，该优化数据集可以为有机分子溶解度数据集。例如，可以将原子个数小于第一预设阈值的化合物分子及其对应的水溶性从初始分子数据集中删除，从而得到针对有机分子的数据集。在具体实施方式中，上述第一预设阈值可以是5。

经过了预处理后的初始分子数据集，实现了数据属性和类型的转变，得到了候选分子数据集，该候选分子数据集作为准备好的分子数据可以作为样本数据对预测模型进行训练。

步骤S105，对候选分子数据集中的候选分子数据集进行矢量化处理，得到每一候选分子的特征数据。

可选的，本申请步骤S105实现了对候选分子数据集进行矢量化处理的技术方案。在候选分子数据集中的分子数据为有机分子的情况下，矢量化的过程是指，将包含了有机分子及其对应的溶解度的有机分子溶解度数据集中的标准化结构信息进行矢量化处理，得到上述有机分子的特征数据，进而得到包括标准化结构信息、溶解度以及特征数据的有机分子水溶性数据库。

步骤S107，利用候选分子数据集和特征数据构建训练数据集。

其中，样本数据集可以用于水溶性预测模型的构建。可以将整个训练数据集作为模型训练的训练集，也可以将训练数据集分为训练集和验证集，利用训练集对模型进行训练，利用验证集对模型进行验证，通过调整模型或参数来得到最优模型。模型训练时可以采用K折交叉验证的方法，如五折交叉验证法、十折交叉验证法等等。

由此可知，本发明上述步骤S101至S107提供的技术方案，实现了对包含了初始分子以及每一初始分子对应的溶解度值的初始分子数据集进行预处理以及矢量化处理的过程，能够提高数据质量。构建得到的训练数据集可以训练化合物分子水溶性预测模型，得到的预测模型对分子水溶性的预测将更加准确。

一种可选示例中，上述对初始分子数据集进行预处理，得到候选分子数据集的步骤可以包括如下执行步骤来实现：

步骤S1031，对初始分子数据集中的初始分子进行结构标准化处理，得到标准结构的候选分子；

步骤S1033，获取每一候选分子对应的初始分子的溶解度值；

步骤S1035，利用每一候选分子以及该候选分子对应的溶解度值构建候选分子数据集。

上述步骤S1031至S1035所提供的分子标准化方案可以使得分子数据的质量得到提升。由于获取的数据有不同的来源，虽然可以都是SMILES格式，但是不同来源的分子标准化的规则是不一样的，因此，为了保持最终的分子数据集的质量，并方便比较和整合不同来源的同一化合物的数据，可以对初始分子数据中的化学结构进行标准化。

具体地，一种可选实施例中，结构标准化的实现方式可以存在多种操作方式，具体的，对初始分子数据集中的初始分子进行结构标准化处理，本发明可以提供以下至少一种操作：首先对收集到的分子结构使用工具，将SMILES格式转换为Mol格式；其次，对初始分子数据集中的初始分子进行脱盐、加氢处理；对初始分子的手性结构进行标准化处理；对初始分子进行质子化处理；去除初始分子中的超分子基团；去除金属络合物分子；去除包含预设个数以上的原子构成的环结构的初始分子，如对8环及以上的分子进行去除；去除无碳结构的初始分子；再利用工具将上述标准化化合物分子的Mol格式转变为SMILES格式，得到化合物分子的标准化结构信息。

进一步的，本发明提供的上述预处理过程还可以包括溶解度值的去重。即在本申请一种可选实施例中，在获取每一候选分子对应的初始分子的溶解度值之后，可以执行如下技术方案的实施步骤：首先，若存在候选分子对应的初始分子的溶解度值为多个，计算该初始分子的多个溶解度值的平均值，得到该初始分子的平均溶解度值；其次，可以根据该初始分子的平均溶解度值确定该初始分子的最终溶解度值；最后，可以将该初始分子的最终溶解度值作为候选分子对应的溶解度值。

此处需要说明的是，根据该初始分子的平均溶解度值确定该初始分子的最终溶解度值的实施方案，可以通过如下实施步骤来实现：若该初始分子的平均溶解度值与该初始分子的多个溶解度数值之间的最大相对偏差小于或等于第二预设阈值，将平均溶解度值作为该初始分子的最终溶解度值；进而，若最大相对偏差大于第二预设阈值，从多个溶解度值中选取满足预设条件的溶解度值作为该初始分子的最终溶解度值。其中，上述第二预设阈值可根据化合物分子所对应的多个溶解度数值情况、预测准确度要求等多因素进行限定。在本申请提供的具体实施方式中，该第二预设阈值为5%。

一种可选方案中，针对从多个溶解度值中选取合理的溶解度值，本申请可以通过收集实验数据来从中选出合适的溶解度值。然后，根据实验数据按照预设评价规则从多个溶解度值中确定出目标溶解度值，并将目标溶解度值作为该初始分子的最终溶解度值。

例如，如果当前的溶解度值与预设或者计算得到的平均溶解度值的偏差超过第二预设阈值时，可以采用收集各溶解度值的实验数据来选出最合理的那个，这样能够保证采集数据的质量比较高。其选取的依据可根据不同溶解度数值的不同实验条件，比如溶剂、pH等，设定一个标准实验条件，比如：实验温度为20-25℃、PH值为7.4、实验靶标为不同ADMET属性所规定的细胞系或物种、溶剂为水。从中选取实验条件与标准实验条件最相近的那个溶解度值。

除此以外，选取合理的溶解度值的技术手段，也不限于如下其他的实施方式：

方式一：可以从多个溶解度值中选取与平均溶解度值的相对偏差小于第二预设阈值的一个溶解度值作为该初始分子的最终溶解度值。选取的该溶解度值可以是偏差小于第二预设阈值的任一个溶解度值，或者是与平均溶解度值的相对偏差最小的那个溶解度值。

方式二：可以从多个溶解度值中获取与平均溶解度值的相对偏差小于第二预设阈值的所有目标溶解度值，并计算该目标溶解度值的平均值，此时可以将该平均值作为该初始分子的最终溶解度值。

方式三：可以直接将初始分子的平均溶解度值作为最终溶解度值。

方式四：可以将初始分子的多个溶解度值按照高低进行排除，将位于中间位置的溶解度值作为最终溶解度值。

本申请提供的上述各种可选实施例中，还可以进一步的删除不符合应用场景的样本点，一种该可选方案中，删除过程可以在结构标准化操作之前来执行，也可以在结构标准化操作之后来执行。即本申请可以提供的一种可选实施例中，在对初始分子数据集中的初始分子进行结构标准化处理，得到标准结构的候选分子之前，还可以执行包括如下实施步骤的可选实施例：

首先，对初始分子数据集中的初始分子进行过滤处理，得到过滤后的初始分子；其中，过滤处理包括以下至少一种操作：对初始分子进行去重；去除单质分子；去除无机分子；去除含金属元素的分子；去除原子个数小于第一预设阈值的初始分子；

然后，对初始分子数据集中的初始分子进行结构标准化处理，得到标准结构的候选分子，其中，在结构标准化处理的过程中，可以采用对过滤后的初始分子进行结构标准化处理的可选方式来得到标准结构的候选分子。

通过去除单质分子、无机物、含金属的分子及盐、去除原子个数小于第一预设阈值的初始分子及其溶解度数值，使得所得到的数据集所收集的数据噪音较小，排除了其他分子的干扰，有利于提高预测模型的准确度。

上述可选示例所提供的方案中，为了进行数据平衡，可以利用每一候选分子以及该候选分子对应的溶解度值构建候选分子数据集，该实施方案的技术手段可以包括如下：先根据每一候选分子对应的溶解度值，对候选分子进行区域划分，这个过程中，若某一区域内的候选分子的数量与所有区域内的候选分子的总数的比值超过第一预设比值，按照预设筛选规则对该区域内的候选分子进行筛选处理，得到筛选后的候选分子，筛选后的候选分子包括从经过筛选处理区域中得到的候选分子和其余区域内的候选分子；在完成筛选步骤后，可以利用筛选后的候选分子以及该候选分子对应的溶解度值构建候选分子数据集。

由此，构建分子数据集的过程中，预处理过程可以是对候选分子进行多样化处理的组合，同时，本申请提供的一种可选实施例中，还可以在对初始分子数据集进行预处理，得到候选分子数据集之后，对数据集进行进一步划分。

具体的，所提供的如何划分候选分子数据集的可选实现方案如下：

首先，确定候选分子数据集中的各候选分子在水溶液中的电离方式和酸度系数；

然后，根据各候选分子在水溶液中的电离方式和酸度系数，将候选分子数据集划分为至少两个分子数据子集；

接着，对候选分子数据集中的候选分子进行矢量化处理，得到每一候选分子的特征数据，包括：

再进一步的对候选分子数据集中的候选分子、每一分子数据子集中的候选分子分别进行矢量化处理，得到对应的候选分子的特征数据；

最后，可以利用候选分子数据集和特征数据构建训练数据集，在构建训练数据集的过程中，一种可选方案为，可以利用候选分子数据集和对应的特征数据，以及每一分子数据子集和对应的特征数据分别构建训练数据集，得到本申请的多个训练数据集。

此处需要在说明的是，在上述实施例中的实现过程中，根据各候选分子在水溶液中的电离方式和酸度系数，将候选分子数据集划分为至少两个分子数据子集的技术手段，可以通过如下任意一种可选的具体示例来实现，其中，若候选分子在水溶液中的电离方式为酸式电离，且候选分子的酸度系数小于或等于第三预设阈值，将候选分子划分为离子型分子数据子集；若候选分子在水溶液中的电离方式为酸式电离，且候选分子的酸度系数大于第三预设阈值，将候选分子划分为分子型分子数据子集；若候选分子在水溶液中的电离方式为碱式电离，且候选分子的酸度系数大于或等于第四预设阈值，将候选分子划分为离子型分子数据子集；若候选分子在水溶液中的电离方式为碱式电离，且候选分子的酸度系数小于第四预设阈值，将候选分子划分为分子型分子数据子集。在本申请提供的具体实施方式中，上述第三预设阈值为5.4，上述第四预设阈值为9.4。

另外，上述实施例提供的技术方案中，对候选分子数据集中的候选分子进行矢量化处理，得到每一候选分子的特征数据，进而可采用拼接及压缩的处理方式对矢量化后的特征数据作进一步处理。通过这一步骤的处理，可将结构信息中对水溶性具有影响的特征进行有效提取。通过特征的矢量化，从而建立起化合物分子结构特征与水溶性的相互关系，为模型学习建立数据基础。这里提及的 “拼接”“压缩”操作均为现有技术的常规操作，所有可实现拼接及压缩的方式均在本申请保护范围之内，在此不再赘述。具体的实施步骤可以包括：利用多种预设分子指纹对候选分子数据集中的候选分子进行矢量化处理，得到每一候选分子的多个特征矢量；对每一候选分子的多个特征矢量进行拼接及压缩处理，得到每一候选分子的特征数据。其中，本申请采用了多种预设分子指纹对分子进行矢量化，相比于仅采用一种分子指纹，本申请提取到的分子特征信息更为多样和全面，使得数据更为完整。

此处需要说明的是，本申请实施例提供对压缩处理步骤可以包括以下至少一种操作：对于任一特征矢量，当有超过第二预设比值的候选分子对应的该特征矢量的值为0时，删除该特征矢量；对于任意两个特征矢量，当基于所有候选分子对应的两个特征矢量的值计算得到两个特征矢量的相关系数高于预设系数时，删除两个特征矢量中的其中一个特征矢量。

综上进一步可以获知的是，本申请还可以提供一种分子水溶性预测模型的构建方法，该构建方法可以采用上述图1所示的分子数据处理方法所提供的各种可选方案的组合得到的训练数据集进行模型训练，从而得到分子水溶性预测模型。

实施例2

此处需要说明的是，基于图1提供的分子数据处理方法，本申请还可以提供分子水溶性的预测方法，如图2所示，该分子水溶性的预测方法的实施方案可以包括如下步骤：

步骤S201，获取待预测分子；

步骤S203，对待预测分子进行结构标准化处理，得到标准结构的待预测分子；

步骤S205，对标准结构的待预测分子进行矢量化处理，得到标准结构的待预测分子的特征数据；

步骤S207，将标准结构的待预测分子和特征数据输入至上述实施例中所构建得到的分子水溶性预测模型进行预测，得到待预测分子的溶解度值。

由上可知，本申请实现了一种从多个模型中选择合适的模型进行预测的方案。

在上述步骤S201至步骤S207实现的技术方案中，当分子水溶性预测模型为多个时，如何实现将标准结构的待预测分子和特征数据输入分子水溶性预测模型进行预测，得到待预测分子的溶解度值，本申请可以提供一种可选的实施方式，具体实施步骤至少包括如下：

步骤S2071，确定待预测分子在水溶液中的电离方式和酸度系数；

步骤S2073，根据电离方式和酸度系数，确定待预测分子的分子类型；

步骤S2075，获取与分子类型对应的分子水溶性预测模型；

步骤S2077，将标准结构的待预测分子和特征数据输入与分子类型对应的分子水溶性预测模型进行预测，得到待预测分子的溶解度值。

针对预测效果评估的技术方案中，可以通过如下可选实施步骤来计算得到评估分数：首先，计算待预测分子与分子水溶性预测模型的训练数据集中的训练分子之间的最大相似度值；然后，根据最大相似度值对待预测分子的溶解度值进行预测评估，得到评估分数。

优选的，上述根据最大相似度值对待预测分子的溶解度值进行预测评估，得到评估分数的技术方案，可以采用如下实施步骤来实现：可以从预存的映射关系库中获取分子水溶性预测模型对应的预设评价指标与相似度值的映射关系；然后，根据最大相似度值和预设评价指标与相似度值的映射关系，对待预测分子的溶解度值进行预测评估，得到评估分数。

由此可知，本申请提供的水溶性预测方法可以进一步包括通过计算待测集分子与训练集分子间的相似度，对水溶性预测结果进行评估的步骤。

实施例3

本申请实施例还提供了一种分子数据处理方法，该方法可以包括以下步骤：

S11、获取初始分子数据集，初始分子数据集包括多个初始分子以及每一初始分子对应的溶解度值。

S12、对初始分子数据集进行预处理，得到候选分子数据集。

S13、按照预设划分规则，将候选分子数据集划分为M个分子数据子集，M为大于或等于2的整数。

在一可选的实施方式中，步骤S13按照预设划分规则，将候选分子数据集划分为M个分子数据子集的实施方式可以包括：确定候选分子数据集中的各候选分子在水溶液中的电离方式和酸度系数；根据各候选分子在水溶液中的电离方式和酸度系数，将候选分子数据集划分为M个分子数据子集。

S14、对每一分子数据子集中的候选分子进行矢量化处理，得到对应的候选分子的特征数据。

S15、利用每一分子数据子集和对应的特征数据分别构建训练数据集，得到M个训练数据集。

在一可选的实施方式中，步骤S14对每一分子数据子集中的候选分子进行矢量化处理，得到对应的候选分子的特征数据的实施方式可以包括：对候选分子数据集中的候选分子、每一分子数据子集中的候选分子分别进行矢量化处理，得到对应的候选分子的特征数据；

相应地，步骤S15利用每一分子数据子集和对应的特征数据分别构建训练数据集，得到M个训练数据集的实施方式可以包括：利用候选分子数据集和对应的特征数据，以及每一分子数据子集和对应的特征数据分别构建训练数据集，得到M+1个训练数据集。

可以理解的是，本申请实施例中的各个步骤的具体实施方式可以参考前述实施例中的相应步骤，本申请实施例不再赘述。

本申请实施例还可以提供一种分子水溶性预测模型的构建方法，该构建方法可以采用上述分子数据处理方法得到的训练数据集进行模型训练，从而得到至少两个分子水溶性预测模型。

本申请实施例还可以提供一种分子水溶性的预测方法，该方法可以包括以下步骤：

S21、获取待预测分子。

S22、对待预测分子进行结构标准化处理，得到标准结构的待预测分子。

S23、对标准结构的待预测分子进行矢量化处理，得到标准结构的待预测分子的特征数据。

S24、确定待预测分子的分子类型。

在一可选的实施方式中，步骤S24确定待预测分子的分子类型的实施方式可以包括：确定待预测分子在水溶液中的电离方式和酸度系数；根据该电离方式和酸度系数，确定待预测分子的分子类型。

S25、根据该分子类型，从上述分子水溶性预测模型的构建方法构建得到的至少两个分子水溶性预测模型中选取与该分子类型对应的目标分子水溶性预测模型。

S26、将标准结构的待预测分子和特征数据输入目标分子水溶性预测模型进行预测，得到待预测分子的溶解度值。

实施例4

本实施例所示的有机分子水溶性预测模型的构建步骤如图3所示。需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

如图3所示，本申请提供的有机分子水溶性模型构建方法包括如下步骤：

步骤301，对收集到的化合物分子进行结构信息的标准化处理，得到标准化结构信息。具体操作如下：

1、收集数据

从公开的分子数据集，例如ChEMBL，PubChem，Aqsol收集分子-溶解度数据，并进行单位统一(mol/L)。从ChEMBL，PubChem两个公开数据库中搜索水溶性数据的具体规则如下：

ChEMBL: 在ChEMBL Activities中搜索solubility，然后在Standard Units里选择单位为nM和ug.mL-1，下载数据。之后将Standard Value字段的值根据对应的StandardUnits统一转换为mol/L单位对应的值。

PubChem（AID1996）：搜索AID1996的Assays数据并下载，选择其中的" Solubilityat pH 7.4_Qualifier_Mean"字段作为VALUE列。

此处需要说明的是，上述Aqsol收集的分子数据可以是通过网络爬虫进行收集。通过分子数据集的收集，得到海量的分子数据，一般情况下，可以包含大部分有机分子的溶解度数值。

2、分子结构标准化处理

对收集到的数据进行如下结构标准化操作：

2.1.使用工具将SMILES格式的药物分子结构数据转化为Mol格式，这里所提及的工具包括任何可实现上述目的的工具，例如RDkit；

2.2 对转变为mol格式的分子进行标准化处理：(1)化学式脱盐、加氢；(2)手性结构标准化；(3)电荷质子化；(4)去除具有超分子基团的化合物分子；(5)去除金属络合物、大环和无碳结构的化合物分子。

2.3完成化合物分子标准化后，再使用工具将Mol格式转换为SMILES格式，得到标准化结构信息，以便于数据存储和后续进行整合。

步骤303，优化化合物分子及其对应的溶解度，得到包括标准化结构信息及溶解度的有机分子溶解度数据集。具体包括如下步骤：

1、对每个数据源中出现的重复数据进行矛盾值处理。对化合物分子结构相同但溶解度值不同的矛盾数据，计算其溶解度值的均值，若均值与原始数据（多个溶解度值）的最大偏差小于5%则使用均值作为该化合物分子的溶解度；若差距过大，则参考文献进行去重（根据实验条件、发表年份以及发表期刊进行选择），选择最合理的溶解度值作为化合物该分子最终的溶解度。

将多个数据源的数据进行合并，再次对合并后重复的数据进行矛盾数据处理。完成所有预处理操作后，得到数据集A。

2、对获得的数据集A进行了如下过滤操作：1.过滤掉一些单质分子、无机物、含金属的分子以及盐；2.过滤掉原子个数小于5的数据。最后，对完成过滤操作的数据进行正则化后，再作去重处理，得到有机分子溶解度数据集B。这里所进行的正则化处理是指根据数据集中的分子SMILES格式，利用RDKit软件进行正则化处理。正则化处理是本领域常规的处理方法，其目的在于进一步将分子结构信息进行标准化处理，便于进行下一步操作。

在本实施例中，由于来源于PubChem数据库的分子实验值存在一个理论上限值-3.6989，而这部分数据的比重占总体的约1/5，如果将这部分数据全部用作训练数据集，得到的模型会倾向于将待测分子的水溶性预测为理论上限值附近的数值。因此，对这部分数据进行部分删减处理，具体操作如下：基于原始数据的不同数据库的标签直方图分布，将每个直方柱的样本量控制在2000内(如单个直方柱的数据量大于2000，随机在这个直方柱里取2000个样本)。

3、为了提高预测模型的准确度，本实施例进一步对数据库B进行细分。依据化合物分子在水溶液中的存在形式(分子或离子)将数据集B划分成了两个数据集，分别是分子型分子数据集C和离子型分子数据集D。划分依据可以是有机分子的Pka值。当化合物分子酸式电离时，若该电离基团的Pka小于或等于5.4，则该分子为离子型分子，可归类到离子型分子数据集，其余为分子型分子，可归类到分子型分子数据集。当化合物分子碱式电离时，若该电离基团的Pka大于或等于9.4，则该分子为离子型分子，可归类到离子型分子数据集，其余为分子型分子，可归类到分子型分子数据集。进一步，根据其数据集的划分结果使用openbabel工具规范了两个数据集分子的SMILES形式，例如离子型分子的SMILES会转换为带离子的SMILES。

经过以上步骤，得到了3个数据集，分别是有机分子溶解度数据集B、分子型分子溶解度数据集C和离子型分子溶解度数据集D。

步骤305，矢量化，将有机分子溶解度数据集中的标准化结构信息进行矢量化处理，得到有机分子的特征数据，进而得到包括标准化结构信息、溶解度以及特征数据的有机分子水溶性数据库。具体操作如下：

一种可选上述实施例中，上述有机分子溶解度数据集可以是多个，既可以对多个有机分子溶解度数据集进行矢量化处理。例如，可以对上述有机分子溶解度数据集B、分子型分子溶解度数据集C和离子型分子溶解度数据集D中的标准化结构信息，利用11种指纹种类进行矢量化处理。本实施所采用的指纹种类皆为片段类指纹：Morgan(ECFP4)分子指纹(2**32维稀疏)、RDKit topological分子指纹(2**32维稀疏)、Topological-torsion分子指纹(2**36维稀疏)、MACCS分子SMARTS指纹(167维)、Electrotopological state分子SMARTS描述符(158维稀疏)、按照RECAP算法切割的片段指纹(2**40维稀疏)、按照Hussainand Rea算法切割的片段指纹(2**40维稀疏)、按照BRICS算法切割的片段指纹(2**40维稀疏)、对环以外的单键进行切割的片段指纹(2**40维稀疏)、Klekota Roth分子SMARTS指纹(4860维)、Substructure分子SMARTS指纹(303维)。上述11种指纹种类皆为现有指纹种类，可通过公开途径获得。在矢量化过程中，指纹的数量和种类不受限，这里仅为示例。矢量化所采用的工具可根据数据特点选择现有矢量化工具，例如ArcGIS,GIS等，都可以应用于本申请实施例中。

经过以上矢量化处理后，对11个指纹的矢量结果进行拼接。然后基于一定的规则，压缩拼接后的矢量，进而得到特征数据。具体规则如下：非0且比例小于0.01的列特征矢量被删除，其他则保留；计算列特征矢量两两间的相关系数，如小于0.8，两列都保留，反之，删除其中一列，保留剩下一列。完成压缩后，得到最后的矢量化结果为结构化的表格格式。

经过以上矢量化的拼接及压缩处理后，基于有机分子溶解度数据集B，分子型分子溶解度数据集C和离子型分子溶解度数据集D，形成了3个包括标准化结构信息、溶解度以及特征数据的3个csv文件（数据库），分别为csv文件B、csv文件C、csv文件D。

步骤307，根据上述三个数据库进行模型训练，得到有机分子水溶性预测模型。

在本实施例中，该步骤具体操作如下：

将上述准备好的3个csv文件上传，采用lightgbm模型进行训练。lightgbm模型是开源的梯度提升框架lightGBM中的回归模块。在模型训练中使用了超参数搜索方法，设置随机搜索次数和贝叶斯搜索次数两个参数，即可完成超参数搜索过程，获得最佳超参数的模型。每一组超参数载入对应算法模型拟合训练数据集后，即可得到训练好的模型。

完成模型构建后，上述的3个csv文件相应地产出了3个水溶性预测模型，分别为模型1（对应于有机分子溶解度数据集B）、模型2（对应于分子型分子溶解度数据集C）和模型3（对应于离子型分子溶解度数据集D）。

实验结果

为了验证本申请提供的水溶性预测方法的准确性，我们分别对十个有机分子进行了验证，预测结果及其实际溶解度如表1所示：

通过以上数据不难看出，本申请得到的水溶性预测值非常接近于实际数值，其预测相对误差的平均值可达到8%，最小相对误差为1%。

另外，需要进一步说明的是，在进行数据平衡时，对前述提及的将来源于PubChem数据库的部分数据进行删除处理，也大大提升了预测模型的准确率。经过这一操作，删减了约1.2w的数据，使用删减过后的数据重新构建模型，与删减前构建的分子型模型相比，测试集（32个分子）在待测分子型模型上的表现有了明显提升，具体如表2所示。

其中，R2：决定系数。

RMSE: 均方根差。

Mse：平均平方误差。

MAE：平均绝对误差，是对绝对误差损失的预期值。

Pearsonr：皮尔逊相关系数。

Spearmanr：斯皮尔曼相关系数。

Kendalltau：肯德尔等级相关系数。

实施例5

在实施例4的基础上，完成上述预测方法后，为了评判预测结果的准确性及更好地提高本申请预测方法的准确性，预测人员还可以利用本申请提供的模型应用域分析评估预测结果的误差范围。

具体而言，利用计算公式S_AB=c/（a+b-c）计算待测分子与训练集分子间的摩根相似度值。其中，S_AB表示分子之间的摩根相似度，a为A分子矢量中显示1（矢量化时存在对应特征即表示为1，不存在则表示为0）的数量，b是B分子矢量中显示1的数量，c为AB两分子矢量中同时显示1的数量。

按照相似度值降序排序后，计算大于对应相似度值的分子的预测表现（基于评价指标均方平方根误差RMSE），最后获得一条以相似度值分布为背景的累积RMSE曲线，具体如附图4所示。曲线中横坐标表示测试分子与训练集分子间的最大摩根相似度，左纵坐标表示对应最大摩根相似度下的测试分子个数，右纵坐标表示大于对应最大摩根相似度下的测试分子的预测结果与真实数值间的均方根差。基于这一累积RMSE曲线，待预测的新分子通过计算其与训练集分子间的摩根相似度值，可以找到该摩根相似度值对应的RMSE值，从而判断待测有机分子的预测结果更接近或更偏离真实数值。其中，RMSE的计算方式为：首先计算测试集分子与训练集分子间的最大摩根相似度。然后基于最大摩根相似度数值对测试集分子进行降序排序。依次选取降序排序后的测试集分子（第一次选取第1个分子，第二次选取前2个分子，以此类推），计算选取分子均方平方根误差RMSE。计算方式使用开源库sklearn进行自动计算，该计算过程需要输入相应参数进行计算。

基于如图4所示的累积RMSE曲线，待预测的有机分子通过计算其与训练集分子间的相似度值，可以找到该相似度值对应的RMSE值，从而评估待测有机分子水溶性预测值的预测效果。例如，计算得到待测化合物分子与模型训练集间的最大摩根相似度值为0.9，基于累积均方根差曲线，横坐标对应值为0.9，其右纵坐标为0.5。那么测试分子的最后预测结果为预测值±0.5。

表3示出了不同有机分子测试集在模型1、2和3中进行水溶性预估的RMSE及其他值。

其中， Mue为平均误差。

表4示出了32个分子型分子作为测试集分子，进行模型预测的结果：

通过以上实施例不难看出，本申请通过大量化合物分子的水溶性数据收集、清洗、筛选及标准化、矢量化处理，得到了针对有机分子的标准化分子结构信息、溶解度数据集以及特征数据集，进而通过对上述数据的模型训练得到有机分子水溶性预测模型，从而提升了有机分子水溶性的预测性。而且还可以通过实施应用域分析，评估预测结果的误差范围，用户可以精准地了解水溶性预测结果的准确性。

采用本申请实施例得到的水溶性预测模型（模型1）、现有模型pkCSM和admetSAR，分别对同一测试分子集进行水溶性预测，其预测结果如表5所示。

从上表可知，本申请所得的预测模型与现有模型相比，预测结果的准确性有明显提升。

实施例6

根据本发明实施例，提供了一种分子数据处理装置，如图5所示，该装置可以包括：

数据获取模块501，用于获取初始分子数据集，所述初始分子数据集包括多个初始分子以及每一所述初始分子对应的溶解度值；预处理模块503，用于对所述初始分子数据集进行预处理，得到候选分子数据集；矢量化模块505，用于对所述候选分子数据集中的候选分子进行矢量化处理，得到每一所述候选分子的特征数据；数据构建模块507，用于利用所述候选分子数据集和所述特征数据构建训练数据集。

根据本发明实施例，还提供了一种分子水溶性预测模型的构建装置，该装置可以包括：模型训练模块，该模块用于采用图5所示的分子数据处理装置得到的训练数据集进行模型训练，得到分子水溶性预测模型。

根据本发明实施例，还提供了另一种分子数据处理装置，该装置可以包括：

数据获取模块，用于获取初始分子数据集，初始分子数据集包括多个初始分子以及每一初始分子对应的溶解度值；

预处理模块，用于对初始分子数据集进行预处理，得到候选分子数据集；

数据划分模块，用于按照预设划分规则，将候选分子数据集划分为M个分子数据子集， M为大于或等于2的整数；

矢量化模块，用于对每一分子数据子集中的候选分子进行矢量化处理，得到对应的候选分子的特征数据；

数据构建模块，用于利用每一分子数据子集和对应的特征数据分别构建训练数据集，得到M个训练数据集。

根据本发明实施例，还提供了另一种分子水溶性预测模型的构建装置，该装置可以包括：模型训练模块，该模块用于采用上述分子数据处理装置得到的训练数据集进行模型训练，得到至少两个分子水溶性预测模型。

可以理解的是，上述装置中各个模块的具体功能可以参考前述方法实施例中的相关内容，本申请实施例不作限定。

实施例7

根据本发明实施例，还提供了一种分子水溶性的预测装置，如图6所示，该装置可以包括：分子获取模块601，用于获取待预测分子；结构处理模块603，用于对待预测分子进行结构标准化处理，得到标准结构的待预测分子；矢量化模块605，用于对标准结构的待预测分子进行矢量化处理，得到标准结构的待预测分子的特征数据；模型预测模块607，用于将标准结构的待预测分子和特征数据输入至分子水溶性预测模型的构建装置所构建得到的分子水溶性预测模型进行预测，得到待预测分子的溶解度值。

本申请还提供了一种分子水溶性的预测装置，该装置可以包括：

分子获取模块，用于获取待预测分子；

结构处理模块，用于对待预测分子进行结构标准化处理，得到标准结构的待预测分子；

矢量化模块，用于对标准结构的待预测分子进行矢量化处理，得到标准结构的待预测分子的特征数据；

类型确定模块，用于确定待预测分子的分子类型；

模型选取模块，用于根据该分子类型，从利用上述分子水溶性预测模型的构建装置构建得到的至少两个分子水溶性预测模型中选取与该分子类型对应的目标分子水溶性预测模型；

模型预测模块，用于将标准结构的待预测分子和特征数据输入目标分子水溶性预测模型进行预测，得到待预测分子的溶解度值。

另外，本申请还提供了一种有机分子水溶性预测装置，其中，图7是根据本发明实施例的有机分子水溶性预测装置示意图，如图7所示，该装置可以包括：分子结构信息获取模块701、水溶性预测模块703以及水溶性预测值输出模块705。

其中，分子结构信息获取模块701，用于获取待测集有机分子的标准化结构信息；水溶性预测模块703，利用标准化结构信息通过有机分子水溶性预测模型对待测集有机分子进行水溶性预测，得到水溶性预测值；水溶性预测值输出模块705，用于输出待测集有机分子的水溶性预测值。

可选地，上述有机分子水溶性预测装置的分子结构信息获取模块进一步包括分子初始结构信息获取模块以及分子结构标准化模块。分子初始结构信息获取模块用于获取待测集有机分子的初始结构信息；分子结构标准化模块用于将上述初始结构信息进行标准化处理，得到待测集有机分子的标准化结构信息。上述模块与实施例4所对应的步骤301所实现的示例和应用场景相同，但不限于上述实施例4所公开的内容。

可选地，上述有机分子水溶性预测装置的水溶性预测模块进一步包括分子型分子水溶性预测模型和离子型分子水溶性预测模型。用户可以根据待测集有机分子的电离类型和酸度系数，选择水溶性预测装置中不同的预测模型进行水溶性预估，进而提升预测值的准确性。上述分子型分子水溶性预测模型和离子型分子水溶性预测模型的构建过程与实施例4所对应的步骤303所实现的示例和建立过程相同，但不限于上述实施例4所公开的内容。

可选地，上述有机分子水溶性预测装置进一步包括应用域评估模块，用于评估水溶性预测值与实际数据的偏差范围。用户可在使用水溶性预测装置时，选择水溶性预测值偏差范围预估功能，即可在获得水溶性预测值的同时，获得该水溶性预测值与实际水溶性数值的偏差范围。上述应用域评估模块实现的偏差范围预估是通过实施例4中记载的水溶性预测结果评估方法实现的，但不限于上述实施例4所公开的内容。

通过本实施例的实施，得到了一种可预测有机分子水溶性的装置。用户直接输入待测集有机分子的结构信息，即可获得有效的水溶性预测值，进一步指导该有机分子的成药性研究。

实施例8

本申请还提供了一种电子设备，该电子设备可以包括：一处理器；以及一存储器，该存储器其上存储有可执行代码，当可执行代码被处理器执行时，一种可选方案为，可以使处理器执行前述各实施例所提供的分子数据处理方法、或分子水溶性预测模型的构建方法、或分子水溶性的预测方法所实施的技术方案和技术步骤。

实施例9

本申请还提供了一种计算机可读存储介质，该计算机可读存储介质其上存储有可执行代码，当可执行代码被电子设备的处理器执行时，使处理器可以执行前述各实施例所提供的分子数据处理方法、或分子水溶性预测模型的构建方法、或分子水溶性的预测方法所实施的技术方案和技术步骤。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种分子数据处理方法，其特征在于，包括：

获取初始分子数据集，所述初始分子数据集包括多个初始分子以及每一所述初始分子对应的溶解度值；

对所述初始分子数据集进行预处理，得到候选分子数据集；

按照预设划分规则，将所述候选分子数据集划分为M个分子数据子集，所述M为大于或等于2的整数；

对每一所述分子数据子集中的候选分子进行矢量化处理，得到对应的候选分子的特征数据；

利用每一所述分子数据子集和对应的特征数据分别构建训练数据集，得到M个所述训练数据集；

其中，所述按照预设划分规则，将所述候选分子数据集划分为M个分子数据子集，包括：确定所述候选分子数据集中的各候选分子在水溶液中的电离方式和酸度系数；根据各所述候选分子在水溶液中的电离方式和酸度系数，将所述候选分子数据集划分为M个分子数据子集；

其中，所述电离方式包括酸式电离和/或碱式电离，所述M个分子数据子集包括离子型分子数据子集和分子型分子数据子集；

其中，所述候选分子数据集是利用每一候选分子以及所述候选分子对应的溶解度值构建得到的，其中，所述候选分子为对所述初始分子数据集进行预处理后得到的；

所述利用每一候选分子以及所述候选分子对应的溶解度值构建所述候选分子数据集，包括：根据每一候选分子对应的溶解度值，对所述候选分子进行区域划分；若有区域内的候选分子的数量与所有区域内的候选分子的总数的比值超过第一预设比值，按照预设筛选规则对该区域内的候选分子进行筛选处理，得到筛选后的候选分子，所述筛选后的候选分子包括从经过筛选处理区域中得到的候选分子和其余区域内的候选分子；利用筛选后的候选分子以及所述候选分子对应的溶解度值构建得到所述候选分子数据集；

所述根据各所述候选分子在水溶液中的电离方式和酸度系数，将所述候选分子数据集划分为M个分子数据子集，包括：若所述候选分子在水溶液中的电离方式为酸式电离，且所述候选分子的酸度系数小于或等于第三预设阈值，将所述候选分子划分为离子型分子数据子集；若所述候选分子在水溶液中的电离方式为酸式电离，且所述候选分子的酸度系数大于所述第三预设阈值，将所述候选分子划分为分子型分子数据子集；若所述候选分子在水溶液中的电离方式为碱式电离，且所述候选分子的酸度系数大于或等于第四预设阈值，将所述候选分子划分为离子型分子数据子集；若所述候选分子在水溶液中的电离方式为碱式电离，且所述候选分子的酸度系数小于所述第四预设阈值，将所述候选分子划分为分子型分子数据子集。

2.根据权利要求1所述的方法，其特征在于，所述对所述初始分子数据集进行预处理，得到候选分子数据集，包括：

对所述初始分子数据集中的初始分子进行结构标准化处理，得到标准结构的候选分子；

获取每一所述候选分子对应的初始分子的溶解度值；

利用每一所述候选分子以及所述候选分子对应的溶解度值构建候选分子数据集。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

将所述候选分子数据集中原子数量小于第一预设阈值的候选分子及其溶解度数值进行删除。

4.根据权利要求2所述的方法，其特征在于，所述对所述初始分子数据集中的初始分子进行结构标准化处理，包括以下至少一种操作：

对所述初始分子数据集中的初始分子进行脱盐、加氢处理；对初始分子的手性结构进行标准化处理；对初始分子进行质子化处理；去除初始分子中的超分子基团；去除金属络合物分子；去除包含预设个数以上的原子构成的环结构的初始分子；去除无碳结构的初始分子。

5.根据权利要求2所述的方法，其特征在于，所述获取每一所述候选分子对应的初始分子的溶解度值之后，所述方法还包括：

若存在所述候选分子对应的初始分子的溶解度值为多个，计算所述初始分子的多个溶解度值的平均值，得到所述初始分子的平均溶解度值；

根据所述初始分子的平均溶解度值确定所述初始分子的最终溶解度值；

将所述初始分子的最终溶解度值作为所述候选分子对应的溶解度值。

6.根据权利要求5所述的方法，其特征在于，所述根据所述初始分子的平均溶解度值确定所述初始分子的最终溶解度值，包括：

若所述初始分子的平均溶解度值与所述初始分子的多个溶解度数值之间的最大相对偏差小于或等于第二预设阈值，将所述平均溶解度值作为所述初始分子的最终溶解度值；

若所述最大相对偏差大于所述第二预设阈值，从所述多个溶解度值中选取满足预设条件的溶解度值作为所述初始分子的最终溶解度值。

7.根据权利要求6所述的方法，其特征在于，所述从所述多个溶解度值中选取满足预设条件的溶解度值作为所述初始分子的最终溶解度值，包括：

获取所述多个溶解度值对应的实验数据，根据所述实验数据按照预设评价规则从所述多个溶解度值中确定出目标溶解度值，并将所述目标溶解度值作为所述初始分子的最终溶解度值。

8.根据权利要求2所述的方法，其特征在于，所述对所述初始分子数据集中的初始分子进行结构标准化处理，得到标准结构的候选分子之前，所述方法还包括：

对所述初始分子数据集中的初始分子进行过滤处理，得到过滤后的初始分子；其中，过滤处理包括以下至少一种操作：对初始分子进行去重；去除单质分子；去除无机分子；去除含金属元素的分子；

所述对所述初始分子数据集中的初始分子进行结构标准化处理，得到标准结构的候选分子，包括：

对所述过滤后的初始分子进行结构标准化处理，得到标准结构的候选分子。

9.根据权利要求1所述的方法，其特征在于，

所述对每一所述分子数据子集中的候选分子进行矢量化处理，得到对应的候选分子的特征数据，包括：

对所述候选分子数据集中的候选分子、每一所述分子数据子集中的候选分子分别进行矢量化处理，得到对应的候选分子的特征数据；

所述利用每一所述分子数据子集和对应的特征数据分别构建训练数据集，得到M个所述训练数据集，包括：

利用所述候选分子数据集和对应的特征数据，以及每一所述分子数据子集和对应的特征数据分别构建训练数据集，得到M+1个所述训练数据集。

10.根据权利要求1-8任一项所述的方法，其特征在于，所述对每一所述分子数据子集中的候选分子进行矢量化处理，得到对应的候选分子的特征数据，包括：

利用多种预设分子指纹分别对每一所述分子数据子集中的候选分子进行矢量化处理，得到每一所述候选分子的多个特征矢量；

针对每一所述分子数据子集，对所述分子数据子集中的候选分子的多个特征矢量进行拼接及压缩处理，得到所述分子数据子集对应的候选分子的特征数据。

11.根据权利要求10所述的方法，其特征在于，所述压缩处理包括以下至少一种操作：

对于任一特征矢量，当有超过第二预设比值的候选分子对应的所述特征矢量的值为0时，删除所述特征矢量；

对于任意两个特征矢量，当基于所有候选分子对应的所述两个特征矢量的值计算得到所述两个特征矢量的相关系数高于预设系数时，删除所述两个特征矢量中的其中一个特征矢量。

12.一种分子水溶性预测模型的构建方法，其特征在于，所述方法采用权利要求1-11中任一项所述的方法得到的训练数据集进行模型训练，得到至少两个分子水溶性预测模型。

13.一种分子水溶性的预测方法，其特征在于，包括：

获取待预测分子；

对所述待预测分子进行结构标准化处理，得到标准结构的待预测分子；

对所述标准结构的待预测分子进行矢量化处理，得到所述标准结构的待预测分子的特征数据；

确定所述待预测分子的分子类型；

根据所述分子类型，从利用权利要求12所述的方法构建得到的至少两个分子水溶性预测模型中选取与所述分子类型对应的目标分子水溶性预测模型；

将所述标准结构的待预测分子和所述特征数据输入所述目标分子水溶性预测模型进行预测，得到所述待预测分子的溶解度值。

14.根据权利要求13所述的方法，其特征在于，所述确定所述待预测分子的分子类型，包括：

确定所述待预测分子在水溶液中的电离方式和酸度系数；

根据所述电离方式和酸度系数，确定所述待预测分子的分子类型。

15.根据权利要求13或14所述的方法，其特征在于，所述方法还包括：

计算所述待预测分子与所述目标分子水溶性预测模型的训练数据集中的训练分子之间的最大相似度值；

根据所述最大相似度值对所述待预测分子的溶解度值进行预测评估，得到评估分数。

16.根据权利要求15所述的方法，其特征在于，所述根据所述最大相似度值对所述待预测分子的溶解度值进行预测评估，得到评估分数，包括：

获取所述目标分子水溶性预测模型对应的预设评价指标与相似度值的映射关系；

根据所述最大相似度值和所述预设评价指标与相似度值的映射关系，对所述待预测分子的溶解度值进行预测评估，得到评估分数。

17.一种分子数据处理装置，其特征在于，包括：

数据获取模块，用于获取初始分子数据集，所述初始分子数据集包括多个初始分子以及每一所述初始分子对应的溶解度值；

预处理模块，用于对所述初始分子数据集进行预处理，得到候选分子数据集；

数据划分模块，用于按照预设划分规则，将所述候选分子数据集划分为M个分子数据子集，所述M为大于或等于2的整数；

矢量化模块，用于对每一所述分子数据子集中的候选分子进行矢量化处理，得到对应的候选分子的特征数据；

数据构建模块，用于利用每一所述分子数据子集和对应的特征数据分别构建训练数据集，得到M个所述训练数据集；

其中，所述数据划分模块具体用于确定所述候选分子数据集中的各候选分子在水溶液中的电离方式和酸度系数；根据各所述候选分子在水溶液中的电离方式和酸度系数，将所述候选分子数据集划分为M个分子数据子集；

所述预处理模块还用于：根据每一候选分子对应的溶解度值，对所述候选分子进行区域划分；若有区域内的候选分子的数量与所有区域内的候选分子的总数的比值超过第一预设比值，按照预设筛选规则对该区域内的候选分子进行筛选处理，得到筛选后的候选分子，所述筛选后的候选分子包括从经过筛选处理区域中得到的候选分子和其余区域内的候选分子；利用筛选后的候选分子以及所述候选分子对应的溶解度值构建得到所述候选分子数据集；

所述数据划分模块还用于：若所述候选分子在水溶液中的电离方式为酸式电离，且所述候选分子的酸度系数小于或等于第三预设阈值，将所述候选分子划分为离子型分子数据子集；若所述候选分子在水溶液中的电离方式为酸式电离，且所述候选分子的酸度系数大于所述第三预设阈值，将所述候选分子划分为分子型分子数据子集；若所述候选分子在水溶液中的电离方式为碱式电离，且所述候选分子的酸度系数大于或等于第四预设阈值，将所述候选分子划分为离子型分子数据子集；若所述候选分子在水溶液中的电离方式为碱式电离，且所述候选分子的酸度系数小于所述第四预设阈值，将所述候选分子划分为分子型分子数据子集。

18.一种分子水溶性预测模型的构建装置，其特征在于，包括：

模型训练模块，用于采用权利要求17所述的装置得到的训练数据集进行模型训练，得到至少两个分子水溶性预测模型。

19.一种分子水溶性的预测装置，其特征在于，包括：

分子获取模块，用于获取待预测分子；

结构处理模块，用于对所述待预测分子进行结构标准化处理，得到标准结构的待预测分子；

矢量化模块，用于对所述标准结构的待预测分子进行矢量化处理，得到所述标准结构的待预测分子的特征数据；

类型确定模块，用于确定所述待预测分子的分子类型；

模型选取模块，用于根据所述分子类型，从利用权利要求18所述的装置构建得到的至少两个分子水溶性预测模型中选取与所述分子类型对应的目标分子水溶性预测模型；

模型预测模块，用于将所述标准结构的待预测分子和所述特征数据输入所述目标分子水溶性预测模型进行预测，得到所述待预测分子的溶解度值。

20.一种电子设备，其特征在于，包括：

处理器；

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1-16中任一项所述的方法。

21.一种计算机可读存储介质，其特征在于，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1-16中任一项所述的方法。