CN114141316A

CN114141316A - 一种基于谱图分析的有机物生物毒性预测方法及系统

Info

Publication number: CN114141316A
Application number: CN202111270668.4A
Authority: CN
Inventors: 闫希亮; 胡松; 刘国红; 颜嘉晨; 周宏钰; 周小霞; 闫兵
Original assignee: Guangzhou University
Current assignee: Guangzhou University
Priority date: 2021-10-29
Filing date: 2021-10-29
Publication date: 2022-03-04

Abstract

本发明公开了一种基于谱图分析的有机物生物毒性预测方法，包括以下步骤：通过生物毒性实验获取有机物的生物毒性数据；通过质谱数据获取模块获取有机物谱图数据中的质谱数据；将质谱数据进行预处理，得到预处理质谱数据；提取有机物谱图数据中的谱图信息，通过谱图信息构建机器学习模型；利用五折交叉验证获取机器学习模型的最佳模型参数，进而得到最佳机器学习模型；通过最佳机器学习模型处理质谱数据，提取特征，并输出生物毒性的预测结果；本发明直接从谱图数据中提取能够量化关联有机物毒性的特征信息，从而不需要提前获得分子的组成和结构信息，也不需要复杂地计算分子描述符，在建模过程中进行了内、外部验证考察模型的预测能力和稳健性。

Description

一种基于谱图分析的有机物生物毒性预测方法及系统

技术领域

本发明涉及机器学习辅助有机化合物毒性预测的研究领域，特别涉及一种基于谱图分析的有机物生物毒性预测方法及系统。

背景技术

关于有机化合物生物毒性对于全面评估其可使用性极为重要。化合物的生物毒性可以帮助分析其在人体内的代谢过程、可药用性或与之相关的潜在危险等。自2006年以来，欧洲化学品注册、评估、授权和限制条例(REACH)要求在开始生产和贸易之前对化合物的水生物毒性进行强制性初步评估。毒性是一种复杂的由不同生物机制共同实现的特殊性质。在生物上进行有机化合物毒性测试实验不仅成本高昂，受制于实验环境和研究人员技术水平的差异，结果往往具有不稳定性。为了应对这一挑战，迫切需要一种简单快速，成本可控的化合物毒性评估方法。

随着计算机计算能力在硬件层面的不断突破与进步，各类以机器学习和深度学习为代表的人工智能算法也在不断地更新换代，算法模型的预测能力也得到了飞速的进步，可以更准确地根据现有的数据构建出模型来预测位置事物的性质。最近十几年，人工智能已经被广泛地应用于人脸识别，自动驾驶，辅助医疗，用户行为预测，药物设计等诸多领域。在化学信息学领域，人工智能也被用于化合物的性质预测，辅助化合物设计和检测。近些年来，已经有诸多研究人员利用化合物的各种性质构建模型，用于预测化合物的生物毒性，取得了不错的实验结果。但是这些模型的构建需要事先知道化合物的具体结构，而在很多情况下(如复杂环境中的污染物、代谢产物等)，化合物结构难以确定。为此，亟需开发无需化合物结构的预测模型。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种基于谱图分析的有机物生物毒性预测方法及系统，根据谱图的坐标数据和XGBoost方法，构建机器学习模型，直接从谱图数据中提取能够量化关联有机物毒性的特征信息，从而不需要提前获得分子的组成和结构信息，也不需要复杂地计算分子描述符。在建模过程中进行了内、外部验证考察模型的预测能力和稳健性。

本发明的第一目的在于提供一种基于谱图分析的有机物生物毒性预测方法。

本发明的第二目的在于提供一种基于谱图分析的有机物生物毒性预测系统。

本发明的第一目的通过以下的技术方案实现：

一种基于谱图分析的有机物生物毒性预测方法，包括以下步骤：

通过生物实验获取化合物的生物毒性数据，并用于构建模型和评估预测结果，所述生物毒性数据包括毒性值和毒性分类情况；

通过质谱数据获取模块获取化合物谱图数据中的质谱数字数据；

将质谱数字数据进行预处理，得到预处理质谱数字数据；

将预处理质谱数字数据导入机器学习算法，构建机器学习模型；

使用不同参数值通过五折交叉验证进行多次预测，并在对比后选择最佳参数组合得到最佳机器学习模型；

向最佳机器学习模型输入插值处理后的谱图数据，通过最佳机器学习模型学习并提取谱图中与生物毒性相关的信息，输出生物毒性预测结果。

进一步地，所述通过质谱数据获取模块获取化合物谱图数据中的质谱数字数据，具体为：通过标准谱图库查询和实验检测的方法获得有机物谱图数据中的质谱数字数据，从中提取质谱的横坐标及其对应的纵坐标值，所述横坐标为质荷比，所述纵坐标为相对丰度。

进一步地，所述将质谱数字数据进行预处理，具体为：将所有的有机物谱图数据的横坐标统一，并进行插值处理；所述插值处理为，填充原化合物的质谱数字数据中不存在的横坐标对应的纵坐标。

进一步地，所述横坐标需要获取包括训练集有机物谱图和预测有机物谱图在内的所有质谱图的最大质荷比和最小质荷比，并以从最小质荷比用整数1作为步长到最大质荷比的一系列整数作为所有谱图的公共横坐标；所述纵坐标需按照获得的公共横坐标对所有有机物的谱图进行插值处理，用0值填补对应的纵坐标的缺失值，使每一个谱图在公共横坐标下的纵坐标值不存在缺失。

进一步地，还包括对预处理质谱数据进行标准化处理，具体为：对每一个公共横坐标值对应的一组所有化合物的纵坐标值，通过减去该纵坐标值的均值再除以该纵坐标值的标准差获得一组新的纵坐标值。

进一步地，将处理后的质谱数字数据导入机器学习算法，构建机器学习模型，具体为：将预处理得到的值以化合物种类作为纵向目录，公共横坐标为横向目录组成的二维数组作为特征数据，和以有机物的毒性值或毒性分类作为标签数据输入机器学习模型进行训练。

进一步地，使用不同参数值通过五折交叉验证进行多次预测，并在对比后选择最佳参数组合得到最佳机器学习模型，具体为：依次对不同模型参数的不同参数值范围通过五折交叉验证多次预测获取对应的评分，记录下评分最佳的参数值，使用评分最佳的参数值重新构建一个参数组合最佳的机器学习模型用于后续预测。

进一步地，向最佳机器学习模型输入插值处理后的谱图数据，通过最佳机器学习模型学习并提取谱图中与生物毒性相关的信息，输出生物毒性预测结果，具体为：向最佳机器学习模型输入插值处理后的谱图数据，让模型学习训练集数据并提取谱图中与生物毒性相关的信息，最后输出生物毒性的预测值或者类别。

本发明的第二目的通过以下技术方案实现：

一种基于谱图分析的有机物生物毒性预测系统，包括：

生物毒性数据模块，用于通过生物毒性实验获取化合物的生物毒性数据；

质谱数据获取模块，用于获取化合物谱图数据中的质谱数据；

预处理模块，用于将质谱数据进行预处理，得到预处理质谱数据；

谱图信息提取模块，用于提取有机物谱图数据中的谱图信息；

模型构建及训练模块，用于通过谱图信息构建机器学习模型，通过五折交叉验证获取机器学习模型的最佳模型参数，进而得到最佳机器学习模型；

生物毒性预测模块，通过最佳机器学习模型预测化合物质谱的生物毒性；

预测结果输出模块，用于输出生物毒性的预测结果。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明所构建模型可以用于预测多种有机化合物的生物毒性。该方法简便快捷、成本低廉，其流程简单，无计算化学基础的研究人员也可方便使用。

2、本发明所使用的方法不仅可以预测结构已知且有质谱数据的化合物的毒性，还可以预测组成结构未知但已测得质谱数据的化合物的毒性数据。

3、本发明模型的构建采用XGBoost方法，该方法为机器学习模型中比较优秀的模型，可以自动从谱图数据中提取特征信息，而无需复杂的化合物描述符计算。

4、所构建模型经过五折交叉验证和参数优化调整，具有更强的稳定性和更好的预测能力，可以用于指导有机化合物设计和使用，对有机化合物的生物毒性评价具有重要意义。

5、所构建模型通过重要性分析可视化，可进一步探索影响有机物生物毒性的要素。

附图说明

图1是本发明所述一种基于谱图分析的有机物生物毒性预测方法的方法流程图；

图2是本发明所述实施例1训练集和测试集中有机化合物毒性实测值与预测值的拟合图；

图3是本发明所述实施例1中的模型的重要性分析图；

图4是本发明所述实施例2中的模型的重要性分析图；

图5是本发明所述一种基于谱图分析的有机物生物毒性预测结构框图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例1

一种基于谱图分析的有机物生物毒性预测方法，如图1所示，包括以下步骤：

将质谱数字数据进行预处理，得到预处理质谱数字数据；

具体如下：

首先收集1306种有机化合物对梨形四膜虫的48小时半致死浓度(IGC₅₀)，使用公式-log₁₀ IGC₅₀将其转换为毒性值。通过查询National Institute of Standards andTechnology(NIST)的质谱图库(https://webbook.nist.gov/chemistry/)获取这些有机物的质谱文件(SDF格式)，然后使用python中的rdkit代码包读取这些SDF文件，再从这些文件中提取质谱的相关信息，储存其中的质荷比及对应的相对丰度。

所用的有机物数据集有包含1306种化合物，可以比较全面的代表各类有机化合物。这些有机化合物的生物毒性从1.21至5.22都有分布。有机物结构的多样性和预测值的较广分布，有利于构建鲁棒性好的预测模型。

为了验证模型效果，把分出80％的有机物数据作为训练集，用于模型的训练和参数寻优。再把训练集分成五份用于五折交叉验证，选取其中的四份用于训练模型，最后一份用于评价训练的模型，如此重复五次，将预测的结果拼接在一起和原训练集真实结果进行评分，分数值作为这次五折验证对模型的评价。这样在不断调整参数的过程中比较出五折交叉验证评价最好的模型对应的参数，将这些参数之一一记录下来。首先是objective默认选择reg:squarederror，之后对参数num_boost_round和eta同时进行调参，再对max_depth，gamm，alpha，lambda逐个进行调参。最终得到的优化参数如下所示：num_boost_round＝100，eta＝0.12，max_depth＝5，gamma＝0.0，alpha＝1.6，lambda＝1.0。

再把完整的训练集输入训练完的模型用于预测剩下的20％的有机物数据，比较预测毒性和真实毒性，以此作为评价模型稳定性和模型外部预测能力标准。所得的五折交叉验证的决定系数为0.705，标准差为0.488；外部验证的决定系数为0.734，标准差为0.440，这表明模型有较好的稳定性和外部预测能力。图2是训练集和测试集的实测值和预测值的拟合图，其中圆圈代表训练集，五角星代表测试集。图3是训练好的模型中不同的质荷比的重要性分析图，通过重要性分析，可以比较哪些峰对有机物生物毒性的影响占有更大的比重。从图中可以看出，0～200范围内的峰占据了大部分的重要性。通过重要性分析可以有针对的分析有机化合物，这对指导有机化合物的设计和使用有着重大意义。

实施例2

本实施例除下述特征外其他结构同实施例1：

收集1237种有机化合物的肝毒性二分类数据，训练方法与例1类似。最终得到的优化参数如下所示：num_boost_round＝92，eta＝0.67，max_depth＝6，gamma＝0.0，alpha＝0.0，lambda＝2.25。所得的五折交叉验证的准确率为76.77％，外部验证的准确率为80.16％，这表明模型有较好的稳定性和外部预测能力，能够很好地通过谱图数据对化合物进行分类。图4是训练好的模型中不同的质荷比的重要性分析图，从图中可以看出，0～400范围内的峰占据了大部分的重要性，而在0～400的范围内0～200占据了大部分的重要性。

实施例3

一种基于谱图分析的有机物生物毒性预测系统，如图5所示，包括：

预测结果输出模块，用于输出生物毒性的预测结果。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于谱图分析的有机物生物毒性预测方法，其特征在于，包括以下步骤：

将质谱数字数据进行预处理，得到预处理质谱数字数据；

2.根据权利要求1所述的一种基于谱图分析的有机物生物毒性预测方法，其特征在于，所述通过质谱数据获取模块获取化合物谱图数据中的质谱数字数据，具体为：通过标准谱图库查询和实验检测的方法获得有机物谱图数据中的质谱数字数据，从中提取质谱的横坐标及其对应的纵坐标值，所述横坐标为质荷比，所述纵坐标为相对丰度。

3.根据权利要求1所述的一种基于谱图分析的有机物生物毒性预测方法，其特征在于，所述将质谱数字数据进行预处理，具体为：将所有的有机物谱图数据的横坐标统一，并进行插值处理；所述插值处理为，填充原化合物的质谱数字数据中不存在的横坐标对应的纵坐标。

4.根据权利要求3所述的一种基于谱图分析的有机物生物毒性预测方法，其特征在于，所述横坐标需要获取包括训练集有机物谱图和预测有机物谱图在内的所有质谱图的最大质荷比和最小质荷比，并以从最小质荷比用整数1作为步长到最大质荷比的一系列整数作为所有谱图的公共横坐标；所述纵坐标需按照获得的公共横坐标对所有有机物的谱图进行插值处理，用0值填补对应的纵坐标的缺失值，使每一个谱图在公共横坐标下的纵坐标值不存在缺失。

5.根据权利要求4所述的一种基于谱图分析的有机物生物毒性预测方法，其特征在于，还包括对预处理质谱数据进行标准化处理，具体为：对每一个公共横坐标值对应的一组所有化合物的纵坐标值，通过减去该纵坐标值的均值再除以该纵坐标值的标准差获得一组新的纵坐标值。

6.根据权利要求1所述的一种基于谱图分析的有机物生物毒性预测方法，其特征在于，将处理后的质谱数字数据导入机器学习算法，构建机器学习模型，具体为：将预处理得到的值以化合物种类作为纵向目录，公共横坐标为横向目录组成的二维数组作为特征数据，和以有机物的毒性值或毒性分类作为标签数据输入机器学习模型进行训练。

7.根据权利要求1所述的一种基于谱图分析的有机物生物毒性预测方法，其特征在于，使用不同参数值通过五折交叉验证进行多次预测，并在对比后选择最佳参数组合得到最佳机器学习模型，具体为：依次对不同模型参数的不同参数值范围通过五折交叉验证多次预测获取对应的评分，记录下评分最佳的参数值，使用评分最佳的参数值重新构建一个参数组合最佳的机器学习模型用于后续预测。

8.根据权利要求1所述的一种基于谱图分析的有机物生物毒性预测方法，其特征在于，向最佳机器学习模型输入插值处理后的谱图数据，通过最佳机器学习模型学习并提取谱图中与生物毒性相关的信息，输出生物毒性预测结果，具体为：向最佳机器学习模型输入插值处理后的谱图数据，让模型学习训练集数据并提取谱图中与生物毒性相关的信息，最后输出生物毒性的预测值或者类别。

9.一种基于谱图分析的有机物生物毒性预测系统，其特征在于，包括：

预测结果输出模块，用于输出生物毒性的预测结果。