CN115206437A

CN115206437A - 一种线粒体效应分子的智能筛选体系及其构建方法和应用

Info

Publication number: CN115206437A
Application number: CN202210736387.1A
Authority: CN
Inventors: 刘皓淼; 王力卓; 杨志伟; 龙建纲
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2022-06-27
Filing date: 2022-06-27
Publication date: 2022-10-18

Abstract

一种线粒体效应分子的智能筛选体系及其构建方法和应用，属于分子生物学技术领域。线粒体效应分子的智能筛选体系构建方法包括：1、建立靶蛋白库；2、获得线粒体效应分子的数据集；3、采用Morgan分子指纹特征化数据集中的线粒体效应分子，进行去重和去脏处理后，再进行分子相似度处理，获得模型的输入集；4、以准确率和AUC值作为评估指标，构建获得支持向量机模型。本发明利用支持向量机模型在数据量较大的分子集中进行预测，并给出了概率分数靠前的可能对线粒体具有效应作用的分子，该模型有助于线粒体领域的科研人员减少调参时间，提高工作效率。

Description

一种线粒体效应分子的智能筛选体系及其构建方法和应用

技术领域

本发明属于分子生物学技术领域，具体涉及一种线粒体效应分子的智能筛选体系及其构建方法和应用。

背景技术

线粒体是存在于绝大部分真核细胞中的双层膜细胞器，被称为细胞的发电站。作为细胞内能量代谢的关键细胞器，线粒体既为细胞正常的生命活动供能，也容易因为氧化损伤、代谢功能紊乱造成线粒体功能障碍，细胞功能降低，最终导致线粒体疾病发生。随着对线粒体的深入研究，人们越来越清楚地认识到线粒体在细胞代谢、细胞生长、细胞存活和信号转导等多方面发挥重要功能。线粒体功能损伤与多种生理过程及疾病密切相关，比如衰老，免疫反应，糖尿病，癌症，神经退行性疾病，心脑血管疾病等。因此，越来越多的研究开始关注线粒体损伤在疾病中发挥的致病作用，以及如何更好的维持和保护线粒体功能。目前，针对线粒体疾病，已被发现了许多靶向线粒体的药物，可以有效治疗线粒体疾病。除了线粒体靶向药物外，线粒体领域的学者还积极探索对调节线粒体功能有作用的功能分子，从而辅助改善线粒体功能障碍。

但是，尽管线粒体靶向药物和线粒体营养素分子对线粒体疾病有良好的防治作用，但发现和筛选线粒体效应分子通常花费的时间较长，这与传统的生物筛选的特点相关。传统的药物或者分子筛选是一个非常复杂的过程，包括利用蛋白质组学和生物芯片技术获取蛋白质分子信息、进行生物信息学分析、完成生物活体实验等。虽然当今的生物实验手段得到了快速发展，RNA干扰技术、细胞芯片技术、蛋白质荧光标记技术和核磁共振技术都已被人们用来确证靶标蛋白和药物，但是受制于巨大的人力和物力消耗，仅凭这些传统的生物实验方法来大规模、高通量地筛选作用于特定靶标的分子已不能满足现代医药研发的需求。随着信息处理技术的飞速发展，智能计算技术应运而生，其规模化的分析能力和体系化的筛选机制，具备提供化合物分子筛选高效方案的潜质。

发明内容

针对上述现有技术中存在的缺陷，本发明的目的在于设计提供一种线粒体效应分子的智能筛选体系及其构建方法和应用。本发明利用机器学习对线粒体效应分子智能筛选，从训练集的建立、输入，到模型的调参以及最后在大数据集中进行预测，成功筛选出具有潜在线粒体效应的分子，建立了线粒体效应分子智能筛选体系。本发明利用支持向量机模型在大分子数据集中进行预测，并给出了概率分数靠前的可能对线粒体具有效应作用的分子，该模型有助于线粒体领域的科研人员减少调参时间，提高工作效率。

为了实现上述目的，本发明采用以下技术方案：

一种线粒体效应分子的智能筛选体系的构建方法，其特征在于包括以下步骤：

(1)收集生物分子作用的靶标蛋白的基本信息，建立靶蛋白库；

(2)基于上述步骤(1)建立的靶蛋白库，以IC50和AC50值作为效应分子的筛选标准，辅助ChEMBL数据库中效应分子的活性，筛选靶向线粒体上蛋白的效应分子，获得线粒体效应分子的数据集；

(3)采用Morgan分子指纹特征化上述步骤(2)获得的数据集中的线粒体效应分子，进行去重和去脏处理后，再进行分子相似度处理，获得模型的输入集；

(4)以准确率和AUC值作为评估指标，采用支持向量机算法学习和训练，构建线粒体效应分子筛选模型。

所述的构建方法，所述步骤(1)中靶标蛋白的基本信息包括名称、蛋白号、机制和定位。

所述的构建方法，所述步骤(1)中靶标蛋白包括肉碱棕榈酰转移酶、长脂肪酰辅酶A、犬尿氨酸酶、单胺氧化酶、辅酶Q-细胞色素c还原酶、细胞色素c、NADH脱氢酶、琥珀酸脱氢酶、甘油-3-磷酸脱氢酶、三磷酸腺苷合酶、肉碱棕榈酰转移酶Ⅱ、解偶联蛋白、MT-ND1、MT-ND2、MT-ND3、MT-ND4、MT-ND5、MT-ND6、MT-CYB、MT-CO1、MT-CO2、MT-CO3、二氢乳清酸脱氢酶、柠檬酸合酶、顺乌头酸酶、异柠檬酸脱氢酶、a-酮戊二氢脱氢酶复合体、琥珀酸辅酶A合成酶、延胡索酸酶、苹果酸脱氢酶、谷草转氨酶、谷氨酸脱氢酶、丙酮酸脱氢酶复合体、氨甲酰磷酸合成酶Ⅰ、鸟氨酸转氨甲酰酶、N-乙酰谷氨酸合酶、乙醛脱氢酶、肌酸激酶、腺苷酸激酶、胆固醇侧链裂解酶、醛固合成酶、T1M10、T1M23。

所述的构建方法，所述步骤(2)中数据库包括ChEMBL数据库。

所述的构建方法，所述步骤(2)数据集包括IC50和/或AC50值小于1000nm的线粒体效应分子、IC50和/或AC50值大于50000nmol的线粒体效应分子、无IC50值和AC50值但数据库中对靶点明确具有活性的线粒体效应分子、无IC50值和AC50值并且数据库中对靶点明确无活性的线粒体效应分子。

所述的构建方法，将所述IC50和/或AC50值小于1000nmol的线粒体效应分子，以及所述无IC50值和AC50值但数据库中对靶点明确具有活性的线粒体效应分子设为正样本。

所述的构建方法，将所述IC50和/或AC50值大于50000nmol的线粒体效应分子，以及所述无IC50值和AC50值并且数据库中对靶点明确无活性的线粒体效应分子设为负样本。

所述的构建方法，所述步骤(2)中采用python工具包对靶向线粒体上蛋白的效应分子进行检索和筛选。

一种线粒体效应分子的智能筛选体系，通过任一项所述的构建方法建立得到。

所述的线粒体效应分子的智能筛选体系在发现和筛选线粒体效应分子中的应用。。

本发明原理为：利用机器学习对线粒体效应分子进行预测，就是利用机器学习对数据的学习能力，使用己有的医药数据对模型进行训练，使模型拥有对新的数据进行预测的能力。基于机器学习的线粒体效应分子筛选研究主要分为以下几个流程。

第一步：确定研究目标并收集相应的数据。收集数据是非常重要的一步，数据集的质量直接决定模型效果的上限。本研究中的原始数据主要是对于线粒体上的特定蛋白具有效应的分子，这些分子一般从数据库中收集，效应分子的主要信息应包括分子编号，分子名，靶蛋白名称，具体作用方式。

效应分子靶向线粒体的作用机制复杂，其中大部分分子都对线粒体上的蛋白具有效应，故在蛋白库中寻找定位于线粒体上的典型蛋白，这些蛋白包括了与线粒体有关的生化过程，如三羧酸循环、氧化磷酸化等，从而建立线粒体靶蛋白库。对于靶蛋白具有效应作用的分子可以认为靶向线粒体，并且对线粒体具有效应，因此将这些分子纳入线粒体效应分子数据集。

第二步：数据处理。在收集的原始数据中，可能会包含有很多的无效信息，包括存在缺失值，重复值，特征冗余，高维稀疏特征等情况，不能直接用来训练模型。在用原始数据对模型进行训练之前首先要对数据进行预处理。此外，由于收集的原始数据大部分来源与数据库，数据库中对分子的描述主要采用SMILES字符串，在对数据进行预处理时，通常采用分子描述符处理SMILES字符串，提取分子中的有效化学信息，以便计算机处理数据。

第三步：机器学习算法选择。从药物靶标相互作用预测的国内外研究现状可以看出，机器学习算法的选择尤为重要，机器学习发展至今，研究者们提出了非常多优秀的机器学习算法。不同的应用场景可能有不同的适用算法，常用的机器学习算法有决策树，逻辑回归，支持向量机，决策树算法等，因此需要选取典型的机器学习算法和深度神经网络框架，对线粒体效应分子数据集建模，并利用网格调参法针对每种模型涉及的参数调节到最佳，使各模型的性能也达到最好的效果，接着针对评价模型性能的几种指标比对各算法模型，选取可能更加适用于本研究且预测性能较好的模型。

第四步：模型评估。机器学习模型建模完成后，需要选择合适的验证方法以及评价指标对模型效果进行评估，常用的模型验证方法有五折交叉验证，常用的分类评价指标有准确率、精确度、AUC等。根据评价指标可以针对各种算法的参数进行调节，选取最适合各组模型的最佳参数。

第五步：分子预测。在此前的步骤已经选出最适合于线粒体效应分子筛选的模型，因此可以利用最佳的模型对数据量比较大的未知分子集进行预测，一般分类算法最终会得出各分子的概率分数，按照分数从高到低排序，之后选择排名较为靠前的分子进行相关的生物学验证，该验证的结果也可以反证模型的预测性能，同时对于实验效果较好的分子，最终可以将其纳入数据集，达到扩充数据的作用。

与现有技术相比，本发明具有以下有益效果：

本发明建立了线粒体效应分子数据集，比较并优选出了经典算法应用于线粒体效应分子的筛选模型。验证模型并对大量化合物对线粒体产生影响的几率进行了预测和评估。利用模型评价指标评估各个模型还不足以验证其性能，本发明还将已证明为线粒体营养素的分子作为测试集，利用已知结果验证模型的正确性和预测效果。此外，在海量分子库中筛选出靶向线粒体的效应分子，通过生物实验验证筛选分子是否具有靶向线粒体的效应作用，整体上评估各模型对于线粒体效应分子的筛选作用，从而得到最优即本发明模型。通过应用本发明模型，研究人员可以省去大量的调参和处理数据输入输出的时间，可供线粒体领域的相关工作者使用。

附图说明

图1为本发明技术路线图；

图2为支持向量机模型调参过程，其中，图2a横坐标代表核函数参数选择，可选择的函数为linear，sigmoid，poly，rbf；图2b横坐标代表C参数调节，取值范围为[0,100]；图2c横坐标代表gamma参数调节，取值范围为[0,2]，图2a-c的纵坐标为支持向量机模型在对应参数取值时的AUC值。

具体实施方式

以下将结合附图和实施例对本发明作进一步说明。

实施例1：建立靶蛋白库

本发明技术路线图如图1。

本发明收集了早期发现的一系列经典的靶向线粒体的分子，以及已明晰了大量分子作用的靶标蛋白，如乙醛脱氢酶，苹果酸脱氢酶，线粒体复合物等。在上述数据库中查询了对应蛋白的有关信息并归入靶蛋白表中。同时，为了保证数据的可靠性和全面性，在蛋白数据库一并查询定位于线粒体的经典蛋白质，整合入靶蛋白表中，在表中关于各个蛋白的主要信息，包括蛋白的中英文名称，蛋白号，蛋白主要作用效应和机制以及蛋白在线粒体上的定位，整合的线粒体靶蛋白表见下表1。由于线粒体中存在许多功能不同的复合物，故若复合物主要由若干种酶组成，则该复合物的蛋白号主要给出组成复合物的酶蛋白编号。而如果复合物由许多亚基构成，那么将各亚基的蛋白号统一归为复合物编号。对于数据库中或文献中未明确蛋白定位的靶分子，将定位定义为其他。

表1整合的线粒体靶蛋白表

实施例2：线粒体效应分子选取

ChEMBL数据库中对于特定靶点的效应活性指标以IC50值最多，其次为AC50值。IC50值可以代表化合物对线粒体产生抑制的能力，即其影响能力与IC50值成反比。而AC50值与IC50相反，其值代表分子对特定靶点的正向效应，其值越低，代表促进作用越强。本发明也将采用这两个活性指标值作为效应分子的筛选标准，选择将IC50和AC50值小于1000nm的都作为正样本，IC50和AC50大于50000nm的作为负样本。另外，对于无IC50和AC50指标的效应分子，若数据库中明确表述其活性，也将其纳入分子集中，作为正样本。

为了更加快速的对所需分子的检索和筛选，数据库官方提供了一个python工具包chembl_webresource_client(https://github.com/chembl/chembl_webresource_client)。该工具包可以自动调用ChEMBL数据库，对于特定的靶点查找与靶点相关的化合物分子，并且可以将检索结果批量输出至文件中。

实施例3：分子预处理

1、分子信息特征化表示

在得到效应分子的信息后，需要提取分子中包含的特征信息让计算机能够识别，这即是分子描述符。分子指纹是分子描述符的一种，对于表征分子，获取分子所含生化信息具有较好的特征提取能力。

本发明使用了Morgan分子指纹来特征化效应分子。Morgan分子指纹可以有效描述化合物分子，通过化合物分子结构中是否存在Morgan指纹描述的特定结构，就可以将化合物分子转换为二进制数字串，供计算机识别。在本发明中每种分子的Morgan分子指纹表征为1024位二进制数字。文件中分子的表现形式为SMIELS字符串，需要将分子编码字符串转换为分子结构图，从而让Morgan分子指纹从分子图中分析分子拥有的化学键及包含原子等信息。

2、分子相似度处理

分子由于官能团或者原子键的大量相同容易具有很高的相似度，并且相似度高的分子往往具有相同的效应。但是如果数据集中存在大量相似度高的分子，容易导致样本分布不均匀，导致输入到算法建模后，模型的拟合能力较差。因此，对于去重和去脏后的数据集仍需进行相似度的处理，即去除相似度高的分子数量，保证数据集样本最终分布均匀。Morgan指纹中包含了计算分子相似度的方法，通过使用计算分子相似度的函数对数据集进行处理，具体过程如表2-5所示。

表2去重和去脏的代码处理

表3Morgan指纹分子信息提取

表4分子相似度处理

表5分子相似度比较

注：表中N代表与单个分子相似的分子个数。

相似度从0.8、0.9、0.95(即80％,90％,95％相似度)验证集和测试集中的AUC值和准确度数值基本依次升高，证明选择相似度为0.95时，支持向量机模型的性能更好。在每一个相似度量中，N值从0、2、4取值，验证集和测试集中的AUC值和准确度数值也基本依次升高。在相似度为0.95时，从N值的取值来看，单个分子的相似分子个数控制在4个范围内的模型最优。因此最后的数据集选定为相似度为0.95，且相似分子数范围为4，后续研究将以此数据集输入到各算法中，评估各模型。

实施例4：经典算法建模和评估

主要研究利用经典的机器学习方法针对处理后的效应分子集建立模型，并分析比较各模型优劣。评价模型一般有通用的指标，对于分类任务，通常评估指标为精确度和AUC值。依据指标量调节各模型的参数。采用贝叶斯优化调参法应用于各模型的调节中，力求各模型的性能达到最优。本研究中涉及到的线粒体效应分子集对其中某些算法可能不适合，通过模型指标量多维度对比分析，总结归纳各模型的优劣势，最终选择合适的算法模型用于新分子的预测。

支持向量机作为一类经典的机器学习算法，本研究首先将效应分子集输入到此算法中，在本文中用于调节支持向量机的参数如表6。

表6支持向量机参数列表

采用贝叶斯优化调节模型参数，贝叶斯调参的一般步骤为：定义用于最小化的目标函数，定义参数搜索空间，存储搜索过程中所有点组合以及效果的方法。贝叶斯调参对于定义的参数空间可以自动搜索出最适合于模型的参数组合，并在结果中显示。

为了直观表现各参数在调节过程中的数值变化，将各参数的具体调节过程可视化见图2。图2中横坐标为参数取值，参数取值来源于支持向量机的参数空间定义，纵坐标为AUC值，图中各点为参数调节过程中各参数取值点的分布。贝叶斯优化调参法可以自动搜索参数空间中的最优点，可视化的图像也对应算法中的具体选取参数点，通过比较各值位于参数空间中纵坐标，即AUC值，选择最大AUC值对应的参数取值，对应图中的横坐标数值。

从图2中可以看出，对于核函数参数的选取，最佳核函数为poly函数，C参数选择为100，gamma参数选择为0.5时AUC值最高。因此最佳参数组合为：C参数在C为100，gamma值为0.5，核函数选择为poly。当支持向量机模型应用以上参数时，所得到的模型的AUC值最大，表明选择此组参数的模型性能最佳。由于本文中所用算法的调参方法均为贝叶斯优化调参法，后文中各算法模型的调参过程与支持向量机模型的调参过程基本一致，故对后文中如何选取最佳参数不过多赘述，仅给出调参过程可视化图和对应的最佳参数取值。

按照参数组合C为100，gamma为0.5，核函数选择poly建模，然后评估支持向量机模型。本发明中采用交叉验证法评估模型，分别计算训练集、验证集、测试集的精确度及AUC值，最终支持向量机模型训练集准确率为0.997±0.001，AUC值为0.999±0.001，验证集准确率为0.895±0.013，AUC值为0.951±0.006，测试集准确率为0.898±0.015，AUC值为0.955±0.009。

本发明首先分别针对经典的应用于分类的机器学习算法进行建模，以及针对每一个模型应用贝叶斯优化调参选出最佳参数组合，最后统一比较各模型的性能。五种模型比较和评估见下表7。

表7五种模型比较和评估

通过各模型的比较，支持向量机和XgBoost两种算法在线粒体效应分子数据的建模评估上各项指标值都较高。支持向量机模型和XgBoost模型在各数据集中的AUC值基本无差异，但是从准确度指标在各数据集的体现来看，支持向量机模型的准确率要高于XgBoost模型，因此选用支持向量机模型作为后续的验证和预测新分子的主要模型。

实施例5：已知分子验证

采用文献中实际论证过的线粒体效应分子作为验证因子，基于课题组原有线粒体营养素的研究，对通过活性验证的营养素，共21种用于验证支持向量机模型对于线粒体效应分子筛选的适用性。21种分子的信息为表8。

表8验证模型的营养素分子

通过这21种经典营养素用于验证模型，通常对于分类模型来说，预测分数大于0.5视为正样本，低于0.5视为负样本，在本研究中，预测分数大于0.5意为分子对线粒体有效应作用，低于0.5意为分子对线粒体无效应作用，最优模型支持向量机模型在这21种分子中所有分子得分都大于0.5，表明学习机认为此集合中的所有分子都靶向线粒体，对线粒体产生效应。从对已知营养素的验证结果来看，支持向量机模型具有很高的准确率，结合模型的评估指标量综合来看，算法模型较为可靠，可以应用于大分子集的预测，筛选新的线粒体效应分子。

实施例6：模型预测新分子

本实例采用ZINC数据库中的一个活性分子集，该分子集全部做了体外实验，大部分分子均有特定的效应，总共有14万个分子，下面将对这个大数据集展开预测。应用支持向量机模型在大数据集中预测后，按照概率分数从高到低排序，筛选出前100种分子，并去除出现于训练集中的分子，和分子结构较为相似的分子。按照概率分数排名从高到低筛选出前10名的分子，预测分子信息见下表9。

表9预测分子信息

总结来说，本发明首先对支持向量机模型进行验证，选择经过实验论证的21种线粒体营养素作为支持向量机模型的输入，支持向量机模型对于21种分子的预测分数均高于0.5，且分布区间为[0.7，1]，表明模型在21种分子的预测中都显示出了良好的预测效果，可说明支持向量机应用于线粒体效应分子数据集是适用的。接着采用ZINC数据库中含有14万个分子的大数据集作为预测集，将支持向量机模型用于对大数据集预测，筛选出了按照从高到低的概率分数排名靠前的分子。

Claims

1.一种线粒体效应分子的智能筛选体系的构建方法，其特征在于包括以下步骤：

2.如权利要求1所述的构建方法，其特征在于所述步骤(1)中靶标蛋白的基本信息包括名称、蛋白号、机制和定位。

3.如权利要求1所述的构建方法，其特征在于所述步骤(1)中靶标蛋白包括肉碱棕榈酰转移酶、长脂肪酰辅酶A、犬尿氨酸酶、单胺氧化酶、辅酶Q-细胞色素c还原酶、细胞色素c、NADH脱氢酶、琥珀酸脱氢酶、甘油-3-磷酸脱氢酶、三磷酸腺苷合酶、肉碱棕榈酰转移酶Ⅱ、解偶联蛋白、MT-ND1、MT-ND2、MT-ND3、MT-ND4、MT-ND5、MT-ND6、MT-CYB、MT-CO1、MT-CO2、MT-CO3、二氢乳清酸脱氢酶、柠檬酸合酶、顺乌头酸酶、异柠檬酸脱氢酶、a-酮戊二氢脱氢酶复合体、琥珀酸辅酶A合成酶、延胡索酸酶、苹果酸脱氢酶、谷草转氨酶、谷氨酸脱氢酶、丙酮酸脱氢酶复合体、氨甲酰磷酸合成酶Ⅰ、鸟氨酸转氨甲酰酶、N-乙酰谷氨酸合酶、乙醛脱氢酶、肌酸激酶、腺苷酸激酶、胆固醇侧链裂解酶、醛固合成酶、T1M10、T1M23。

4.如权利要求1所述的构建方法，其特征在于所述步骤(2)中数据库包括ChEMBL数据库。

5.如权利要求1所述的构建方法，其特征在于所述步骤(2)数据集包括IC50和/或AC50值小于1000nmol的线粒体效应分子、IC50和/或AC50值大于50000nmol的线粒体效应分子、无IC50值和AC50值但数据库中对靶点明确具有活性的线粒体效应分子、无IC50值和AC50值并且数据库中对靶点明确无活性的线粒体效应分子。

6.如权利要求5所述的构建方法，其特征在于将所述IC50和/或AC50值小于1000nmol的线粒体效应分子，以及所述无IC50值和AC50值但数据库中对靶点明确具有活性的线粒体效应分子设为正样本。

7.如权利要求5所述的构建方法，其特征在于将所述IC50和/或AC50值大于50000nmol，以及所述无IC50值和AC50值并且数据库中对靶点明确无活性的线粒体效应分子的线粒体效应分子设为负样本。

8.如权利要求1所述的构建方法，其特征在于所述步骤(2)中采用python工具包对靶向线粒体上蛋白的效应分子进行检索和筛选。

9.一种线粒体效应分子的智能筛选体系，其特征在于通过如权利要求1-8任一项所述的构建方法建立得到。

10.如权利要求9所述的线粒体效应分子的智能筛选体系在发现和筛选线粒体效应分子中的应用。