CN113077841B

CN113077841B - 一种预测调控酵母自噬的功能基因的方法

Info

Publication number: CN113077841B
Application number: CN202110225734.XA
Authority: CN
Inventors: 薛宇; 王晨玮; 彭迪; 宁万山; 付珊珊
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2021-03-01
Filing date: 2021-03-01
Publication date: 2022-05-24
Anticipated expiration: 2041-03-01
Also published as: CN113077841A

Abstract

本发明属于生物信息技术领域，公开了一种预测调控酵母自噬的功能基因的方法，包括步骤：S1：对饥饿诱导处理前后的正常及敲除自噬关键调控基因的酵母样本进行时序转录组和蛋白质组分析；S2：筛选存在相互作用的基因，记为集合A；S3：提取集合A中的每个基因的转录表达变化、蛋白质表达变化、以及与已知自噬基因的相互作用程度，作为特征；S4：建立并训练预测模型；S5：优化模型，并对集合A中的基因进行打分，从而预测调控酵母自噬的功能基因。利用本发明中的预测方法，能够在传统实验方法验证之前，有效地缩小基因筛选范围，从而减少实验验证的工作量，并准确预测调控酵母自噬的功能基因。

Description

一种预测调控酵母自噬的功能基因的方法

技术领域

本发明属于生物信息技术领域，更具体地，涉及一种预测调控酵母自噬的功能基因的方法。

背景技术

自噬是一种基于溶酶体(动物)/液泡(酵母和植物)的降解途径，通过形成自噬体，将受损的细胞器、错误折叠的蛋白质等细胞物质吞噬，运输到溶酶体/液泡中降解，满足代谢需求及部分细胞器的更新。自噬可分为选择性自噬及非选择自噬两种类型。在营养缺失和多种刺激条件下，自噬活性显著上升，从而发挥对细胞的保护功能。细胞自噬的发生包括自噬泡的形成和延伸，自噬体的成熟，自噬体与溶酶体的融合等过程。在自噬研究领域，酿酒酵母是一种经典的、用于研究自噬的分子调控机制的重要模式生物。至今，酵母中已有42个自噬核心基因被鉴定，且约有一半在哺乳动物中存在直系同源基因，自噬发生的不同阶段受到自噬核心的紧密调控。目前，研究发现表明共有18个自噬核心蛋白质对于细胞自噬中的自噬体形成至关重要。尽管已有包括atg9在内的多个自噬核心蛋白质被鉴定，然而由这些自噬核心蛋白质参与的自噬调控分子机制仍有待进一步研究。因此，进一步发掘并鉴定新的、参与调控酵母自噬的功能基因尤为重要。然而，传统的实验方法验证并发现重要的、参与调控细胞自噬的功能蛋白质主要的局限性在于：(1)实验周期长；(2)人力成本大和实验材料耗费成本高。

发明内容

针对现有技术中传统实验方法鉴定调控酵母自噬的功能基因需要实验周期长、耗费成本高的以上缺陷或改进需求，本发明的目的在于提供一种预测调控酵母自噬的功能基因的方法，其中通过对方法整体流程设计进行改进，并选定关键的基因三类特征，基于转录组及定量蛋白质组的多组学数据，利用多组学数据整合实现调控自噬基因的预测。利用本发明中的预测方法，能够在传统实验方法验证之前，有效地缩小基因筛选范围，从而减少实验验证的工作量，并准确预测调控酵母自噬的功能基因。

为实现上述目的，按照本发明，提供了一种预测调控酵母自噬的功能基因的方法，其特征在于，包括以下步骤：

S1：根据预先选定的自噬关键调控基因，对饥饿诱导处理前后的正常酵母样本及敲除该自噬关键调控基因的变异酵母样本分别进行时序转录组和蛋白质组分析，获取饥饿诱导处理前后的酵母样本的基因表达数据及蛋白质表达数据；

S2：根据预先选定的蛋白质相互作用数据库，从中筛选出与所述自噬关键调控基因存在相互作用的基因，记为集合A；同时，根据预先选定的自噬基因数据库，标记所述集合A中已知自噬功能的已知自噬基因，记为集合B，所述集合B为所述集合A的子集；

S3：提取所述集合A中的每个基因在所述自噬关键调控基因敲除前后的转录表达变化、蛋白质表达变化、以及与所述自噬基因数据库中已知自噬基因的相互作用程度，作为所述集合A中的每个基因的三类特征；

S4：建立预测模型，基于所述步骤S3中确定的三类特征，利用机器学习算法，以所述集合B中的基因对应训练用阳性数据集，以所述集合A且排除所述集合B中的基因对应训练用阴性数据集，对所述预测模型进行训练；

S5：通过随机突变特征权重的方法，对所述步骤S4得到的训练后的预测模型进行优化，得到最终预测模型；接着，利用所述最终预测模型对所述集合A中的基因进行打分，得分满足预先设定要求的基因即被预测为调控酵母自噬的功能基因。

作为本发明的进一步优选，所述步骤S1中，所述饥饿诱导处理所采用的自噬诱导剂选自氮源缺失培养基、糖源缺失培养基和雷帕霉素。

作为本发明的进一步优选，所述步骤S1中，所述正常酵母样本和所述变异酵母样本中的酵母细胞均对应酿酒酵母细胞。

作为本发明的进一步优选，所述步骤S1中，进行时序转录组和蛋白质组分析，获取饥饿诱导处理前后的酵母样本的基因表达数据及蛋白质表达数据，具体是：

时序转录组分析：通过二代基因测序仪对酵母样本进行转录组测序，获得测试数据后，利用Bowtie-Tophat-Cufflinks系列软件对这些数据进行搜库及定量分析，获得基因表达量信息和差异表达基因的信息；

蛋白质组分析：通过液相色谱质谱联用对酵母样本进行蛋白质组分析，获得测试数据后，对这些数据利用MaxQuant软件进行搜库及定量分析获得蛋白质分布和强度信息，利用PANDA-view软件对强度信息进行缺失值填补和归一化处理。

作为本发明的进一步优选，所述步骤S1中，获取饥饿诱导处理后的酵母样本的基因表达数据及蛋白质表达数据，具体是，获取饥饿诱导处理后的酵母样本不同时间的基因表达数据及蛋白质表达数据；

相应的，所述步骤S3中，提取所述集合A中的每个基因在所述自噬关键调控基因敲除前后的转录表达变化、蛋白质表达变化，具体是，提取所述集合A中的每个基因在所述自噬关键调控基因敲除前后不同时间的转录表达变化、蛋白质表达变化。

作为本发明的进一步优选，所述步骤S2中，所述蛋白质相互作用数据库选自BioGRID、IID、HINT和iRefIndex这四个数据库；

所述自噬基因数据库为THANATOS。

作为本发明的进一步优选，所述步骤S3中，所述集合A中的每个基因与所述自噬基因数据库中已知自噬基因的相互作用程度，具体是，根据所述自噬基因数据库，统计所述集合A中的每一个基因与所述自噬基因数据库中已知自噬基因存在相互作用的已知自噬基因的数目。

作为本发明的进一步优选，所述步骤S4中，所述机器学习算法优选为逻辑回归算法。

作为本发明的进一步优选，所述步骤S5中，所述优化具体为：随机对所述三类特征的权重值进行+△或-△突变处理，利用GSEA算法计算突变后的富集得分，若富集得分上升则保留突变，反之拒绝；其中，△的取值预先设定；

优选的，△＝0.1。

通过本发明所构思的以上技术方案，与现有技术相比，本发明方法首先基于蛋白质-蛋白质相互作用的公共数据库(具体使用的蛋白质相互作用数据库可预先选定)，筛选出与自噬核心基因(即，自噬关键调控基因)存在相互作用的酵母基因，并标记出其中已知的自噬基因；随后，基于转录组及定量蛋白质组数据，提取自噬核心基因基因敲除前后各基因转录表达水平变化及蛋白质表达水平变化(转录表达水平变化及蛋白质表达水平变化分别作为基因的第一类特征和第二类特征)，同时统计与该基因存在相互作用的已知自噬基因数目(作为基因的第三类特征)；进一步的，基于三类特征，利用机器学习算法(如逻辑回归算法)对上述基因进行模型训练，使已知自噬基因得分靠前；进而，通过随机突变各特征权重的方式，并利用GSEA算法对训练模型进行评估，确定优化后的预测模型(尤其可以是最优的预测模型)；最后，在优化后模型打分中排名靠前的基因被预测为由自噬核心基因介导的、参与了酵母自噬调控的重要功能基因。

本发明结合转录组及定量蛋白质组的数据，综合考虑了基因在转录水平及蛋白质水平的变化。同时，通过统计与已知自噬基因相互作用数目引入了新的特征，利用机器学习算法实现了对参与酵母自噬调控的重要功能基因的快速预测。该方法能有效地缩小基因筛选范围，减少实验验证的工作量，并准确预测调控酵母自噬的功能基因。

附图说明

图1是基于多组学数据整合的、参与调控自噬的功能蛋白质预测方法的流程图。

图2是基于多组学数据整合的、参与调控自噬的功能蛋白质预测方法的示意图。

图3是敲除GLO3前后的剪切对比图(图中所示当SD-N(h)为0时，即对应饥饿诱导处理前，下同)；敲除GLO3能阻碍由氮源缺失处理而诱导的GFP-Atg8的剪切。

图4是敲除GLO3前后的液泡对比图；敲除GLO3能阻碍由氮源缺失处理而诱导的GFP-Atg8进入液泡。

图5是敲除SCS7前后的剪切对比图；敲除SCS7能阻碍由氮源缺失处理而诱导的GFP-Atg8的剪切。

图6是敲除SCS7前后的液泡对比图；敲除SCS7能阻碍由氮源缺失处理而诱导的GFP-Atg8进入液泡。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

以酿酒酵母为例，本发明中预测调控酵母自噬的功能蛋白质的方法，包括以下步骤：

(1)利用减氮培养基对正常及自噬核心基因敲除后酿酒酵母进行处理，得到自噬发生前后的酵母样品；其中，自噬核心基因(即，自噬关键调控基因)可预先选定，例如，可以是已有的自噬基因数据库(如自噬基因公共数据库)中任意一个已知自噬功能的已知自噬基因；

(2)对获得的每个酵母样品进行转录组及定量蛋白质组的组学鉴定，得到酵母样品的mRNA测序信息、蛋白质组鉴定信息；

(3)转录组数据可利用Bowtie-Tophat-Cufflinks系列软件进行数据处理，获取基因的定量信息和基因的显著变化信息；

(4)定量蛋白质组数据可使用MaxQuant分析软件对质谱数据进行搜库及定量分析，获得蛋白质丰度信息；可利用PANDA-view对定量信息进行缺失值填补和归一化处理；

(5)基于预先选定的蛋白质相互作用数据库(如，包括BioGRID、IID、HINT和iRefIndex在内的蛋白质相互作用数据库)中的信息，筛选出与自噬核心基因相互作用的基因；

其中，预先选定的蛋白质相互作用数据库，均为已有数据库；

(6)基于预先选定的自噬基因数据库(如，THANATOS)，标记出步骤(5)筛选出基因中已知的自噬基因；

其中，THANATOS数据库为已有数据库(http://thanatos.biocuckoo.org/)；

(7)基于转录组及定量蛋白质组数据，提取步骤(5)中基因转录水平及蛋白质水平的表达变化，并且，利用预先选定的蛋白质互作数据库(即，BioGRID、IID、HINT和iRefIndex数据库)，统计步骤(5)中各个基因与预先选定的自噬基因数据库(即，THANATOS数据库)搜集的已知自噬基因存在相互作用的已知自噬基因数量(每个基因所对应的已知自噬基因数量，也即，蛋白质互作信息)；

(8)利用逻辑回归算法，以步骤(6)中筛选标记出已知参与调节自噬基因的、与自噬核心基因互作的基因作为训练的阳性数据集，其余的在步骤(5)中筛选出的未知的、与自噬核心基因互作的基因作为训练的阴性数据集，基于步骤(7)中提取的基因表达信息、蛋白质表达信息和蛋白质互作信息作为模型的训练特征，对步骤(5)中的基因进行预测模型训练；模型经过训练后，可使得已知自噬基因排名靠前；

参照现有技术，上述用于模型训练的逻辑回归(Logistic Regression,LR)算法，可以直接调用scikit-learn开放源码包(https://scikit-learn.org/stable/index.html)，使用训练模型的具体参数可如下：penalty＝l2(ridge regression),C＝1.0,intercept_scaling＝1,solver＝“liblinear”,max_iter＝1000,and n_jobs＝10。

(9)基于步骤(8)中获得的模型，对各特征权重值随机+0.1或-0.1突变处理，并利用GSEA算法计算富集得分，保留使得富集得分升高的突变，重复突变步骤，直至富集得分不再升高，从而实现对模型的优化；

(10)利用步骤(9)中获得的优化后模型，对步骤(5)中的各个基因进行打分，得分靠前的基因(如得分前12.5％的基因；前12.5％这一标准可根据实际情况灵活调整，当然，也可以以分数值作为标准)为参与了调控酵母自噬的功能基因。

以下为具体实施例：

实施例1

本实施例提供了一种基于多组学整合的、参与调控自噬的功能蛋白质预测的方法，如图1和图2所示，包括以下步骤：

使用氮源缺失培养基作为自噬诱导剂对野生型(BY4741；MATa his3D leu2Dmet15D ura3D)和相应的atg9基因敲除型的酵母细胞分别处理0小时、1小时、4小时，收集处理后3个时间点的酵母细胞样品。

利用二代基因测序仪HiSeq 4000system对氮源缺失培养基处理前后的酵母细胞样品进行RNA测序，获得转录组数据。

利用Bowtie-Tophat-Cufflinks系列软件对转录组数据进行分析处理，获得基因的定量信息。

利用液相色谱质谱联用(LC-MS)对氮源缺失培养基处理前后的酵母细胞样品进行蛋白质组分析，获得定量蛋白质组的数据。

利用MaxQuant分析软件对定量蛋白质组进行搜库及定量分析，获得肽段分布及定量信息。利用PANDA-View软件对肽段定量信息进行缺失值填补和归一化处理分析。

从BioGRID、IID、HINT和iRefIndex数据库中收集和整合实验证实的、与Atg9蛋白质相互结合的341个酵母基因信息，再将该部分的基因信息与THANATOS数据库整合的酵母自噬调控基因信息进行匹配(THANATOS数据库整合收录了已知具有自噬功能的已知自噬基因)。匹配后可知这341个基因中，包含与Atg9相互作用的、参与调控酵母自噬的39个基因。

其中，THANATOS数据库为已有数据库(http://thanatos.biocuckoo.org/)。

基于转录组及定量蛋白质组数据，分析与Atg9相互作用的341个酵母基因在基因转录水平及蛋白质水平的表达变化。同时，对于341个基因，利用上述4个蛋白质互作数据库(即，BioGRID、IID、HINT和iRefIndex数据库)，分析341个基因中每个基因与THANATOS数据库中收集的174个已知酵母自噬基因具有相互作用的已知酵母自噬基因数目。

针对341个与Atg9相互作用的酵母基因，分析每个基因在转录层面和蛋白质表达层面及与已知自噬蛋白质相互作用情况，并作为模型的训练特征，利用逻辑回归算法，对预测模型进行训练，并利用GSEA算法对预测模型进行优化。

根据与Atg9相互作用的341个酵母基因的打分情况，得分靠前的为参与了调控酵母自噬的功能基因；例如，可以取得分前12.5％的42个基因，即，共预测了42个潜在的、参与调控细胞自噬的功能基因。预测结果中，包含了15个已知的、参与自噬调控的基因(这15个基因包括在上述39个基因中)，以及27个潜在的、参与自噬调控的基因。具体功能基因的信息如下：

已知自噬调控基因：SEC22；VTI1；ATG1；VPS30；TLG2；VPS21；COG3；CDC48；ATG8；PHO23；YPT1；ATG23；TRS85；SEC17.

潜在的、参与调控细胞自噬基因：SSA1；SSB1；DHH1；CCR4；SSA2；ISW1；PMR1；YDJ1；VPS1；MPT5；BRL1；CDC20；SGV1；CMD1；SCS7；GLO3；GOS1；FMP48；BET4；SEC27；COG4；MYO2；PUF3；SEC23；PHO80；PIL1；YIP1；YPT7.

实施例2

为验证基因是否参与调控自噬，在本实施例中，以上述实施例1得到的潜在的、参与调控细胞自噬基因GLO3、SCS7为例，结合酵母基因敲除库，利用免疫印迹方法检测GFP-Atg8蛋白质的剪切变化情况，来探究预测基因对酵母细胞自噬的影响。同时，根据GFP-Atg8蛋白质进入液泡的情况，判断预测基因对于细胞自噬活性的影响。如图3、图4所示，敲除GLO3能阻碍由氮源缺失处理而诱导的GFP-Atg8的剪切程度，并且减少GFP-Atg8进入液泡。如图5、图6所示，敲除SCS7能降低由氮源缺失处理而诱导的GFP-Atg8的剪切，并且阻碍GFP-Atg8进入液泡。通过实验，证实两个基因GLO3和SCS7在减氮处理诱导的细胞自噬中发挥了重要的调控功能，发现了两个新的、自噬调控因子。

基于以上的结果，证明该方法能够准确地预测新的、参与调控细胞自噬的功能蛋白质，因此在生物学研究领域具有重要的应用价值。

上述实施例是以酿酒酵母为例，除了酿酒酵母，本发明方法也适用于其他酵母；数据库(包括蛋白质相互作用数据库、自噬基因数据库)也可以根据实际情况灵活调整、预先选定。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种预测调控酵母自噬的功能基因的方法，其特征在于，包括以下步骤：

2.如权利要求1所述方法，其特征在于，所述步骤S1中，所述饥饿诱导处理所采用的自噬诱导剂选自氮源缺失培养基、糖源缺失培养基和雷帕霉素。

3.如权利要求1所述方法，其特征在于，所述步骤S1中，所述正常酵母样本和所述变异酵母样本中的酵母细胞均对应酿酒酵母细胞。

4.如权利要求1所述方法，其特征在于，所述步骤S1中，进行时序转录组和蛋白质组分析，获取饥饿诱导处理前后的酵母样本的基因表达数据及蛋白质表达数据，具体是：

5.如权利要求1所述方法，其特征在于，所述步骤S1中，获取饥饿诱导处理后的酵母样本的基因表达数据及蛋白质表达数据，具体是，获取饥饿诱导处理后的酵母样本不同时间的基因表达数据及蛋白质表达数据；

6.如权利要求1所述方法，其特征在于，所述步骤S2中，所述蛋白质相互作用数据库选自BioGRID、IID、HINT和iRefIndex这四个数据库；

所述自噬基因数据库为THANATOS。

7.如权利要求1所述方法，其特征在于，所述步骤S3中，所述集合A中的每个基因与所述自噬基因数据库中已知自噬基因的相互作用程度，具体是，根据所述自噬基因数据库，统计所述集合A中的每一个基因与所述自噬基因数据库中已知自噬基因存在相互作用的已知自噬基因的数目。

8.如权利要求1所述方法，其特征在于，所述步骤S4中，所述机器学习算法优选为逻辑回归算法。

9.如权利要求1所述方法，其特征在于，所述步骤S5中，所述优化具体为：随机对所述三类特征的权重值进行+△或-△突变处理，利用GSEA算法计算突变后的富集得分，若富集得分上升则保留突变，反之拒绝；其中，△的取值预先设定。

10.如权利要求9所述方法，其特征在于，△预先设定为0.1。