CN116030881A

CN116030881A - 基于人工智能的基因及基因簇功能预测方法及装置

Info

Publication number: CN116030881A
Application number: CN202211596221.0A
Authority: CN
Inventors: 杨煜清; 李常坤
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2022-12-13
Filing date: 2022-12-13
Publication date: 2023-04-28

Abstract

本发明提出一种基于人工智能的基因及基因簇功能预测方法，包括，获取目标基因组的所有蛋白序列；利用已有目标功能的蛋白质的功能注释信息，构建模型训练集，训练得到预测模型；通过预测模型对所有蛋白序列进行目标功能的预测，获取蛋白序列的序列信息功能得分；利用蛋白质结构预测模型对蛋白序列的结构进行目标功能的预测，获取蛋白序列的结构信息功能得分；将序列信息功能得分和结构信息功能得分综合的结果作为蛋白序列的最终得分，根据所有蛋白序列的最终得分，评估目标基因组上的所有基因簇，挑选分值最大的基因簇作为候选基因簇。本发明为每个感兴趣的功能，针对性的构建数据集和序列预测模型，进行特定功能基因簇的预测、判别和筛选。

Description

基于人工智能的基因及基因簇功能预测方法及装置

技术领域

本发明属于人工智能领域。

背景技术

人体肠道微生物组对于维持人类健康至关重要，与2型糖尿病、肥胖、非酒精性脂肪肝、结直肠癌等多种疾病的发生发展密切相关。人体肠道中累积发现了数千种微生物，肠道菌群编码的基因数量是人体基因数量的150多倍，目前仍有90％的肠道微生物基因功能未知。肠道菌群的快速发展得益于全基因组和宏基因组测序、转录组和蛋白组等技术在人类微生物组领域的应用，使肠道微生物的基因表达、蛋白质丰度和菌株或物种组成等大量菌群信息被挖掘出来，其中包括未知的生物信息和功能数据，生物学家称之为“暗物质”。

微生物序列数据库中数以千计的原核生物基因组通过生物合成基因簇(BGC)编码各种代谢酶类，生物基因簇是一组物理上聚集(在基因组上距离较近)的基因集合。肠道菌群基因簇通过表达酶类、催化肠道消化、代谢纤维素为宿主提供维生素、锻炼脂肪苏等营养物质。而这些背后是由微生物基因组上功能性的基因簇完成的。有一些基因簇已经被解析，且小分子产物合成基因已经异源重组或使用纯化的酶在体外模拟反应，但是绝大多数的基因簇，甚至是那些已知产小分子的基因簇的分布和功能也未完全阐明。然而，人类肠道微生物组中90％的蛋白质序列缺乏功能注释。此外，由于基于序列相似性的计算注释，酶分子功能的错误注释和过度预测在公共数据库中经常发生。可见，功能未知的基因簇信息还有很多是未知的，未知功能基因簇的解析可为新型靶向菌群干预疾病疗法提供借鉴。

目前肠道功能性菌株筛选评价，主要依赖宏基因组测序数据分析-菌株分离-菌株功能验证的路径进行研究。虽然该路径方法成熟，但是耗时耗力。因此需要找到快捷高效的新型研究方法应用于目前海量的生物组数据，并结合体外和体内验证，提高菌株功能研究效率。细菌在次级代谢过程中产生的天然产物具有丰富的化学结构和生物活性，包含着抗生素、抗癌药物和抗病毒药物等多种类型的小分子候选药物，是开展新型药物研发的重要资源。在细菌基因组中，编码各种天然产物合成的基因以生物合成基因簇(BiosyntheticGene Cluster，BGC)的形式存在，为从序列到表型的天然产物发掘奠定了理论基础。

以尿酸代谢功能为例，目前已注释到尿酸酶基因的菌株多来源于土壤、植物病原菌和环境微生物中，相较于人体肠道内数千种微生物，人类肠道菌群中已知的尿酸酶基因簇屈指可数，潜在的参与尿酸代谢的菌株有待挖掘。

当前基因簇数据库信息有限，基于BLAST序列比对进行基因功能挖掘的方法无法有效发现新的基因功能及新的代谢通路，缺乏基于人工智能技术挖掘肠道菌群基因簇新功能的方法，亟需方法学上的创新。对ClusterFinder代表的基于传统机器学习方法的BGC预测工具来说，虽然所采用了隐马尔科夫HMM等方法，但由于算法本身的限制，其检测新型BGC的能力有限。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的目的在于提出一种基于人工智能的基因及基因簇功能预测方法，用于进行特定功能基因簇的预测、判别和筛选。

为达上述目的，本发明第一方面实施例提出了一种基于人工智能的基因及基因簇功能预测方法，包括：

获取目标基因组的所有蛋白序列；

利用已有目标功能的蛋白质的功能注释信息，构建模型训练集，训练得到预测模型；

通过所述预测模型对所有蛋白序列进行所述目标功能的预测，获取所述蛋白序列的序列信息功能得分；

利用蛋白质结构预测模型对所述蛋白序列的结构进行所述目标功能的预测，获取所述蛋白序列的结构信息功能得分；

将所述序列信息功能得分和所述结构信息功能得分综合的结果作为所述蛋白序列的最终得分，根据所有蛋白序列的最终得分，评估所述目标基因组上的所有基因簇，挑选分值最大的基因簇作为候选基因簇。

另外，根据本发明上述实施例的一种基于人工智能的基因及基因簇功能预测方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，在获取目标基因组的所有蛋白序列之后，还包括：

将所述蛋白序列切分成预定长度的蛋白序列片段。

进一步地，在本发明的一个实施例中，所述利用已有待预测功能的蛋白质的功能注释信息，构建模型训练集，训练得到预测模型，包括：

从肠道菌株数据库中，过滤出非待预测功能相关的蛋白序列，将所述非待预测功能相关的蛋白序列利用聚类工具缩减基因序列规模并结合机器学习聚类算法挑选代表性序列，作为负样本数据集；将已有待预测功能的蛋白序列作为正样本数据集；其中还包括，将所述非待预测功能相关的蛋白序列和所述已有待预测功能的蛋白序列切分成预定长度的蛋白序列片段；

根据所述负样本数据集和所述正样本数据集训练得到预测模型。

进一步地，在本发明的一个实施例中，所述根据所有蛋白序列的最终得分，评估所述目标基因组上的所有基因簇，挑选分值最大的基因簇作为候选基因簇，包括：

根据所有蛋白序列的最终得分进行排序，选择得分最高的K个蛋白序列作为锚点；

在所述目标基因组上以各个锚点为中心，根据所述锚点预定长度范围内临近蛋白序列的功能得分以及蛋白功能注释结果进行计算分析，获得所述锚点对应区域的功能评估得分；

根据所有区域的功能评估得分，挑选功能评估得分最大的基因簇作为候选基因簇。

为达上述目的，本发明第二方面实施例提出了一种基于人工智能的基因及基因簇功能预测装置，包括以下模块：

获取模块，用于获取目标基因组的所有蛋白序列；

训练模块，用于利用已有目标功能的蛋白质的功能注释信息，构建模型训练集，训练得到预测模型；

序列预测模块，用于通过所述预测模型对所有蛋白序列进行所述目标功能的预测，获取所述蛋白序列的序列信息功能得分；

结构预测模块，用于利用蛋白质结构预测模型对所述蛋白序列的结构进行所述目标功能的预测，获取所述蛋白序列的结构信息功能得分；

基因簇预测模块，用于将所述序列信息功能得分和所述结构信息功能得分综合的结果作为所述蛋白序列的最终得分，根据所有蛋白序列的最终得分，评估所述目标基因组上的所有基因簇，挑选分值最大的基因簇作为候选基因簇。

进一步地，在本发明的一个实施例中，所述获取模块，还用于：

将所述蛋白序列切分成预定长度的蛋白序列片段。

进一步地，在本发明的一个实施例中，所述训练模块，还用于：

进一步地，在本发明的一个实施例中，所述基因簇预测模块，还用于：

为达上述目的，本发明第三方面实施例提出了一种计算机设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如上所述的一种基于人工智能的基因及基因簇功能预测方法。

为达上述目的，本发明第四方面实施例提出了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如上所述的一种基于人工智能的基因及基因簇功能预测方法。

本发明实施例提出的基于人工智能的基因及基因簇功能预测方法，为每个感兴趣的功能，例如研究者对降尿酸功能感兴趣，而不是像别的模型一样，同时对所有已知的基因组和蛋白功能类型进行预测和分类，针对性的构建数据集和序列预测模型，进行特定功能基因簇的预测、判别和筛选。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例所提供的一种基于人工智能的基因及基因簇功能预测方法的流程示意图。

图2为本发明实施例所提供的完整的基于人工智能的基因及基因簇功能预测方法流程图。

图3为本发明实施例所提供的预测尿酸代谢基因簇示意图。

图4为本发明实施例所提供的一种基于人工智能的基因及基因簇功能预测装置的流程示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的基于人工智能的基因及基因簇功能预测方法。

实施例1

如图1所示，该基于人工智能的基因及基因簇功能预测方法包括以下步骤：

S101：获取目标基因组的所有蛋白序列；

将蛋白序列切分成预定长度的蛋白序列片段。

S102：利用已有目标功能的蛋白质的功能注释信息，构建模型训练集，训练得到预测模型；

进一步地，在本发明的一个实施例中，利用已有待预测功能的蛋白质的功能注释信息，构建模型训练集，训练得到预测模型，包括：

从肠道菌株数据库中，过滤出非待预测功能相关的蛋白序列，将非待预测功能相关的蛋白序列利用聚类工具缩减基因序列规模并结合机器学习聚类算法挑选代表性序列，作为负样本数据集；将已有待预测功能的蛋白序列作为正样本数据集；其中还包括，将非待预测功能相关的蛋白序列和已有待预测功能的蛋白序列切分成预定长度的蛋白序列片段；

根据负样本数据集和正样本数据集训练得到预测模型。

首先进行肠道菌株数据库构建。从NCBI Genome,IMG/M,和GMRepo等基因组和肠道菌群相关数据库中，收集整理人体肠道中已知的物种信息，包括物种的基因组序列、蛋白注释、物种营养和代谢类型、能否独立培养、需氧性、以及在健康人和患者中的相对丰度分布情况等信息，用于后续人工智能模型构建以及菌株筛选。

然后进行模型训练测试数据集的构建。针对感兴趣的功能，从KEGG中的代谢相关通路中，获取参与代谢的酶信息，从Uniprot数据库中获取相关酶蛋白序列信息；此外，根据文献调研结果补充研究报道过的功能序列以及代谢通路信息。

然后从肠道菌株数据库中，过滤出非目标功能相关的蛋白序列，考虑到数据量较大，需要利用cdhit等序列聚类工具缩减基因序列规模，并进一步结合机器学习聚类算法例如Kmeans，DBSCAN等通过聚类从中挑选代表性序列，作为模型构建的负样本数据集。

为了构建用于预测感兴趣功能的模型，需要将已知的功能序列及代谢通路上的酶的序列作为正样本。由于不同酶的蛋白序列长度不同，将对序列进行等长切分，以特定长度如50个氨基酸构成短序列单独构成一个样本。最后从正负样本中各随机抽取20％的蛋白序列构成模型测试数据集，剩余80％的序列构成模型训练数据集。

接下来进行模型训练和性能评估。模型训练可以借助Pytorch深度学习框架或scikit-learn机器学习库等，结合多种人工智能方法构建序列功能预测模型，通过集成训练的多个模型，进一步提升序列功能判别的准确性。例如纳入传统机器学习模型，包括逻辑斯特回归、随机森林、梯度提升树等，以及深度学习模型包括CNN、LSTM、和BERT等，将对功能序列的预测转换为序列分类问题。

在模型训练好后，需要依次扫描所有菌株的基因组，在每个菌株的基因组序列上，对所有蛋白序列进行功能评分。由于对较长的蛋白序列进行了切分，在对该蛋白序列的功能得分进行计算时，需要综合考虑所有切分片段得分。

S103：通过预测模型对所有蛋白序列进行所述目标功能的预测，获取蛋白序列的序列信息功能得分；

S104：利用蛋白质结构预测模型对蛋白序列的结构进行目标功能的预测，获取蛋白序列的结构信息功能得分；

基于氨基酸序列进行建模预测以筛选出的潜在功能蛋白序列，没有考虑到蛋白质三维结构信息，可进一步借助深度学习蛋白质结构预测工具，对S103中选出的潜在序列进行结构预测，然后基于预测结果，利用计算机辅助药物设计领域的相关方法，进行蛋白与尿酸分子对接评估。将评估的结果与S103基于一维序列信息得到的预测结果进行信息融合，从而进一步缩减潜在尿酸酶的数量，降低后续生物实验成本。

S105：将序列信息功能得分和结构信息功能得分综合的结果作为蛋白序列的最终得分，根据所有蛋白序列的最终得分，评估目标基因组上的所有基因簇，挑选分值最大的基因簇作为候选基因簇。

进一步的，在本发明的一个实施例中，根据所有蛋白序列的最终得分，评估目标基因组上的所有基因簇，挑选分值最大的基因簇作为候选基因簇，包括：

在目标基因组上以各个锚点为中心，根据锚点预定长度范围内临近蛋白序列的功能得分以及蛋白功能注释结果进行计算分析，获得锚点对应区域的功能评估得分；

基于人工智能模型对菌株编码的蛋白序列功能得分，可进一步从基因组上挖掘潜在的尿酸代谢基因簇。首先根据蛋白序列功能预测得分进行排序和筛选，选择得分最高的K个蛋白序列作为锚点；然后在基因组上以各个锚点为中心，分别在固定长度如20kb范围内寻找基因组编码的其他蛋白序列，并根据临近蛋白序列的功能得分以及蛋白功能注释结果进行计算分析，获得该区域功能的总体评估。最后根据不同区域的功能评估得分，筛选靠前的区域作为潜在基因簇进行生物验证。

以上为完整的基于人工智能的基因及基因簇功能预测方法流程，图2为本发明的技术路线示意图。

实施例2

如图3所示，以预测尿酸代谢基因簇为例，基于已知的尿酸酶基因和蛋白序列构建学习模型，预测人体肠道菌株潜在的尿酸酶基因以及菌株降尿酸的能力。将蛋白质序列切分成定长片段，利用已有蛋白质的功能注释信息，划分正负样本，构建模型训练集，从而训练得到预测模型。对于每个细菌菌株的基因组，利用训练的模型预测每个片段的代谢尿酸的功能得分，然后对一个蛋白质的所有片段得分进行计算，得到该蛋白的得分；这里的得分可以进一步结合蛋白质结构预测模型(如Alphafold2)对蛋白序列结构进行预测，利用蛋白质的结构判断和特定分子(如尿酸分析)的结合能力，来补充蛋白质的整体功能得分。对于一个完整的基因组，将考虑蛋白质在基因组上的位置关系，来评估某一个大的区间内多个蛋白质的功能得分，从而得到基因簇的得分。扫描基因组上的所有潜在基因簇，挑选分值最大的基因簇作为候选基因簇。

基于本发明的人工智能基因簇预测方法，与传统序列比对BLAST方法和其他基于机器学习的算法相比，能够针对性的有效挖掘微生物基因组上未知功能的基因序列和基因簇，发现更多的研究者感兴趣的特定功能新型基因序列及基因簇，从而有助于挖掘新功能菌株。

为了实现上述实施例，本发明还提出基于人工智能的基因及基因簇功能预测装置。

图4为本发明实施例提供的一种基于人工智能的基因及基因簇功能预测装置的结构示意图。

如图4所示，该基于人工智能的基因及基因簇功能预测装置包括：获取模块100，训练模块200，序列预测模块300，结构预测模块400，基因簇预测模块500，其中，

获取模块，用于获取目标基因组的所有蛋白序列；

序列预测模块，用于通过预测模型对所有蛋白序列进行目标功能的预测，获取蛋白序列的序列信息功能得分；

结构预测模块，用于利用蛋白质结构预测模型对蛋白序列的结构进行目标功能的预测，获取蛋白序列的结构信息功能得分；

基因簇预测模块，用于将序列信息功能得分和结构信息功能得分综合的结果作为蛋白序列的最终得分，根据所有蛋白序列的最终得分，评估目标基因组上的所有基因簇，挑选分值最大的基因簇作为候选基因簇。

进一步地，在本发明的一个实施例中，获取模块，还用于：

将蛋白序列切分成预定长度的蛋白序列片段。

进一步地，在本发明的一个实施例中，训练模块，还用于：

根据负样本数据集和正样本数据集训练得到预测模型。

进一步地，在本发明的一个实施例中，基因簇预测模块，还用于：

为达上述目的，本发明第三方面实施例提出了一种计算机设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如上所述的基于人工智能的基因及基因簇功能预测方法。

为达上述目的，本发明第四方面实施例提出了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如上所述的基于人工智能的基因及基因簇功能预测方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

尽管上面已经示出和描述了本发明的实施例，可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于人工智能的基因及基因簇功能预测方法，其特征在于，包括以下步骤：

获取目标基因组的所有蛋白序列；

2.根据权利要求1所述的方法，其特征在于，在获取目标基因组的所有蛋白序列之后，还包括：

将所述蛋白序列切分成预定长度的蛋白序列片段。

3.根据权利要求1所述的方法，其特征在于，所述利用已有待预测功能的蛋白质的功能注释信息，构建模型训练集，训练得到预测模型，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所有蛋白序列的最终得分，评估所述目标基因组上的所有基因簇，挑选分值最大的基因簇作为候选基因簇，包括：

5.一种基于人工智能的基因及基因簇功能预测装置，其特征在于，包括以下模块：

获取模块，用于获取目标基因组的所有蛋白序列；

6.根据权利要求5所述的装置，其特征在于，所述获取模块，还用于：

将所述蛋白序列切分成预定长度的蛋白序列片段。

7.根据权利要求5所述的装置，其特征在于，所述训练模块，还用于：

8.根据权利要求5所述的装置，其特征在于，所述基因簇预测模块，还用于：

9.一种计算机设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1-4中任一所述的基于人工智能的基因及基因簇功能预测方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-4任意一项所述的基于人工智能的基因及基因簇功能预测方法。