CN116030881A - 基于人工智能的基因及基因簇功能预测方法及装置 - Google Patents
基于人工智能的基因及基因簇功能预测方法及装置 Download PDFInfo
- Publication number
- CN116030881A CN116030881A CN202211596221.0A CN202211596221A CN116030881A CN 116030881 A CN116030881 A CN 116030881A CN 202211596221 A CN202211596221 A CN 202211596221A CN 116030881 A CN116030881 A CN 116030881A
- Authority
- CN
- China
- Prior art keywords
- function
- protein
- gene
- score
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 108091008053 gene clusters Proteins 0.000 title claims abstract description 102
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 32
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 186
- 230000006870 function Effects 0.000 claims abstract description 150
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 148
- 238000012549 training Methods 0.000 claims abstract description 39
- 238000000455 protein structure prediction Methods 0.000 claims abstract description 9
- 238000011156 evaluation Methods 0.000 claims description 20
- 230000000968 intestinal effect Effects 0.000 claims description 18
- 239000012634 fragment Substances 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 12
- 238000010801 machine learning Methods 0.000 claims description 11
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 101710172804 K protein Proteins 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 7
- 230000004853 protein function Effects 0.000 claims description 7
- LEHOTFFKMJEONL-UHFFFAOYSA-N Uric Acid Chemical compound N1C(=O)NC(=O)C2=C1NC(=O)N2 LEHOTFFKMJEONL-UHFFFAOYSA-N 0.000 description 10
- TVWHNULVHGKJHS-UHFFFAOYSA-N Uric acid Natural products N1C(=O)NC(=O)C2NC(=O)NC21 TVWHNULVHGKJHS-UHFFFAOYSA-N 0.000 description 10
- 229940116269 uric acid Drugs 0.000 description 10
- 108090000790 Enzymes Proteins 0.000 description 8
- 102000004190 Enzymes Human genes 0.000 description 8
- 244000005700 microbiome Species 0.000 description 7
- 108010092464 Urate Oxidase Proteins 0.000 description 6
- 230000004060 metabolic process Effects 0.000 description 6
- 210000001035 gastrointestinal tract Anatomy 0.000 description 5
- 238000012216 screening Methods 0.000 description 5
- 241000894007 species Species 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000001851 biosynthetic effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000002503 metabolic effect Effects 0.000 description 3
- 230000037353 metabolic pathway Effects 0.000 description 3
- 229930014626 natural product Natural products 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 150000003384 small molecules Chemical class 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000001580 bacterial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000338 in vitro Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000000813 microbial effect Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241000894006 Bacteria Species 0.000 description 1
- 206010009944 Colon cancer Diseases 0.000 description 1
- 208000001333 Colorectal Neoplasms Diseases 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 108700005443 Microbial Genes Proteins 0.000 description 1
- 241000736262 Microbiota Species 0.000 description 1
- 208000008589 Obesity Diseases 0.000 description 1
- 108010026552 Proteome Proteins 0.000 description 1
- 125000003275 alpha amino acid group Chemical group 0.000 description 1
- 150000001413 amino acids Chemical class 0.000 description 1
- 239000003242 anti bacterial agent Substances 0.000 description 1
- 229940088710 antibiotic agent Drugs 0.000 description 1
- 239000002246 antineoplastic agent Substances 0.000 description 1
- 229940041181 antineoplastic drug Drugs 0.000 description 1
- 239000003443 antiviral agent Substances 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 244000000005 bacterial plant pathogen Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000004071 biological effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 229920002678 cellulose Polymers 0.000 description 1
- 239000001913 cellulose Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000029087 digestion Effects 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000009510 drug design Methods 0.000 description 1
- 238000009509 drug development Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 244000005709 gut microbiome Species 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 244000005702 human microbiome Species 0.000 description 1
- 238000001727 in vivo Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 210000001503 joint Anatomy 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004879 molecular function Effects 0.000 description 1
- 208000008338 non-alcoholic fatty liver disease Diseases 0.000 description 1
- 235000015097 nutrients Nutrition 0.000 description 1
- 230000035764 nutrition Effects 0.000 description 1
- 235000016709 nutrition Nutrition 0.000 description 1
- 235000020824 obesity Nutrition 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000024053 secondary metabolic process Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000002689 soil Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
- 208000001072 type 2 diabetes mellitus Diseases 0.000 description 1
- 229930003231 vitamin Natural products 0.000 description 1
- 235000013343 vitamin Nutrition 0.000 description 1
- 239000011782 vitamin Substances 0.000 description 1
- 229940088594 vitamin Drugs 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提出一种基于人工智能的基因及基因簇功能预测方法,包括,获取目标基因组的所有蛋白序列;利用已有目标功能的蛋白质的功能注释信息,构建模型训练集,训练得到预测模型;通过预测模型对所有蛋白序列进行目标功能的预测,获取蛋白序列的序列信息功能得分;利用蛋白质结构预测模型对蛋白序列的结构进行目标功能的预测,获取蛋白序列的结构信息功能得分;将序列信息功能得分和结构信息功能得分综合的结果作为蛋白序列的最终得分,根据所有蛋白序列的最终得分,评估目标基因组上的所有基因簇,挑选分值最大的基因簇作为候选基因簇。本发明为每个感兴趣的功能,针对性的构建数据集和序列预测模型,进行特定功能基因簇的预测、判别和筛选。
Description
技术领域
本发明属于人工智能领域。
背景技术
人体肠道微生物组对于维持人类健康至关重要,与2型糖尿病、肥胖、非酒精性脂肪肝、结直肠癌等多种疾病的发生发展密切相关。人体肠道中累积发现了数千种微生物,肠道菌群编码的基因数量是人体基因数量的150多倍,目前仍有90%的肠道微生物基因功能未知。肠道菌群的快速发展得益于全基因组和宏基因组测序、转录组和蛋白组等技术在人类微生物组领域的应用,使肠道微生物的基因表达、蛋白质丰度和菌株或物种组成等大量菌群信息被挖掘出来,其中包括未知的生物信息和功能数据,生物学家称之为“暗物质”。
微生物序列数据库中数以千计的原核生物基因组通过生物合成基因簇(BGC)编码各种代谢酶类,生物基因簇是一组物理上聚集(在基因组上距离较近)的基因集合。肠道菌群基因簇通过表达酶类、催化肠道消化、代谢纤维素为宿主提供维生素、锻炼脂肪苏等营养物质。而这些背后是由微生物基因组上功能性的基因簇完成的。有一些基因簇已经被解析,且小分子产物合成基因已经异源重组或使用纯化的酶在体外模拟反应,但是绝大多数的基因簇,甚至是那些已知产小分子的基因簇的分布和功能也未完全阐明。然而,人类肠道微生物组中90%的蛋白质序列缺乏功能注释。此外,由于基于序列相似性的计算注释,酶分子功能的错误注释和过度预测在公共数据库中经常发生。可见,功能未知的基因簇信息还有很多是未知的,未知功能基因簇的解析可为新型靶向菌群干预疾病疗法提供借鉴。
目前肠道功能性菌株筛选评价,主要依赖宏基因组测序数据分析-菌株分离-菌株功能验证的路径进行研究。虽然该路径方法成熟,但是耗时耗力。因此需要找到快捷高效的新型研究方法应用于目前海量的生物组数据,并结合体外和体内验证,提高菌株功能研究效率。细菌在次级代谢过程中产生的天然产物具有丰富的化学结构和生物活性,包含着抗生素、抗癌药物和抗病毒药物等多种类型的小分子候选药物,是开展新型药物研发的重要资源。在细菌基因组中,编码各种天然产物合成的基因以生物合成基因簇(BiosyntheticGene Cluster,BGC)的形式存在,为从序列到表型的天然产物发掘奠定了理论基础。
以尿酸代谢功能为例,目前已注释到尿酸酶基因的菌株多来源于土壤、植物病原菌和环境微生物中,相较于人体肠道内数千种微生物,人类肠道菌群中已知的尿酸酶基因簇屈指可数,潜在的参与尿酸代谢的菌株有待挖掘。
当前基因簇数据库信息有限,基于BLAST序列比对进行基因功能挖掘的方法无法有效发现新的基因功能及新的代谢通路,缺乏基于人工智能技术挖掘肠道菌群基因簇新功能的方法,亟需方法学上的创新。对ClusterFinder代表的基于传统机器学习方法的BGC预测工具来说,虽然所采用了隐马尔科夫HMM等方法,但由于算法本身的限制,其检测新型BGC的能力有限。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的目的在于提出一种基于人工智能的基因及基因簇功能预测方法,用于进行特定功能基因簇的预测、判别和筛选。
为达上述目的,本发明第一方面实施例提出了一种基于人工智能的基因及基因簇功能预测方法,包括:
获取目标基因组的所有蛋白序列;
利用已有目标功能的蛋白质的功能注释信息,构建模型训练集,训练得到预测模型;
通过所述预测模型对所有蛋白序列进行所述目标功能的预测,获取所述蛋白序列的序列信息功能得分;
利用蛋白质结构预测模型对所述蛋白序列的结构进行所述目标功能的预测,获取所述蛋白序列的结构信息功能得分;
将所述序列信息功能得分和所述结构信息功能得分综合的结果作为所述蛋白序列的最终得分,根据所有蛋白序列的最终得分,评估所述目标基因组上的所有基因簇,挑选分值最大的基因簇作为候选基因簇。
另外,根据本发明上述实施例的一种基于人工智能的基因及基因簇功能预测方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,在获取目标基因组的所有蛋白序列之后,还包括:
将所述蛋白序列切分成预定长度的蛋白序列片段。
进一步地,在本发明的一个实施例中,所述利用已有待预测功能的蛋白质的功能注释信息,构建模型训练集,训练得到预测模型,包括:
从肠道菌株数据库中,过滤出非待预测功能相关的蛋白序列,将所述非待预测功能相关的蛋白序列利用聚类工具缩减基因序列规模并结合机器学习聚类算法挑选代表性序列,作为负样本数据集;将已有待预测功能的蛋白序列作为正样本数据集;其中还包括,将所述非待预测功能相关的蛋白序列和所述已有待预测功能的蛋白序列切分成预定长度的蛋白序列片段;
根据所述负样本数据集和所述正样本数据集训练得到预测模型。
进一步地,在本发明的一个实施例中,所述根据所有蛋白序列的最终得分,评估所述目标基因组上的所有基因簇,挑选分值最大的基因簇作为候选基因簇,包括:
根据所有蛋白序列的最终得分进行排序,选择得分最高的K个蛋白序列作为锚点;
在所述目标基因组上以各个锚点为中心,根据所述锚点预定长度范围内临近蛋白序列的功能得分以及蛋白功能注释结果进行计算分析,获得所述锚点对应区域的功能评估得分;
根据所有区域的功能评估得分,挑选功能评估得分最大的基因簇作为候选基因簇。
为达上述目的,本发明第二方面实施例提出了一种基于人工智能的基因及基因簇功能预测装置,包括以下模块:
获取模块,用于获取目标基因组的所有蛋白序列;
训练模块,用于利用已有目标功能的蛋白质的功能注释信息,构建模型训练集,训练得到预测模型;
序列预测模块,用于通过所述预测模型对所有蛋白序列进行所述目标功能的预测,获取所述蛋白序列的序列信息功能得分;
结构预测模块,用于利用蛋白质结构预测模型对所述蛋白序列的结构进行所述目标功能的预测,获取所述蛋白序列的结构信息功能得分;
基因簇预测模块,用于将所述序列信息功能得分和所述结构信息功能得分综合的结果作为所述蛋白序列的最终得分,根据所有蛋白序列的最终得分,评估所述目标基因组上的所有基因簇,挑选分值最大的基因簇作为候选基因簇。
进一步地,在本发明的一个实施例中,所述获取模块,还用于:
将所述蛋白序列切分成预定长度的蛋白序列片段。
进一步地,在本发明的一个实施例中,所述训练模块,还用于:
从肠道菌株数据库中,过滤出非待预测功能相关的蛋白序列,将所述非待预测功能相关的蛋白序列利用聚类工具缩减基因序列规模并结合机器学习聚类算法挑选代表性序列,作为负样本数据集;将已有待预测功能的蛋白序列作为正样本数据集;其中还包括,将所述非待预测功能相关的蛋白序列和所述已有待预测功能的蛋白序列切分成预定长度的蛋白序列片段;
根据所述负样本数据集和所述正样本数据集训练得到预测模型。
进一步地,在本发明的一个实施例中,所述基因簇预测模块,还用于:
根据所有蛋白序列的最终得分进行排序,选择得分最高的K个蛋白序列作为锚点;
在所述目标基因组上以各个锚点为中心,根据所述锚点预定长度范围内临近蛋白序列的功能得分以及蛋白功能注释结果进行计算分析,获得所述锚点对应区域的功能评估得分;
根据所有区域的功能评估得分,挑选功能评估得分最大的基因簇作为候选基因簇。
为达上述目的,本发明第三方面实施例提出了一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上所述的一种基于人工智能的基因及基因簇功能预测方法。
为达上述目的,本发明第四方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上所述的一种基于人工智能的基因及基因簇功能预测方法。
本发明实施例提出的基于人工智能的基因及基因簇功能预测方法,为每个感兴趣的功能,例如研究者对降尿酸功能感兴趣,而不是像别的模型一样,同时对所有已知的基因组和蛋白功能类型进行预测和分类,针对性的构建数据集和序列预测模型,进行特定功能基因簇的预测、判别和筛选。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例所提供的一种基于人工智能的基因及基因簇功能预测方法的流程示意图。
图2为本发明实施例所提供的完整的基于人工智能的基因及基因簇功能预测方法流程图。
图3为本发明实施例所提供的预测尿酸代谢基因簇示意图。
图4为本发明实施例所提供的一种基于人工智能的基因及基因簇功能预测装置的流程示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的基于人工智能的基因及基因簇功能预测方法。
实施例1
图1为本发明实施例所提供的一种基于人工智能的基因及基因簇功能预测方法的流程示意图。
如图1所示,该基于人工智能的基因及基因簇功能预测方法包括以下步骤:
S101:获取目标基因组的所有蛋白序列;
进一步地,在本发明的一个实施例中,在获取目标基因组的所有蛋白序列之后,还包括:
将蛋白序列切分成预定长度的蛋白序列片段。
S102:利用已有目标功能的蛋白质的功能注释信息,构建模型训练集,训练得到预测模型;
进一步地,在本发明的一个实施例中,利用已有待预测功能的蛋白质的功能注释信息,构建模型训练集,训练得到预测模型,包括:
从肠道菌株数据库中,过滤出非待预测功能相关的蛋白序列,将非待预测功能相关的蛋白序列利用聚类工具缩减基因序列规模并结合机器学习聚类算法挑选代表性序列,作为负样本数据集;将已有待预测功能的蛋白序列作为正样本数据集;其中还包括,将非待预测功能相关的蛋白序列和已有待预测功能的蛋白序列切分成预定长度的蛋白序列片段;
根据负样本数据集和正样本数据集训练得到预测模型。
首先进行肠道菌株数据库构建。从NCBI Genome,IMG/M,和GMRepo等基因组和肠道菌群相关数据库中,收集整理人体肠道中已知的物种信息,包括物种的基因组序列、蛋白注释、物种营养和代谢类型、能否独立培养、需氧性、以及在健康人和患者中的相对丰度分布情况等信息,用于后续人工智能模型构建以及菌株筛选。
然后进行模型训练测试数据集的构建。针对感兴趣的功能,从KEGG中的代谢相关通路中,获取参与代谢的酶信息,从Uniprot数据库中获取相关酶蛋白序列信息;此外,根据文献调研结果补充研究报道过的功能序列以及代谢通路信息。
然后从肠道菌株数据库中,过滤出非目标功能相关的蛋白序列,考虑到数据量较大,需要利用cdhit等序列聚类工具缩减基因序列规模,并进一步结合机器学习聚类算法例如Kmeans,DBSCAN等通过聚类从中挑选代表性序列,作为模型构建的负样本数据集。
为了构建用于预测感兴趣功能的模型,需要将已知的功能序列及代谢通路上的酶的序列作为正样本。由于不同酶的蛋白序列长度不同,将对序列进行等长切分,以特定长度如50个氨基酸构成短序列单独构成一个样本。最后从正负样本中各随机抽取20%的蛋白序列构成模型测试数据集,剩余80%的序列构成模型训练数据集。
接下来进行模型训练和性能评估。模型训练可以借助Pytorch深度学习框架或scikit-learn机器学习库等,结合多种人工智能方法构建序列功能预测模型,通过集成训练的多个模型,进一步提升序列功能判别的准确性。例如纳入传统机器学习模型,包括逻辑斯特回归、随机森林、梯度提升树等,以及深度学习模型包括CNN、LSTM、和BERT等,将对功能序列的预测转换为序列分类问题。
在模型训练好后,需要依次扫描所有菌株的基因组,在每个菌株的基因组序列上,对所有蛋白序列进行功能评分。由于对较长的蛋白序列进行了切分,在对该蛋白序列的功能得分进行计算时,需要综合考虑所有切分片段得分。
S103:通过预测模型对所有蛋白序列进行所述目标功能的预测,获取蛋白序列的序列信息功能得分;
S104:利用蛋白质结构预测模型对蛋白序列的结构进行目标功能的预测,获取蛋白序列的结构信息功能得分;
基于氨基酸序列进行建模预测以筛选出的潜在功能蛋白序列,没有考虑到蛋白质三维结构信息,可进一步借助深度学习蛋白质结构预测工具,对S103中选出的潜在序列进行结构预测,然后基于预测结果,利用计算机辅助药物设计领域的相关方法,进行蛋白与尿酸分子对接评估。将评估的结果与S103基于一维序列信息得到的预测结果进行信息融合,从而进一步缩减潜在尿酸酶的数量,降低后续生物实验成本。
S105:将序列信息功能得分和结构信息功能得分综合的结果作为蛋白序列的最终得分,根据所有蛋白序列的最终得分,评估目标基因组上的所有基因簇,挑选分值最大的基因簇作为候选基因簇。
进一步的,在本发明的一个实施例中,根据所有蛋白序列的最终得分,评估目标基因组上的所有基因簇,挑选分值最大的基因簇作为候选基因簇,包括:
根据所有蛋白序列的最终得分进行排序,选择得分最高的K个蛋白序列作为锚点;
在目标基因组上以各个锚点为中心,根据锚点预定长度范围内临近蛋白序列的功能得分以及蛋白功能注释结果进行计算分析,获得锚点对应区域的功能评估得分;
根据所有区域的功能评估得分,挑选功能评估得分最大的基因簇作为候选基因簇。
基于人工智能模型对菌株编码的蛋白序列功能得分,可进一步从基因组上挖掘潜在的尿酸代谢基因簇。首先根据蛋白序列功能预测得分进行排序和筛选,选择得分最高的K个蛋白序列作为锚点;然后在基因组上以各个锚点为中心,分别在固定长度如20kb范围内寻找基因组编码的其他蛋白序列,并根据临近蛋白序列的功能得分以及蛋白功能注释结果进行计算分析,获得该区域功能的总体评估。最后根据不同区域的功能评估得分,筛选靠前的区域作为潜在基因簇进行生物验证。
以上为完整的基于人工智能的基因及基因簇功能预测方法流程,图2为本发明的技术路线示意图。
实施例2
如图3所示,以预测尿酸代谢基因簇为例,基于已知的尿酸酶基因和蛋白序列构建学习模型,预测人体肠道菌株潜在的尿酸酶基因以及菌株降尿酸的能力。将蛋白质序列切分成定长片段,利用已有蛋白质的功能注释信息,划分正负样本,构建模型训练集,从而训练得到预测模型。对于每个细菌菌株的基因组,利用训练的模型预测每个片段的代谢尿酸的功能得分,然后对一个蛋白质的所有片段得分进行计算,得到该蛋白的得分;这里的得分可以进一步结合蛋白质结构预测模型(如Alphafold2)对蛋白序列结构进行预测,利用蛋白质的结构判断和特定分子(如尿酸分析)的结合能力,来补充蛋白质的整体功能得分。对于一个完整的基因组,将考虑蛋白质在基因组上的位置关系,来评估某一个大的区间内多个蛋白质的功能得分,从而得到基因簇的得分。扫描基因组上的所有潜在基因簇,挑选分值最大的基因簇作为候选基因簇。
本发明实施例提出的基于人工智能的基因及基因簇功能预测方法,为每个感兴趣的功能,例如研究者对降尿酸功能感兴趣,而不是像别的模型一样,同时对所有已知的基因组和蛋白功能类型进行预测和分类,针对性的构建数据集和序列预测模型,进行特定功能基因簇的预测、判别和筛选。
基于本发明的人工智能基因簇预测方法,与传统序列比对BLAST方法和其他基于机器学习的算法相比,能够针对性的有效挖掘微生物基因组上未知功能的基因序列和基因簇,发现更多的研究者感兴趣的特定功能新型基因序列及基因簇,从而有助于挖掘新功能菌株。
为了实现上述实施例,本发明还提出基于人工智能的基因及基因簇功能预测装置。
图4为本发明实施例提供的一种基于人工智能的基因及基因簇功能预测装置的结构示意图。
如图4所示,该基于人工智能的基因及基因簇功能预测装置包括:获取模块100,训练模块200,序列预测模块300,结构预测模块400,基因簇预测模块500,其中,
获取模块,用于获取目标基因组的所有蛋白序列;
训练模块,用于利用已有目标功能的蛋白质的功能注释信息,构建模型训练集,训练得到预测模型;
序列预测模块,用于通过预测模型对所有蛋白序列进行目标功能的预测,获取蛋白序列的序列信息功能得分;
结构预测模块,用于利用蛋白质结构预测模型对蛋白序列的结构进行目标功能的预测,获取蛋白序列的结构信息功能得分;
基因簇预测模块,用于将序列信息功能得分和结构信息功能得分综合的结果作为蛋白序列的最终得分,根据所有蛋白序列的最终得分,评估目标基因组上的所有基因簇,挑选分值最大的基因簇作为候选基因簇。
进一步地,在本发明的一个实施例中,获取模块,还用于:
将蛋白序列切分成预定长度的蛋白序列片段。
进一步地,在本发明的一个实施例中,训练模块,还用于:
从肠道菌株数据库中,过滤出非待预测功能相关的蛋白序列,将非待预测功能相关的蛋白序列利用聚类工具缩减基因序列规模并结合机器学习聚类算法挑选代表性序列,作为负样本数据集;将已有待预测功能的蛋白序列作为正样本数据集;其中还包括,将非待预测功能相关的蛋白序列和已有待预测功能的蛋白序列切分成预定长度的蛋白序列片段;
根据负样本数据集和正样本数据集训练得到预测模型。
进一步地,在本发明的一个实施例中,基因簇预测模块,还用于:
根据所有蛋白序列的最终得分进行排序,选择得分最高的K个蛋白序列作为锚点;
在目标基因组上以各个锚点为中心,根据锚点预定长度范围内临近蛋白序列的功能得分以及蛋白功能注释结果进行计算分析,获得锚点对应区域的功能评估得分;
根据所有区域的功能评估得分,挑选功能评估得分最大的基因簇作为候选基因簇。
为达上述目的,本发明第三方面实施例提出了一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上所述的基于人工智能的基因及基因簇功能预测方法。
为达上述目的,本发明第四方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上所述的基于人工智能的基因及基因簇功能预测方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种基于人工智能的基因及基因簇功能预测方法,其特征在于,包括以下步骤:
获取目标基因组的所有蛋白序列;
利用已有目标功能的蛋白质的功能注释信息,构建模型训练集,训练得到预测模型;
通过所述预测模型对所有蛋白序列进行所述目标功能的预测,获取所述蛋白序列的序列信息功能得分;
利用蛋白质结构预测模型对所述蛋白序列的结构进行所述目标功能的预测,获取所述蛋白序列的结构信息功能得分;
将所述序列信息功能得分和所述结构信息功能得分综合的结果作为所述蛋白序列的最终得分,根据所有蛋白序列的最终得分,评估所述目标基因组上的所有基因簇,挑选分值最大的基因簇作为候选基因簇。
2.根据权利要求1所述的方法,其特征在于,在获取目标基因组的所有蛋白序列之后,还包括:
将所述蛋白序列切分成预定长度的蛋白序列片段。
3.根据权利要求1所述的方法,其特征在于,所述利用已有待预测功能的蛋白质的功能注释信息,构建模型训练集,训练得到预测模型,包括:
从肠道菌株数据库中,过滤出非待预测功能相关的蛋白序列,将所述非待预测功能相关的蛋白序列利用聚类工具缩减基因序列规模并结合机器学习聚类算法挑选代表性序列,作为负样本数据集;将已有待预测功能的蛋白序列作为正样本数据集;其中还包括,将所述非待预测功能相关的蛋白序列和所述已有待预测功能的蛋白序列切分成预定长度的蛋白序列片段;
根据所述负样本数据集和所述正样本数据集训练得到预测模型。
4.根据权利要求1所述的方法,其特征在于,所述根据所有蛋白序列的最终得分,评估所述目标基因组上的所有基因簇,挑选分值最大的基因簇作为候选基因簇,包括:
根据所有蛋白序列的最终得分进行排序,选择得分最高的K个蛋白序列作为锚点;
在所述目标基因组上以各个锚点为中心,根据所述锚点预定长度范围内临近蛋白序列的功能得分以及蛋白功能注释结果进行计算分析,获得所述锚点对应区域的功能评估得分;
根据所有区域的功能评估得分,挑选功能评估得分最大的基因簇作为候选基因簇。
5.一种基于人工智能的基因及基因簇功能预测装置,其特征在于,包括以下模块:
获取模块,用于获取目标基因组的所有蛋白序列;
训练模块,用于利用已有目标功能的蛋白质的功能注释信息,构建模型训练集,训练得到预测模型;
序列预测模块,用于通过所述预测模型对所有蛋白序列进行所述目标功能的预测,获取所述蛋白序列的序列信息功能得分;
结构预测模块,用于利用蛋白质结构预测模型对所述蛋白序列的结构进行所述目标功能的预测,获取所述蛋白序列的结构信息功能得分;
基因簇预测模块,用于将所述序列信息功能得分和所述结构信息功能得分综合的结果作为所述蛋白序列的最终得分,根据所有蛋白序列的最终得分,评估所述目标基因组上的所有基因簇,挑选分值最大的基因簇作为候选基因簇。
6.根据权利要求5所述的装置,其特征在于,所述获取模块,还用于:
将所述蛋白序列切分成预定长度的蛋白序列片段。
7.根据权利要求5所述的装置,其特征在于,所述训练模块,还用于:
从肠道菌株数据库中,过滤出非待预测功能相关的蛋白序列,将所述非待预测功能相关的蛋白序列利用聚类工具缩减基因序列规模并结合机器学习聚类算法挑选代表性序列,作为负样本数据集;将已有待预测功能的蛋白序列作为正样本数据集;其中还包括,将所述非待预测功能相关的蛋白序列和所述已有待预测功能的蛋白序列切分成预定长度的蛋白序列片段;
根据所述负样本数据集和所述正样本数据集训练得到预测模型。
8.根据权利要求5所述的装置,其特征在于,所述基因簇预测模块,还用于:
根据所有蛋白序列的最终得分进行排序,选择得分最高的K个蛋白序列作为锚点;
在所述目标基因组上以各个锚点为中心,根据所述锚点预定长度范围内临近蛋白序列的功能得分以及蛋白功能注释结果进行计算分析,获得所述锚点对应区域的功能评估得分;
根据所有区域的功能评估得分,挑选功能评估得分最大的基因簇作为候选基因簇。
9.一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-4中任一所述的基于人工智能的基因及基因簇功能预测方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-4任意一项所述的基于人工智能的基因及基因簇功能预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211596221.0A CN116030881A (zh) | 2022-12-13 | 2022-12-13 | 基于人工智能的基因及基因簇功能预测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211596221.0A CN116030881A (zh) | 2022-12-13 | 2022-12-13 | 基于人工智能的基因及基因簇功能预测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116030881A true CN116030881A (zh) | 2023-04-28 |
Family
ID=86076763
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211596221.0A Pending CN116030881A (zh) | 2022-12-13 | 2022-12-13 | 基于人工智能的基因及基因簇功能预测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116030881A (zh) |
-
2022
- 2022-12-13 CN CN202211596221.0A patent/CN116030881A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Machine learning meets omics: applications and perspectives | |
Knight et al. | Best practices for analysing microbiomes | |
CN105296590B (zh) | 大肠癌标志物及其应用 | |
JP2020507308A (ja) | 複雑な不均一コミュニティの微生物株の解析、その機能的関連性及び相互作用の決定、ならびにそれに基づく診断及び生物学的状態の管理、のための方法、装置、及びシステム | |
Blakeley-Ruiz et al. | Considerations for constructing a protein sequence database for metaproteomics | |
JP7490168B1 (ja) | 海洋栄養成分の生合成経路のマイニング方法、装置、機器及び媒体 | |
Ye et al. | A survey on methods for predicting polyadenylation sites from DNA sequences, bulk RNA-seq, and single-cell RNA-seq | |
CN112365929A (zh) | 一种基于宏基因组数据分析微生物群体感应效应的方法 | |
Liu et al. | Deep learning to predict the biosynthetic gene clusters in bacterial genomes | |
Kim et al. | Unraveling metagenomics through long-read sequencing: A comprehensive review | |
CN111161795A (zh) | 肠道微生物测序数据处理方法、装置、存储介质及处理器 | |
US20240153588A1 (en) | Systems and methods for identifying microbial biosynthetic genetic clusters | |
CN116030881A (zh) | 基于人工智能的基因及基因簇功能预测方法及装置 | |
CN113838528B (zh) | 基于单细胞免疫组库数据的单细胞水平耦合可视化方法 | |
Mathur | Bioinformatics challenges: a review | |
CN114974432A (zh) | 一种生物标志物的筛选方法及其相关应用 | |
Moreno-Indias et al. | Metagenomics | |
Mehta et al. | Updates on metaQuantome software for quantitative metaproteomics | |
Harrison et al. | Analytical approaches for microbiome research | |
CN102268475A (zh) | 一种进行microRNA与蛋白相互作用研究的方法 | |
Leao et al. | A supervised fingerprint-based strategy to connect natural product mass spectrometry fragmentation data to their biosynthetic gene clusters | |
Konstantinidou et al. | Metaplat: a cloud based platform for analysis and visualisation of metagenomics data | |
CN113257354B (zh) | 基于高通量实验数据挖掘进行关键rna功能挖掘的方法 | |
Debras | Analysis of secondary metabolite biosynthetic gene clusters in lichen metagenomes | |
CAMERON | Analytical approaches for microbiome research |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Yang Yuqing Inventor before: Yang Yuqing Inventor before: Li Changkun |