CN115938486B - 基于图神经网络的抗菌性乳酸菌株筛选方法 - Google Patents

基于图神经网络的抗菌性乳酸菌株筛选方法 Download PDF

Info

Publication number
CN115938486B
CN115938486B CN202211558598.7A CN202211558598A CN115938486B CN 115938486 B CN115938486 B CN 115938486B CN 202211558598 A CN202211558598 A CN 202211558598A CN 115938486 B CN115938486 B CN 115938486B
Authority
CN
China
Prior art keywords
lactobacillus
antibacterial peptide
neural network
antibacterial
open reading
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211558598.7A
Other languages
English (en)
Other versions
CN115938486A (zh
Inventor
董改芳
孙志宏
翟冰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inner Mongolia Agricultural University
Original Assignee
Inner Mongolia Agricultural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inner Mongolia Agricultural University filed Critical Inner Mongolia Agricultural University
Priority to CN202211558598.7A priority Critical patent/CN115938486B/zh
Publication of CN115938486A publication Critical patent/CN115938486A/zh
Application granted granted Critical
Publication of CN115938486B publication Critical patent/CN115938486B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Abstract

本发明公开了基于图神经网络的抗菌性乳酸菌株筛选方法,包括:S1、通过蛋白质预测方法得到已测序乳酸菌的多个开放阅读框;S2、利用乳酸菌抗菌肽图神经网络模型对开放阅读框进行预测,得到多个可能的乳酸菌抗菌肽片段集合A1;利用乳酸菌抗菌肽数据库对开放阅读框进行多序列比对,得到乳酸菌抗菌肽片段集合A2;利用生物信息软件工具Hmmer对开放阅读框进行结构域预测,得到结构域片段集合A3;S3、若片段集合A1、A2、A3交集不为空,则判断A1、A2、A3对应的乳酸菌具有抗菌性,最后通过溯源找到抗菌肽乳酸菌株。本发明采用上述方法,实现了高通量筛选、准确筛选和快速筛选。

Description

基于图神经网络的抗菌性乳酸菌株筛选方法
技术领域
本发明涉及生物抗菌肽的识别技术领域,尤其是涉及基于图神经网络的抗菌性乳酸菌株筛选方法。
背景技术
在食品生产中需要解决防腐剂的来源,即具有抗菌性的乳酸菌株可以用来生产防腐剂。现有的筛选抗菌性乳酸菌株的方法是实验室的高效液相色谱法抗菌性实验,每次只能做1株菌,每个实验需要持续1个月,所以该方法具有不能批量筛选、耗时长等问题。采用计算机人工智能先进技术结合生物信息处理技术可以完成乳酸菌抗菌性菌株的快速、准确、高通量筛选。
发明内容
本发明从机器识别模型、数据库多序列比对和结构域预测三个维度对菌株进行综合判断,从批量乳酸菌菌株的全基因组测序数据中筛选具有抗菌性的乳酸菌菌株,从而解决现有乳酸菌筛选速度慢、耗时长的问题。
基于图神经网络的抗菌性乳酸菌株筛选方法,包括:
S1、通过蛋白质预测方法得到已测序乳酸菌的多个开放阅读框;
S2、利用乳酸菌抗菌肽图神经网络模型对开放阅读框进行预测,得到多个可能的乳酸菌抗菌肽片段A1;利用乳酸菌抗菌肽数据库对开放阅读框进行多序列比对,得到乳酸菌抗菌肽片段A2;利用生物信息软件工具Hmmer对开放阅读框进行结构域预测,得到结构域片段A3;
S3、若片段A1、A2、A3交集不为空,则判断A1、A2、A3对应的乳酸菌具有抗菌性,最后通过溯源找到抗菌肽乳酸菌株。
优选的,步骤S2中乳酸菌抗菌肽图神经网络模型的构建过程具体包括:
S211、通过已知的乳酸菌抗菌肽序列建立正样本集合,通过待筛选的蛋白质序列建立负样本集合;然后按照k-mer对正负样本集合中序列进行分词处理;
S212、将序列的词和序列本身作为结点,将词的共现关系、词与序列的所属关系作为边,通过结点和边构建初始输入图;
S213、通过预训练模型Bert将词和序列转化为词向量,并计算初始输入图的邻接矩阵,然后依据词向量、邻接矩阵构建图神经网络模型GCN;
Z(A,X)=softmax(λA'…(ReLU(A'XW0))…Wn+(1-λ)Bert(X))
式中,λ为Bert与GCN的权值比重;W0…Wn为权重矩阵,n为GCN的层数;X为词向量;A'为拉普拉斯变换后的邻接矩阵;
S215、采用自适应权值法对λ优化,从而学习到词与正样本中序列的关系;
S216、对GCN评估与调优,最终得到成熟的图神经网络模型。
综上,本发明采用上述抗菌性乳酸菌株筛选方法,从图神经网络模型识别、数据库多序列比对和结构域预测三个维度对菌株进行综合判断,具有高通量筛选、准确筛选和快速筛选的优点。进一步的,使用本方法可加快乳酸菌抗菌剂、食品防腐剂、添加剂等产业化发展。
附图说明
图1为本发明的抗菌性乳酸菌株筛选流程示意图。
具体实施方式
以下结合附图和实施例对本发明的技术方案作进一步说明。
如图1所示,本方法设置三通道,分别为图神经网络模型、数据库多序列比对和结构域预测,且三通道上均内置有抗菌活性的乳酸菌肽序列。在对乳酸菌株筛选时,首先对乳酸菌进行测序,得到乳酸菌的全基因组序列。然后将全基因组序列输入到Prodigal软件中,通过蛋白质预测方法从每株菌上得到多个开放阅读框。三通道分别对开放阅读框进行识别,并分别输出抗菌性片段A1、A2和A3。最后,对抗菌性片段A1、A2和A3进行交集判断,若交集不为空,则判定这些片段具有抗菌性。溯源,找到产生这些片段的菌株,从而判断产生这些片段的菌株具有抗菌性。为保证准确度,可进一步的将筛选而得的抗菌性乳酸菌株进行生物实验室验证。相比于传统的生物实验室直接验证方法,本方案的机器学习筛选方式能显著的缩短时长,不受数量限制,而且多通道预测也能保证结果准确性。
进一步的,本方案还具体给出了图神经网络模型的搭建方法。
以30个乳酸菌种属搜索国际上发表的20多个抗菌肽数据库,得到1622条乳酸菌抗菌肽序列,经去重和CD-HIT去冗余得到正样本集合。在UniProt库中搜索满足长度条件的蛋白序列,去冗余和相似性,构成负样本集合。然后,正负样本序列按照k-mer(k<7)进行分词,并通过Bert预训练模型对词和序列进行预训练,从而将词转化为词向量,词向量可作为后续图神经网络模型的输入。
将词和序列作为图的结点V,将词的共现关系、词与序列的所属关系作为边E,通过结点和边构建初始异构图G=(V,E)。计算图G的邻接矩阵A,然后对邻接矩阵进行拉普拉斯变换得到A',拉普拉斯变换公式如(1)表示。
A'=D-1/2(A+I)D1/2 (1)
式中,I为单位矩阵;D为图G的度矩阵,其计算公式如(2)所示。
依据词向量、邻接矩阵构建图神经网络模型GCN,公式如(3)表示。
Z(A,X)=soft max(λA'…(ReLU(A'XW0))…Wn+(1-λ)Bert(X)) (3)
式中,λ为Bert与GCN的权值比重,其可通过自适应权值法获得;W0…Wn为权重矩阵,n为GCN的层数,可通过模型优化得到最优解;X为词向量。
调优后的图神经网络,学习词与正样本中标签序列的关系,并通过负样本进行重复测试,最终可高质量的对肽序列进行分类。
以上是本发明的具体实施方式,但本发明的保护范围不应局限于此。任何熟悉本领域的技术人员在本发明所揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内,因此本发明的保护范围应以权利要求书所限定的保护范围为准。

Claims (1)

1.基于图神经网络的抗菌性乳酸菌株筛选方法,其特征在于,包括:
S1、通过蛋白质预测方法得到已测序乳酸菌的多个开放阅读框;
S2、利用乳酸菌抗菌肽图神经网络模型对开放阅读框进行预测,得到多个可能的乳酸菌抗菌肽片段A1;利用乳酸菌抗菌肽数据库对开放阅读框进行多序列比对,得到乳酸菌抗菌肽片段A2;利用生物信息软件工具Hmmer对开放阅读框进行结构域预测,得到结构域片段A3;
S3、若片段A1、A2、A3交集不为空,则判断A1、A2、A3对应的乳酸菌具有抗菌性,最后通过溯源找到抗菌肽乳酸菌株;
其中步骤S2中乳酸菌抗菌肽图神经网络模型的构建过程具体包括:
S211、通过已知的乳酸菌抗菌肽序列建立正样本集合,通过待筛选的蛋白质序列建立负样本集合;然后按照k-mer对正负样本集合中序列进行分词处理;
S212、将序列的词和序列本身作为结点,将词的共现关系、词与序列的所属关系作为边,通过结点和边构建初始输入图;
S213、通过预训练模型Bert将词和序列转化为词向量,并计算初始输入图的邻接矩阵,然后依据词向量、邻接矩阵构建图神经网络模型GCN;
Z(A,X)=softmax(λA'…(ReLU(A'XW0))…Wn+(1-λ)Bert(X))
式中,λ为Bert与GCN的权值比重;W0…Wn为权重矩阵,n为GCN的层数;X为词向量;A'为拉普拉斯变换后的邻接矩阵;
S215、采用自适应权值法对λ优化,从而学习到词与正样本中序列的关系;
S216、对GCN评估与调优,最终得到成熟的图神经网络模型。
CN202211558598.7A 2022-12-06 2022-12-06 基于图神经网络的抗菌性乳酸菌株筛选方法 Active CN115938486B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211558598.7A CN115938486B (zh) 2022-12-06 2022-12-06 基于图神经网络的抗菌性乳酸菌株筛选方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211558598.7A CN115938486B (zh) 2022-12-06 2022-12-06 基于图神经网络的抗菌性乳酸菌株筛选方法

Publications (2)

Publication Number Publication Date
CN115938486A CN115938486A (zh) 2023-04-07
CN115938486B true CN115938486B (zh) 2023-11-10

Family

ID=86555018

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211558598.7A Active CN115938486B (zh) 2022-12-06 2022-12-06 基于图神经网络的抗菌性乳酸菌株筛选方法

Country Status (1)

Country Link
CN (1) CN115938486B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101918431A (zh) * 2007-09-25 2010-12-15 田园温室气体研究有限公司 用于微生物细胞的细胞通透肽和多肽
CN112232413A (zh) * 2020-10-16 2021-01-15 东北大学 基于图神经网络与谱聚类的高维数据特征选择方法
CN113571133A (zh) * 2021-09-14 2021-10-29 内蒙古农业大学 一种基于图神经网络的乳酸菌抗菌肽预测方法
WO2022077005A1 (en) * 2020-10-06 2022-04-14 Board Of Supervisors Of Louisiana State University And Agricultural And Mechanical College System and method for identifying therapeutics for a given illness using machine learning
CN114999586A (zh) * 2022-06-14 2022-09-02 内蒙古农业大学 一种保加利亚乳杆菌与嗜热链球菌相互作用预测方法
WO2022222231A1 (zh) * 2021-04-23 2022-10-27 平安科技(深圳)有限公司 药物与靶标的相互作用预测方法、装置、设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101918431A (zh) * 2007-09-25 2010-12-15 田园温室气体研究有限公司 用于微生物细胞的细胞通透肽和多肽
WO2022077005A1 (en) * 2020-10-06 2022-04-14 Board Of Supervisors Of Louisiana State University And Agricultural And Mechanical College System and method for identifying therapeutics for a given illness using machine learning
CN112232413A (zh) * 2020-10-16 2021-01-15 东北大学 基于图神经网络与谱聚类的高维数据特征选择方法
WO2022222231A1 (zh) * 2021-04-23 2022-10-27 平安科技(深圳)有限公司 药物与靶标的相互作用预测方法、装置、设备及存储介质
CN113571133A (zh) * 2021-09-14 2021-10-29 内蒙古农业大学 一种基于图神经网络的乳酸菌抗菌肽预测方法
CN114999586A (zh) * 2022-06-14 2022-09-02 内蒙古农业大学 一种保加利亚乳杆菌与嗜热链球菌相互作用预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LABAMPsGCN:A framework for identifying lacitc acid bacteria antimicrobial peptides based on graph convolutional neural network;sun zhihong等;《Frontiers in Genetics》;论文正文 *
抗菌性乳酸菌的筛选及鉴定;刘紫艳;《化工管理》;论文正文 *

Also Published As

Publication number Publication date
CN115938486A (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN110070909B (zh) 一种基于深度学习的融合多特征的蛋白质功能预测方法
CN111368874A (zh) 一种基于单分类技术的图像类别增量学习方法
Hesami et al. Machine learning: its challenges and opportunities in plant system biology
CN106682454B (zh) 一种宏基因组数据分类方法和装置
CN111460728A (zh) 一种工业设备剩余寿命预测方法、装置、存储介质及设备
CN112116950B (zh) 基于深度度量学习的蛋白质折叠识别方法
CN111950630B (zh) 基于两阶段迁移学习的小样本工业产品缺陷分类方法
CN115472221A (zh) 一种基于深度学习的蛋白质适应度预测方法
CN117153268A (zh) 一种细胞类别确定方法及系统
CN106096327A (zh) 基于Torch监督式深度学习的基因性状识别方法
CN114783526A (zh) 基于高斯混合图变分自编码器的深度无监督单细胞聚类方法
CN115938486B (zh) 基于图神经网络的抗菌性乳酸菌株筛选方法
CN113764034A (zh) 基因组序列中潜在bgc的预测方法、装置、设备及介质
CN113539372A (zh) 一种LncRNA和疾病关联关系的高效预测方法
CN117546241A (zh) 基于迁移学习的蛋白质接触图谱用于变体致病性预测的用途
CN114566215A (zh) 一种双端成对的剪接位点预测方法
CN114999586A (zh) 一种保加利亚乳杆菌与嗜热链球菌相互作用预测方法
CN113223620A (zh) 基于多维度序列嵌入的蛋白质溶解性预测方法
CN112348275A (zh) 一种基于在线增量学习的区域生态环境变化预测方法
Lahmer et al. Classification of DNA Microarrays Using Deep Learning to identify Cell Cycle Regulated Genes
CN111383710A (zh) 基于粒子群优化双子支持向量机的基因剪接位点识别模型构建方法
CN111599412A (zh) 基于词向量与卷积神经网络的dna复制起始区域识别方法
Abou El-Naga et al. Consensus Nature Inspired Clustering of Single-Cell RNA-Sequencing Data
CN112086143B (zh) 一种基于无监督域适应的小分子药物虚拟筛选方法和装置
CN117912553A (zh) 基于深度学习联合归因算法的潜在生物标志物寻找方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant