CN115938486B - 基于图神经网络的抗菌性乳酸菌株筛选方法 - Google Patents
基于图神经网络的抗菌性乳酸菌株筛选方法 Download PDFInfo
- Publication number
- CN115938486B CN115938486B CN202211558598.7A CN202211558598A CN115938486B CN 115938486 B CN115938486 B CN 115938486B CN 202211558598 A CN202211558598 A CN 202211558598A CN 115938486 B CN115938486 B CN 115938486B
- Authority
- CN
- China
- Prior art keywords
- lactobacillus
- antibacterial peptide
- neural network
- antibacterial
- open reading
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- JVTAAEKCZFNVCJ-UHFFFAOYSA-N lactic acid Chemical compound CC(O)C(O)=O JVTAAEKCZFNVCJ-UHFFFAOYSA-N 0.000 title claims abstract description 28
- 238000000034 method Methods 0.000 title claims abstract description 24
- 230000000844 anti-bacterial effect Effects 0.000 title claims abstract description 20
- 238000012216 screening Methods 0.000 title claims abstract description 19
- 235000014655 lactic acid Nutrition 0.000 title claims abstract description 14
- 239000004310 lactic acid Substances 0.000 title claims abstract description 14
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 7
- 230000001580 bacterial effect Effects 0.000 title claims description 7
- 241000186660 Lactobacillus Species 0.000 claims abstract description 33
- 229940039696 lactobacillus Drugs 0.000 claims abstract description 32
- 239000003910 polypeptide antibiotic agent Substances 0.000 claims abstract description 22
- 108700026244 Open Reading Frames Proteins 0.000 claims abstract description 14
- 239000012634 fragment Substances 0.000 claims abstract description 14
- 238000003062 neural network model Methods 0.000 claims abstract description 14
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 7
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 7
- 108010033276 Peptide Fragments Proteins 0.000 claims abstract description 6
- 102000007079 Peptide Fragments Human genes 0.000 claims abstract description 6
- 239000011159 matrix material Substances 0.000 claims description 14
- 238000010586 diagram Methods 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 230000003044 adaptive effect Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 230000011218 segmentation Effects 0.000 claims description 2
- 238000002864 sequence alignment Methods 0.000 claims description 2
- 241000894006 Bacteria Species 0.000 abstract description 8
- 238000013537 high throughput screening Methods 0.000 abstract description 2
- 230000000845 anti-microbial effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000003755 preservative agent Substances 0.000 description 2
- 108090000765 processed proteins & peptides Proteins 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 239000003242 anti bacterial agent Substances 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 235000013373 food additive Nutrition 0.000 description 1
- 239000002778 food additive Substances 0.000 description 1
- 235000019249 food preservative Nutrition 0.000 description 1
- 239000005452 food preservative Substances 0.000 description 1
- 238000004128 high performance liquid chromatography Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012070 whole genome sequencing analysis Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Abstract
本发明公开了基于图神经网络的抗菌性乳酸菌株筛选方法,包括:S1、通过蛋白质预测方法得到已测序乳酸菌的多个开放阅读框;S2、利用乳酸菌抗菌肽图神经网络模型对开放阅读框进行预测,得到多个可能的乳酸菌抗菌肽片段集合A1;利用乳酸菌抗菌肽数据库对开放阅读框进行多序列比对,得到乳酸菌抗菌肽片段集合A2;利用生物信息软件工具Hmmer对开放阅读框进行结构域预测,得到结构域片段集合A3;S3、若片段集合A1、A2、A3交集不为空,则判断A1、A2、A3对应的乳酸菌具有抗菌性,最后通过溯源找到抗菌肽乳酸菌株。本发明采用上述方法,实现了高通量筛选、准确筛选和快速筛选。
Description
技术领域
本发明涉及生物抗菌肽的识别技术领域,尤其是涉及基于图神经网络的抗菌性乳酸菌株筛选方法。
背景技术
在食品生产中需要解决防腐剂的来源,即具有抗菌性的乳酸菌株可以用来生产防腐剂。现有的筛选抗菌性乳酸菌株的方法是实验室的高效液相色谱法抗菌性实验,每次只能做1株菌,每个实验需要持续1个月,所以该方法具有不能批量筛选、耗时长等问题。采用计算机人工智能先进技术结合生物信息处理技术可以完成乳酸菌抗菌性菌株的快速、准确、高通量筛选。
发明内容
本发明从机器识别模型、数据库多序列比对和结构域预测三个维度对菌株进行综合判断,从批量乳酸菌菌株的全基因组测序数据中筛选具有抗菌性的乳酸菌菌株,从而解决现有乳酸菌筛选速度慢、耗时长的问题。
基于图神经网络的抗菌性乳酸菌株筛选方法,包括:
S1、通过蛋白质预测方法得到已测序乳酸菌的多个开放阅读框;
S2、利用乳酸菌抗菌肽图神经网络模型对开放阅读框进行预测,得到多个可能的乳酸菌抗菌肽片段A1;利用乳酸菌抗菌肽数据库对开放阅读框进行多序列比对,得到乳酸菌抗菌肽片段A2;利用生物信息软件工具Hmmer对开放阅读框进行结构域预测,得到结构域片段A3;
S3、若片段A1、A2、A3交集不为空,则判断A1、A2、A3对应的乳酸菌具有抗菌性,最后通过溯源找到抗菌肽乳酸菌株。
优选的,步骤S2中乳酸菌抗菌肽图神经网络模型的构建过程具体包括:
S211、通过已知的乳酸菌抗菌肽序列建立正样本集合,通过待筛选的蛋白质序列建立负样本集合;然后按照k-mer对正负样本集合中序列进行分词处理;
S212、将序列的词和序列本身作为结点,将词的共现关系、词与序列的所属关系作为边,通过结点和边构建初始输入图;
S213、通过预训练模型Bert将词和序列转化为词向量,并计算初始输入图的邻接矩阵,然后依据词向量、邻接矩阵构建图神经网络模型GCN;
Z(A,X)=softmax(λA'…(ReLU(A'XW0))…Wn+(1-λ)Bert(X))
式中,λ为Bert与GCN的权值比重;W0…Wn为权重矩阵,n为GCN的层数;X为词向量;A'为拉普拉斯变换后的邻接矩阵;
S215、采用自适应权值法对λ优化,从而学习到词与正样本中序列的关系;
S216、对GCN评估与调优,最终得到成熟的图神经网络模型。
综上,本发明采用上述抗菌性乳酸菌株筛选方法,从图神经网络模型识别、数据库多序列比对和结构域预测三个维度对菌株进行综合判断,具有高通量筛选、准确筛选和快速筛选的优点。进一步的,使用本方法可加快乳酸菌抗菌剂、食品防腐剂、添加剂等产业化发展。
附图说明
图1为本发明的抗菌性乳酸菌株筛选流程示意图。
具体实施方式
以下结合附图和实施例对本发明的技术方案作进一步说明。
如图1所示,本方法设置三通道,分别为图神经网络模型、数据库多序列比对和结构域预测,且三通道上均内置有抗菌活性的乳酸菌肽序列。在对乳酸菌株筛选时,首先对乳酸菌进行测序,得到乳酸菌的全基因组序列。然后将全基因组序列输入到Prodigal软件中,通过蛋白质预测方法从每株菌上得到多个开放阅读框。三通道分别对开放阅读框进行识别,并分别输出抗菌性片段A1、A2和A3。最后,对抗菌性片段A1、A2和A3进行交集判断,若交集不为空,则判定这些片段具有抗菌性。溯源,找到产生这些片段的菌株,从而判断产生这些片段的菌株具有抗菌性。为保证准确度,可进一步的将筛选而得的抗菌性乳酸菌株进行生物实验室验证。相比于传统的生物实验室直接验证方法,本方案的机器学习筛选方式能显著的缩短时长,不受数量限制,而且多通道预测也能保证结果准确性。
进一步的,本方案还具体给出了图神经网络模型的搭建方法。
以30个乳酸菌种属搜索国际上发表的20多个抗菌肽数据库,得到1622条乳酸菌抗菌肽序列,经去重和CD-HIT去冗余得到正样本集合。在UniProt库中搜索满足长度条件的蛋白序列,去冗余和相似性,构成负样本集合。然后,正负样本序列按照k-mer(k<7)进行分词,并通过Bert预训练模型对词和序列进行预训练,从而将词转化为词向量,词向量可作为后续图神经网络模型的输入。
将词和序列作为图的结点V,将词的共现关系、词与序列的所属关系作为边E,通过结点和边构建初始异构图G=(V,E)。计算图G的邻接矩阵A,然后对邻接矩阵进行拉普拉斯变换得到A',拉普拉斯变换公式如(1)表示。
A'=D-1/2(A+I)D1/2 (1)
式中,I为单位矩阵;D为图G的度矩阵,其计算公式如(2)所示。
依据词向量、邻接矩阵构建图神经网络模型GCN,公式如(3)表示。
Z(A,X)=soft max(λA'…(ReLU(A'XW0))…Wn+(1-λ)Bert(X)) (3)
式中,λ为Bert与GCN的权值比重,其可通过自适应权值法获得;W0…Wn为权重矩阵,n为GCN的层数,可通过模型优化得到最优解;X为词向量。
调优后的图神经网络,学习词与正样本中标签序列的关系,并通过负样本进行重复测试,最终可高质量的对肽序列进行分类。
以上是本发明的具体实施方式,但本发明的保护范围不应局限于此。任何熟悉本领域的技术人员在本发明所揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内,因此本发明的保护范围应以权利要求书所限定的保护范围为准。
Claims (1)
1.基于图神经网络的抗菌性乳酸菌株筛选方法,其特征在于,包括:
S1、通过蛋白质预测方法得到已测序乳酸菌的多个开放阅读框;
S2、利用乳酸菌抗菌肽图神经网络模型对开放阅读框进行预测,得到多个可能的乳酸菌抗菌肽片段A1;利用乳酸菌抗菌肽数据库对开放阅读框进行多序列比对,得到乳酸菌抗菌肽片段A2;利用生物信息软件工具Hmmer对开放阅读框进行结构域预测,得到结构域片段A3;
S3、若片段A1、A2、A3交集不为空,则判断A1、A2、A3对应的乳酸菌具有抗菌性,最后通过溯源找到抗菌肽乳酸菌株;
其中步骤S2中乳酸菌抗菌肽图神经网络模型的构建过程具体包括:
S211、通过已知的乳酸菌抗菌肽序列建立正样本集合,通过待筛选的蛋白质序列建立负样本集合;然后按照k-mer对正负样本集合中序列进行分词处理;
S212、将序列的词和序列本身作为结点,将词的共现关系、词与序列的所属关系作为边,通过结点和边构建初始输入图;
S213、通过预训练模型Bert将词和序列转化为词向量,并计算初始输入图的邻接矩阵,然后依据词向量、邻接矩阵构建图神经网络模型GCN;
Z(A,X)=softmax(λA'…(ReLU(A'XW0))…Wn+(1-λ)Bert(X))
式中,λ为Bert与GCN的权值比重;W0…Wn为权重矩阵,n为GCN的层数;X为词向量;A'为拉普拉斯变换后的邻接矩阵;
S215、采用自适应权值法对λ优化,从而学习到词与正样本中序列的关系;
S216、对GCN评估与调优,最终得到成熟的图神经网络模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211558598.7A CN115938486B (zh) | 2022-12-06 | 2022-12-06 | 基于图神经网络的抗菌性乳酸菌株筛选方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211558598.7A CN115938486B (zh) | 2022-12-06 | 2022-12-06 | 基于图神经网络的抗菌性乳酸菌株筛选方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115938486A CN115938486A (zh) | 2023-04-07 |
CN115938486B true CN115938486B (zh) | 2023-11-10 |
Family
ID=86555018
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211558598.7A Active CN115938486B (zh) | 2022-12-06 | 2022-12-06 | 基于图神经网络的抗菌性乳酸菌株筛选方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115938486B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101918431A (zh) * | 2007-09-25 | 2010-12-15 | 田园温室气体研究有限公司 | 用于微生物细胞的细胞通透肽和多肽 |
CN112232413A (zh) * | 2020-10-16 | 2021-01-15 | 东北大学 | 基于图神经网络与谱聚类的高维数据特征选择方法 |
CN113571133A (zh) * | 2021-09-14 | 2021-10-29 | 内蒙古农业大学 | 一种基于图神经网络的乳酸菌抗菌肽预测方法 |
WO2022077005A1 (en) * | 2020-10-06 | 2022-04-14 | Board Of Supervisors Of Louisiana State University And Agricultural And Mechanical College | System and method for identifying therapeutics for a given illness using machine learning |
CN114999586A (zh) * | 2022-06-14 | 2022-09-02 | 内蒙古农业大学 | 一种保加利亚乳杆菌与嗜热链球菌相互作用预测方法 |
WO2022222231A1 (zh) * | 2021-04-23 | 2022-10-27 | 平安科技(深圳)有限公司 | 药物与靶标的相互作用预测方法、装置、设备及存储介质 |
-
2022
- 2022-12-06 CN CN202211558598.7A patent/CN115938486B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101918431A (zh) * | 2007-09-25 | 2010-12-15 | 田园温室气体研究有限公司 | 用于微生物细胞的细胞通透肽和多肽 |
WO2022077005A1 (en) * | 2020-10-06 | 2022-04-14 | Board Of Supervisors Of Louisiana State University And Agricultural And Mechanical College | System and method for identifying therapeutics for a given illness using machine learning |
CN112232413A (zh) * | 2020-10-16 | 2021-01-15 | 东北大学 | 基于图神经网络与谱聚类的高维数据特征选择方法 |
WO2022222231A1 (zh) * | 2021-04-23 | 2022-10-27 | 平安科技(深圳)有限公司 | 药物与靶标的相互作用预测方法、装置、设备及存储介质 |
CN113571133A (zh) * | 2021-09-14 | 2021-10-29 | 内蒙古农业大学 | 一种基于图神经网络的乳酸菌抗菌肽预测方法 |
CN114999586A (zh) * | 2022-06-14 | 2022-09-02 | 内蒙古农业大学 | 一种保加利亚乳杆菌与嗜热链球菌相互作用预测方法 |
Non-Patent Citations (2)
Title |
---|
LABAMPsGCN:A framework for identifying lacitc acid bacteria antimicrobial peptides based on graph convolutional neural network;sun zhihong等;《Frontiers in Genetics》;论文正文 * |
抗菌性乳酸菌的筛选及鉴定;刘紫艳;《化工管理》;论文正文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115938486A (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110070909B (zh) | 一种基于深度学习的融合多特征的蛋白质功能预测方法 | |
CN111368874A (zh) | 一种基于单分类技术的图像类别增量学习方法 | |
Hesami et al. | Machine learning: its challenges and opportunities in plant system biology | |
CN106682454B (zh) | 一种宏基因组数据分类方法和装置 | |
CN111460728A (zh) | 一种工业设备剩余寿命预测方法、装置、存储介质及设备 | |
CN112116950B (zh) | 基于深度度量学习的蛋白质折叠识别方法 | |
CN111950630B (zh) | 基于两阶段迁移学习的小样本工业产品缺陷分类方法 | |
CN115472221A (zh) | 一种基于深度学习的蛋白质适应度预测方法 | |
CN117153268A (zh) | 一种细胞类别确定方法及系统 | |
CN106096327A (zh) | 基于Torch监督式深度学习的基因性状识别方法 | |
CN114783526A (zh) | 基于高斯混合图变分自编码器的深度无监督单细胞聚类方法 | |
CN115938486B (zh) | 基于图神经网络的抗菌性乳酸菌株筛选方法 | |
CN113764034A (zh) | 基因组序列中潜在bgc的预测方法、装置、设备及介质 | |
CN113539372A (zh) | 一种LncRNA和疾病关联关系的高效预测方法 | |
CN117546241A (zh) | 基于迁移学习的蛋白质接触图谱用于变体致病性预测的用途 | |
CN114566215A (zh) | 一种双端成对的剪接位点预测方法 | |
CN114999586A (zh) | 一种保加利亚乳杆菌与嗜热链球菌相互作用预测方法 | |
CN113223620A (zh) | 基于多维度序列嵌入的蛋白质溶解性预测方法 | |
CN112348275A (zh) | 一种基于在线增量学习的区域生态环境变化预测方法 | |
Lahmer et al. | Classification of DNA Microarrays Using Deep Learning to identify Cell Cycle Regulated Genes | |
CN111383710A (zh) | 基于粒子群优化双子支持向量机的基因剪接位点识别模型构建方法 | |
CN111599412A (zh) | 基于词向量与卷积神经网络的dna复制起始区域识别方法 | |
Abou El-Naga et al. | Consensus Nature Inspired Clustering of Single-Cell RNA-Sequencing Data | |
CN112086143B (zh) | 一种基于无监督域适应的小分子药物虚拟筛选方法和装置 | |
CN117912553A (zh) | 基于深度学习联合归因算法的潜在生物标志物寻找方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |