CN113764034A - 基因组序列中潜在bgc的预测方法、装置、设备及介质 - Google Patents

基因组序列中潜在bgc的预测方法、装置、设备及介质 Download PDF

Info

Publication number
CN113764034A
CN113764034A CN202110888145.XA CN202110888145A CN113764034A CN 113764034 A CN113764034 A CN 113764034A CN 202110888145 A CN202110888145 A CN 202110888145A CN 113764034 A CN113764034 A CN 113764034A
Authority
CN
China
Prior art keywords
pfam
bgc
bgcs
candidate
domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110888145.XA
Other languages
English (en)
Other versions
CN113764034B (zh
Inventor
杨子翊
廖奔犇
张胜誉
辛志伟
梁恒宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan Jiankangyuan Biomedical Research Institute Co ltd
Tencent Technology Shenzhen Co Ltd
Original Assignee
Henan Jiankangyuan Biomedical Research Institute Co ltd
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan Jiankangyuan Biomedical Research Institute Co ltd, Tencent Technology Shenzhen Co Ltd filed Critical Henan Jiankangyuan Biomedical Research Institute Co ltd
Priority to CN202110888145.XA priority Critical patent/CN113764034B/zh
Publication of CN113764034A publication Critical patent/CN113764034A/zh
Application granted granted Critical
Publication of CN113764034B publication Critical patent/CN113764034B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Data Mining & Analysis (AREA)
  • Public Health (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Bioethics (AREA)
  • Software Systems (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种基因组序列中潜在BGC的预测方法、装置、设备及介质,涉及人工智能领域。方法包括:对基因组序列中的各个基因进行结构域预测,得到各个基因中包含的Pfam结构域;确定各个Pfam结构域的Pfam得分,Pfam得分用于表征Pfam结构域属于BGC的概率;基于各个Pfam结构域的Pfam得分,确定基因组序列中的候选BGC;对候选BGC进行BGC类别预测,并基于类别预测结果确定候选BGC中的潜在BGC。本申请实施例采用双重串行预测机制,先根据Pfam得分实现BGC的一级过滤,然后在一级过滤结果的基础上通过类别预测实现BGC的二级过滤,有助于降低BGC预测结果的假阳率。

Description

基因组序列中潜在BGC的预测方法、装置、设备及介质
技术领域
本申请实施例涉及人工智能领域,特别涉及一种基因组序列中潜在BGC的预测方法、装置、设备及介质。
背景技术
生物合成基因簇(Biosynthetic Gene Clusters,BGC)是指具有生物合成功能的一组基因,能够编码合成次级代谢产物(小分子化合物),而微生物的次级代谢产物则是药物开发的重要源泉。
相关技术中,药物研发人员采用机器学习方法对细菌或真菌的基因组序列进行检测,以此发掘与新颖结构的小分子化合物相关的潜在BGC。后续研发过程中,即可基于发掘出的潜在BGC进行针对性实验。
然而,目前利用机器学习方法进行BGC预测时,BGC预测结果的假阳率较高,即BGC预测结果中包含大量非BGC,不利于后续药物研发。
发明内容
本申请实施例提供了一种基因组序列中潜在BGC的预测方法、装置、设备及介质,能够降低BGC预测的假阳率,提高BGC预测的准确性。所述技术方案如下:
一方面,本申请实施例提供了一种基因组序列中潜在BGC的预测方法,所述方法包括:
对基因组序列中的各个基因进行结构域预测,得到各个基因中包含的蛋白质家族数据库(Proteinfamily,Pfam)结构域;
确定各个所述Pfam结构域的Pfam得分,所述Pfam得分用于表征所述Pfam结构域属于BGC的概率;
基于各个所述Pfam结构域的所述Pfam得分,确定所述基因组序列中的候选BGC,所述候选BGC由至少一个基因构成;
对所述候选BGC进行BGC类别预测,并基于类别预测结果确定所述候选BGC中的潜在BGC。
另一方面,本申请实施例提供了一种基因组序列中潜在BGC的预测装置,所述装置包括:
第一预测模块,用于对基因组序列中的各个基因进行结构域预测,得到各个基因中包含的Pfam结构域;
评分模块,用于确定各个所述Pfam结构域的Pfam得分,所述Pfam得分用于表征所述Pfam结构域属于BGC的概率;
第一确定模块,用于基于各个所述Pfam结构域的所述Pfam得分,确定所述基因组序列中的候选BGC,所述候选BGC由至少一个基因构成;
第二确定模块,用于对所述候选BGC进行BGC类别预测,并基于类别预测结果确定所述候选BGC中的潜在BGC。
另一方面,本申请实施例提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现如上述方面所述的基因组序列中潜在BGC的预测方法。
另一方面,本申请实施例提供了一种计算机可读存储介质,所述可读存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如上述方面所述的基因组序列中潜在BGC的预测方法。
另一方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方面提供的基因组序列中潜在BGC的预测方法。
本申请实施例中,首先通过对基因组序列中各个基因包含的Pfam结构域进行打分,得到表征Pfam结构域属于BGC概率的Pfam得分,从而根据Pfam得分确定出基因组序列中的候选BGC,然后进一步对候选BGC进行类别预测,最终从候选BGC中确定出潜在BGC;本申请实施例提供的方案采用双重串行预测机制,先根据Pfam得分实现BGC的一级过滤,然后在一级过滤结果的基础上通过类别预测实现BGC的二级过滤,有助于降低BGC预测结果的假阳率,提高BGC预测的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个示例性实施例示出的BGC预测过程的原理示意图;
图2是本申请一个示例性实施例提供的实施环境的示意图;
图3是本申请一个示例性实施例提供的基因组序列中潜在BGC的预测方法的流程图;
图4是本申请另一个示例性实施例提供的基因组序列中潜在BGC的预测方法的流程图;
图5是本申请一个示例性实施例示出的Pfam评分模型的结构示意图;
图6是本申请一个示例性实施例示出的基因合并过程的实施示意图;
图7是本申请一个示例性实施例示出的Pfam评分模型训练过程的流程图;
图8是本申请一个示例性实施例示出的Pfam得分计算过程的流程图;
图9是本申请一个示例性实施例示出的滑窗机制的实施示意图;
图10是本申请一个示例性实施例示出双模型串行预测过程的实施示意图;
图11和图12是模型性能验证实验的结果图;
图13至15是不同方案下预测得到的BGC与真实BGC的分布示意图;
图16示出了本申请一个示例性实施例提供的计算机设备的结构示意图;
图17是本申请一个示例性实施例提供的基因组序列中潜在BGC的预测装置的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
本申请实施例提供的方案,即机器学习在医学领域的应用,用于通过机器学习方法对基因组序列进行分析,筛选出基因组序列中的潜在BGC,以便后续基于筛选出的潜在BGC进行药物研发。
为了降低预测出的潜在BGC的假阳率,本申请实施例提供的方案采用双重串行预测机制。如图1所示,该机制下,计算机设备首先对基因组序列101进行基因预测,得到若干基因102(图中的箭头结构),然后对基因102进行Pfam结构域预测,得到基因102中包含的Pfam结构域103(图中箭头内的图案)。进一步的,计算机设备对各个Pfam结构域103进行打分,得到Pfam得分104,从而基于Pfam得分104确定基因组序列101中的候选BGC105(图中黑色的箭头结构)。至此,计算机设备实现BGC的第一重预测。
基于第一重预测结果,计算机设备进一步对筛选出的候选BGC 105进行BGC类别预测,得到各个候选BGC 105对应的BGC类别106(图中不同填充背景对应不同BGC类别),进而基于BGC类别106,过滤候选BGC 105中的非BGC,最终得到基因组序列101中的潜在BGC 107。至此,计算机设备完成了串行的第二重预测,并最终得到潜在BGC。
图2示出了本申请一个示例性实施例提供的实施环境的示意图。该实施环境中包括终端210和服务器220。其中,终端210与服务器220之间通过通信网络进行数据通信,可选地,通信网络可以是有线网络也可以是无线网络,且该通信网络可以是局域网、城域网以及广域网中的至少一种。
终端210是具有BGC预测需求的电子设备,该电子设备可以是智能手机、平板电脑或个人计算机等等,本实施例并此不作限定。图2中,以终端210为药物研发人员使用的个人计算机为例进行说明。
在一些实施例中,当需要对微生物进行BGC预测时,药物研发人员即对微生物进行基因组测序,得到微生物的基因组序列,从而基于基因组序列预测潜在的BGC。
服务器220可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
可选的,服务器220用于为终端210提供BGC预测服务,且服务器220通过双重串行预测机制进行BGC预测。在一些实施例中,服务器220中设置有预先训练的Pfam评分模型以及随机森林(Random Forest)分类器,该Pfam评分模型和随机森林分类器基于样本数据集预先训练得到。其中,Pfam评分模型用于对基因中的Pfam结构域进行评分,得到用于第一重BGC预测的Pfam得分;而随机森林分类器则对第一重BGC预测后筛选出的候选BGC进行类别预测,从而根据类别预测结果过滤候选BGC中的非BGC,得到基因组序列中的潜在BGC,完成串行的第二重BGC预测。
示意性的,如图2所示,服务器220接收到终端210上传的基因组序列后,对基因组序列中的各个基因211进行结构域预测,得到Pfam结构域222,并利用Pfam评分模型对Pfam结构域222进行评分,得到Pfam结构域222对应的Pfam得分223,从而基于Pfam得分223筛选出候选BGC 224。进一步的,服务器220利用随机森林分类器对候选BGC 224进行类别预测,得到各个候选BGC224的BGC类别225,最终基于BGC类别225对候选BGC 224的进行过滤,确定出基因组序列中的潜在BGC 226,并反馈至终端220。
在其他可能的实施方式中,双重串行预测机制也可以部署在终端侧,由终端210在本地对输入的基因组序列进行BGC预测,无需借助服务器220。可选的,终端210本地实现BGC预测时,安装有BGC预测应用程序,而该BGC预测应用程序中设置有预选训练得到的Pfam评分模型和随机森林分类器。
为了方便表述,下述各个实施例以基因组序列中潜在BGC的预测方法由计算机设备执行为例进行说明。
图3示出了本申请一个示例性实施例提供的基因组序列中潜在BGC的预测方法的流程图。本实施例以该方法用于计算机设备为例进行说明,该方法包括如下步骤。
步骤301,对基因组序列中的各个基因进行结构域预测,得到各个基因中包含的Pfam结构域。
在一些实施例中,该基因组序列通过基因测序得到,该基因组序列由A、C、G、T四种字母组成,分别代表组成脱氧核糖核酸(DeoxyriboNucleic Acid,DNA)的四种核苷酸(腺嘌呤、胞嘧啶、鸟嘌呤、胸腺嘧啶)。
需要说明的是,在进行结构域预测前,计算机设备首先需要对基因组序列进行基因预测,得到若干个基因,其中,计算机设备可以采用Prodigal进行基因预测,本申请实施例对基因预测的具体方式不作限定。
Pfam作为一种蛋白家族及功能域的数据库,包括蛋白家族的注释以及由隐马尔可夫模型建立的、具有相同注释结果的多序列对比结果。在蛋白质分子中,包含多个结构特异并且功能不同的区域,这些区域称之为域(domain),可以看做蛋白质功能的基本单位,蛋白质的功能由包含的多个domain共同决定。研究domain,可以更好的研究蛋白质功能。在该数据库中,提供了以下2个不同层级蛋白质家族信息。
1、family:每个family以PF编号唯一标识(如PF00001),而Pfam summaryinformation(Pfam概要信息)则描述了该Pfam功能域所行使的功能信息。
2、clan:对多个family进行相似性分析,将具有相似的三维结构或者相同序列模块的family归为一个clan,可以看做是superfamily(超级家族)的概念,每个clan以CL编号标识(如CL0063)。
对于基因组序列中的各个基因,计算机设备对基因进行Pfam结构域预测,得到各个基因中包含的Pfam结构域。在一些实施例中,计算机设备使用hmmscan对基因进行结构域预测,本申请实施例对结构域预测的具体方式不作限定。
步骤302,确定各个Pfam结构域的Pfam得分,Pfam得分用于表征Pfam结构域属于BGC的概率。
由于基因是否属于BGC与其中包含的Pfam结构域密切相关,因此本申请实施例中,计算机设备通过对Pfam结构域属于BGC的概率进行预测,得到各个Pfam结构域对应的Pfam得分,其中,Pfam得分越高,表明该Pfam结构域属于BGC的概率越高。
在一种可能的实施方式中,计算机设备通过机器学习方式,学习已知BGC以及已知非BGC中Pfam结构域的特征,进而在实际BGC预测过程中,根据学习到的特征,对Pfam结构域进行评分。
步骤303,基于各个Pfam结构域的Pfam得分,确定基因组序列中的候选BGC,候选BGC由至少一个基因构成。
在一种可能的实施方式中,计算机设备根据Pfam结构域的Pfam得分,首先从基因组序列中确定出候选基因,进而基于候选基因确定出候选BGC,各个候选BGC由至少一个连续的基因构成。
在一些实施例中,由于Pfam得分越高,表明Pfam结构域属于BGC的概率越高,因此计算机设备基于Pfam得分确定各个基因的基因得分,从而基于基因得分确定出候选基因,其中,候选基因的基因得分属于非候选基因的基因得分。
通过上述步骤,计算机设备完成了BGC的第一重预测,为了进一步提高预测准确性,当存在候选BGC时,计算机设备在候选BGC的基础上,进一步通过下述步骤304进行第二重预测,第二重预测的目的即识别并过滤候选BGC中的非BGC。
步骤304,对候选BGC进行BGC类别预测,并基于类别预测结果确定候选BGC中的潜在BGC。
相较于第一重预测,第二重预测并非针对基因组序列中的所有基因,而是仅针对第一重预测得到的候选BGC;并且,从预测结果分类来看,第二重预测的预测结果类别的划分更加细致(第一重预测的预测结果类别仅包含属于BGC和不属于BGC两类)。
在一些实施例中,对候选BGC进行BGC类别预测后得到的类别预测结果包括至少三类,其中包含非BGC类别,以及至少两类BGC类别(细分类别)。
可选的,当类别预测结果指示候选BGC属于非BGC时,计算机设备则对该候选BGC进行过滤,降低BGC预测结果的假阳率;当类别预测结果指示候选BGC属于BGC时,计算机设备则将该候选BGC确定为潜在BGC。
综上所述,本申请实施例中,首先通过对基因组序列中各个基因包含的Pfam结构域进行打分,得到表征Pfam结构域属于BGC概率的Pfam得分,从而根据Pfam得分确定出基因组序列中的候选BGC,然后进一步对候选BGC进行类别预测,最终从候选BGC中确定出潜在BGC;本申请实施例提供的方案采用双重串行预测机制,先根据Pfam得分实现BGC的一级过滤,然后在一级过滤结果的基础上通过类别预测实现BGC的二级过滤,有助于降低BGC预测结果的假阳率,提高BGC预测的准确性。
在一种可能的实施方式中,Pfam结构域的评分以及候选BGC的类别预测采用了机器学习技术,其中,Pfam得分由计算机设备通过Pfam评分模型(Deep-BGCpred)对Pfam结构域评分得到,而候选BGC的类别预测结果则由计算机设备通过随机森林分类器输出,即计算机设备采用双模型串行策略进行BGC预测。下面采用示例性的实施例进行说明。
图4示出了本申请另一个示例性实施例提供的基因组序列中潜在BGC的预测方法的流程图。本实施例以该方法用于计算机设备为例进行说明,该方法包括如下步骤。
步骤401,对基因组序列中的各个基因进行结构域预测,得到各个基因中包含的Pfam结构域。
本步骤的实施方式可以参考步骤301,本实施例在此不再赘述。
步骤402,获取Pfam结构域的生物学信息,生物学信息包括结构域信息、家族描述信息以及家族标识。
为了基于更多维度的信息对Pfam结构域进行评分,以提高所得Pfam得分的准确性,本申请实施例中,计算机设备将Pfam结构域相关的多维度生物学信息作为评分依据。在一些实施例中,Pfam结构域的生物学信息包括结构域信息、家族描述信息(Pfam summaryinformation)以及所属家族(clan)的家族标识。
在一个示意性的例子中,计算机设备获取到Pfam结构域的结构域信息为“PF00001”、家族描述信息为“PF00001:7transmembrane receptor(rhodopsim family)”、家族标识为“CL0192”。
当然,除了基于上述生物学信息外,计算机设备还可以将其他与Pfam结构域相关的生物特征作为Pfam评分模型的输入,或者,仅将上述生物学信息中的部分作为模型输入(比如仅将结构域信息和家族描述信息作为模型输入),本实施例对此不作限定。
步骤403,将生物学信息输入Pfam评分模型,得到Pfam评分模型输出的Pfam得分,Pfam评分模型基于包含BGC标注的样本基因组序列训练得到。
进一步的,计算机设备将生物学信息输入Pfam评分模型,由Pfam评分模型基于生物学信息对Pfam结构域进行评分,得到Pfam得分。由于输入的生物学信息的内容形式存在差异,因此在Pfam评分模型需要对生物学信息进行处理。
在一种可能的设计中,Pfam评分模型由输入(input)层、嵌入(embedding)层、编码(encoding)层、连接层、特征提取层、池化(pooling)层以及全连接层(或称为密集层)构成。其中,嵌入层用于对输入的生物学信息进行嵌入处理,得到生物学信息对应的嵌入向量;编码层用于将嵌入向量编码为编码向量;而连接层则用于连接不同维度生物学信息对应的编码向量,得到用于推理的目标向量,并输入特征提取层。相应的,采用上述结构的Pfam评分模型对Pfam结构域进行评分的过程可以包括如下步骤。
1、通过Pfam评分模型的嵌入层、编码层以及连接层对生物学信息进行处理,得到Pfam结构域的目标向量,嵌入层用于对生物学信息进行嵌入处理,得到嵌入向量,编码层用于对嵌入向量进行编码,得到编码向量,连接层用于连接编码向量,得到目标向量。
在一种可能的实施方式中,对于不同维度的生物学信息,计算机设备通过嵌入层中对应的嵌入单元对信息进行嵌入处理,得到对应的嵌入向量。
示意性的,如图5所示,计算机设备通过第一嵌入单元511将结构域信息嵌入为102维向量的Pfam序列,该Pfam序列由100维Pfam2vec(Pfamtovector)嵌入和位于蛋白质起始和末端的两个二进制标记构成;计算机设备通过第二嵌入单元512将家族描述信息(由64个字符组成,若不足64字符则在结尾使用字符填充)中的每个字符嵌入为32维向量;计算机设备通过第三嵌入单元513将家族标识嵌入为64维向量。
在一种可能的实施方式中,对于基于家族描述信息以及家族标识嵌入得到的嵌入向量,计算机设备进一步通过编码单元对其进行编码,得到相应的编码向量,以此更好地体现出家族描述信息以及家族标识的信息特征。可选的,结构域信息对应的嵌入向量被直接作为编码向量。
示意性的,如图5所示,计算机设备将第二嵌入单元512输出的嵌入向量输入第一编码单元521(可以采用卷积神经网络),得到960维的编码向量;计算机设备将第三嵌入单元513输出的嵌入向量输入第二编码单元522,得到64维的编码向量。
在一个示意性的例子中,第一编码单元和第二编码单元的架构信息如表一所示。
表一
Figure BDA0003194954600000101
进一步的,各个维度下生物特征信息对应的编码向量在连接层进行连接,得到目标向量。在一些实施例中,如图5所示,连接层对结构域信息对应的102维编码向量、家族描述信息对应960维编码向量以及家族标识对应的64维编码向量进行连接,得到1126维的目标向量。
2、通过Pfam评分模型的特征提取层对目标向量进行特征提取,得到Pfam结构域的结构域特征。
为了提高特征提取网络所提取到结构域特征的特征表达能力,进而提高后续评分的准确性,本申请实施例中,特征提取网络采用stacked Bi-LSTM,该stacked Bi-LSTM由一层双向长短期记忆递归神经网络(Bi-directional Long Short-Term Memory,Bi-LSTM),以及一层单向长短期记忆递归网络(LSTM)构成。在一个示意性的例子中,stacked Bi-LSTM包含128个隐藏神经单元(hiddenunits),且dropout率为0.2。
示意性的,如图5所示,计算机设备将连接层输出的1126维目标向量输入特征提取层,依次由Bi-LSTM 541和LSTM 542进行特征提取,最终输出结构域特征。
3、通过Pfam评分模型的池化层和全连接层对结构域特征进行池化和全连接处理,得到Pfam得分。
在一种可能的实施方式中,Pfam评分模型的池化层用于对结构域特征进行时序平均池化(temporal mean pooling),从而整合隐藏层中的节点信息。全连接层则由时间分布密集单元(包含sigmoid函数)以及输出单元构成,输出单元输出的介于0-1区间的数值即为Pfam得分。
示意性的,如图5所示,计算机设备对特征提取层输出的结构域特征进行时序平均池化后,将池化结果输入全连接层,由时间分布密集单元561对池化结果进行全连接处理,最终通过输出单元562最终输出Pfam得分。
步骤404,将同一基因中各个Pfam结构域的Pfam得分的均值确定为基因的基因得分。
通过上述步骤,计算机设备得到各个Pfam结构域的Pfam得分,由于BGC由基因构成,因此计算机设备进一步基于Pfam得分,确定表征基因属于BGC概率的基因得分。
在一种可能的实施方式中,针对各个基因,计算机设备将基因所包含Pfam结构域的Pfam得分的均值确定为基因得分,其中,基因得分越高,表明该基因属于BGC的概率越高。
在一个示意性的例子中,基因中包含5个Pfam结构域,且对应的Pfam得分分别0.3、0.9、0.96、0.94和0.89,因此该基因的基因得分为0.798。
步骤405,基于合并规则对基因得分高于得分阈值的基因进行合并,得到合并基因。
计算机设备检测基因的基因得分是否高于得分阈值,若高于得分阈值,则将该基因确定为候选基因;若低于得分阈值,则确定该基因不属于候选基因。比如,该得分阈值可以为0.7,本申请实施例对得分阈值不作限定。
并且,当存在至少两个候选基因连续时,计算机设备将连续的至少两个候选基因合并,得到合并基因。
示意性的,如图6所示,计算机设备分别计算第一基因61、第二基因62、第三基因63、第四基因64、第五基因65以及第六基因66的基因得分,并将第一基因61、第四基因64以及第五基因65确定为候选基因。由于第四基因64以及第五基因65连续,因此计算机设备将第四基因64和第五基因65合并,得到合并基因67。
需要说明的是,若不存在相邻的候选基因,计算机设备则单独的候选基因确定为合并基因。
步骤406,响应于合并基因中核苷酸的数量大于数量阈值,且合并基因中不包含过滤结构域,将合并基因确定为候选BGC,过滤结构域为已知的不包含BGC的区域。
进一步的,完成基因合并后,计算机设备基于后处理准则,对不符合要求的合并基因进行过滤,得到候选BGC。在一些实施例中,该后处理准则可以包括:1、过滤核苷酸数量小于数量阈值的合并基因;2、过滤已知的不包含BGC的区域。
在一个示意性的例子中,计算机设备设置数量阈值为2000,并将antiSMASH和ClusterFinder发布的133个已知不包含BGC的区域确定为过滤结构域。
可选的,在确定候选BGC时,计算机设备还可以对相隔最多一个基因的合并基因进行合并,从而得到候选BGC。
步骤407,通过随机森林分类器对候选BGC进行BGC类别预测,得到类别预测结果,随机森林分类器的分类器类别包括BGC类别以及非BGC类别。
上述步骤中,利用Pfam评分模型对Pfam结构域进行评分,只能够识别出基因组序列中的BGC和非BGC,存在较高的假阳率。为了进一步提高预测准确性,计算机设备利用预先训练得到的随机森林分类器,进一步对筛选出的候选BGC进行BGC类别预测,确定候选BGC中是否存在非BGC。
可选的,随机森林分类器除了用于对BGC和非BGC进行分类外,还用于对BGC的具体类别进行分类。在一个示意性的例子中,该随机森林分类器的分类器类别(8类),以及训练随机森林分类器所采用训练样本的数量如表二所示。
表二
编号 类别 训练样本数量
1 Alkaloid(生物碱) 54
2 NRP(重组蛋白) 603
3 Other(其他) 247
4 Polyketide(聚酮) 849
5 RiPP(核糖体合成和翻译后修饰肽) 261
6 Saccharide(糖化物) 187
7 Terpene(松烯) 167
8 Non_BGC(非BGC) 2102
需要说明的是,上述分类器类别仅用于示意性说明,并不对分类器类别的数量以及具体类型构成限定。
并且,不同于Pfam评分模型的输入为生物学信息,随机森林分类器的输入为候选BGC中Pfam结构域的统计信息。在一种可能的实施方式中,随机森林分类器对候选BGC进行类别预测的过程可以包括如下步骤:
1、基于候选BGC中Pfam结构域的统计信息,生成结构域统计矩阵。
可选的,该统计信息包括Pfam结构域在候选BGC中的出现频次,相应的,该结构域统计矩阵中不同列对应不同Pfam结构域,且矩阵中的至未Pfam结构域的出现频次。
可选的,随机森林分类器基于训练样本对应的样本结构域统计矩阵训练得到,该训练样本包含具体类别标注。
2、将结构域统计矩阵输入随机森林分类器进行BGC类别预测,得到类别预测结果。
计算机设备将结构域统计矩阵作为随机森林分类器的分类器输入,从而得到输出的类别预测结果,其中,当候选BGC属于BGC时,该类别预测结果中包含BGC类别标识,当当候选BGC属于BGC时,该类别预测结果中包含非BGC类别标识。
步骤408,响应于类别预测结果中包含BGC类别标识,确定候选BGC为潜在BGC。
计算机设备检测类别预测结果,若类别预测结果中包含BGC列表标识,则确定该候选BGC为潜在BGC。比如,当类别预测结果中包含“NRP”时,计算机设备确定该候选BGC为类别为“NRP”的潜在BGC。
步骤409,响应于类别预测结果中包含非BGC类别标识,过滤候选BGC。
若类别预测结果中包含非BGC类别标识,计算机设备则确定该候选BGC不属于潜在BGC,从而过滤该候选BGC。比如,当类别预测结果中包含“Non BGC”时,计算机设备对该候选BGC进行过滤。
本实施例中,计算机设备采用Pfam评分模型和随机森林分类器实现串行BGC预测,从而降低预测出的潜在BGC的假阳率。并且,计算机设备利用Pfam评分模型对Pfam结构域进行评分时,将Pfam结构域相关的多维度生物学信息(结构域信息、家族描述信息以及家族标识)作为评分依据,有助于提高评分的准确性。
此外,计算机设备基于Pfam得分确定出候选基因后,并对候选基因进行合并后,基于核苷酸数量以及过滤结构域对合并基因进行过滤,降低一级过滤后候选BGC的假阳率。
为了模拟出真实的基因组环境,从而提高训练出的Pfam评分模型的质量,如图7所示,Pfam评分模型的训练过程包括如下步骤。
步骤701,构建样本基因组序列,样本基因组合序列由正样本和负样本拼接得到,正样本属于BGC数据集,负样本属于非BGC数据集。
在一些实施例中,计算机设备分别从BGC数据集(包含已知的BGC)和非BGC数据集(包含已知的非BGC)中抽取正样本和负样本,并对正负样本进行拼接,模拟真实环境中BGC随机分布在整个基因组序列中,并被非BGC所包围的情况,得到样本基因组序列。
可选的,计算机设备采用的BGC数据和非BGC数据集如表三所示。
表三
Figure BDA0003194954600000151
步骤702,通过Pfam评分模型对样本基因组序列中各个Pfam结构域进行评分,得到样本Pfam得分。
与应用过程类似的,计算机设备通过Pfam评分模型对样本基因组序列中各个Pfam结构域进行评分,得到各个样本基因中各个样本Pfam结构域的样本Pfam得分。
步骤703,基于样本Pfam得分,确定样本基因组序列中的样本预测BGC。
与应用过程类似的,计算机设备基于样本Pfam得分,确定样本基因的样本基因得分,进而基于样本基因得分确定出样本预测BGC,对应的,不属于样本预测BGC的样本基因即属于非BGC。
步骤704,将正样本和负样本作为样本预测BGC的监督,训练Pfam评分模型。
由于构成样本基因组序列的各个样本基因均包含标注(即属于BGC或属于非BGC),因此计算机设备可以以正样本和负样本的样本标注作为样本预测BGC的监督,对Pfam评分模型进行训练。其中,Pfam评分模型的训练目标为:基于样本Pfam得分确定出的样本预测BGC接近样本基因组中的正样本。
在一些实施例中,在每个训练阶段,BGC序列(正样本)和非BGC序列(负样本)被随机打乱后拼接生成样本基因组序列。训练时配置了256个时间步(timesteps),批大小(batch size)为64,并使用Adam优化器进行优化,学习速率为1e-4,并采用加权二进制交叉熵作为损失函数,且类别权重与训练数据集中正负样本的数量成反比(正样本的权重大于负样本的权重)。
由于训练过程中构建的样本基因组序列通常包含指定数量的Pfam结构域(比如256个结构域),而该指定数量往往远小于真实基因组序列中Pfam结构域的数量(真实基因组序列中通常包含上万个Pfam结构域),因此可能会导致训练场景和实际应用场景不一致的问题,进而导致利用训练得到的模型进行预测的准确性下降。
为了进一步提高预测质量,计算机设备将滑动窗口机制应用到实际预测过程,即通过滑动窗口从基因组序列中截取序列片段,并利用Pfam评分模型对每个序列片段中的Pfam结构域进行评分。
在一种可能的实施方式,如图8所示,对Pfam结构域进行评分的过程可以包括如下步骤。
步骤801,基于目标数量以及目标步长,采用滑动窗口对基因组序列进行划分,得到至少两个序列片段,序列片段中包含目标数量的Pfam结构域,且相邻序列片段之间的偏移为目标步长。
计算机设备设置滑动窗口中Pfam结构域的数量的目标数量,按照目标步长移动滑动窗口,并截取每次移动后滑动窗口内的序列片段,相应的,相邻两次截取到的序列片段的起点(或终点)位置偏移即为目标步长。
其中,目标步长小于等于目标数量,且当目标步长等于目标数量时,相邻序列片段中包含的Pfam结构域不重叠,当目标步长小于于目标数量时,相邻序列片段之间存在部分重叠的Pfam结构域。
示意性的,如图9所示,计算机设备分别获取滑动窗口w1,w2以及w3内的序列片段,且相邻序列片段之间存在重叠的Pfam结构域。
步骤802,以序列片段为单位,确定序列片段中各个Pfam结构域的Pfam得分。
对Pfam结构域进行评分时,计算机设备对各个序列片段中的Pfam结构域进行评分。可选的,计算机设备将序列片段中的Pfam结构域的生物学信息输入Pfam评分模型,得到该序列片段中各个Pfam结构域的Pfam得分。
示意性的,如图9所示,各个序列片段中包含5个Pfam结构域(仅用于示例性说明),且相邻序列片段之间存在3个重叠的Pfam结构域。计算机设备将各个序列片段输入Pfam评分模型,得到序列片段中各个Pfam结构域的Pfam得分。
步骤803,响应于存在Pfam结构域属于至少两个所序列片段,对至少两个序列片段中Pfam结构域的Pfam得分进行平均计算,将平均计算结果确定为Pfam结构域的目标Pfam得分。
当Pfam结构域同时属于不同的序列片段时,计算机设备对该Pfam结构在不同序列片段中的Pfam得分进行平均值计算,并将计算结果确定为该Pfam结构域的目标Pfam得分,后续计算机设备即基于目标Pfam得分筛选候选BGC。
示意性的,如图9所示,基因组序列中第3和第4个Pfam结构域同时属于w1和w2,因此第3个Pfam结构域的Pfam得分为(0.96+0.91)/2=0.935,第3个Pfam结构域的Pfam得分为(0.94+0.95)/2=0.945;基因组序列中第5个Pfam结构域同时属于w1、w2和w3,因此第5个Pfam结构域的Pfam得分为(0.89+0.92+0.91)/3=0.907;基因组序列中第6和第7个Pfam结构域同时属于w2和w3,因此第6个Pfam结构域的Pfam得分为(0.2+0.15)/2=0.175,第7个Pfam结构域的Pfam得分为(0.9+0.94)/2=0.92。
本实施例中,通过在模型使用过程中应用滑动窗口机制,使模型应用场景与模型训练场景近似,有助于提高Pfam评分模型的评分准确性,进而提高了后续BGC预测的准确性。
在一个示意性的例子中,利用Pfam评分模型和随机森林分类器串行预测BGC的过程如图10所示。计算机设备首先通过滑动窗口获取若干序列片段,并利用Pfam评分模型对各个序列片段中的Pfam结构域进行评分,从而得到基因组序列中各个Pfam结构域的目标Pfam得分。
进一步的,计算机设备基于目标Pfam得分,从基因组序列中确定出第一候选BGC和第二候选BGC,并通过随机森林分类器分别对第一候选BGC和第二候选BGC进行BGC类别预测。由于预测出第一候选BGC属于NRP,而第一候选BGC属于Non BGC,因此计算机设备最终将第一候选BGC确定为潜在BGC。
此外,为了使随机森林分类器能够识别出一级过滤时预测错误的BGC(即将非BGC预测为BGC),计算机设备在完成Pfam评分模型训练后进一步训练随机森林分类器。并且,在训练随机森林分类器时,所采用的训练样本除了BGC数据集中的正样本外,还包括训练Pfam评分模型过程中预测错误的负样本,以及基于非BGC数据集中负样本生成的增强负样本。
其中,Pfam评分模型过程中预测错误的负样本指被识别为候选BGC的非BGC,利用此类负样本训练随机森林分类器,有助于提高随机森林分类器识别出候选BGC中非BGC的概率,进而降低最终输出BGC预测结果的假阳率。
关于增强负样本的生成方式,在一种可能的实施方式中,参考自然语言处理过程中的同义词替换,计算机设备从非BGC数据集中获取负样本,并基于Pfam结构域相似关系,对负样本中的Pfam结构域进行替换,得到增强负样本。
在一个示意性的例子中,计算机设备基于Pfam结构域相似性网络PF00001:{PF05296,PF10320,PF10323,PF10324,PF10328,PF13853},将非BGC中的Pfam结构域“PF00001”替换为“PF10324”,得到新的非BGC(即增强负样本)。
在一些实施例中,负样本中Pfam结构域被替换的概率为max(2/负样本长度,0.02),使负样本中存在至少两个Pfam结构域被替换。
可选的,基于正样本、增强负样本以及训练Pfam评分模型过程中预测错误的负样本训练随机森林分类器,计算机设备以样本的类别标注作为随机森林分类器输出结果的监督,对随机森林分类器进行训练。
为了验证上述方案在提高BGC预测准确性的效果,在12个带BGC注释的真实菌株的参考基因组序列(12个参考基因组序列中包含256个BGC注释信息)上测试各个模型的性能,得到的测试结果如图11和图12所示。
图11展示了ROC曲线结果,可以看出,采用本申请实施例提供的方案,Pfam结构域水平上的曲线下面积(AUC)最大,性能最好。图12示出的Precision-Recall curve曲线能更好的反应在类不均衡情况下模型的预测能力,可以看出,本申请实施例提供的方案相比与其他方法有着明显的优势。
随后,通过设定Pfam结构域水平上的阈值(阈值=0.9),使用Precision,Recall和F1这三个评估指标来评估模型的性能,得到的评估结果如表四所示。可以看到本申请实施例提供的方案相比于其他方法仍旧有着大幅的优势。
表四
编号 模型 Precision Recall F1
1 clusterfinder_original 19.71% 81.19% 31.71%
2 clusterfinder_retrained 35.30% 77.97% 48.60%
3 DeepBGC 49.65% 77.83% 60.63%
4 Deep-BGCpred(本申请) 55.50% 80.23% 65.62%
如图13至15,其示出了对12种真实菌株进行BGC预测,所得到的预测BGC与真实BGC在基因组序列中的排布情况。其中,图中的横坐标表示基因组坐标,纵坐标表示进行BGC预测所采用的方案。antiSMASH 6.0和Prism 4是基于规则的方法,其余方法为基于机器学习的方法。从图中可以看出clusterfinder预测到的BGC数量最多,但假阳率很高。Prism4的假阳率最低,但是所能够预测得到的BGC数量最少,存在大量无法预测到的真实BGC。相比于antiMASH,采用本申请实施例提供的方案进行BGC预测,可预测到基于规则的方法所预测不到的BGC,更有可能发现未知的全新BGC,且假阳率明显低于其他机器学习方案。
请参考图16,其示出了本申请一个示例性实施例提供的计算机设备的结构示意图。具体来讲:所述计算机设备1300包括中央处理单元(Central Processing Unit,CPU)1301、包括随机存取存储器1302和只读存储器1303的系统存储器1304,以及连接系统存储器1304和中央处理单元1301的系统总线1305。所述计算机设备1300还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(Input/Output,I/O系统)1306,和用于存储操作系统1313、应用程序1314和其他程序模块1315的大容量存储设备1307。
所述基本输入/输出系统1306包括有用于显示信息的显示器1308和用于用户输入信息的诸如鼠标、键盘之类的输入设备1309。其中所述显示器1308和输入设备1309都通过连接到系统总线1305的输入输出控制器1310连接到中央处理单元1301。所述基本输入/输出系统1306还可以包括输入输出控制器1310以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器1310还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备1307通过连接到系统总线1305的大容量存储控制器(未示出)连接到中央处理单元1301。所述大容量存储设备1307及其相关联的计算机可读介质为计算机设备1300提供非易失性存储。也就是说,所述大容量存储设备1307可以包括诸如硬盘或者驱动器之类的计算机可读介质(未示出)。
不失一般性,所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括随机存取记忆体(RAM,Random Access Memory)、只读存储器(ROM,Read Only Memory)、闪存或其他固态存储其技术,只读光盘(Compact Disc Read-Only Memory,CD-ROM)、数字通用光盘(Digital Versatile Disc,DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1304和大容量存储设备1307可以统称为存储器。
存储器存储有一个或多个程序,一个或多个程序被配置成由一个或多个中央处理单元1301执行,一个或多个程序包含用于实现上述方法的指令,中央处理单元1301执行该一个或多个程序实现上述各个方法实施例提供的方法。
根据本申请的各种实施例,所述计算机设备1300还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1300可以通过连接在所述系统总线1305上的网络接口单元1311连接到网络1312,或者说,也可以使用网络接口单元1311来连接到其他类型的网络或远程计算机系统(未示出)。
所述存储器还包括一个或者一个以上的程序,所述一个或者一个以上程序存储于存储器中,所述一个或者一个以上程序包含用于进行本申请实施例提供的方法中由计算机设备所执行的步骤。
图17是本申请一个示例性实施例提供的基因组序列中潜在BGC的预测装置的结构框图,该装置包括:
第一预测模块1701,用于对基因组序列中的各个基因进行结构域预测,得到各个基因中包含的蛋白质家族数据库Pfam结构域;
评分模块1702,用于确定各个所述Pfam结构域的Pfam得分,所述Pfam得分用于表征所述Pfam结构域属于生物合成基因簇BGC的概率;
第一确定模块1703,用于基于各个所述Pfam结构域的所述Pfam得分,确定所述基因组序列中的候选BGC,所述候选BGC由至少一个基因构成;
第二确定模块1704,用于对所述候选BGC进行BGC类别预测,并基于类别预测结果确定所述候选BGC中的潜在BGC。
可选的,所述评分模块1702,包括:
信息获取单元,用于获取所述Pfam结构域的生物学信息,所述生物学信息包括结构域信息、家族描述信息以及家族标识;
评分单元,用于将所述生物学信息输入Pfam评分模型,得到所述Pfam评分模型输出的所述Pfam得分,所述Pfam评分模型基于包含BGC标注的样本基因组序列训练得到。
可选的,所述评分单元,具体用于:
通过所述Pfam评分模型的嵌入层、编码层以及连接层对所述生物学信息进行处理,得到所述Pfam结构域的目标向量,所述嵌入层用于对所述生物学信息进行嵌入处理,得到嵌入向量,所述编码层用于对所述嵌入向量进行编码,得到编码向量,所述连接层用于连接所述编码向量,得到所述目标向量;
通过所述Pfam评分模型的特征提取层对所述目标向量进行特征提取,得到所述Pfam结构域的结构域特征;
通过所述Pfam评分模型的池化层和全连接层对所述结构域特征进行池化和全连接处理,得到所述Pfam得分。
可选的,所述特征提取层由双向长短期记忆递归神经网络Bi-LSTM和单向长短期记忆递归网络LSTM构成,所述池化层用于对所述结构域特征进行时序平均池化。
可选的,所述装置还包括第一训练模块,用于:
构建样本基因组序列,所述样本基因组合序列由正样本和负样本拼接得到,所述正样本属于BGC数据集,所述负样本属于非BGC数据集;
通过所述Pfam评分模型对所述样本基因组序列中各个Pfam结构域进行评分,得到样本Pfam得分;
基于所述样本Pfam得分,确定所述样本基因组序列中的样本预测BGC;
将所述正样本和所述负样本作为所述样本预测BGC的监督,训练所述Pfam评分模型。
可选的,所述装置还包括:
划分模块,用于基于目标数量以及目标步长,采用滑动窗口对所述基因组序列进行划分,得到至少两个序列片段,所述序列片段中包含所述目标数量的所述Pfam结构域,且相邻序列片段之间的偏移为所述目标步长;
所述评分模块1702,用于:
以所述序列片段为单位,确定所述序列片段中各个所述Pfam结构域的所述Pfam得分;
响应于存在Pfam结构域属于至少两个所述序列片段,对至少两个所述序列片段中所述Pfam结构域的Pfam得分进行平均计算,将平均计算结果确定为所述Pfam结构域的目标Pfam得分。
可选的,所述第一确定模块1703,包括:
得分确定单元,用于将同一基因中各个所述Pfam结构域的Pfam得分的均值确定为所述基因的基因得分;
合并单元,用于基于合并规则对所述基因得分高于得分阈值的基因进行合并,得到合并基因;
候选BGC确定模块,用于响应于所述合并基因中核苷酸的数量大于数量阈值,且所述合并基因中不包含过滤结构域,将所述合并基因确定为所述候选BGC,所述过滤结构域为已知的不包含BGC的区域。
可选的,所述第二确定模块1704,包括:
类别预测单元,用于通过随机森林分类器对所述候选BGC进行BGC类别预测,得到所述类别预测结果,所述随机森林分类器的分类器类别包括BGC类别以及非BGC类别;
潜在BGC确定单元,用于响应于所述类别预测结果中包含BGC类别标识,确定所述候选BGC为所述潜在BGC;
所述装置还包括:
过滤模块,用于响应于所述类别预测结果中包含非BGC类别标识,过滤所述候选BGC。
可选的,所述类别预测单元,用于:
基于所述候选BGC中所述Pfam结构域的统计信息,生成结构域统计矩阵;
将所述结构域统计矩阵输入所述随机森林分类器进行BGC类别预测,得到所述类别预测结果。
可选的,所述Pfam得分由Pfam评分模型对所述Pfam结构域进行评分得到;
所述装置还包括:
第二训练模块,用于响应于所述Pfam评分模型训练完成,基于正样本、增强负样本以及训练所述Pfam评分模型过程中预测错误的负样本,训练所述随机森林分类器,所述正样本属于BGC数据集,所述错误负样本属于非BGC数据集,所述增强负样本基于所述非BGC数据集中的负样本生成。
可选的,所述装置包括:
负样本获取模块,用于从所述非BGC数据集中获取所述负样本;
增强模块,用于基于Pfam结构域相似关系,对所述负样本中的Pfam结构域进行替换,得到所述增强负样本。
综上所述,本申请实施例中,首先通过对基因组序列中各个基因包含的Pfam结构域进行打分,得到表征Pfam结构域属于BGC概率的Pfam得分,从而根据Pfam得分确定出基因组序列中的候选BGC,然后进一步对候选BGC进行类别预测,最终从候选BGC中确定出潜在BGC;本申请实施例提供的方案采用双重串行预测机制,先根据Pfam得分实现BGC的一级过滤,然后在一级过滤结果的基础上通过类别预测实现BGC的二级过滤,有助于降低BGC预测结果的假阳率,提高BGC预测的准确性。
本实施例中,计算机设备采用Pfam评分模型和随机森林分类器实现串行BGC预测,从而降低预测出的潜在BGC的假阳率。并且,计算机设备利用Pfam评分模型对Pfam结构域进行评分时,将Pfam结构域相关的多维度生物学信息(结构域信息、家族描述信息以及家族标识)作为评分依据,有助于提高评分的准确性。
此外,计算机设备基于Pfam得分确定出候选基因后,并对候选基因进行合并后,基于核苷酸数量以及过滤结构域对合并基因进行过滤,降低一级过滤后候选BGC的假阳率。
需要说明的是:上述实施例提供的装置,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其实现过程详见方法实施例,这里不再赘述。
本申请实施例还提供一种计算机可读存储介质,该可读存储介质中存储有至少一条指令,至少一条指令由处理器加载并执行以实现上述任一实施例所述的基因组序列中潜在BGC的预测方法。
可选地,该计算机可读存储介质可以包括:ROM、RAM、固态硬盘(SSD,Solid StateDrives)或光盘等。其中,RAM可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM,Dynamic Random Access Memory)。
本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例所述的基因组序列中潜在BGC的预测方法。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选的实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (14)

1.一种基因组序列中潜在BGC的预测方法,其特征在于,所述方法包括:
对基因组序列中的各个基因进行结构域预测,得到各个基因中包含的蛋白质家族数据库Pfam结构域;
确定各个所述Pfam结构域的Pfam得分,所述Pfam得分用于表征所述Pfam结构域属于生物合成基因簇BGC的概率;
基于各个所述Pfam结构域的所述Pfam得分,确定所述基因组序列中的候选BGC,所述候选BGC由至少一个基因构成;
对所述候选BGC进行BGC类别预测,并基于类别预测结果确定所述候选BGC中的潜在BGC。
2.根据权利要求1所述的方法,其特征在于,所述确定各个所述Pfam结构域的Pfam得分,包括:
获取所述Pfam结构域的生物学信息,所述生物学信息包括结构域信息、家族描述信息以及家族标识;
将所述生物学信息输入Pfam评分模型,得到所述Pfam评分模型输出的所述Pfam得分,所述Pfam评分模型基于包含BGC标注的样本基因组序列训练得到。
3.根据权利要求2所述的方法,其特征在于,所述将所述生物学信息输入Pfam评分模型,得到所述Pfam评分模型输出的所述Pfam得分,包括:
通过所述Pfam评分模型的嵌入层、编码层以及连接层对所述生物学信息进行处理,得到所述Pfam结构域的目标向量,所述嵌入层用于对所述生物学信息进行嵌入处理,得到嵌入向量,所述编码层用于对所述嵌入向量进行编码,得到编码向量,所述连接层用于连接所述编码向量,得到所述目标向量;
通过所述Pfam评分模型的特征提取层对所述目标向量进行特征提取,得到所述Pfam结构域的结构域特征;
通过所述Pfam评分模型的池化层和全连接层对所述结构域特征进行池化和全连接处理,得到所述Pfam得分。
4.根据权利要求3所述的方法,其特征在于,所述特征提取层由双向长短期记忆递归神经网络Bi-LSTM和单向长短期记忆递归网络LSTM构成,所述池化层用于对所述结构域特征进行时序平均池化。
5.根据权利要求2所述的方法,其特征在于,所述方法还包括:
构建样本基因组序列,所述样本基因组合序列由正样本和负样本拼接得到,所述正样本属于BGC数据集,所述负样本属于非BGC数据集;
通过所述Pfam评分模型对所述样本基因组序列中各个Pfam结构域进行评分,得到样本Pfam得分;
基于所述样本Pfam得分,确定所述样本基因组序列中的样本预测BGC;
将所述正样本和所述负样本作为所述样本预测BGC的监督,训练所述Pfam评分模型。
6.根据权利要求1至5任一所述的方法,其特征在于,所述确定各个所述Pfam结构域的Pfam得分之前,所述方法还包括:
基于目标数量以及目标步长,采用滑动窗口对所述基因组序列进行划分,得到至少两个序列片段,所述序列片段中包含所述目标数量的所述Pfam结构域,且相邻序列片段之间的偏移为所述目标步长;
所述确定各个所述Pfam结构域的Pfam得分,还包括:
以所述序列片段为单位,确定所述序列片段中各个所述Pfam结构域的所述Pfam得分;
响应于存在Pfam结构域属于至少两个所述序列片段,对至少两个所述序列片段中所述Pfam结构域的Pfam得分进行平均计算,将平均计算结果确定为所述Pfam结构域的目标Pfam得分。
7.根据权利要求1至5任一所述的方法,其特征在于,所述基于各个所述Pfam结构域的所述Pfam得分,确定所述基因组序列中的候选BGC,包括:
将同一基因中各个所述Pfam结构域的Pfam得分的均值确定为所述基因的基因得分;
基于合并规则对所述基因得分高于得分阈值的基因进行合并,得到合并基因;
响应于所述合并基因中核苷酸的数量大于数量阈值,且所述合并基因中不包含过滤结构域,将所述合并基因确定为所述候选BGC,所述过滤结构域为已知的不包含BGC的区域。
8.根据权利要求1至5任一所述的方法,其特征在于,所述对所述候选BGC进行BGC类别预测,并基于类别预测结果确定所述候选BGC中的潜在BGC,包括:
通过随机森林分类器对所述候选BGC进行BGC类别预测,得到所述类别预测结果,所述随机森林分类器的分类器类别包括BGC类别以及非BGC类别;
响应于所述类别预测结果中包含BGC类别标识,确定所述候选BGC为所述潜在BGC;
所述方法还包括:
响应于所述类别预测结果中包含非BGC类别标识,过滤所述候选BGC。
9.根据权利要求8所述的方法,其特征在于,所述通过随机森林分类器对所述候选BGC进行BGC类别预测,得到所述类别预测结果,包括:
基于所述候选BGC中所述Pfam结构域的统计信息,生成结构域统计矩阵;
将所述结构域统计矩阵输入所述随机森林分类器进行BGC类别预测,得到所述类别预测结果。
10.根据权利要求8所述的方法,其特征在于,所述Pfam得分由Pfam评分模型对所述Pfam结构域进行评分得到;
所述方法还包括:
响应于所述Pfam评分模型训练完成,基于正样本、增强负样本以及训练所述Pfam评分模型过程中预测错误的负样本,训练所述随机森林分类器,所述正样本属于BGC数据集,所述错误负样本属于非BGC数据集,所述增强负样本基于所述非BGC数据集中的负样本生成。
11.根据权利要求10所述的方法,其特征在于,所述方法包括:
从所述非BGC数据集中获取所述负样本;
基于Pfam结构域相似关系,对所述负样本中的Pfam结构域进行替换,得到所述增强负样本。
12.一种基因组序列中潜在BGC的预测装置,其特征在于,所述装置包括:
第一预测模块,用于对基因组序列中的各个基因进行结构域预测,得到各个基因中包含的蛋白质家族数据库Pfam结构域;
评分模块,用于确定各个所述Pfam结构域的Pfam得分,所述Pfam得分用于表征所述Pfam结构域属于生物合成基因簇BGC的概率;
第一确定模块,用于基于各个所述Pfam结构域的所述Pfam得分,确定所述基因组序列中的候选BGC,所述候选BGC由至少一个基因构成;
第二确定模块,用于对所述候选BGC进行BGC类别预测,并基于类别预测结果确定所述候选BGC中的潜在BGC。
13.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现如权利要求1至11任一所述的基因组序列中潜在BGC的预测方法。
14.一种计算机可读存储介质,其特征在于,所述可读存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如权利要求1至11任一所述的基因组序列中潜在BGC的预测方法。
CN202110888145.XA 2021-08-03 2021-08-03 基因组序列中潜在bgc的预测方法、装置、设备及介质 Active CN113764034B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110888145.XA CN113764034B (zh) 2021-08-03 2021-08-03 基因组序列中潜在bgc的预测方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110888145.XA CN113764034B (zh) 2021-08-03 2021-08-03 基因组序列中潜在bgc的预测方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN113764034A true CN113764034A (zh) 2021-12-07
CN113764034B CN113764034B (zh) 2023-09-22

Family

ID=78788492

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110888145.XA Active CN113764034B (zh) 2021-08-03 2021-08-03 基因组序列中潜在bgc的预测方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN113764034B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115547414A (zh) * 2022-10-25 2022-12-30 黑龙江金域医学检验实验室有限公司 潜在毒力因子的确定方法、装置、计算机设备及存储介质
CN116978445B (zh) * 2023-08-03 2024-03-26 北京师范大学珠海校区 一种天然产物的结构预测系统、预测方法及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170335335A1 (en) * 2016-05-23 2017-11-23 Northwestern University Systems and methods for untargeted metabolomic screening
CN110268057A (zh) * 2016-11-16 2019-09-20 斯坦福大学托管董事会 用于鉴定和表达基因簇的系统和方法
US20200194098A1 (en) * 2018-12-14 2020-06-18 Merck Sharp & Dohme Corp. Identifying biosynthetic gene clusters
WO2020144313A1 (en) * 2019-01-11 2020-07-16 Lonza Ltd Carbon-source regulated protein production in a recombinant host cell
CN111710360A (zh) * 2020-05-27 2020-09-25 广州大学 一种预测蛋白质序列的方法、系统、装置及介质
WO2021092456A1 (en) * 2019-11-07 2021-05-14 Northwestern University Linking genomes and metabolomes in fungi

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170335335A1 (en) * 2016-05-23 2017-11-23 Northwestern University Systems and methods for untargeted metabolomic screening
CN110268057A (zh) * 2016-11-16 2019-09-20 斯坦福大学托管董事会 用于鉴定和表达基因簇的系统和方法
US20200194098A1 (en) * 2018-12-14 2020-06-18 Merck Sharp & Dohme Corp. Identifying biosynthetic gene clusters
WO2020144313A1 (en) * 2019-01-11 2020-07-16 Lonza Ltd Carbon-source regulated protein production in a recombinant host cell
WO2021092456A1 (en) * 2019-11-07 2021-05-14 Northwestern University Linking genomes and metabolomes in fungi
CN111710360A (zh) * 2020-05-27 2020-09-25 广州大学 一种预测蛋白质序列的方法、系统、装置及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
GEOFFREY D. HANNIGAN等: "A deep learning genome-mining strategy for biosynthetic gene cluster prediction Geoffrey D.", NUCLEIC ACIDS RESEARCH, vol. 47, no. 18 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115547414A (zh) * 2022-10-25 2022-12-30 黑龙江金域医学检验实验室有限公司 潜在毒力因子的确定方法、装置、计算机设备及存储介质
CN115547414B (zh) * 2022-10-25 2023-04-14 黑龙江金域医学检验实验室有限公司 潜在毒力因子的确定方法、装置、计算机设备及存储介质
CN116978445B (zh) * 2023-08-03 2024-03-26 北京师范大学珠海校区 一种天然产物的结构预测系统、预测方法及设备

Also Published As

Publication number Publication date
CN113764034B (zh) 2023-09-22

Similar Documents

Publication Publication Date Title
Lanchantin et al. Deep motif dashboard: visualizing and understanding genomic sequences using deep neural networks
CN111312329B (zh) 基于深度卷积自动编码器的转录因子结合位点预测的方法
Urbanowicz et al. An analysis pipeline with statistical and visualization-guided knowledge discovery for michigan-style learning classifier systems
CN109978893A (zh) 图像语义分割网络的训练方法、装置、设备及存储介质
CN112906770A (zh) 一种基于跨模态融合的深度聚类方法及系统
CN107463795A (zh) 一种识别酪氨酸翻译后修饰位点的预测算法
CN113764034B (zh) 基因组序列中潜在bgc的预测方法、装置、设备及介质
CN114283888A (zh) 基于分层自注意力机制的差异表达基因预测系统
CN111582506A (zh) 基于全局和局部标记关系的偏多标记学习方法
CN115472221A (zh) 一种基于深度学习的蛋白质适应度预测方法
CN116386899A (zh) 基于图学习的药物疾病关联关系预测方法及相关设备
CN113763385A (zh) 视频目标分割方法、装置、设备及介质
CN114897085A (zh) 一种基于封闭子图链路预测的聚类方法及计算机设备
CN114420201A (zh) 一种多源数据高效融合的药物靶标相互作用的预测方法
US20230307092A1 (en) Identifying genome features in health and disease
CN115861902B (zh) 无监督的动作迁移和发现方法、系统、设备和介质
CN117153268A (zh) 一种细胞类别确定方法及系统
CN116206775A (zh) 一种融合多维度特征的药物-靶点相互作用预测方法
CN115472305A (zh) 一种预测微生物-药物关联作用的方法及系统
CN114496099A (zh) 细胞功能注释方法、装置、设备及介质
KR102212310B1 (ko) 오류 트리플 검출 시스템 및 방법
CN114300036A (zh) 遗传变异致病性预测方法、装置、存储介质及计算机设备
CN113297385A (zh) 基于改进GraphRNN的多标签文本分类模型及分类方法
CN113420821A (zh) 一种基于标记和特征局部相关性的多标记学习方法
Alzubaidi et al. Deep mining from omics data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
CB03 Change of inventor or designer information

Inventor after: Yang Ziyi

Inventor after: Liao Benben

Inventor after: Zhang Shengyu

Inventor after: Liang Hengyu

Inventor after: Xing Zhiwei

Inventor before: Yang Ziyi

Inventor before: Liao Benben

Inventor before: Zhang Shengyu

Inventor before: Xin Zhiwei

Inventor before: Liang Hengyu

CB03 Change of inventor or designer information
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant