CN111161798A - 宏基因组的重组装方法、重组装装置及终端设备 - Google Patents
宏基因组的重组装方法、重组装装置及终端设备 Download PDFInfo
- Publication number
- CN111161798A CN111161798A CN201911416602.4A CN201911416602A CN111161798A CN 111161798 A CN111161798 A CN 111161798A CN 201911416602 A CN201911416602 A CN 201911416602A CN 111161798 A CN111161798 A CN 111161798A
- Authority
- CN
- China
- Prior art keywords
- genome
- redundant
- microbial
- species
- metagenome
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 146
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 142
- 230000000813 microbial effect Effects 0.000 claims abstract description 127
- 238000012545 processing Methods 0.000 claims abstract description 42
- 238000005215 recombination Methods 0.000 claims abstract description 20
- 230000006798 recombination Effects 0.000 claims abstract description 20
- 241000894007 species Species 0.000 claims description 86
- 244000005700 microbiome Species 0.000 claims description 26
- 238000012163 sequencing technique Methods 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 19
- 101150092616 mth gene Proteins 0.000 claims description 4
- 239000011148 porous material Substances 0.000 claims description 4
- 238000011160 research Methods 0.000 abstract description 12
- 230000002068 genetic effect Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 108020004414 DNA Proteins 0.000 description 2
- 108091028043 Nucleic acid sequence Proteins 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000009629 microbiological culture Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 108700026220 vif Genes Proteins 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/20—Sequence assembly
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Biotechnology (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioinformatics & Computational Biology (AREA)
- Chemical & Material Sciences (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Analytical Chemistry (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本申请适用于生物信息技术领域,一种宏基因组的重组装方法、重组装装置及终端设备,包括:获取经过基因组装处理和宏基因组分箱处理后的初始基因组集合,所述初始基因组集合中包括多个微生物基因组;提取所述初始基因组集合中每个物种的非冗余基因组,其中,所述非冗余基因组为所属物种对应的目标基因个数最多的微生物基因组;对各个非冗余基因组分别进行重组装处理,得到重组装后的微生物基因组。通过上述方法,能够得到质量较高的微生物基因组,进而为后续的基因研究提供了可靠的研究对象。
Description
技术领域
本申请属于生物信息技术领域,尤其涉及一种宏基因组的重组装方法、重组装装置及终端设备。
背景技术
宏基因组是环境中全部微小生物遗传物质的总和,包含了可培养和不可培养的微生物的基因。以宏基因组为研究对象的研究方法称为宏基因组学,该方法不需要进行微生物培养,可以直接对取自环境样品中的核苷酸序列进行分析和研究。
目前,宏基因组学包括提取环境样品中的基因组数据(如核苷酸序列)、对提取的基因组数据进行测序得到基因测序序列、对基因测序序列进行基因组装处理得到重叠群、对重叠群进行宏基因组分箱处理得到微生物基因组、以及对得到的微生物基因组进行基因研究等。但是,通过现有的宏基因组分箱方法得到的微生物基因组缺少较多的基因特征,微生物基因组的质量较差,无法为后续的基因研究提供可靠的研究对象。
发明内容
本申请实施例提供了一种宏基因组的重组装方法、重组装装置及终端设备,可以解决现有的宏基因组分箱方法得到的微生物基因组的质量较差的问题。
第一方面,本申请实施例提供了一种宏基因组的重组装方法,包括:
获取经过基因组装处理和宏基因组分箱处理后的初始基因组集合,所述初始基因组集合中包括多个微生物基因组;
提取所述初始基因组集合中每个物种的非冗余基因组,其中,所述非冗余基因组为所属物种对应的目标基因个数最多的微生物基因组;
对各个非冗余基因组分别进行重组装处理,得到重组装后的微生物基因组。
在第一方面的一种可能的实现方式中,所述初始基因组集合中包括M×H个子集合,其中,M为基因组装方法的种类数,H为N种宏基因组分箱方法的参数的总和,Ln为第n种宏基因组分箱方法的参数的个数,基于第m种基因组装方法进行基因组装处理、并基于第h个参数以及第h个参数对应的宏基因组分箱方法进行宏基因组分箱处理后得到的至少一个微生物基因组为一个子集合,M、H、N和Ln均为正整数,m<M,h<H。
在第一方面的一种可能的实现方式中,所述初始基因组集合包括M个第一集合,每个第一集合包括基于相同的基因组装方法处理得到的微生物基因组,所述提取所述初始基因组集合中每个物种的非冗余基因组,包括:
提取每个第一集合中的每个物种的非冗余基因组,得到第二集合,所述第二集合包括从M个第一集合中提取的非冗余基因组;
提取所述第二集合中的每个物种的非冗余基因组。
在第一方面的一种可能的实现方式中,对于所述第一集合和所述第二集合中的任一集合,提取所述集合中每个物种的非冗余基因组,包括:
分别计算所述集合中每个微生物基因组的测序覆盖率,并根据所述测序覆盖率将所述集合中的各个微生物基因组划分为多个物种,每个物种包括K个微生物基因组;
对于每个物种,当K=1时,确定属于所述物种的一个微生物基因组为所述物种的非冗余基因组;
当K>1时,确定属于所述物种的K个微生物基因组中目标基因个数最多的微生物基因组为所述物种的非冗余基因组;
若属于所述物种的K个微生物基因组中包括至少两个目标基因个数最多的微生物基因组,则从所述至少两个目标基因个数最多的微生物基因组中确定基因序列最长的微生物基因组为所述物种的非冗余基因组。
在第一方面的一种可能的实现方式中,在对各个非冗余基因组分别进行重组装处理的步骤中,对于每个非冗余基因组,所述重组装处理包括:
利用与所述非冗余基因组属于同一物种的冗余基因组,对所述非冗余基因组进行修补处理,其中,所述冗余基因组为所述初始基因组集合中除所述非冗余基因组外的微生物基因组;
获取未经所述基因组装处理的基因测序序列中与修补处理后的非冗余基因组对应的基因片段,并对所述基因片段进行基因组装处理。
在第一方面的一种可能的实现方式中,所述利用与所述非冗余基因组属于同一物种的冗余基因组,对所述非冗余基因组进行修补处理,包括:
分别计算各个第一重叠群的覆盖率,并去除覆盖率大于第二预设值的第一重叠群,得到具有空隙的非冗余基因组,其中,所述第一重叠群为所述非冗余基因组中的重叠群;
对于所述具有孔隙的非冗余基因组中的每个第一重叠群,分别计算所述第一重叠群与各个第二重叠群之间的重复率,并将重复率大于第三预设值的第二重叠群与所述第一重叠群进行连接,其中,所述第二重叠群为与所述非冗余基因组属于同一物种的冗余基因组中的重叠群。
在第一方面的一种可能的实现方式中,在得到重组装后的微生物基因组之后,所述方法还包括:
计算所述重组装后的微生物基因组的完整度;
若所述完整度低于第四预设值,则重新对所述微生物基因组进行重组装处理,直到重组装后的微生物基因组的完整度高于或等于所述第四预设值。
第二方面,本申请实施例提供了一种宏基因组的重组装装置,包括:
获取单元,用于获取经过基因组装处理和宏基因组分箱处理后的初始基因组集合,所述初始基因组集合中包括多个微生物基因组;
去冗余单元,用于提取所述初始基因组集合中每个物种的非冗余基因组,其中,所述非冗余基因组为所属物种对应的目标基因个数最多的微生物基因组;
重组装单元,用于对各个非冗余基因组分别进行重组装处理,得到重组装后的微生物基因组。
第三方面,本申请实施例提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如上述第一方面中任一项所述的宏基因组的重组装方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上述第一方面中任一项所述的宏基因组的重组装方法。
第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述第一方面中任一项所述的**方法。
可以理解的是,上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
本申请实施例与现有技术相比存在的有益效果是:
本申请实施例通过获取经过基因组装处理和宏基因组分箱处理后的初始基因组集合,所述初始基因组集合中包括多个微生物基因组,此时得到的多个微生物基因组中混有质量较差的微生物基因组;提取所述初始基因组集合中每个物种的非冗余基因组,其中,所述非冗余基因组为所属物种对应的目标基因个数最多的微生物基因组;通过上述处理,可以提取部分包含基因特征较多的微生物基因组;最后对各个非冗余基因组分别进行重组装处理,得到重组装后的微生物基因组,通过重组装处理,能够进一步提高非冗余基因组的基因质量。通过上述方法,能够得到质量较高的微生物基因组,进而为后续的基因研究提供了可靠的研究对象。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提供的宏基因组分析系统的示意图;
图2是本申请一实施例提供的宏基因组的重组装方法的流程示意图;
图3是本申请又一实施例提供的宏基因组的重组装方法的流程示意图;
图4是本申请实施例提供的宏基因组的重组装装置的结构框图;
图5是本申请实施例提供的终端设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
如在本申请说明书和所附权利要求书中所使用的那样,术语“若”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”和“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。
先介绍本申请实施例提供的宏基因组的重组装方法的一个应用场景。参见图1,为本申请实施例提供的宏基因组分析系统的示意图。如图1所示,宏基因组分析系统可以包括:宏基因组分箱设备11和终端设备12。宏基因组分箱设备11与终端设备12通信连接。其中,宏基因组分箱设备11还可以包括提取装置111、测序装置112、组装装置113、分箱装置114,上述各装置依次通信连接。
宏基因组分箱设备11通过提取装置111提取环境样品中微生物DNA,通过测序装置112对提取到的微生物DNA进行测序得到基因测序序列,通过组装装置113对测序得到的基因测序序列进行基因组装处理得到重叠群,之后通过分箱装置114对重叠群进行宏基因组分箱处理得到多个微生物基因组;然后宏基因组分箱设备11将得到的多个微生物基因组发送给终端设备12,终端设备12利用本申请实施例提供的宏基因组的重组装方法对上述多个微生物基因组进行处理得到重组装后的微生物基因组。
宏基因组分箱设备得到的多个微生物基因组中混有质量较差的微生物基因组,终端设备利用本申请实施例提供的宏基因组的重组装方法对宏基因组分箱设备得到的多个微生物基因组进行处理,可以得到质量较高的微生物基因组。
另外,终端设备可以作为宏基因组分箱设备的外部设备,通过有线或无线的通信方式与宏基因组分箱设备连接。通过上述方式,可以直接对现有的宏基因组分箱设备进行终端设备的部署,无需改变现有的宏基因组分箱设备的结构等,提高了便利性和适用性。
图2示出了本申请一实施例提供的宏基因组的重组装方法的流程示意图,作为示例而非限定,所述方法可以包括以下步骤:
S201,获取经过基因组装处理和宏基因组分箱处理后的初始基因组集合,所述初始基因组集合中包括多个微生物基因组。
基因组装是指将经过基因测序后得到的基因片段通过末端的重叠序列相互连接、组装成较长的基因序列的过程,其中,组装得到的较长的基因序列称为重叠群。可以基于现有的基因组装方法(如MEGAHIT、CLCbio、IDBA、SPAdes和OPERA-MS等等)进行基因组装处理。
宏基因组分箱是指将基因组装得到的多个重叠群按物种分开归类的过程。简单来说就是把来自同一菌株的重叠群聚到一起,得到各个菌株的基因组。可以基于现有的宏基因组分箱方法(如MaxBin、Metabat和CONCOCT等等)进行宏基因组分箱处理。
在宏基因组分析过程中,通常只采用一种基因组装方法和一种宏基因组分箱方法。各种基因组装方法和各种宏基因组分箱方法都有其各自的优缺点,如果仅用某一种基因组组装方法或一种宏基因组分箱方法,得到的微生物基因组中不能包含完整的基因特征。
为了从复杂环境中尽可能多得恢复高质量的微生物基因组,在本申请实施例中,可以利用多种基因组装方法分别对测序得到的基因测序序列进行组装得到多个组装文件(组装文件使用上述基因组装方法获得,每个组装文件中包含基于一种基因组装方法进行基因组装处理后得到的多个重叠群),然后对于每个组装文件,再分别利用不同的宏基因组分箱方法以及每种宏基因组分箱方法对应的不同参数进行宏基因组分箱处理得到多个子集合。通过上述方法得到的初始基因组集合为:
所述初始基因组集合中包括M×H个子集合,其中,M为基因组装方法的种类数,H为N种宏基因组分箱方法的参数的总和,Ln为第n种宏基因组分箱方法的参数的个数,基于第m种基因组装方法进行基因组装处理、并基于第h个参数以及第h个参数对应的宏基因组分箱方法进行宏基因组分箱处理后得到的至少一个微生物基因组为一个子集合,M、H、N和Ln均为正整数,m<M,h<H。
示例性的,假设M=2,H=4,其中,N=3,L1=1,L2=1,L3=2,那么一共可以得到2×(1+1+2)=8个子集合。
进一步假设,基因组装方法有m1和m2共两种,宏基因组分箱方法有n1、n2和n3共三种,其中,n1的参数为a,n2的参数为b,n3的参数为c和d。针对某个基因测序序列W,将W基于m1进行基因组装处理,之后基于参数a以及参数a对应的宏基因组分箱方法n1进行宏基因组分箱处理得到一个子集合;将W基于m1进行基因组装处理,之后基于参数b以及参数b对应的宏基因组分箱方法n2进行宏基因组分箱处理,得到一个子集合;将W基于m1进行基因组装处理,之后基于参数c以及参数c对应的宏基因组分箱方法n3进行宏基因组分箱处理,得到一个子集合;将W基于m1进行基因组装处理,之后基于参数d以及参数d对应的宏基因组分箱方法n3进行宏基因组分箱处理,得到一个子集合;同理,将W基于m2进行基因组装处理,对应的也可以得到4个子集合。一共可以得到8个子集合。
上述方法中,将多种基因组装方法和多种宏基因组分箱方法进行排列组合,得到多种组合方法,并分别利用每种组合方法对基因测序序列进行基因组装处理和宏基因组分箱处理。当某种基因组装方法或宏基因组分箱方法具有一定缺陷时,可以通过其他的基因组装方法或宏基因组分箱方法进行弥补。因此,通过上述方法得到的初始基因组集合中,包含了更加丰富的微生物基因组,为后续的重组装处理提供了更完整的数据基础。
但是,由于分别利用不同的方法对同一组基因测序序列进行处理,得到的初始基因组集合中存在大量的冗余基因组,即多个微生物基因组属于同一物种。但是对于同一物种,只需要关注该物种中包含目标基因个数最多的微生物基因组(即质量最好的微生物基因组)即可。详见如下步骤。
S202,提取所述初始基因组集合中每个物种的非冗余基因组。
其中,所述非冗余基因组为所属物种对应的目标基因个数最多的微生物基因组。
这个过程可以看作是去冗余处理的过程,即排除质量较差的微生物基因组,保留每个物种中质量最好的微生物基因组。这一步骤可以对微生物基因组的质量进行第一次的提升。
其中,目标基因可以是人为预先设定的。在实际应用中,可以预先对某些带有较多的或较明显基因特征的基因进行标记,这些带有标记的基因作为目标基因,如对某些碱基进行荧光标记。这样,经过基因组装处理和宏基因组分箱处理后得到的微生物基因组中就包含了带有标记的基因。
包含目标基因的个数越多,说明该微生物基因组携带的基因特征越多,这样的微生物基因组质量较高。
S203,对各个非冗余基因组分别进行重组装处理,得到重组装后的微生物基因组。
示例性的,可以采用不同的基因组装方法对非冗余基因组进行重组装处理。例如,假设非冗余基因组是基于基因组装方法m1、m2和m3得到的,那么可以分别基于基因组装方法m1、m2和m3对非冗余基因进行重组装处理。
通过上述方法,将携带有较多基因特征的非冗余基因组进行重组装处理,可以避免由于单次基因组装处理引起的误差、错误等,进一步提高了微生物基因组的质量。
在一个实施例中,步骤S202中提取所述初始基因组集合中每个物种的非冗余基因组,可以包括以下步骤:
S21,提取每个第一集合中的每个物种的非冗余基因组,得到第二集合,所述第二集合包括从M个第一集合中提取的非冗余基因组。
初始基因组集合是基于M种基因组装方法得到的,因此初始基因组集合可以包括M个第一集合,每个第一集合包括基于同一个组装文件(即相同的基因组装方法)得到的微生物基因组。
换句话说,每个第一集合对应的组装文件相同(即组装方法相同),但对应的宏基因组分箱方法不同,使用的宏基因组分箱方法的参数也不同。
S22,提取所述第二集合中的每个物种的非冗余基因组。
在实际应用中,不同的基因组装方法对得到的微生物基因组质量的影响较大,因此,可以先针对不同的基因组装方法进行非冗余基因组的提取,以滤除质量明显较低的微生物基因组。然后对提取出的非冗余基因组构成的第二集合再次进行非冗余基因组的提取(即针对不同的宏基因组分箱方法以及不同的参数进行非冗余基因组的提取),即进行更精细地滤除处理。通过上述方法,可以得到质量较高的非冗余基因组。
在本申请实施例中,提取第一集合中每个微生物基因组的非冗余基因组的步骤,与提取第二集合中每个微生物基因组的非冗余基因组的步骤相同。因此,对于第一集合和第二集合中的任一集合,提取集合中每个物种的非冗余基因组,包括:
I、分别计算所述集合中每个微生物基因组的测序覆盖率,并根据所述测序覆盖率将所述集合中的各个微生物基因组划分为多个物种,每个物种包括K个微生物基因组。
在实际应用中,如果两个微生物基因组的测序覆盖率的差值足够小,那么可以认为这两个微生物基因组属于同一物种。
其中,第一预设值可以根据需要预先设定。
II、对于每个物种,当K=1时,确定属于所述物种的一个微生物基因组为所述物种的非冗余基因组。
III、当K>1时,确定属于所述物种的K个微生物基因组中目标基因个数最多的微生物基因组为所述物种的非冗余基因组。
IV、若属于所述物种的K个微生物基因组中包括至少两个目标基因个数最多的微生物基因组,则从所述至少两个目标基因个数最多的微生物基因组中确定基因序列最长的微生物基因组为所述物种的非冗余基因组。
如果两组微生物基因组中包含的目标基因个数相同,则说明这两组微生物基因组的质量相同。
基因序列越长,说明微生物基因组携带的基因特征越多。因此,当目标基因个数相同时,基因序列较长的微生物基因组的质量较高。当然,这里的基因序列也可以是指平均基因序列。
在一个实施例中,在S203对各个非冗余基因组分别进行重组装处理的步骤中,对于每个非冗余基因组,重组装处理包括:
S31,利用与所述非冗余基因组属于同一物种的冗余基因组,对所述非冗余基因组进行修补处理。
其中,冗余基因组为初始基因组集合中除非冗余基因组外的微生物基因组。
实际应用中,非冗余基因组中的某些位置上可能缺少基因信息,即非冗余基因组存在一些空隙。这种情况可能是由基因组装方法或宏基因组分箱方法造成的。换句话说,在基于其他的基因组装方法或宏基因组分箱方法得到的与该非冗余基因组属于同一物种的冗余基因组中,上述空隙位置上可能存在基因信息。这时,就可以利用与非冗余基因组属于同一物种的冗余基因组来进行修补,即填补非冗余基因组中的空隙。
S32,获取未经所述基因组装处理的基因测序序列中与修补处理后的非冗余基因组对应的基因片段,并对所述基因片段进行基因组装处理。
修补后的非冗余基因组中包括较完整的基因信息,这时,重新对非冗余基因组进行基因组装处理,可以得到质量较高的微生物基因组。
步骤S32中的基因组装处理方法可以采用任意一种基因组装方法,在此不做具体限定。
在本申请实施例中,步骤S31可以包括以下步骤:
S311,分别计算各个第一重叠群的覆盖率,并去除覆盖率大于第二预设值的第一重叠群,得到具有空隙的非冗余基因组,其中,所述第一重叠群为所述非冗余基因组中的重叠群。
当某个重叠群的覆盖率大于某个正常值时,可以认为该重叠群是非正常的,即奇异的。通过上述方法,可以去除非冗余基因组中的奇异基因片段。
S312,对于所述具有孔隙的非冗余基因组中的每个第一重叠群,分别计算所述第一重叠群与各个第二重叠群之间的重复率,并将重复率大于第三预设值的第二重叠群与所述第一重叠群进行连接,其中,所述第二重叠群为与所述非冗余基因组属于同一物种的冗余基因组中的重叠群。
在实际应用中,如果两个重叠群直接的重复率大于某个预设值,说明这两个重叠群是可以连接在一起的。
本申请实施例通过获取经过基因组装处理和宏基因组分箱处理后的初始基因组集合,所述初始基因组集合中包括多个微生物基因组,此时得到的多个微生物基因组中混有质量较差的微生物基因组;提取所述初始基因组集合中每个物种的非冗余基因组,其中,所述非冗余基因组为所属物种对应的目标基因个数最多的微生物基因组;通过上述处理,可以提取部分包含基因特征较多的微生物基因组;最后对各个非冗余基因组分别进行重组装处理,得到重组装后的微生物基因组,通过重组装处理,能够进一步提高非冗余基因组的基因质量。通过上述方法,能够得到质量较高的微生物基因组,进而为后续的基因研究提供了可靠的研究对象。
参见图3,为本申请又一实施例提供的宏基因组的重组装方法的流程示意图,作为示例而非限定,所述方法可以包括以下步骤:
S301,获取经过基因组装处理和宏基因组分箱处理后的初始基因组集合,所述初始基因组集合中包括多个微生物基因组。
S302,提取所述初始基因组集合中每个物种的非冗余基因组。
其中,所述非冗余基因组为所属物种对应的目标基因个数最多的微生物基因组。
S303,对各个非冗余基因组分别进行重组装处理,得到重组装后的微生物基因组。
步骤S301-S303与步骤S201-S203相同,详细可参见步骤S201-S203中的描述,在此不再赘述。
S304,计算所述重组装后的微生物基因组的完整度。
S305,若所述完整度低于第四预设值,则重新对所述微生物基因组进行重组装处理,直到重组装后的微生物基因组的完整度高于或等于所述第四预设值。
本申请实施例实际是在图2实施例的基础上,通过计算图2实施例中的宏基因组的重组装方法得到的微生物基因组的完整度,并当完整度未达到预设要求时,重新对微生物进行重组装处理,直到重组装后的微生物基因组的完整度达到预设要求。通过上述方法,反复地对微生物基因组进行重组装处理,使得微生物基因组的质量得以不断提高,最终得到完整度较高的微生物基因组。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
对应于上文实施例所述的宏基因组的重组装方法,图4示出了本申请实施例提供的宏基因组的重组装装置的结构框图,为了便于说明,仅示出了与本申请实施例相关的部分。
参照图4,该装置4包括:
获取单元41,用于获取经过基因组装处理和宏基因组分箱处理后的初始基因组集合,所述初始基因组集合中包括多个微生物基因组。
去冗余单元42,用于提取所述初始基因组集合中每个物种的非冗余基因组,其中,所述非冗余基因组为所属物种对应的目标基因个数最多的微生物基因组。
重组装单元43,用于对各个非冗余基因组分别进行重组装处理,得到重组装后的微生物基因组。
可选的,所述初始基因组集合中包括M×H个子集合,其中,M为基因组装方法的种类数,H为N种宏基因组分箱方法的参数的总和,Ln为第n种宏基因组分箱方法的参数的个数,基于第m种基因组装方法进行基因组装处理、并基于第h个参数以及第h个参数对应的宏基因组分箱方法进行宏基因组分箱处理后得到的至少一个微生物基因组为一个子集合,M、H、N和Ln均为正整数,m<M,h<H。
可选的,所述初始基因组集合包括M个第一集合,每个第一集合包括基于相同的基因组装方法处理得到的微生物基因组。相应的,去冗余单元42包括:
第一提取模块,用于提取每个第一集合中的每个物种的非冗余基因组,得到第二集合,所述第二集合包括从M个第一集合中提取的非冗余基因组。
第二提取模块,用于提取所述第二集合中的每个物种的非冗余基因组。
可选的,对于第一集合和第二集合中的任一集合,第一提取模块和第二提取模块中的任一提取模块包括:
计算子模块,用于分别计算所述集合中每个微生物基因组的测序覆盖率,并根据所述测序覆盖率将所述集合中的各个微生物基因组划分为多个物种,每个物种包括K个微生物基因组。
第一确定子模块,用于对于每个物种,当K=1时,确定属于所述物种的一个微生物基因组为所述物种的非冗余基因组。
第二确定子模块,用于当K>1时,确定属于所述物种的K个微生物基因组中目标基因个数最多的微生物基因组为所述物种的非冗余基因组。
第三确定子模块,用于若属于所述物种的K个微生物基因组中包括至少两个目标基因个数最多的微生物基因组,则从所述至少两个目标基因个数最多的微生物基因组中确定基因序列最长的微生物基因组为所述物种的非冗余基因组。
可选的,重组装单元43包括:
修补模块,用于利用与所述非冗余基因组属于同一物种的冗余基因组,对所述非冗余基因组进行修补处理,其中,所述冗余基因组为所述初始基因组集合中除所述非冗余基因组外的微生物基因组。
组装模块,用于获取未经所述基因组装处理的基因测序序列中与修补处理后的非冗余基因组对应的基因片段,并对所述基因片段进行基因组装处理。
可选的,修补模块包括:
计算子模块,用于分别计算各个第一重叠群的覆盖率,并去除覆盖率大于第二预设值的第一重叠群,得到具有空隙的非冗余基因组,其中,所述第一重叠群为所述非冗余基因组中的重叠群。
连接子模块,用于对于所述具有孔隙的非冗余基因组中的每个第一重叠群,分别计算所述第一重叠群与各个第二重叠群之间的重复率,并将重复率大于第三预设值的第二重叠群与所述第一重叠群进行连接,其中,所述第二重叠群为与所述非冗余基因组属于同一物种的冗余基因组中的重叠群。
可选的,装置4还包括:
计算单元44,用于在得到重组装后的微生物基因组之后,计算所述重组装后的微生物基因组的完整度。
重组装单元43,还用于若所述完整度低于第四预设值,则重新对所述微生物基因组进行重组装处理,直到重组装后的微生物基因组的完整度高于或等于所述第四预设值。
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
另外,图4所示的装置可以是内置于现有的终端设备内的软件单元、硬件单元、或软硬结合的单元,也可以作为独立的挂件集成到所述终端设备中,还可以作为独立的终端设备存在。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
图5为本申请一实施例提供的终端设备的结构示意图。如图5所示,该实施例的终端设备5包括:至少一个处理器50(图5中仅示出一个)处理器、存储器51以及存储在所述存储器51中并可在所述至少一个处理器50上运行的计算机程序52,所述处理器50执行所述计算机程序52时实现上述任意各个宏基因组的重组装方法实施例中的步骤。
所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该终端设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,图5仅仅是终端设备5的举例,并不构成对终端设备5的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括输入输出设备、网络接入设备等。
所称处理器50可以是中央处理单元(Central Processing Unit,CPU),该处理器50还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器51在一些实施例中可以是所述终端设备5的内部存储单元,例如终端设备5的硬盘或内存。所述存储器51在另一些实施例中也可以是所述终端设备5的外部存储设备,例如所述终端设备5上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器51还可以既包括所述终端设备5的内部存储单元也包括外部存储设备。所述存储器51用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,例如所述计算机程序的程序代码等。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。
本申请实施例提供了一种计算机程序产品,当计算机程序产品在移动终端上运行时,使得移动终端执行时实现可实现上述各个方法实施例中的步骤。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到宏基因组的重组装装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/网络设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/网络设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种宏基因组的重组装方法,其特征在于,包括:
获取经过基因组装处理和宏基因组分箱处理后的初始基因组集合,所述初始基因组集合中包括多个微生物基因组;
提取所述初始基因组集合中每个物种的非冗余基因组,其中,所述非冗余基因组为所属物种对应的目标基因个数最多的微生物基因组;
对各个非冗余基因组分别进行重组装处理,得到重组装后的微生物基因组。
3.如权利要求2所述的宏基因组的重组装方法,其特征在于,所述初始基因组集合包括M个第一集合,每个第一集合包括基于相同的基因组装方法处理得到的微生物基因组,所述提取所述初始基因组集合中每个物种的非冗余基因组,包括:
提取每个第一集合中的每个物种的非冗余基因组,得到第二集合,所述第二集合包括从M个第一集合中提取的非冗余基因组;
提取所述第二集合中的每个物种的非冗余基因组。
4.如权利要求3所述的宏基因组的重组装方法,其特征在于,对于所述第一集合和所述第二集合中的任一集合,提取所述集合中每个物种的非冗余基因组,包括:
分别计算所述集合中每个微生物基因组的测序覆盖率,并根据所述测序覆盖率将所述集合中的各个微生物基因组划分为多个物种,每个物种包括K个微生物基因组;
对于每个物种,当K=1时,确定属于所述物种的一个微生物基因组为所述物种的非冗余基因组;
当K>1时,确定属于所述物种的K个微生物基因组中目标基因个数最多的微生物基因组为所述物种的非冗余基因组;
若属于所述物种的K个微生物基因组中包括至少两个目标基因个数最多的微生物基因组,则从所述至少两个目标基因个数最多的微生物基因组中确定基因序列最长的微生物基因组为所述物种的非冗余基因组。
5.如权利要求1所述的宏基因组的重组装方法,其特征在于,在对各个非冗余基因组分别进行重组装处理的步骤中,对于每个非冗余基因组,所述重组装处理包括:
利用与所述非冗余基因组属于同一物种的冗余基因组,对所述非冗余基因组进行修补处理,其中,所述冗余基因组为所述初始基因组集合中除所述非冗余基因组外的微生物基因组;
获取未经所述基因组装处理的基因测序序列中与修补处理后的非冗余基因组对应的基因片段,并对所述基因片段进行基因组装处理。
6.如权利要求5所述的宏基因组的重组装方法,其特征在于,所述利用与所述非冗余基因组属于同一物种的冗余基因组,对所述非冗余基因组进行修补处理,包括:
分别计算各个第一重叠群的覆盖率,并去除覆盖率大于第二预设值的第一重叠群,得到具有空隙的非冗余基因组,其中,所述第一重叠群为所述非冗余基因组中的重叠群;
对于所述具有孔隙的非冗余基因组中的每个第一重叠群,分别计算所述第一重叠群与各个第二重叠群之间的重复率,并将重复率大于第三预设值的第二重叠群与所述第一重叠群进行连接,其中,所述第二重叠群为与所述非冗余基因组属于同一物种的冗余基因组中的重叠群。
7.如权利要求5所述的宏基因组的重组装方法,其特征在于,在得到重组装后的微生物基因组之后,所述方法还包括:
计算所述重组装后的微生物基因组的完整度;
若所述完整度低于第四预设值,则重新对所述微生物基因组进行重组装处理,直到重组装后的微生物基因组的完整度高于或等于所述第四预设值。
8.一种宏基因组的重组装装置,其特征在于,包括:
获取单元,用于获取经过基因组装处理和宏基因组分箱处理后的初始基因组集合,所述初始基因组集合中包括多个微生物基因组;
去冗余单元,用于提取所述初始基因组集合中每个物种的非冗余基因组,其中,所述非冗余基因组为所属物种对应的目标基因个数最多的微生物基因组;
重组装单元,用于对各个非冗余基因组分别进行重组装处理,得到重组装后的微生物基因组。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911416602.4A CN111161798B (zh) | 2019-12-31 | 2019-12-31 | 宏基因组的重组装方法、重组装装置及终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911416602.4A CN111161798B (zh) | 2019-12-31 | 2019-12-31 | 宏基因组的重组装方法、重组装装置及终端设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111161798A true CN111161798A (zh) | 2020-05-15 |
CN111161798B CN111161798B (zh) | 2024-03-19 |
Family
ID=70560206
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911416602.4A Active CN111161798B (zh) | 2019-12-31 | 2019-12-31 | 宏基因组的重组装方法、重组装装置及终端设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111161798B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114464260A (zh) * | 2021-12-29 | 2022-05-10 | 天津诺禾致源生物信息科技有限公司 | 染色体水平基因组的组装方法和组装装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014019164A1 (zh) * | 2012-08-01 | 2014-02-06 | 深圳华大基因研究院 | 一种分析微生物群落组成的方法和装置 |
CN108197434A (zh) * | 2018-01-16 | 2018-06-22 | 深圳市泰康吉音生物科技研发服务有限公司 | 去除宏基因组测序数据中人源基因序列的方法 |
CN109273053A (zh) * | 2018-09-27 | 2019-01-25 | 华中科技大学鄂州工业技术研究院 | 一种高通量测序的微生物数据处理方法 |
CN110473594A (zh) * | 2019-08-22 | 2019-11-19 | 广州微远基因科技有限公司 | 病原微生物基因组数据库及其建立方法 |
-
2019
- 2019-12-31 CN CN201911416602.4A patent/CN111161798B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014019164A1 (zh) * | 2012-08-01 | 2014-02-06 | 深圳华大基因研究院 | 一种分析微生物群落组成的方法和装置 |
CN108197434A (zh) * | 2018-01-16 | 2018-06-22 | 深圳市泰康吉音生物科技研发服务有限公司 | 去除宏基因组测序数据中人源基因序列的方法 |
CN109273053A (zh) * | 2018-09-27 | 2019-01-25 | 华中科技大学鄂州工业技术研究院 | 一种高通量测序的微生物数据处理方法 |
CN110473594A (zh) * | 2019-08-22 | 2019-11-19 | 广州微远基因科技有限公司 | 病原微生物基因组数据库及其建立方法 |
Non-Patent Citations (1)
Title |
---|
丁啸;张倩倩;曹唱唱;孙啸;: "一种基于关联性特征的宏基因组测序片段分装方法" * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114464260A (zh) * | 2021-12-29 | 2022-05-10 | 天津诺禾致源生物信息科技有限公司 | 染色体水平基因组的组装方法和组装装置 |
CN114464260B (zh) * | 2021-12-29 | 2023-09-26 | 上海诺禾致源医学检验实验室有限公司 | 染色体水平基因组的组装方法和组装装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111161798B (zh) | 2024-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tarver et al. | The interrelationships of placental mammals and the limits of phylogenetic inference | |
Xin et al. | Shifted Hamming distance: a fast and accurate SIMD-friendly filter to accelerate alignment verification in read mapping | |
Singh et al. | Differential gene regulatory networks in development and disease | |
Rigaill et al. | Synthetic data sets for the identification of key ingredients for RNA-seq differential analysis | |
Schmieder et al. | Quality control and preprocessing of metagenomic datasets | |
Ilie et al. | HiTEC: accurate error correction in high-throughput sequencing data | |
Krueger et al. | Large scale loss of data in low-diversity illumina sequencing libraries can be recovered by deferred cluster calling | |
Andrade et al. | A transcriptomic approach to ribbon worm systematics (Nemertea): resolving the Pilidiophora problem | |
Piro et al. | DUDes: a top-down taxonomic profiler for metagenomics | |
CN109994155B (zh) | 一种基因变异识别方法、装置和存储介质 | |
Hoffmann et al. | Accurate mapping of tRNA reads | |
CN105989249B (zh) | 用于组装基因组序列的方法、系统及装置 | |
CN112382362B (zh) | 一种针对靶点药物的数据分析方法及装置 | |
Grewe et al. | Reference-based RADseq resolves robust relationships among closely related species of lichen-forming fungi using metagenomic DNA | |
Galitsyna et al. | Single-cell Hi-C data analysis: safety in numbers | |
Marsh et al. | Bioinformatic analysis of bacteria and host cell dual RNA-sequencing experiments | |
Ranzani et al. | Next-generation sequencing analysis of long noncoding RNAs in CD4+ T cell differentiation | |
Arcila et al. | Testing the utility of alternative metrics of branch support to address the ancient evolutionary radiation of tunas, stromateoids, and allies (Teleostei: Pelagiaria) | |
Zhang et al. | Genome puzzle master (GPM): an integrated pipeline for building and editing pseudomolecules from fragmented sequences | |
Długosz et al. | RECKONER: read error corrector based on KMC | |
Verhelst et al. | The complex intron landscape and massive intron invasion in a picoeukaryote provides insights into intron evolution | |
Rivera-Colón et al. | Population genomics analysis with RAD, reprised: Stacks 2 | |
Hämälä et al. | Gene expression modularity reveals footprints of polygenic adaptation in Theobroma cacao | |
CN107832584B (zh) | 宏基因组的基因分析方法、装置、设备及存储介质 | |
CN105426700A (zh) | 一种批量计算基因组直系同源基因进化速率的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |