CN115678978A - 基于宏基因组和宏转录组识别油藏驱油功能微生物的方法 - Google Patents
基于宏基因组和宏转录组识别油藏驱油功能微生物的方法 Download PDFInfo
- Publication number
- CN115678978A CN115678978A CN202211176719.1A CN202211176719A CN115678978A CN 115678978 A CN115678978 A CN 115678978A CN 202211176719 A CN202211176719 A CN 202211176719A CN 115678978 A CN115678978 A CN 115678978A
- Authority
- CN
- China
- Prior art keywords
- macrotranscriptome
- metagenome
- quality
- microorganisms
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 244000005700 microbiome Species 0.000 title claims abstract description 43
- 238000006073 displacement reaction Methods 0.000 title claims abstract description 22
- 238000012163 sequencing technique Methods 0.000 claims abstract description 33
- 241000894006 Bacteria Species 0.000 claims abstract description 5
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims abstract description 5
- 238000000926 separation method Methods 0.000 claims abstract description 3
- 108090000623 proteins and genes Proteins 0.000 claims description 64
- 102000004169 proteins and genes Human genes 0.000 claims description 33
- 108020004414 DNA Proteins 0.000 claims description 18
- 239000012634 fragment Substances 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 12
- UFHFLCQGNIYNRP-UHFFFAOYSA-N Hydrogen Chemical compound [H][H] UFHFLCQGNIYNRP-UHFFFAOYSA-N 0.000 claims description 11
- 238000004458 analytical method Methods 0.000 claims description 11
- 239000001257 hydrogen Substances 0.000 claims description 11
- 229910052739 hydrogen Inorganic materials 0.000 claims description 11
- 238000003908 quality control method Methods 0.000 claims description 11
- 238000004519 manufacturing process Methods 0.000 claims description 10
- 238000013518 transcription Methods 0.000 claims description 10
- 230000035897 transcription Effects 0.000 claims description 10
- 230000015556 catabolic process Effects 0.000 claims description 8
- 238000006731 degradation reaction Methods 0.000 claims description 8
- 229930000044 secondary metabolite Natural products 0.000 claims description 7
- 239000004215 Carbon black (E152) Substances 0.000 claims description 5
- 229930195733 hydrocarbon Natural products 0.000 claims description 5
- 150000002430 hydrocarbons Chemical class 0.000 claims description 5
- 238000007476 Maximum Likelihood Methods 0.000 claims description 4
- 239000002299 complementary DNA Substances 0.000 claims description 4
- 241000182988 Assa Species 0.000 claims description 3
- 230000001580 bacterial effect Effects 0.000 claims description 3
- 238000010367 cloning Methods 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 239000007789 gas Substances 0.000 claims description 3
- 150000004676 glycans Chemical class 0.000 claims description 3
- 239000002207 metabolite Substances 0.000 claims description 3
- 229920001282 polysaccharide Polymers 0.000 claims description 3
- 239000005017 polysaccharide Substances 0.000 claims description 3
- 239000004094 surface-active agent Substances 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 2
- 150000001335 aliphatic alkanes Chemical class 0.000 claims description 2
- 101150081386 ancA gene Proteins 0.000 claims description 2
- 239000003995 emulsifying agent Substances 0.000 claims description 2
- 239000003112 inhibitor Substances 0.000 claims description 2
- 239000003550 marker Substances 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims description 2
- 238000001514 detection method Methods 0.000 abstract description 4
- 241000894007 species Species 0.000 abstract 2
- 239000003921 oil Substances 0.000 description 41
- 239000000523 sample Substances 0.000 description 20
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 13
- 108090000854 Oxidoreductases Proteins 0.000 description 6
- 102000004316 Oxidoreductases Human genes 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 230000000813 microbial effect Effects 0.000 description 4
- 238000011084 recovery Methods 0.000 description 4
- 238000012408 PCR amplification Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000007102 metabolic function Effects 0.000 description 3
- 230000037353 metabolic pathway Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 239000003153 chemical reaction reagent Substances 0.000 description 2
- 239000010779 crude oil Substances 0.000 description 2
- 230000000593 degrading effect Effects 0.000 description 2
- 239000000295 fuel oil Substances 0.000 description 2
- 230000004060 metabolic process Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 108020004707 nucleic acids Proteins 0.000 description 2
- 102000039446 nucleic acids Human genes 0.000 description 2
- 150000007523 nucleic acids Chemical class 0.000 description 2
- 108020004465 16S ribosomal RNA Proteins 0.000 description 1
- 238000007400 DNA extraction Methods 0.000 description 1
- 102000016911 Deoxyribonucleases Human genes 0.000 description 1
- 108010053770 Deoxyribonucleases Proteins 0.000 description 1
- 241000194033 Enterococcus Species 0.000 description 1
- 241000159512 Geotrichum Species 0.000 description 1
- 241001212817 Kerstersia gyiorum Species 0.000 description 1
- 108010028921 Lipopeptides Proteins 0.000 description 1
- 229910002651 NO3 Inorganic materials 0.000 description 1
- NHNBFGGVMKEFGY-UHFFFAOYSA-N Nitrate Chemical compound [O-][N+]([O-])=O NHNBFGGVMKEFGY-UHFFFAOYSA-N 0.000 description 1
- 108700026244 Open Reading Frames Proteins 0.000 description 1
- 241001520299 Phascolarctos cinereus Species 0.000 description 1
- 102000001708 Protein Isoforms Human genes 0.000 description 1
- 108010029485 Protein Isoforms Proteins 0.000 description 1
- 241000192142 Proteobacteria Species 0.000 description 1
- 238000010802 RNA extraction kit Methods 0.000 description 1
- 239000013614 RNA sample Substances 0.000 description 1
- 108091007187 Reductases Proteins 0.000 description 1
- 241000607720 Serratia Species 0.000 description 1
- 230000003115 biocidal effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000005260 corrosion Methods 0.000 description 1
- 230000007797 corrosion Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000001804 emulsifying effect Effects 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 238000011065 in-situ storage Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 108020004999 messenger RNA Proteins 0.000 description 1
- 230000002503 metabolic effect Effects 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 239000002096 quantum dot Substances 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/02—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving viable microorganisms
- C12Q1/04—Determining presence or kind of microorganism; Use of selective media for testing antibiotics or bacteriocides; Compositions containing a chemical indicator therefor
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B10/00—ICT specially adapted for evolutionary bioinformatics, e.g. phylogenetic tree construction or analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/20—Sequence assembly
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/10—Ontologies; Annotations
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Organic Chemistry (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Analytical Chemistry (AREA)
- Wood Science & Technology (AREA)
- Zoology (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Bioethics (AREA)
- Biochemistry (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Microbiology (AREA)
- Immunology (AREA)
- Animal Behavior & Ethology (AREA)
- Toxicology (AREA)
- Physiology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及一种基于宏基因组和宏转录组识别油藏驱油功能微生物的方法,包括以下步骤:S1:自油藏产出水样提取总DNA和总RNA;S2:对获得的总DNA和总RNA进行测序,获取油藏样品的宏基因组和宏转录组原始数据;S3:通过对宏基因组和宏转录组结果进行分析,识别具有驱油功能的微生物。与现有技术相比,本发明不依赖传统的速度较慢的微生物单菌分离鉴定手段,适合处理未知物种较多的样本,且可检测极低丰度物种,检测全面、快速。
Description
技术领域
本发明涉及微生物检测技术领域,尤其是涉及一种基于宏基因组和宏转录组识别油藏驱油功能微生物的方法。
背景技术
我国稠油资源量约为198.7亿吨,年产量高达3087万吨(2017年),已占原油总产量的16.2%。由于稠油粘度高(50-10000mPa.s),在油藏中流动性差,一般以蒸汽热采方法为主,而热采法耗能大、成本高、开采效果差。此外,油藏是一个天然生物反应发生器,同时蕴含了具有各种功能的好氧及厌氧微生物。通过利用微生物来采油的技术绿色环保、成本低,可用于稠油开采,其主要机理是通过微生物在油藏中乳化原油、产气、产表面活性剂、产多糖和降解烃等五方面功能降低稠油粘度、提高水驱效率。
近20年来,对油藏环境中微生物的研究已经从最初的纯菌分离培养模式过渡到了依赖测序的分子生物学研究方式。其中,测序手段可以大致分为依赖PCR扩增的测序技术和不依赖PCR扩增的宏基因组与宏转录组测序技术。前者以16S rRNA基因克隆文库方法为代表,在油藏环境样品中已经受到广泛应用,通过设计特异性的引物可以扩增出样品中的相关基因序列,从而在基因的水平上阐述微生物的潜在代谢功能。而后者不需要PCR扩增,可以同时测定样品中所有基因的序列信息。因此,采用宏基因组测序分析油藏环境样品可以深入解析样品中潜在的代谢网络,进一步将宏基因组技术和宏转录组技术结合能够得到代谢途径上各个基因的转录水平,从而推断油藏环境下的各种微生物代谢过程。
现有的宏基因组学分析手段(例如一种基于宏转录组学和宏基因组学的环境中抗生素抗性基因的活性定量及宿主鉴定方法,申请号202110740585.0)已经可以根据需求对一些常规环境样品的目标功能基因和重要微生物进行分析。但是地下油藏作为一个以厌氧条件为主的特殊环境,如果不对样品的采集和提取过程进行针对性的处理,样品中的微生物组成极易受到干扰而发生变化,RNA也会发生降解,从而导致后续的分析无法获得真正的油藏原位微生物数据。并且油藏中微生物的功能多种多样,其中值得关注研究的种类繁多,单一数据库无法对这些功能进行有效的分析,因此必须结合多个公开数据库以及本地自建数据库才能更全面地注释和分析样品中的这些关键功能。
可见,基于目前的技术空白,亟需开发一种特别针对油藏环境而开发的基于宏基因组学和宏转录组学的微生物识别、分析方法。
发明内容
本发明的目的就是为了解决对现有技术中油藏微生物检测手段可以获得的信息有限的问题,提供了一种联合应用宏基因组和宏转录组准确地识别油藏中微生物和代谢功能的方法。
本发明的目的通过以下技术方案实现:
本发明的目的是提供一种基于宏基因组和宏转录组识别油藏驱油功能微生物的方法,包括以下步骤:
S1:自油藏产出水样提取总DNA和总RNA;
S2:对获得的总DNA和总RNA进行测序,获取油藏样品的宏基因组和宏转录组原始数据;
S3:通过对宏基因组和宏转录组结果进行分析,识别具有驱油功能的微生物。
进一步地,S1中,在提取总DNA和总RNA之前,在待提取RNA的样品中加入抑制剂以抑制厌氧微生物的RNA降解。
进一步地,S2中,还包括:对油藏样品的宏基因组和宏转录组原始数据进行预处理,得到去除接头和低质量片段的目标数据;
所述预处理的过程包括:
利用fastp软件分别对对油藏样品的宏基因组和宏转录组中各DNA或RNA链序列双端的原始数据进行滑窗质量剪裁,同时,根据序列首尾两端的引物信息,利用cutadapt软件去除引物,得到质控后的双端序列数据。
进一步地,滑窗质量剪裁的参数为-W 4,-M 20,即滑动窗大小为4,平均质量值为20。
进一步地,S3中,对宏基因组和宏转录组结果进行分析的过程包括:
对质控后的双端序列数据进行组装、分箱并评估质量,去除冗余后提取其中高质量的MAGs(宏基因组组装基因组)数据集;
根据构建的参考数据库对高质量的MAGs组装数据进行注释,识别出具有不同驱油功能的功能基因和MAGs,并计算对应的测序深度和相对丰度;
对高质量的MAGs数据集做进化关系分析,进而做出驱油微生物的群落结构分析;
将宏转录组测序得到的序列短片段质控过滤后与MAGs数据对比,计算出各个基因的转录水平。
进一步地,S3中,组装、分箱并评估质量的过程包括:
组装:使用拼接程序SPADes在Meta模式下,将质控后的双端序列数据样品短序列拼接成长度不一的contigs(交替片段产物),然后根据双端测序的信息将不同contigs连接成有测序缺口的scaffolds(骨架序列);
分箱:采用bowtie2软件将质控后的MAGs短序列数据信息比对到长序列信息上,获得不同长序列的测序覆盖度信息,进一步同时采用Maxbin2、Metabat2、CONCOCT三种Binning手段从MAGs中分离出优势菌的基因组,并进一步导入DAS_Tool程序中进行评估,最终整合并提高不同方法生成基因组的质量;
评估质量:利用dRep软件将质控后的MAGs中相似度较高的基因组去除冗余,通过CheckM工具根据基因组中单拷贝标记基因的有无和数量来估算基因组的完整度和污染度。
进一步地,S3中,对高质量的MAGs组装数据进行注释的过程包括:
使用Prodigal程序(预测开放阅读框)将拼接后的长序列翻译成编码蛋白序列(CDS),并提交到KEGG数据库,采用GhostKOALA工具进行功能性注释并获得代表不同旁系同源亚基的KO号;
同时采用本地软件KofamKOALA根据各个KO旁系同源家族蛋白的隐马可夫模型(HMM)和推荐的置信标准给各个蛋白序列注释KO号;
最后采用EggNOG emapper 2工具给蛋白序列注释COG号,再转换成KO号,使得最终每个蛋白质的KO号注释采用以下顺序:1)GhostKOALA KO,2)KofamKOALA KO,3)EggNOGemapper KO。
进一步地,S3中,所述驱油功能包括烷烃降解、产气、产乳化剂、产表面活性剂、产多糖中的一种或多种。
进一步地,S3中,识别出具有不同驱油功能的功能基因和MAGs,并结合bowtie2软件对比得到的各序列的测序覆盖度信息计算对应的测序深度和相对丰度的过程包括:
针对氢气还原酶,首先通过本地的氢气还原酶亚组的HMM模型比对找出潜在的功能基因蛋白;
之后将潜在的功能基因蛋白序列提交到HydDB数据库的在线分析软件进一步划分氢气还原酶的亚型;
针对基因组中潜在的编码次级代谢产物的功能,通过将基因组序列提交至AntiSMASH网站,结合不同的工具找到基因组中潜在编码次级代谢产物的基因组,并预测代谢产物的类型;
针对数据库中信息缺少的功能基因,单独构建本地的蛋白序列数据库,通过BlasP(Blast Protein)比对方法找到最相似的蛋白序列并进一步分析,所述数据库中信息缺少的功能基因包括厌氧烃降解初始活化基因AssA、EbdA、AhyA、AncA,和细菌微室蛋白簇基因中的一种或多种。
进一步地,S3中,对高质量的MAGs数据集做进化关系分析的过程包括:
首先将目标序列以及数据库中的相似参比序列下载并合并文件,合并后的序列首先在MAFFT上排列整齐,并以80%的阈值来选择保守位点,进而使用IQ-tree(该算法采用最大似然法构建系统发育树)来两两比对序列并生成最大似然进化树。
进一步地,S3中,将宏转录组测序得到的序列短片段质控过滤后与MAGs数据对比,计算出各个基因的转录水平的过程包括:
采用bowtie2软件将高质量的MAGs数据集中的cDNA短片段比对到通过S3中组装分箱后的宏基因组拼接得到的DNA长片段上,计算出各个基因的转录水平,以TPM值(Transcripts Per Million)来表示。
与现有技术相比,本技术方案的优势在于:
本技术方案是一种特别针对油藏环境而开发的基于宏基因组学和宏转录组学的微生物分析方法,整体过程中,自油藏产出水样提取总DNA和总RNA,测序获取油藏样品的宏基因组和宏转录组原始数据,通过对宏基因组和宏转录组结果进行分析,识别具有驱油功能的微生物,整体过程不依赖传统的速度较慢的微生物单菌分离鉴定手段,适合处理未知物种较多的样本,且可检测极低丰度物种,检测全面、快速。
具体实施方式
下面结合具体实施例对本发明进行详细说明,但绝不是对本发明的限制。本技术方案中如未明确说明的软件/程序名称、控制方法、算法等特征,均视为现有技术中公开的常见技术特征。
本发明的油藏驱油功能微生物识别方法基于宏基因组和宏转录组测序经行检测,具体包括如下步骤:
步骤s1:收集环境样品,在样品中加入RNALater试剂抑制RNA降解,然后分别用DNA和RNA提取试剂盒提取DNA和RNA。
步骤s2:进行宏基因组和宏转录组测序。
步骤s3:宏基因组和宏转录组测序结果分析,包括以下步骤:
步骤s31:使用fastp对测序得到的核算短片段进行质检并剔除质量较低的序列和参与的测序接头。
步骤s32:使用拼接程序SPADes在‘Meta’模式下进行样品短序列拼接成长度不一的‘contigs’,然后根据双端测序的信息将不同‘contigs’连接成有测序缺口的‘scaffolds’。
步骤s33:使用Prodigal程序将拼接后的长序列翻译成编码蛋白序列(CDS),采用GhostKOALA,KofamKOALA和EggNOG emapper 2三种工具给蛋白序列注释COG号,再转换成KO号。最终每个蛋白质的KO号注释采用以下顺序:1)GhostKOALA KO,2)KofamKOALA KO以及3)EggNOG emapper KO。
步骤s34:针对氢气还原酶,首先通过本地的氢气还原酶亚组的HMM模型比对找出潜在的功能基因蛋白。之后将这些蛋白序列提交到HydDB数据库的在线分析软件进一步划分氢气还原酶的亚型。针对基因组中潜在的编码次级代谢产物的功能,主要通过将基因组序列提交至AntiSMASH网站,结合不同的工具找到基因组中潜在编码次级代谢产物的基因组,并预测代谢产物的类型。此外,针对数据库中信息较少的功能基因,如厌氧烃降解初始活化基因AssA,EbdA,AhyA和AncA,以及细菌微室蛋白簇基因,专门构建本地的蛋白序列数据库,通过BlasP比对方法找到最相似的蛋白序列并进一步分析。
步骤s35:使用Maxbin2、Metabat2、CONCOCT三种Bining手段从数据中分离出基因组,并导入DAS_Tool程序中进行评估,合并提取通过不同方法得到的高质量基因组。
步骤s36:首先将目标序列以及数据库中的相似参比序列下载并合并文件,合并后的序列首先在MAFFT上排列整齐,并以80%的阈值来选择保守位点,进而使用IQ-tree来两两比对序列并生成最大似然进化树。
步骤s37:针对通过宏转录组测序得到的mRNA序列短片段。在质控后采用bowtie2等软件将cDNA短片段比对到宏基因组拼接得到的DNA长片段上,计算出各个基因的转录水平,以TPM值(Transcripts Per Million)来表示。
实施例1
(1)样品采集及核酸提取
在RNA样品的桶中提前加入总体积20%的RNALater,取样时保证油藏样品充满全部桶体积以排除空气。在提取核酸前低温保存。
分别使用PowerSoil Total DNA Kit(QIAGEN,美国)和PowerSoil Total RNA Kit(QIAGEN,美国)提取DNA和RNA,并使用RNase-Free DNase set(QIAGEN,美国)提纯RNA,合成cDNA后-80℃保存。
(2)获得微生物的宏基因组和宏转录组数据
使用NEBUltraTM DNA Library Prep Kit for(New EnglandBiolabs,美国)试剂构建了带有索引码的测序文库。使用Qubit 3.0 Fluorometer(LifeTechnologies,美国)和Agilent 4200(Agilent,加拿大)共同评估了文库的质量。最后在Illumina Hiseq X-ten平台上,对文库进行了测序,得到了150bp的双端碱基序列。
(3)数据分析
原始数据通过使用fastp进行质控和过滤。宏基因组数据通过SPADes经行组装,Maxbin2、Metabat2和CONCOCT进行分箱。获得的基因组导入DAS_Tool后获得高质量的基因组。使用prodigal将长片段翻译成编码蛋白序列CDS,采用GhostKOALA,KofamKOALA和EggNOG emapper 2三种工具给蛋白序列注释,通过HydDB数据库AntiSMASH分析基因组的产氢气能力和次级代谢产物合成能力,通过自建本地数据库分析厌氧烃降解能力。
宏转录组数据通过Bowtie2比对到宏基因组拼接的DNA长片段上,计算出各个基因的转录水平TPM。
结合样品中基因组的相对丰度和对应的代谢通路可以准确地识别油藏中的主要微生物和代谢功能,再结合转录组数据可以得到这些微生物的表达活性。
以大庆油田的一份产出液样品为例,表1中的数据为各基因组测序覆盖度和代谢通路。从表中可以得知该样品中最主要的微生物为变形菌门的Kerstersia_gyiorum和Serratia_nematodiphila以及厚壁菌门的Enterococcus。样品中的微生物大都为具有硝酸盐还原能力的兼性厌氧微生物,且样品中存在针对不同链长的好氧烃降解菌。近一半的微生物都具有完整的合成脂肽的代谢通路。此外,大多数氢营养型微生物同时具有产氢能力。以上这些信息可以为油藏提高采收率和防腐蚀方面的决策提供理论依据。
基因组信息表1
上述的对实施例的描述是为便于该技术领域的普通技术人员能理解和使用发明。熟悉本领域技术的人员显然可以容易地对这些实施例做出各种修改,并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此,本发明不限于上述实施例,本领域技术人员根据本发明的揭示,不脱离本发明范畴所做出的改进和修改都应该在本发明的保护范围之内。
Claims (10)
1.一种基于宏基因组和宏转录组识别油藏驱油功能微生物的方法,其特征在于,包括以下步骤:
S1:自油藏产出水样提取总DNA和总RNA;
S2:对获得的总DNA和总RNA进行测序,获取油藏样品的宏基因组和宏转录组原始数据;
S3:通过对宏基因组和宏转录组结果进行分析,识别具有驱油功能的微生物。
2.根据权利要求1所述的一种基于宏基因组和宏转录组识别油藏驱油功能微生物的方法,其特征在于,S1中,在提取总DNA和总RNA之前,在待提取RNA的样品中加入抑制剂以抑制厌氧微生物的RNA降解。
3.根据权利要求1所述的一种基于宏基因组和宏转录组识别油藏驱油功能微生物的方法,其特征在于,S2中,还包括:对油藏样品的宏基因组和宏转录组原始数据进行预处理,得到去除接头和低质量片段的目标数据;
所述预处理的过程包括:
利用fastp软件分别对对油藏样品的宏基因组和宏转录组中各DNA或RNA链序列双端的原始数据进行滑窗质量剪裁,同时,根据序列首尾两端的引物信息,利用cutadapt软件去除引物,得到质控后的双端序列数据。
4.根据权利要求3所述的一种基于宏基因组和宏转录组识别油藏驱油功能微生物的方法,其特征在于,S3中,对宏基因组和宏转录组结果进行分析的过程包括:
对质控后的双端序列数据进行组装、分箱并评估质量,去除冗余后提取其中高质量的MAGs数据集;
根据构建的参考数据库对高质量的MAGs组装数据进行注释,识别出具有不同驱油功能的功能基因和MAGs,并计算对应的测序深度和相对丰度;
对高质量的MAGs数据集做进化关系分析,进而做出驱油微生物的群落结构分析;
将宏转录组测序得到的序列短片段质控过滤后与MAGs数据对比,计算出各个基因的转录水平。
5.根据权利要求4所述的一种基于宏基因组和宏转录组识别油藏驱油功能微生物的方法,其特征在于,S3中,组装、分箱并评估质量的过程包括:
组装:使用拼接程序SPADes在Meta模式下,将质控后的双端序列数据样品短序列拼接成长度不一的contigs,然后根据双端测序的信息将不同contigs连接成有测序缺口的scaffolds;
分箱:采用bowtie2软件将质控后的MAGs短序列数据信息比对到长序列信息上,获得不同长序列的测序覆盖度信息,进一步同时采用Maxbin2、Metabat2、CONCOCT三种Binning手段从MAGs中分离出优势菌的基因组,并进一步导入DAS_Tool程序中进行评估,最终整合并提高不同方法生成基因组的质量;
评估质量:利用dRep软件将质控后的MAGs中相似度较高的基因组去除冗余,通过CheckM工具根据基因组中单拷贝标记基因的有无和数量来估算基因组的完整度和污染度。
6.根据权利要求4所述的一种基于宏基因组和宏转录组识别油藏驱油功能微生物的方法,其特征在于,S3中,对高质量的MAGs组装数据进行注释的过程包括:
使用Prodigal程序将拼接后的长序列翻译成编码蛋白序列,并提交到KEGG数据库,采用GhostKOALA工具进行功能性注释并获得代表不同旁系同源亚基的KO号;
同时采用本地软件KofamKOALA根据各个KO旁系同源家族蛋白的隐马可夫模型和推荐的置信标准给各个蛋白序列注释KO号;
最后采用EggNOG emapper 2工具给蛋白序列注释COG号,再转换成KO号,使得最终每个蛋白质的KO号注释采用以下顺序:1)GhostKOALA KO,2)KofamKOALA KO,3)EggNOG emapperKO。
7.根据权利要求4所述的一种基于宏基因组和宏转录组识别油藏驱油功能微生物的方法,其特征在于,S3中,所述驱油功能包括烷烃降解、产气、产乳化剂、产表面活性剂、产多糖中的一种或多种。
8.根据权利要求7所述的一种基于宏基因组和宏转录组识别油藏驱油功能微生物的方法,其特征在于,S3中,识别出具有不同驱油功能的功能基因和MAGs的过程包括:
针对氢气还原酶,首先通过本地的氢气还原酶亚组的HMM模型比对找出潜在的功能基因蛋白;
之后将潜在的功能基因蛋白序列提交到HydDB数据库的在线分析软件进一步划分氢气还原酶的亚型;
针对基因组中潜在的编码次级代谢产物的功能,通过将基因组序列提交至AntiSMASH网站,结合不同的工具找到基因组中潜在编码次级代谢产物的基因组,并预测代谢产物的类型;
针对数据库中信息缺少的功能基因,单独构建本地的蛋白序列数据库,通过BlastP比对方法找到最相似的蛋白序列并进一步分析,所述数据库中信息缺少的功能基因包括厌氧烃降解初始活化基因AssA、EbdA、AhyA、AncA,和细菌微室蛋白簇基因中的一种或多种。
9.根据权利要求4所述的一种基于宏基因组和宏转录组识别油藏驱油功能微生物的方法,其特征在于,S3中,对高质量的MAGs数据集做进化关系分析的过程包括:
首先将目标序列以及数据库中的相似参比序列下载并合并文件,合并后的序列首先在MAFFT上排列整齐,并以80%的阈值来选择保守位点,进而使用IQ-tree来两两比对序列并生成最大似然进化树。
10.根据权利要求4所述的一种基于宏基因组和宏转录组识别油藏驱油功能微生物的方法,其特征在于,S3中,将宏转录组测序得到的序列短片段质控过滤后与MAGs数据对比,计算出各个基因的转录水平的过程包括:
采用bowtie2软件将高质量的MAGs数据集中的cDNA短片段比对到宏基因组,并拼接得到的DNA长片段上,计算出各个基因的转录水平,以TPM值来表示。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211176719.1A CN115678978A (zh) | 2022-09-26 | 2022-09-26 | 基于宏基因组和宏转录组识别油藏驱油功能微生物的方法 |
PCT/CN2023/099026 WO2024066461A1 (zh) | 2022-09-26 | 2023-06-08 | 基于宏基因组和宏转录组识别油藏驱油功能微生物的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211176719.1A CN115678978A (zh) | 2022-09-26 | 2022-09-26 | 基于宏基因组和宏转录组识别油藏驱油功能微生物的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115678978A true CN115678978A (zh) | 2023-02-03 |
Family
ID=85062111
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211176719.1A Pending CN115678978A (zh) | 2022-09-26 | 2022-09-26 | 基于宏基因组和宏转录组识别油藏驱油功能微生物的方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN115678978A (zh) |
WO (1) | WO2024066461A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116758995A (zh) * | 2023-08-15 | 2023-09-15 | 北京诺禾致源科技股份有限公司 | 基因组注释方法和电子装置 |
WO2024066461A1 (zh) * | 2022-09-26 | 2024-04-04 | 华东理工大学 | 基于宏基因组和宏转录组识别油藏驱油功能微生物的方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112599198A (zh) * | 2020-12-29 | 2021-04-02 | 上海派森诺生物科技股份有限公司 | 一种用于宏基因组测序数据的微生物物种与功能组成分析方法 |
CN112786102B (zh) * | 2021-01-25 | 2022-10-21 | 北京大学 | 一种基于宏基因组学分析精准识别水体中未知微生物群落的方法 |
CN113257348A (zh) * | 2021-05-26 | 2021-08-13 | 南开大学 | 一种宏转录组测序数据处理方法及系统 |
CN113337591A (zh) * | 2021-06-30 | 2021-09-03 | 清华大学深圳国际研究生院 | 一种基于宏转录组学和宏基因组学的环境中抗生素抗性基因的活性定量及宿主鉴定方法 |
CN115678978A (zh) * | 2022-09-26 | 2023-02-03 | 华东理工大学 | 基于宏基因组和宏转录组识别油藏驱油功能微生物的方法 |
-
2022
- 2022-09-26 CN CN202211176719.1A patent/CN115678978A/zh active Pending
-
2023
- 2023-06-08 WO PCT/CN2023/099026 patent/WO2024066461A1/zh unknown
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024066461A1 (zh) * | 2022-09-26 | 2024-04-04 | 华东理工大学 | 基于宏基因组和宏转录组识别油藏驱油功能微生物的方法 |
CN116758995A (zh) * | 2023-08-15 | 2023-09-15 | 北京诺禾致源科技股份有限公司 | 基因组注释方法和电子装置 |
CN116758995B (zh) * | 2023-08-15 | 2023-12-15 | 广州诺禾医学检验所有限公司 | 基因组注释方法和电子装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2024066461A1 (zh) | 2024-04-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115678978A (zh) | 基于宏基因组和宏转录组识别油藏驱油功能微生物的方法 | |
Karst et al. | Retrieval of a million high-quality, full-length microbial 16S and 18S rRNA gene sequences without primer bias | |
DK2694669T3 (en) | PROCEDURES FOR THE PREPARATION OR CREATION OF A SYNTHETIC MICROBIAL CONSORTIUM IDENTIFIED BY COMPUTER ANALYSIS OF AMPLICON SEQUENCES | |
JP6238069B2 (ja) | 微生物の識別方法 | |
Eme et al. | Inference and reconstruction of the heimdallarchaeial ancestry of eukaryotes | |
Reddy et al. | Natural product biosynthetic gene diversity in geographically distinct soil microbiomes | |
EP3221470B1 (en) | Method of analyzing microbiome | |
WO2014019164A1 (zh) | 一种分析微生物群落组成的方法和装置 | |
CN112349350B (zh) | 基于一种杜氏藻核心基因组序列进行品系鉴定的方法 | |
CN111816258A (zh) | 人体菌群16S rDNA高通量测序物种精确鉴定的优化方法 | |
Vuillemin et al. | Atribacteria reproducing over millions of years in the Atlantic abyssal subseafloor | |
Ionescu et al. | Microbial community analysis using high‐throughput amplicon sequencing | |
Tran et al. | De novo computational prediction of non-coding RNA genes in prokaryotic genomes | |
Kuster et al. | ngsComposer: an automated pipeline for empirically based NGS data quality filtering | |
Bickhart et al. | Generation of lineage-resolved complete metagenome-assembled genomes by precision phasing | |
Tláskal et al. | Metagenomes, metatranscriptomes and microbiomes of naturally decomposing deadwood | |
Freedman et al. | Raman spectroscopy detects phenotypic differences among Escherichia coli enriched for 1‐butanol tolerance using a metagenomic DNA library | |
CN110714061A (zh) | 基于多维指标针对长期堆煤对土壤细菌影响操作方法 | |
Grigoriev | A changing landscape of fungal genomics | |
CN110751985B (zh) | 与大体重鸡只高度关联的肠道微生物标记物 | |
Nakazato | Current situation of DNA Barcoding data in biodiversity and genomics databases and data integration for museomics | |
Newell | Bioinformatic methods for genome-centric metagenomics | |
Köseoğlu | METATRANSCRIPTOMICS ANALYSIS USING MICROBIOME RNA-SEQ DATA | |
KR102624180B1 (ko) | rRNA 오페론 데이터베이스 구축 방법 및 이를 이용한 미생물 메타게놈 분석 방법 | |
WO2023204006A1 (ja) | 微生物判別方法および微生物判別装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |