CN104715165A

CN104715165A - 一种基于宏基因技术的石油污染海洋生态环境评价方法

Info

Publication number: CN104715165A
Application number: CN201410799477.0A
Authority: CN
Inventors: 岳勇; 张心昱; 王磊; 郑春雨; 宋佳宇
Original assignee: China National Petroleum Corp
Current assignee: China National Petroleum Corp
Priority date: 2014-12-19
Filing date: 2014-12-19
Publication date: 2015-06-17

Abstract

本发明提供了一种基于宏基因技术的石油污染海洋生态环境评价方法，该方法包括步骤：采集海水样品：对样品进行宏基因组DNA的提取并测序；对测序数据进行有效序列数据统计分析和优化序列数据统计分析；使用mothur及chopseq软件进行OTU-based分析；进行Alpha-diversity分析，该分析过程包括对菌群丰度、菌群多样性、测序覆盖率进行分析；进行稀释性曲线分析；进行分类学分析和群落结构分析；进行Heatmap聚类分析，获得样品微生物区系结构和种群数量参数值，用于评价不同样品中污染相似度及危害性。本发明的方法可客观评价溢油污染物对海洋生态系统的损害程度以及生态系统对溢油污染物的响应变化。

Description

一种基于宏基因技术的石油污染海洋生态环境评价方法

技术领域

本发明是关于一种基于宏基因技术的石油污染海洋生态环境评价方法，属于石油污染生态环境评价技术领域。

背景技术

海洋石油污染是全球性的问题，也是我国沿海污染最严重的问题之一。随着海上原油开采和原油远洋运输等业务的日益增加，海洋溢油事故频繁发生。在近20年由于船舶事故所引发的溢油污染中，溢油量在7t以上的事故约l 780起，其中700t以上的重大溢油事故458起。随着有史以来美国海域最严重的溢油事故——“深水地平线”平台溢油事故的发生，海洋溢油污染已经成为现阶段海洋开发与管理领域所关注的重点。

溢油污染严重影响到海洋的生态安全。对于较低营养级的细菌，溢油污染可能会改变浮游细菌的营养源(如，碳源)，并进一步影响其群落结构的组成。对于浮游植物，溢油在海上形成的油膜会影响其光合作用过程，从而影响其生长；一些研究也表明石油烃也可能促进浮游植物的生长，进而一定程度上促进赤潮的发生。对于高营养级的浮游动物，溢油污染物中的毒性物质通过吸收和摄食等途径进入生物体内后，会影响其代谢过程、造成神经以及生殖系统的损伤，如多环芳香烃类物质能够与DNA分子碱基共价结合，形成DNA加合物，成为致突变或致癌因子。因此，准确、快速检测溢油浓度和分析溢油污染程度，不仅是客观评估溢油污染损害的基础，而且是及时响应和确定应急处置措施以降低溢油污染对海洋生态环境破坏的关键，因而是目前溢油污染防治领域研究中的重点。

目前，溢油污染主要通过化学方法检测，包括：重量法、环己烷萃取荧光分光光度法、氟利昂-环己烷体系荧光分光光度法、紫外分光光度法、红外法和填充柱气相色谱法等。对于评价海水和海洋沉积物的石油污染，我国已颁布的《海水水质标准》(GB3097-1997)、《渔业水质标准》(GBl1607-1989)和权威机构推荐的评价标准中已作出了规定，未受明显油污染的开放性大洋海水中，石油烃浓度一般小于10μg/L。在受污染海域的海水中，油浓度可达n×10～n×l0²μg/L水平(n<l0，下同)；在严重污染的海域，曾有12700μg/L的纪录。一般而言，未受污染的海洋底质的石油烃含量(干重)低于50mg/kg，而受污染的底质石油烃含量范围较宽，一般为n×10²～n×10³mg/kg，某些海域底质石油烃含量甚至高达12000mg/kg。

然而，海洋环境中的石油烃由于受物理学、化学和生物学的作用，其各类组分会随时间发生不同程度的变化，主要特点包括：(1)正构烷烃的半保留期较短，消失的速率较快，脂环烃与其它饱和烃的比例随油类风化程度的加深而增高；(2)芳香烃化合物的降解速度较慢，其在风化油中所占比例随风化程度的加深而升高；(3)分子量较高的化合物比分子量较低的同类化合物在海洋环境中滞留时间更长，尤其是多环芳香烃化合物容易在底质中长期积累。因此，海洋环境中已受风化的油类就单位质量而言，一般比未风化的本油毒性高。由此可见，应用这些化学方法虽然能检测石油烃的浓度，但是无法评价溢油污染物对海洋生态系统的损害程度以及生态系统对溢油污染物的响应变化。

近年来，生物标志物(biomarker或biological marker)检测技术已经被广泛地应用于不同国家和地区的海洋环境污染的监测中。生物标志物是指能够描述或表征生物机体所产生的各种变化的标志物或指标。通过研究生物标志物的变化与污染物的剂量效应关系，可以揭示污染物对环境生物的致毒机理和其对生态环境的损害程度。全球海洋观测系统沿岸海洋观测模块综合战略设计方案(The integrated，strategic design planfor the coastal ocean observations module of global ocean observing system，GOOS)中以生物标志物为基础制订了评价污染物和环境压力的海洋污染快速评价技术(rapidassessment of marine pollution，RAMP)，用以评价由污水和化学污染物排放而引起的海洋环境污染以及由于沿岸开垦、旅游和海洋产业的发展而带来的环境压力。该设计方案在1997年巴西沿岸海域成功实施的基础上，确定进一步评价的污染物有多环芳香烃、多氯联苯以及有机氯等污染物。我国目前尚未建立基于生物标志物的溢油污染检测和评价体系。因此，针对目前溢油事故频繁发生和溢油污染日益加剧的趋势，非常有必要建立一种有效的检测溢油污染物和评价溢油污染环境影响的技术手段和标准体系，以服务于我国的海洋开发与管理。

目前，被广泛应用于海洋污染检测的生物标志物有DNA加合物、DNA完整性、细胞色素4501A、金属硫因蛋白、乙酰胆碱酯酶和抗氧化防御系统等，主要的原理是以海洋动物如低栖鱼类、腹足纲软体动物为实验材料，分析生物体内各种酶活性的变化特征，评价污染海域的溢油污染。然而，石油烃在海洋动物体中的行为特点随石油烃组分不同而表现出不同，正构烷烃的半保留期比同碳数的支链烷烃和芳香烃化合物短；同系列的石油烃化台物，其在生物体中的半保留期随分子量的增大而延长；分子量较高、毒性较大的芳香烃化合物，动物体中某些脂类的特殊“隔离舱”，很难被释放或代谢。上述行为特点使得积累在海洋动物体中毒性较大的石油烃组分的比率高于海洋环境中本源油组分。并且，现有这些技术以低栖鱼类、腹足纲软体动物为主要的被检测物，在样品采集中存在个体差异，生物体内酶反应的复杂性，导致建立其对应关系有一定的困难，缺乏相关性分析的模型。此外，常见的酶学反应检测底物主要是多环芳烃、多氯联苯等污染物，其在动物体内存在特殊的“隔离舱”，也会影响分析结果的客观性。溢油污染物往往是烷烃、环烷烃、芳香烃和硫化物的混合物，只以一种或两种污染物评估环境污染有所偏差。

因此，有必要建立能够全局性指示环境污染变化的广谱性生物材料，并且使其在不同海况自然条件下，均能够准确检测溢油污染物产生的环境影响，人工修复效果等，这是目前海洋溢油污染评价所需要解决的关键问题之一。

发明内容

本发明主要是为解决上述现有石油污染生态环境评价技术无法全面准确评价溢油污染物对海洋生态系统的损害程度以及生态系统对溢油污染物的响应变化的问题，提供一种基于宏基因技术的石油污染海洋生态环境评价方法，以宏基因组技术为依托，以微生物区系结构的变化、数量的改变客观反映污染物对环境生物全局性的影响，合理评价环境污染、生态修复的长期效应。

具体而言，本发明提供了一种基于宏基因技术的石油污染海洋生态环境评价方法，该方法包括步骤：

(1)采集海水样品：

(2)对样品进行宏基因组DNA的提取并测序；

(3)对测序数据进行有效序列数据统计分析和优化序列数据统计分析；

(4)使用mothur及chopseq软件进行OTU-based分析；

(5)进行Alpha-diversity分析，该分析过程包括对菌群丰度、菌群多样性、测序覆盖率进行分析；并进行稀释性曲线分析；

(6)进行分类学分析和群落结构分析；

(7)进行Heatmap聚类分析，获得样品微生物区系结构和种群数量参数值，用于评价不同样品中污染相似度及危害性。

本发明的基于宏基因技术的石油污染海洋生态环境评价方法中，应用基于高通量测序(High Throughput Sequencing)的宏基因组技术对石油污染海洋生态环境进行评价。高通量测序又称下一代测序(Next Generation Sequencing)，也叫做深度测序(DeepSequencing)，是基于焦磷酸测序法的超高通量基因组测序系统，可同时对环境中数以百万计的序列进行测定，突出优点就是快速取得海量数据，既可以定性又可以定量，特别适合16Sr RNA基因序列分析以研究微生物区系特征，获得的数据量大，周期短，能更加全面而真实反映微生物群体的物种组成，物种分布及丰度信息。而在石油污染环境中，往往会导致微生物区系结构、数量、种群和丰度的变化，这种变化将直接反应环境条件改变的综合影响，而不仅仅是某个酶、每个组分的变化趋势，以16S rRNA基因作为特征性的生物大分子，提供足够的种属信息，对于从全局角度分析污染物对环境生态的影响具有重要的意义，同时能够反映出特征性微生物的富集情况，为进一步开展环境治理提供指导作用。

本发明的基于宏基因技术的石油污染海洋生态环境评价方法中，旨是通过微生物多样性来评价环境污染程度，主要通过OUT水平体现对生态环境影响的差异，合理评价环境污染和修复的效果。具体实施时可采用空间对照的方法，在待测地区附近的未受污染的环境中采样来作为对照，只要待测环境中微生物多样性远远低于无污染环境，就说明仍有环境毒性作用物质存在。

根据本发明的具体实施方案，本发明的基于宏基因技术的石油污染海洋生态环境评价方法中，步骤(1)中采集15～100ml石油污染地海水水样即可，采集后低温4℃保藏。

根据本发明的具体实施方案，本发明的基于宏基因技术的石油污染海洋生态环境评价方法中，步骤(2)中包括对海水样品进行6000rpm、4℃离心15min以收集海水中的微生物，弃去上清，再用宏基因组提取试剂盒对样品中总DNA进行提取并测序。优选地，可根据样品采集地点(采样点尽量分散且有代表性)、所提取的宏基因DNA纯度(OD₂₆₀/OD₂₈₀＝1.8-2.0)、浓度(≥10ng/ul，总DNA≥500ng)和初步PCR扩增结果(有1.5kb的目的片段)进一步选取适量的样品进行后续宏基因组测序。

根据本发明的具体实施方案，本发明的基于宏基因技术的石油污染海洋生态环境评价方法中，步骤(3)中进行有效序列数据统计分析时，将测序接头、barcode和前引物序列去除，并对处理后的有效序列进行数据及长度分布统计，并根据需要用seq-distribute软件作图。

根据本发明的具体实施方案，本发明的基于宏基因技术的石油污染海洋生态环境评价方法中，步骤(3)中进行优化序列数据统计分析时，去除非特异性扩增片段序列、模糊碱基序列、单碱基高重复区序列以及长度<100bp的序列。

根据本发明的具体实施方案，本发明的基于宏基因技术的石油污染海洋生态环境评价方法中，步骤(4)中使用mothur及chopseq软件进行OTU-based分析；优选地，将优化序列截齐后例如截取长度150bp，与silva库比对后对序列进行聚类。

根据本发明的具体实施方案，本发明的基于宏基因技术的石油污染海洋生态环境评价方法中，步骤(5)中，菌群丰度指数包括Chao和Ace等；菌群多样性指数包括Simpson和Shannon等；使用软件mothur、shannon-ace-table.pl进行测序覆盖率分析。

在本发明的一更具体实施方案中，步骤(5)中选取评估指数包括：ace，chao，simpson，shannon，good’s coverage，用于评估的OTU相似水平，其中，按相似性97％时归得的一个OTU指代一个菌种，95％时指代一个菌属。

根据本发明的具体实施方案，本发明的基于宏基因技术的石油污染海洋生态环境评价方法中，步骤(5)中，进行稀释性曲线分析时，采用对优化序列进行随机抽样的方法，以抽到的序列数与它们所能代表OTU的数目构建稀释性曲线。

根据本发明的具体实施方案，本发明的基于宏基因技术的石油污染海洋生态环境评价方法中，步骤(6)中：

进行分类学分析时，将优化序列截取前400bp的序列，再根据silva库中的参考序列对OTU进行种属鉴定；优选使用软件mothur；

进行群落结构分析时，优选使用软件OTUtable2TaxonFigure.pl、plot-bar.pl和plot-pie.pl。

根据本发明的具体实施方案，本发明的基于宏基因技术的石油污染海洋生态环境评价方法中，步骤(7)中，是在属水平上对样品和OTU分类进行聚类，对聚类后的各样品中不同OUT所含序列的丰度作出heatmap图。

在本发明的一个具体实施方案中，本发明的基于宏基因技术的石油污染海洋生态环境评价方法是按照以下操作进行的：

1、样品采集：

采集石油污染地海水水样，50ml即可，采集后低温4℃保藏。

2、宏基因组DNA的提取

6000rpm，4℃离心15min收集海水中的微生物，弃去上清，以天根宏基因组提取试剂盒对总DNA进行提取，对提取的总DNA测定其260:280:230比值符合DNA纯度要求，优先选取符合纯度要求的样品DNA进行后续宏基因组测序。

3、测序数据统计分析

3.1.有效序列数据统计

在测序实验中，通过结合目标基因16S rRNA基因序列中超变量区域V6/V3可变区进行测序分析，通常采用多个样品平行测序的方法，即多个样品混合测序。为了能区分样品，各样品中的序列均引入了一段标示其样本来源信息的barcode标签序列。在分析过程中，将测序接头、barcode和前引物(forward primer)序列去除，并对处理后的有效序列进行数据及长度分布统计(作图软件：seq-distribute)。

3.2优化序列数据统计

为获得更高质量及更精准的生物信息分析结果，对有效序列进行去杂。去除的序列包括非特异性扩增片段序列、模糊碱基(ambiguous)、单碱基高重复区(homologous)以及长度过短(一般<100)的序列。对优化后的数据进行统计，通常优化序列占有效序列比例越高越好。

4、OTU-based分析

OTU(Operational Taxonomic Units)在数量分类学方面作为对象的分类单位，有种、变种、个体等，在作群体分析时，根据相似系数值按照一定标准进行归纳整理和聚类。在生物信息分析中，一般来说，测序得到的每一条序列来自一个菌。要了解一个样品的当次测序测得的菌种、菌属等数目信息，就需要进行归类操作(cluster)。通过归类操作，将序列按照彼此的相似性分归为许多小组。一个小组就是一个OTU。其中，按相似性97％时归得的一个OTU就指代一个菌种，95％时指代的是一个菌属。

为了降低OTU错分的概率，将优化序列截齐后(截取长度：150bp)，与silva库比对(使用数据库为silva106版)后对序列进行聚类。使用软件：mothur，及chopseq(美吉自编软件)。参考网址：http://www.mothur.org/wiki/Main_Page

5、Alpha-diversity分析

计算菌群丰度(Community richness)的指数有：

Chao和Ace用来估计群落中含有OTU数目的指数，是生态学中估计物种总数的常用指数之一。

Chao-the Chao1estimator(http://www.mothur.org/wiki/Chao)；

Ace-the ACE estimator(http://www.mothur.org/wiki/Ace)；

计算菌群多样性(Community diversity)的指数有：

Simpson：用来估算群落中OTU多样性高低的群落多样性指数之一，由EdwardHugh Simpson(1949)提出，在生态学中常用来定量的描述一个区域生物多样性。Simpson指数值越大，说明群落多样性越低。

Shannon：用来估算群落中OTU多样性高低的群落多样性指数之一，常用来估算群落多样性的高低。它与Simpson多样性指数均为常用的反映alpha多样性的指数。Shannon值越大，说明群落多样性越高。

Shannon-the Shannon index(http://www.mothur.org/wiki/Shannon)；

Simpson-the Simpson index(http://www.mothur.org/wiki/Simpson)；

测序深度指数有：

是指测序覆盖率，其数值越高，则样本序列没有被测出的概率越低。该指数实际反映了本次测序结果是否代表样本的真实情况。

Coverage-the Good’s coverage(http://www.mothur.org/wiki/Coverage)；

使用软件：mothur、shannon-ace-table.pl(美吉自编软件)

6、稀释性曲线(Rarefaction curve)

分析采用对优化序列进行随机抽样的方法，以抽到的序列数与它们所能代表OTU的数目构建rarefaction curve。稀释性曲线图中，当曲线趋向平坦时，说明取样的数量合理，更多的取样也可能只产生少量新的OTU，反之则表明继续取样还可能产生较多新的OTU。因此，通过作稀释性曲线，可以得出样品的取样深度情况。

7、分类学分析(Taxonomy)

在之前的分析步骤中，已经将序列按照其自身的碱基排列顺序的相似性，分归到各OTU中。在进行分类学分析时，首先，将每一条优质序列都与SILVA(106版本)数据库进行比对，找出其最相近且可信度达80％以上的种属信息。之后，将每一个OTU中的所有序列进行类比，找出同一OTU中的不同序列的最近祖先的种属信息。最后，将得到的结果记录在表格文件中。

为了提高比对速率与质量，同时保证了分类学分析的高可信性，将优化序列截取前400bp的序列，再根据silva库中的参考序列对OTU进行种属鉴定(使用数据库为silva106版)。使用软件：mothur

8、群落结构分析(Community Structure)

根据分类学分析结果，可以得知一个或多个样品在各分类水平的分类学比对情况。在结果中，包含了两个信息：

1)该样品中含有何种微生物；

2)这些微生物各自所含有的序列数。

因此，可以使用统计学的分析方法，观测样品在不同分类水平上的群落结构。将多个样品的群落结构分析放在一起对比时，还可以观测其变化情况。使用软件：OTUtable2TaxonFigure.pl、plot-bar.pl、plot-pie.pl。

9、Heatmap聚类分析

Heatmap可以用颜色变化来反映二维矩阵或表格中数据信息，它可以直观地将数据值的大小以定义的颜色深浅表示出来。常根据需要将数据进行聚类，将聚类后的数据表示在heatmap图上，通过颜色的梯度及相似程度来反映数据的相似性和差异性。如在属水平上对样品和OTU分类(样品所含菌属)进行聚类(依据是不同样品中OTU所含序列数越相近，即所含菌属越相近，样品间相似性越高)，对聚类后的各样品中不同OTU(不同菌属)所含序列的丰度作出heatmap图，能够反映出在菌属水平上各样品菌落结构的相似性和差异性。作图软件：R，heatmap.2(gplots)；样品间距离算法：chao；聚类方法：complete；OTU：进化树(FastTree)。

在本发明的一个具体实施例中，利用上述方法，以大连716石油泄露事故海域海水及其周边海岸线为材料，系统的分析了不同采样点的含油量，并利用宏基因组技术分析了10个样品的微生物区系结构，结果表明石油溢油点近海海水样品，经过3年的人工和自然修复，该地区化学法分析其油含量与其他近海岸线其他位置数值相差不大，且海水清澈度、氮素含量、磷素含量均与其他位点相类似，但宏基因组测序技术表明，该样品微生物的丰度相比其他位点明显降低，普通海水样品其微生物种群数量高达1500以上，而溢油点附近海域微生物种群数量只有464(97％种水平上)，此结果表明石油污染导致其微生物多样性明显降低，该结果与化学分析结果有一定的相关性，但更为客观的反应了生态环境的实际污染状况和修复效果。Heatmap分析结果则对不同样品间相似性和差异性进行了分析，可以指示不同地区污染程度的相关性。

综上所述，本发明的基于宏基因技术的石油污染海洋生态环境评价方法具有以下有益效果：

1、弥补化学法检测环境污染的局限性。海洋环境中的石油烃由于受物理学、化学和生物学的作用，其各类组分会随时间发生不同程度的变化，已受风化的油类由于难降解物质，如多环芳烃类化合物的积累，对生态环境的毒性更高。在此条件下，虽然可以观察到石油含量的降低，但其生态毒性可能长期存在，无法客观评价不同溢油污染物对海洋生态系统的损害程度以及生态系统对溢油污染物的响应变化。本发明的方法基于宏基因组技术，可以从微生物群落结构特征的变化，综合反映石油污染物对生态环境的危害，以及生态系统应对策略，一方面有利于客观评价生态危害，另一方面微生物群落结构的变化，也有利于从中找出功能性的微生物资源用于后续环境治理。

2、本发明的方法依托高通量测序的宏基因组技术，通过结合目标基因16S rRNA基因序列中超变量区域V6/V3可变区进行测序分析，不需进行克隆筛选，测序的通量高，获得的数据量大，周期短，能更加全面而真实反映微生物群体的物种组成，物种分布及丰度信息。

3、样品收集简单，只需要提取污染地海水总DNA即可对环境中微生物的区系变化进行分析，操作更为简单。且本发明的方法中，高通量测序的规模化和程序化，以及过程中对序列的优化等措施，都保证了该项技术的可操作性。

本发明技术可以广泛的应用于环境污染、修复评价体系中，客观评价不同溢油污染物对海洋生态系统的损害程度以及生态系统对溢油污染物的响应变化。

附图说明

图1为本发明具体实施例中部分样品宏基因组DNA电泳图谱。图中各泳道，从左至右，泳道1为1Kb Marker，泳道2-17分别为样品1、2、6、5、4、7、8、9、13、11、15、17、17、19、21、4的总DNA。

图2为本发明具体实施例中部分样品宏基因组DNA的16S rDNA电泳图谱。图中各泳道，从左至右，泳道1-10分别为样品1、4、7、8、11、13、15、17、19、21的16S rRNA基因扩增结果，获得1.5kb的目的片段。泳道11为阴性对照，泳道12为1Kb Marker。

图3为本发明具体实施例中有效序列各样品长度分布柱状图。

图4为本发明具体实施例中优化序列长度分布柱状图。

图5为本发明具体实施例中稀释曲线图。图中label：0.03。

图6显示不同样品门(phylum)的水平上群落结构。图中右侧各图标是对柱状图从上到下各色带依次进行标示。

图7为不同样品的Heatmap图。

具体实施方式

以下通过具体实施例详细说明本发明技术方案的实施和所具有的有益效果，但不能认定为对本发明的可实施范围的任何限定。实施例中未注明具体条件的实验方法为所属领域熟知的常规方法和常规条件，或按照制造商所建议的条件。本发明中所用各软件的设定条件，除特殊说明外，均为系统默认信息。

实施例1

1、样品采集：

共选取了大连7.16事故海域周边海岸线20个点进行采集，样品为石油污染海水，每个样品采集50ml，采集后低温4℃保藏，进行后续宏基因组DNA的提取。

2、宏基因组DNA的提取

6000rpm，4℃离心15min收集海水中的微生物，弃去上清，利用天根宏基因组提取试剂盒对总DNA进行提取，以27F和1495R引物进行16S rRNA基因的PCR扩增，具体操作按照说明书进行。

图1为本发明中部分样品宏基因组DNA电泳图谱，图中各泳道，从左至右，泳道1为1Kb Marker，泳道2-17分别为样品1、2、6、5、4、7、8、9、13、11、15、17、17、19、21、4的总DNA。图2为本发明中部分样品宏基因组DNA的16S rDNA电泳图谱，图中各泳道，从左至右，泳道1-10分别为样品1、4、7、8、11、13、15、17、19、21的16S rRNA基因扩增结果，获得1.5kb的目的片段。泳道11为阴性对照，泳道12为1Kb Marker。

根据样品采集地点(大连地区沿海岸线金石滩、小窑湾、大窑湾、新港、大连湾和老虎滩各选取一个采样点)，宏基因DNA纯度(OD₂₆₀/OD₂₈₀＝1.8-2.0)，浓度(≥10ng/ul，总DNA≥500ng)和初步PCR扩增结果(有1.5kb目的片段)，优先选取了1、11、13、15、17、19、21、4、7和8号样品进行了后续宏基因组测序。

3、测序数据统计分析

3.1.有效序列数据统计

在测序实验中，通过结合目标基因16S rRNA基因序列中超变量区域V6/V3可变区进行测序分析，通常采用多个样品平行测序的方法，即多个样品混合测序。为了能区分样品，各样品中的序列均引入了一段标示其样本来源信息的barcode标签序列。在分析过程中，将测序接头、barcode和前引物(forward primer)序列去除，处理后的有效序列进行数据及长度分布统计(作图软件：seq-distribute)如下表1所示。

表1有效序列数据统计

	样品数目	总序列数	总碱基数(bp)	平均长度(bp)
					有效序列	10	48895	19447717	397.7

总序列长度分布图如图3所示。

3.2优化序列数据统计

为获得更高质量及更精准的生物信息分析结果，对有效序列进行去杂。去除的序列包括非特异性扩增片段序列、模糊碱基(ambiguous)、单碱基高重复区(homologous)以及长度过短(一般<100)的序列。对优化后的数据进行统计，通常优化序列占有效序列比例越高越好。数据统计结果见下表2。

表2优化序列数据统计

	样品数目	总序列数	总碱基数(bp)	平均长度(bp)
					优化序列	10	40634	17248546	424.5

优化序列数据长度分布如图4。

3.3各样品序列数据统计

各样品的有效序列和优化序列数据量统计见下表3。

表3各样品序列数据统计

样品	有效序列	优化序列	百分比
				1	4216	3498	83.0％
11	4816	3943	81.9％
				13	5498	4617	84.0％
15	5651	4697	83.1％
				17	4834	4068	84.2％
19	4440	3646	82.1％
				21	4353	3632	83.4％
4	4652	3781	81.3％
				7	5614	4713	84.0％
8	4821	4039	83.8％

3.4稀释性曲线

各样品稀释曲线如图5所示，由此可见除样品7以外，其他测序样品稀释曲线已趋于平稳，表明每个样品通读3000条序列已很好的涵盖环境样品中的微生物种类。样品7则表明，实际环境中微生物数量比本次测量值还要略高一些。

4、结果分析

本次分析选取评估指数包括：ace，chao，simpson，shannon，good’s coverage。用于评估的OTU相似水平：unique，97％(0.03)，95％(0.05)，90％(0.10)，结果如表4-表7所示。

表4.OTU相似水平97％(0.03)各评估指数

表5.OTU相似水平95％(0.05)各评估指数

表6.OTU相似水平90％(0.1)各评估指数

表7.unique各评估指数

从表4-表7中的overgae指数可以看出，本发明中能很好地涵盖环境中微生物的种类和数量，测序质量高。从simpson和shannon指数对比关系(通过周边无污染环境作为空间上的对照)可以说明，相对而言，待测环境的污染依旧存在。

5、分类学分析(Taxonomy)、群落结构分析(Community Structure)

在之前的分析步骤中，已经将序列按照其自身的碱基排列顺序的相似性，分归到各OTU中。在进行分类学分析时，为了提高比对速率与质量，同时保证了分类学分析的高可信性，将优化序列截取前400bp的序列，再根据silva库中的参考序列对OTU进行种属鉴定(使用数据库为silva106版)。每一条优质序列都与silva数据库进行比对，找出其最相近且可信度达80％以上的种属信息。之后，将每一个OTU中的所有序列进行类比，找出同一OTU中的不同序列的最近祖先的种属信息。

根据分类学分析结果，可以得知多个样品在各分类水平的分类学比对情况。在结果中，包含了两个信息：1)该样品中含有何种微生物；2)这些微生物各自所含有的序列数。根据这些结果，使用统计学的分析方法，观测样品在不同分类水平上的群落结构。将多个样品的群落结构分析放在一起对比，观测其变化情况。使用软件：OTUtable2TaxonFigure.pl、plot-bar.pl、plot-pie.pl。

图6显示不同样品门(phylum)的水平上群落结构。

图7为不同样品的Heatmap图。

应用实例的结论：

11号采样点为石油溢油点近海海水样品，经过3年的人工和自然修复，该地区按照石油行业的行业标准方法进行化学法分析，相关数据参见表8，分析结果表明其油含量与其他近海岸相差不多，且海水清澈度、氮素含量、磷素含量均与其他位点相类似。

表8大连石油泄漏海岸线化学分析结果

但利用本发明的上述宏基因组测序技术表明，位点11的样品微生物的丰度相比其他位点明显降低。其中位点7为普通海水样品(人迹罕至的天然区)，含油量略低于其他地区，其OTU数量高达1500以上，而其coverage数只有0.81，推测其实际微生物多样性远高于1500；而位点11的OUT数量只有464(97％种水平)，其coverage数为0.94，表明目前数据已基本涵盖实际环境中微生物的数量种群。此结果表明石油污染导致其微生物多样性明显降低，该结果与化学分析结果有着很好的相关性，Heatmap分析结果则对不同样品间相似性和差异性进行了分析，可以指示不同地区污染程度的相关性，结果表明位点15与位点11污染程度较高，其次为位点13、4、8和位点1。其他位点虽然没有明确的石油泄漏，但分别为码头，人工浴场等环境，虽然化学分析并未发现其有明显的石油污染，但生物多样性和heatmap聚类结果都表明，这些地区还是存在人为污染，而这种人为污染毒性作用是远不及样品11大规模石油泄漏带来的环境污染那么明显。

以上结果表明，宏基因组技术对于监测污染环境的危害更具有指导意义，尤其是在化学分析结果类似的情况下，仍然可以通过生物多样性的结果分析其对生态环境影响的不同，合理评价环境污染和修复的效果。

Claims

1.一种基于宏基因技术的石油污染海洋生态环境评价方法，该方法包括步骤：

(1)采集海水样品：

(2)对样品进行宏基因组DNA的提取并测序；

(4)使用mothur和chopseq软件进行OTU-based分析；

(5)进行Alpha-diversity分析，该分析过程包括对菌群丰度、菌群多样性、测序覆盖率进行分析；且进行稀释性曲线分析；

(6)进行分类学分析和群落结构分析；

2.根据权利要求1所述的方法，其中，步骤(1)中采集15～100ml石油污染地海水水样，采集后低温4℃保藏。

3.根据权利要求1所述的方法，其中，步骤(2)中包括对海水样品进行6000rpm、4℃离心15min以收集海水中的微生物，弃去上清，再用宏基因组提取试剂盒对样品中总DNA进行提取并测序。

4.根据权利要求1所述的方法，其中，步骤(3)中进行有效序列数据统计分析时，将测序接头、barcode和前引物序列去除，并对处理后的有效序列进行数据及长度分布统计，并根据需要用seq-distribute软件作图。

5.根据权利要求1或4所述的方法，其中，步骤(3)中进行优化序列数据统计分析时，去除非特异性扩增片段序列、模糊碱基序列、单碱基高重复区序列以及长度<100bp的序列。

6.根据权利要求1所述的方法，其中，步骤(4)中使用mothur和chopseq软件进行OTU-based分析；优选地，将优化序列截齐后例如截取长度150bp，与silva库比对后对序列进行聚类。

7.根据权利要求1所述的方法，其中，步骤(5)中，菌群丰度指数包括Chao和Ace；菌群多样性指数包括Simpson和Shannon；使用软件mothur和shannon-ace-table.pl进行测序覆盖率分析。

8.根据权利要求1所述的方法，其中，步骤(5)中，进行稀释性曲线分析时，采用对优化序列进行随机抽样的方法，以抽到的序列数与它们所能代表OTU的数目构建稀释性曲线。

9.根据权利要求1所述的方法，其中，步骤(6)中：

进行群落结构分析时，使用软件OTUtable2TaxonFigure.pl、plot-bar.pl和plot-pie.pl。

10.根据权利要求1所述的方法，其中，步骤(7)中，是在属水平上对样品和OTU分类进行聚类，对聚类后的各样品中不同OUT所含序列的丰度作出heatmap图。