CN110982888B

CN110982888B - 一种基于全基因组测序技术的多种动物源性掺假鉴别方法

Info

Publication number: CN110982888B
Application number: CN201911414912.2A
Authority: CN
Inventors: 刘昶; 姜梅; 张慧; 孔凡德; 唐泰山
Original assignee: Institute of Medicinal Plant Development of CAMS and PUMC
Current assignee: Institute of Medicinal Plant Development of CAMS and PUMC
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2023-01-13
Anticipated expiration: 2039-12-31
Also published as: CN110982888A

Abstract

本发明公开了一种基于全基因组测序技术的多种动物源性掺假鉴别方法，包括如下步骤：1)构建线粒体基因组数据库，将测序数据与线粒体基因组数据库进行比对，提取比对得到的线粒体序列；2)将1)中提取的线粒体序列进行各物种线粒体基因组重组装；3)将1)中提取的线粒体序列比对到2)中重组装的线粒体基因组上，提取比对到2)中重组装线粒体基因组上的序列；4)将3)中比对到重组装线粒体基因组上的序列分为2类，提取只比对到单一物种重组装线粒体基因组的序列，根据序列数量分析混合物的物种组成。本发明方法可以定性和定量地测定复杂肉样中多种生物成分的含量，在食品和制药工业中具有广泛的应用前景。

Description

一种基于全基因组测序技术的多种动物源性掺假鉴别方法

技术领域

本发明涉及生物分析技术领域，更具体的说是涉及一种混合肉样定性和定量分析的方法。

背景技术

肉类是人们日常消费的重要组成部分，然而，许多商家通过在昂贵的牛肉和羊肉中掺入廉价的鸡、鸭、水貂或其他动物肉以赚取高额利润，损害了消费者的权益，扰乱了市场秩序。因此，鉴别肉及肉制品中的掺假成分是非常重要的。目前，实时PCR技术是肉类鉴定的主流技术，但它只能检测单个品种，即检测出被检测品种的存在与否，不能在定性、定量的同时测定混合肉样的多种生物成分(Multiple Components，MTCs)的来源。

随着下一代DNA测序技术的普遍使用，已经开发出宏DNA条形码(metabarcoding)方法使用特定标记的PCR扩增进行物种测定。所有序列(reads)都可以比对到整个核基因组，用于物种测定和量化。然而宏DNA条形码分析的主要方法仍然是标准的PCR扩增依赖法，其局限性在于：需要针对特定标记的通用引物，即使对于同一个标记，在所有分类群中通常也缺乏这种通用引物。当不同的标记用于不同的设置，甚至当不同的引物对用于相同的标记时，使用不同的通用标记和引物会增加数据整合的复杂性。其次，即使在通用引物存在的情况下，不同序列的模板DNA分子具有不同的解链温度，将导致扩增偏倚。因此，不同序列的模板DNA分子很难直接定量。

因此，如何提供一种简单、准确、通用的从复杂肉样中鉴定多个生物成分的方法是本领域亟待解决的技术问题。

发明内容

有鉴于此，本发明提供了一种基于全基因组测序技术的多种动物源性掺假鉴别的方法。

为了实现上述目的，本发明采用如下技术方案：

一种基于全基因组测序技术的多种动物源性掺假鉴别方法，包括如下步骤：

1)根据已知线粒体基因组构建线粒体基因组数据库，对样本进行DNA提取和测序，将测序数据与线粒体基因组数据库进行比对，提取比对得到的线粒体序列；

2)以已知各动物物种线粒体基因组序列为参考序列，将1)中提取的线粒体序列进行各物种线粒体基因组重组装；

3)将1)中提取的线粒体序列比对到2)中重组装的线粒体基因组上，提取比对到2)中重组装线粒体基因组上的序列；

4)将3)中比对到重组装线粒体基因组上的序列分为2类：只比对到单一物种重组装线粒体基因组的序列，比对到多个物种重组装线粒体基因组的序列；提取只比对到单一物种重组装线粒体基因组的序列，根据序列数量分析混合物的物种组成。

使用上述Mitobarcoding方法的优点：1.避免了寻找通用引物和通用条形码的问题；2.不会过度放大污染微生物，从而能够准确测定多种生物成分(Multiple Components，MTCs)的含量；3.将测序偏差的影响降到最低；4.装配误差最小化；5.与使用特定类型标记的分析结果一致。

优选地，已知线粒体基因组可根据已公开的线粒体基因组不断进行完善，以便适用于更多物种的鉴定。截止到2019年2月，NCBI RefSeq数据库(https://www.ncbi.nlm.nih.gov/gen ome/browse)已收集到8000多个动物线粒体基因组。

优选地，1)中：

使用BLAST+软件中的makeblastdb命令将已知线粒体基因组构建成线粒体基因组数据库；

样本测序数据与线粒体基因组数据库的比对参数为“-evalue 1e-5–outfmt 6–max_tar get_seqs 5”；

使用BBMap软件中的filterbyname.sh命令提取出线粒体序列。

优选地，2)中各动物物种线粒体基因组序列在进行肉样鉴定时可选择常见肉品的物种、具有经济价值的物种以及常见的掺假物种。

通过本发明方法，可对食品或生物制品中的一种或多种生物成分进行鉴定。

优选地，2)中使用MITOBim软件分别进行各物种线粒体基因组重组装。

优选地，3)中：

使用Bowtie2软件将1)中提取的线粒体序列比对到2)中重组装的线粒体基因组上；

使用samtools软件提取比对到2)中重组装线粒体基因组上的序列，提取参数为“samto ols view-bF 4”。

优选地，4)中：

根据只比对到单一物种重组装线粒体基因组的序列数量比值判断样本中各物种重量比例关系。

优选地，上述方法还包括

5)提取线粒体序列中未比对到重组装线粒体基因组上的序列，以COX1和16S rRNA为参考序列，用RDP Classifier软件进行物种鉴定；以18S rRNA为参考序列，用Usearch软件中的SINTAX模块进行物种鉴定；鉴定的结果用MEGAN进行可视化查看。

由上述技术方案可知，本发明方法避开了标记选择、PCR偏倚和测序偏倚的问题，可以定性和定量地测定MTCs的含量。为开发确定动物产品组成的新方法奠定基础，因此在食品和制药工业中具有广泛的应用前景。

附图说明

图1所示为LAMP验证结果。

图2所示为16s rRNA的通用引物分布。

图3所示为18s rRNA的通用引物分布。

图4所示为未比对上序列的分类和相对丰度分析。

线粒体基因组(A)，COX1(B)，16S rRNA(C)和18S rRNA(D)；圆圈的大小表示比对到相应分类单元的序列数；括号中显示了比对到特定分类单元的序列数。

图5所示为两种混合样本的定量分析结果。X轴显示混合样本中(A)猪和(B)鸡的比例。Y轴显示从混合样本NGS数据中唯一比对到(A)猪重组装线粒体基因组和(B)鸡重组装线粒体基因组的序列的比例。R²为相关系数。

具体实施方式

下面对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

1.模拟样本的制备、文库构建和下一代DNA测序

以15种动物的肉为材料制备模拟样本，包括鸭，牛，骆驼，犬，马，鸡，小鼠，雪貂，海狸鼠，貉子，家兔，羊，大鼠，猪和狐狸，其中鸭、牛、鸡和猪肉是从中国北京当地市场购买，其他肉类均由厦门海关技术中心于2017年1月至2018年12月采集鉴定。选择上述物种肉样主要考虑其中部分肉样具有重大的经济意义，部分经常出现在掺假食品中。

新鲜肉类样本获得之后立即冷冻在-80℃冰箱中保存至使用。样本以两种方式混合，一种混合样本含有来自15种肉的等质量混合，下文称“M15”；M15有三个重复，标记为“R1”、“R2”和“R3”。另一种混合样本含有来自猪和鸡的肉，其质量比例如下：10:0(以下称为“M2-S1”)、8:2(以下称为“M2-S2”)、6:4(以下称为“M2-S3”)、4:6(以下称为“M2-S4”)，2:8(以下称为“M2-S5”)和0:10(以下称为“M2-S6”)；每个样本有三个重复，标记为“R1”、“R2”和“R3”。

采用改良CTAB法提取DNA样本。DNA(100ng)用建库试剂盒(

Ultra^TMIIDNA Library Prep Kit for

)进行文库构建，文库模板长度为500bp。然后使用Illumina Hiseq 2500测序仪进行测序。生成的NGS数据存入GenBank(登录号：SRR9107560，SRR9140737)，结果如表1所示。

表1

对于M15样本，分别获得了23.45、24.1和28.56GB的数据。对于M2样本，每个样本获得了2.64–3.49GB的数据。质量分数≥Q30的碱基占88.97％～93.23％。GC含量在42％～43.85％之间。原始数据经过标准的预处理，包括移除接头序列和低质量的序列(<20)。

2.利用环介导等温扩增(LAMP)实验验证M15的生物成分组成

对M15中的牛、羊、猪、鸡、鸭样本进行验证。以Cytb基因为目标，探针序列如表2所示。

表2

PCR反应体系包含Isothermal Master Mix15μL、FIP 1.5μL、BIP 1.5μL、F30.75μL、B30.75μL、LoopF 1μL、LoopB 1μL和DNA 1μL，加入无RNase的水至最终反应体积25μL。PCR反应程序：预变性94℃，3min；变性94℃，30s，退火54℃，30s，延伸72℃，30s；变性、退火、延伸循环30次；终延伸73℃，3min。

实验结果如图1所示，证实M15中含有来自牛、羊、猪、鸡、鸭的肉。

3.数据库建设

用BLAST+(v2.7.1)软件中的makeblastdb命令构建两个用于下游生物信息分析的线粒体基因组序列数据库：第一个称为“15个线粒体基因组数据库(15MGDB)”，包含15个物种的线粒体基因组序列(genbank下载)，其登录号如下：鸭(NC_009684.1)，牛(NC_006853.1)，骆驼(NC_009628.2)，犬(NC_002008.4)，马(NC_001640.1)，鸡(NC_001323.1)，小鼠(NC_005089.1)，雪貂(NC_020638.1)，海狸鼠(NC_035866.1)，貉子(NC_013700.1)，家兔(NC_001913.1)，羊(NC_001941.1)，大鼠(NC_001665.2)，猪(NC_012095.1)，狐狸(NC_008434.1)；第二个数据库名为“8KMGDB”，包含从GenBank检索到的8000个线粒体基因组。

从8000个线粒体基因组中提取COX1基因(细胞色素c氧化酶I)和16S rRNA基因，分别作为COX1基因和16S rRNA基因分析的参考序列。用BLAST+(v2.7.1)软件中的makeblastdb命令构建COX1基因序列数据库和16S rRNA基因序列数据库，分别命名为：8KCO DB，8K16SDB。

18S rRNA基因的参考序列选自公共数据库中的数据集

(http://www.drive5.com/sintax/silva_18s_v123.fa.gz)。用BLAST+(v2.7.1)软件中的makebla stdb命令构建18S rRNA基因序列数据库，命名为：8K18SDB。

4.通用引物分析

为了确定M15是否可以用宏基因组的方法进行鉴定，对3个分子标记通用引物的可用性进行分析。

COX1基因共4对通用引物：

LCOX1490:GGTCAACAAATCATAAAGATATTGG，SEQ ID NO.31；

HC02198:TAAACTTCAGGGTGACCAAAAAATCA，SEQ ID NO.32；

I-B1:CCHGATATAACITTYCCICG，SEQ ID NO.33；

I-130R:GAAAATYATAAIGAAIGCRTGAGC，SEQ ID NO.34；

LepF1:ATTCAACCAATCATAAAGATATTGG，SEQ ID NO.35；

LEP-R1:TAAACTTCTGGATGTCCAAAAA，SEQ ID NO.36；

COX1-C02:AYTCAACAAATCATAAAGATATTGG，SEQ ID NO.37；

COX1-C04:ACYTCRGGRTGACCAAAAAATCA，SEQ ID NO.38；

2对16S rRNA引物：

L2513:GCCTGTTTACCAAAAACATCAC，SEQ ID NO.39；

H2714:CTCCATAGGGTCTTCTCGTCTT，SEQ ID NO.40；

16Sar-L:CGCCTGTTTATCAAAAACAT，SEQ ID NO.41；

16Sbr-H:CCGGTCTGAACTCAGATCACGT，SEQ ID NO.42；

2对18S rRNA引物：

Uni18S:AGGGCAAKYCTGGTGCCAGC，SEQ ID NO.43；

Uni18SR:GRCGGTATCTRATCGYCTT，SEQ ID NO.44；

Uni18S2:CTTAATTTGACTCAACACGG，SEQ ID NO.45；

Uni18SR2:TAGCGACGGGCGGTGTGTAC，SEQ ID NO.46。

使用Usearch(V11)中的搜索PCR算法搜索步骤1中M15测序结果(NGS数据)中与引物匹配的序列，结果如表3、图2、图3所示。

表3

“F”:正向引物；“R”:反向引物；“+”:在序列中存在该引物.

对于COX1基因，没有发现与所有物种的序列匹配的引物。例如，使用引物对i-B1和C OX1-C04，匹配物种的最大数目为五。对于16S rRNA基因，只有一个引物16sbr-h与所有物种的序列相匹配，扩增产物具有更高的变异程度，足以区分15个物种(图2)。对于18S rRNA，在所有物种的序列中只能找到引物uni18s，但扩增产物过于保守，无法区分15个物种(图3)。后续比较四个标记物，即完整的线粒体基因组、COX1、16S rRNA和18S rRNA基因在特异性和敏感性方面的生物量估计能力。

5.15M的Mitobarcoding数据分析

1)用Blastn将样本15M的NGS数据与8KMGDB数据库进行比对，比对参数为“-evalue 1e-5–outfmt 6–max_target_seqs 5”。经过初步筛选，原始测序结果中约0.28％的序列比对到线粒体基因组上，这些序列被称为“线粒体序列”。随后用BBMap软件中的filterbyname.sh命令提取出比对上的序列用于后续的分析。

同时，将样本15M的NGS数据分别与8KCODB、8K16SDB和8K18SDB数据库进行比对，提取COX1序列、16S rRNA序列和18S rRNA序列，比对及提取序列方法同线粒体序列。

2)公共数据库中的参考线粒体基因组可能来源于某个特定的个体或亚种；因此，样本中的序列可能与参考序列不同。为了确保准确的定性和定量分析，以15MGDB中每个物种的线粒体基因组序列为参考序列，将1)中提取的线粒体序列用MITOBim(v1.9.1)软件分别进行15个物种线粒体基因组重组装。以重组装线粒体基因组为参考基因组进行后续分析。

同时，从每个物种重组装线粒体基因组中提取出COX1基因和16S rRNA基因，作为参考COX1基因和参考16S rRNA基因进行后续分析。

以GenBank中各物种18S rRNA序列为参考，将1)中提取的18S rRNA序列用MITOBim(v1.9.1)软件分别进行18S rRNA重组装，作为参考18S rRNA基因进行后续分析。

3)将1)中提取的线粒体序列用Bowtie2(v2.3.4)软件分别比对到15MGDB(表4)和2)中重组装线粒体基因组上(表5)。

用samtools(v1.3.1)软件提取比对到2)中重组装线粒体基因组上的序列，提取参数为“s amtools view-bF 4”。

用同样的方法分析COX1、16S rRNA和18S rRNA。其中，表4中COX1、16S rRNA分别指的是从15MGDB中提取出COX1基因和16S rRNA基因，18S rRNA指的是genbank中下载的各物种基因；表5中COX1、16S rRNA、18S rRNA分别为步骤2)获得的参考C OX1基因、参考16SrRNA基因和参考18S rRNA基因。

表4

NA：由于缺乏18S rRNA参考序列，因此没有计算。

表5

NA：由于缺乏18S rRNA参考序列，因此没有计算。

进一步地，关于标记的特异性：根据上述分析结果可知，与COX1相比，比对到16S rRNA和18S rRNA基因的序列量更多；因此怀疑16S rRNA和18S rRNA基因是保守的，而且同一条序列可能比对到多个物种中。为了验证这一假设，对只比对到特定一个物种中的序列的情况进行分析，即每个物种的唯一序列。如表5所示，在一个维度上，每个标记的15个物种的唯一序列百分比差异很大。在另一个维度上，四个标记的唯一序列百分比也因物种而异。

在这15个物种中，线粒体基因组、COX1、16S rRNA和18S rRNA基因的平均唯一序列率为41％，范围为25.63％-68.27％。下面，重点分析通过LAMP实验证实的5个物种，其中，鸭的线粒体基因组、COX1、16S rRNA和18S rRNA基因的唯一序列分别为78.09％-90.03％、99.92％-100％、26.01％-48.92％和0.00％；牛的分别为17.12％-23.93％、76.90％-85.03％、1.53％-2.12％和0.00％；鸡的分别为64.97％-84.08％、99.77％-99.90％、17.12％-33.45％和0.00％-0.01％；羊的分别为33.64％-38.32％、84.62％-89.26％、3.25％-4.40％和0.05％-0.17％；猪的分别为58.10％-67.41％、100％、9.70％-14.96％和0.00％。在这四个标记中，线粒体基因组、CO X1、16S rRNA和18S rRNA基因的平均唯一序列百分比为41％，范围为0.03％-96.74％。可见，几乎所有18S rRNA的序列都可以比对到多个物种，即18S rRNA基因高度保守，不能用于较低水平的分类单元的鉴别。同样，16S rRNA基因也相当混乱，原因与18S rRNA基因相同。

进一步地，根据唯一比对到每个标记的序列，确定了使用不同标记检测不同物种的敏感性(表5)。同样，数据可以在两个维度上观察。在一个维度上，四个标记的唯一序列数在15个物种中有显著差异。在另一个维度上，这15个物种的唯一比对序列在四个标记上也有显著差异。

在15个物种中，线粒体基因组、COX1、16S rRNA和18S rRNA基因的平均唯一序列为4674，范围为947-14166。线粒体基因组、COX1、16S rRNA和18S rRNA基因的唯一序列数分别为13548-31664、1330-3205、907-2205和0，鸭分别为1840-3988、301-473、126-141和0，牛分别为6094-18504、644-1927、430-1204和0-1，鸡分别为4084-7895、449-831，羊分别为169-356和6-19；猪分别为12040-28114、1229-2971、655-1605和0。

在这四个标记中，线粒体基因组、COX1、16S rRNA和18S rRNA的平均唯一序列为4246，范围为4-14600。在狐狸中，线粒体基因组、COX1和16S rRNA基因的唯一序列最高，分别为25960-49294、3350-6591和601-1161。相比之下，在鼠中发现的唯一序列最低，分别为1456-3098、141-302、74-181和0-3个。可见，18S和16S rRNA的唯一序列数是最小的。相比之下，线粒体基因组和COX1的唯一序列足以确定相应的分类单元。此外，线粒体基因组的序列约为COX1基因的10倍。

进一步地，确定哪些标记可用于直接估算每个物种的生物量(即混合样本中每个物种的量)。对于三个标记：线粒体基因组、COX1基因和16S rRNA基因，计算每对标记对应于15个物种的序列的相关性，即用excel中的CORREL计算表5中唯一比对到重组装线粒体基因组的序列、唯一比对到COX1的序列和唯一比对到16S rRNA的序列三列数据两两之间的相关性。。三个标记间的相关性分别为：线粒体基因组和COX1：0.98、0.98和0.98(0.98±0)；线粒体基因组和16s：0.83、0.78和0.87(0.83±0.045)；COX1和16s：0.72、0.66和0.78(0.72±0.06)。考虑到COX1是一个单拷贝基因，而16S rRNA基因可能有多个拷贝。COX1和线粒体基因组可以比16S更准确地估计生物量，值得注意的是，两者之间具有很高的相关系数0.98。

4)将3)中比对到重组装线粒体基因组上的序列分为2类：只比对到单一物种重组装线粒体基因组的序列，比对到多个物种重组装线粒体基因组的序列。去除比对到多个物种重组装线粒体基因组的序列，提取只比对到单一物种重组装线粒体基因组的序列，根据序列数量分析混合物的物种组成。如表5所示，有上百条序列比对到某个物种上，则认为这个物种在样本里存在。样本中不存在的物种，理论上是没有序列的。

去除交叉比对的序列(比对到多个物种的序列)后，15个物种每个仍有上千条比对上的序列，意味着该方法可以检测到混合样本中的所有物种。

进一步地，如前所述，M15为15个品种混合了等量的肉。然而，比对到15个物种的每个重组装线粒体基因组上的序列有显著差异，这可能是由于15个物种的重组装线粒体基因组的相对拷贝数不同所致。以猪肉为基准，计算了其他14种的相对校正系数，其中，鸭的相对校正系数为3.47-7.94，骆驼的相对校正系数为1.37-8.87，牛的相对校正系数为5.47-13.62，马的相对校正系数为7.70-8.98，鸡的相对校正系数为1.53-6.62，小鼠的相对校正系数为1.27-2.67，雪貂的相对校正系数为0.81-4.85，海狸鼠的相对校正系数为2.73-13.25。犬的相对校正系数为1.28-4.21，家兔的相对校正系数为0.90-1.20，羊的相对校正系数为1.72-2.22，大鼠的相对校正系数为0.37-1.47，猪的相对校正系数为5.70-7.20，狐狸的相对校正系数为6.50-19.11。相对校正系数代表了不同物种线粒体基因组的相对拷贝数，可用于估计混合样本内不同物种所占的比例。

5)为了确定混合样本中是否存在意外成分，提取未比对到2)中重组装线粒体基因组上的序列，以COX1和16S rRNA为参考序列(软件自带数据库)，用RDP Classifier(v2.12)软件进行物种鉴定；以18S rRNA为参考序列(软件自带数据库)，用Usearch(v11)软件中的SINTAX模块进行物种鉴定。鉴定的结果用MEGAN(v6)进行可视化查看。

同时，提取未比对到2)中参考COX1基因、参考16S rRNA基因和参考18S rRNA基因上的序列，进行物种鉴定。

对于线粒体基因组，步骤1)中获得的线粒体序列存在29452个未比对的序列。这些序列的定位分类可分为四类：细菌、古细菌、真核生物和“未指定的”(图4a)。它们也可以用参数MinSupportPercent＝0.02注释到属级别。其中，在真核生物中有5个属被注释：海狸鼠属、犬属、猪属、鸭属、鸡属。这些序列可能由于与重组装线粒体基因组的高度变异没有比对到重组装线粒体基因组。

对于COX1，发现步骤1)中获得的COX1序列存在15728个未比对序列(图4b)。它们可分为三类：细菌、真核生物和“未指定”，其中14个属在真核生物中被注释：穴兔属、河狸鼠属、鼠属、犬属、貉属、狐属、鼬属、牛属、羊属、猪属、骆驼属、马属、鸭属和鸡属。

对于16S rRNA和18S rRNA基因，从步骤1)中获得的16S rRNA序列和18S rRNA序列中分别发现14819个(图4c)和101030个(图4d)未比对序列，它们分别与细菌和真核生物对齐和注释。

总的来说，经上述分析，较少检测到来自其他哺乳动物、细菌和真菌的污染。

实施例2两种混合物的定量分析

实施例1分析表明，WGS加上线粒体基因组可以定性鉴别混合样本中的分类单元成分。为了确定该方法的定量程度，使用不同比例的猪和鸡的材料制备了一系列的模拟样本：

使用实施例1中的M2混合样本进行处理，DNA提取、文库构建、DNA测序和DNA分析方法均与M15样本相同，DNA测序结果见表1。如图5所示，比对到猪重组装线粒体基因组的唯一序列在混合样本NGS数据(原始测序序列)中的比例(3组均值)与混合样本的重量比例(图5A)之间的相关系数为R²＝0.978。同样，与鸡重组装线粒体基因组相对应的唯一序列在混合样本NGS数据(原始测序序列)中的比例(3组均值)与混合样本的重量比例之间的相关系数(图5B)为R²＝0.9942。检测到的唯一序列比例与混合样本重量比例之间的高相关系数表明线粒体基因组可以用来定量测定混合样本中的生物成分。

进一步地，将3组M2-S1的NGS数据混合，作为背景，包含100％猪肉的序列；使用Seqtk程序(v1.3-r106)从M2-S6中随机提取特定数量的序列，其中包含100％鸡肉的序列。从M2-S6 NGS数据提取的序列与使用Seqtk程序(v1.3-r106)从M2-S1 NGS数据提取的序列(3组NGS数据混合后提取)以0.0001、0.001、0.01、0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9和1.0的一系列比例混合。每种比例制备5份模拟数据，分别用50、100、150、200和250号种子进行提取；然后将得到的每种比例的模拟数据样本集置于Mitobarcoding分析管道中，使用以下公式计算这些样本集的相对误差：(比对到鸡重组线粒体基因组中的鸡肉序列数-样本集中的鸡肉序列数)/(样本集中的鸡肉序列数)，结果如表6所示。

表6

在较高比例下，定量检测结果与模拟比例非常相似。即使在相对误差为0.07的0.01比例下，也能很好地检测出模拟比例。定量的准确度在0.001和0.0001的比例下显著降低。结果表明，该方法能定量检测出1％以下的物种。

综上所述，就识别出的唯一序列而言，不同物种的线粒体基因组的序列范围为1456到49294，而COX1的序列范围为141到6591。比对到16S rRNA和18S rRNA的序列数分别为57到2279和0到33。绘制到线粒体基因组的序列数平均是绘制到COX1基因的序列数的8.83倍，是绘制到16S rRNA的序列数的20.06倍，是绘制到18S rRNA基因的序列数的3864倍。

此外，线粒体基因组、COX1和16S rRNA的比对到多个物种的序列率平均分别为46.71％、1.33％和89.9％。对于18S rRNA，虽然每个物种的线粒体基因组中约有12000个总序列被比对，但也都被比对到多个物种中，使得其在当前环境下对物种鉴定毫无用处。可见，18S rRNA是生物多样性评价的有效指标，但其不适用于低分类水平的物种鉴定。

总之，通过模拟样本集、全基因组测序(Whole Genome Sequencing，WGS)和Mitobarcoding分析管道，我们发现18S rRNA基因高度保守，在较低的分类水平上是不适用的。相比之下，16S rRNA基因虽然广泛存在于真核生物、原核生物和细胞器基因组中，但由于来自原核生物的干扰使得多个分类单元混合物中目标分类单元的含量不能确定。线粒体基因组和COX1的标记相关性很好，没有测序偏好。然而，COX1基因占线粒体基因组的10％，因此线粒体基因组的敏感性是线粒体基因组的10倍。线粒体基因组的种内变异也高于COX1基因，使其具有更高的分辨能力。

本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

序列表

<110> 中国医学科学院药用植物研究所

<120> 一种基于全基因组测序技术的多种动物源性掺假鉴别方法

<160> 46

<170> SIPOSequenceListing 1.0

<210> 1

<211> 20

<212> DNA

<213> Artificial

<400> 1

catccaacat ctctgcttga 20

<210> 2

<211> 20

<212> DNA

<213> Artificial

<400> 2

gagtgtgagg aggaggatta 20

<210> 3

<211> 40

<212> DNA

<213> Artificial

<400> 3

tcagccgtat tgtacgttcc gctagccatg cactacacag 40

<210> 4

<211> 38

<212> DNA

<213> Artificial

<400> 4

catccggaat ctccacgcaa cgtccgatgt gaaggaag 38

<210> 5

<211> 19

<212> DNA

<213> Artificial

<400> 5

tacggaggag aaggctagg 19

<210> 6

<211> 22

<212> DNA

<213> Artificial

<400> 6

cgcctcattc ttcttcatct gt 22

<210> 7

<211> 21

<212> DNA

<213> Artificial

<400> 7

gagtaatcct actgctcact c 21

<210> 8

<211> 19

<212> DNA

<213> Artificial

<400> 8

gcctgattcg tgtaggaag 19

<210> 9

<211> 43

<212> DNA

<213> Artificial

<400> 9

ttacggtagc tcctcagaac gattatagca actgccttcg tag 43

<210> 10

<211> 39

<212> DNA

<213> Artificial

<400> 10

accctggtag aatgagcctg atgaatggcg aagaatcgg 39

<210> 11

<211> 20

<212> DNA

<213> Artificial

<400> 11

tcctcatggc aggacataac 20

<210> 12

<211> 22

<212> DNA

<213> Artificial

<400> 12

ggaggattct cagtggataa cc 22

<210> 13

<211> 21

<212> DNA

<213> Artificial

<400> 13

tatcggagta atccttctgc t 21

<210> 14

<211> 22

<212> DNA

<213> Artificial

<400> 14

ggaataatag gtggactatg gc 22

<210> 15

<211> 42

<212> DNA

<213> Artificial

<400> 15

ttggtgatga ctgttgctcc tccacagtaa tagccacagc at 42

<210> 16

<211> 42

<212> DNA

<213> Artificial

<400> 16

agcaatccca tacatcggca cgtaagggtt gctttgtcta ct 42

<210> 17

<211> 22

<212> DNA

<213> Artificial

<400> 17

cctcatggta ggacgtatcc ta 22

<210> 18

<211> 21

<212> DNA

<213> Artificial

<400> 18

atgaatctga ggcggattct c 21

<210> 19

<211> 20

<212> DNA

<213> Artificial

<400> 19

acaatagcca cagcattcat 20

<210> 20

<211> 20

<212> DNA

<213> Artificial

<400> 20

atctgtgtcc gatggaattc 20

<210> 21

<211> 43

<212> DNA

<213> Artificial

<400> 21

tcattcgact aggtttgtgc cacattctga ggagcaacag tta 43

<210> 22

<211> 41

<212> DNA

<213> Artificial

<400> 22

caaagctacc ctcacccgat ttgtaggtga actatggcga g 41

<210> 23

<211> 20

<212> DNA

<213> Artificial

<400> 23

attgctgaaa ggaggttggt 20

<210> 24

<211> 18

<212> DNA

<213> Artificial

<400> 24

ccattcatca tcgcagcc 18

<210> 25

<211> 21

<212> DNA

<213> Artificial

<400> 25

tcttacttca ggaccatctc a 21

<210> 26

<211> 19

<212> DNA

<213> Artificial

<400> 26

ccggatcatg agttccatg 19

<210> 27

<211> 39

<212> DNA

<213> Artificial

<400> 27

atgtgtgagc atgggctgat taaatcgccc actctttcc 39

<210> 28

<211> 44

<212> DNA

<213> Artificial

<400> 28

gggatgctta gactcagcca tggtccagct acaattgatt tgac 44

<210> 29

<211> 22

<212> DNA

<213> Artificial

<400> 29

agtcattagt ccatcgagat gt 22

<210> 30

<211> 18

<212> DNA

<213> Artificial

<400> 30

ccgtcaaagg ccctaaca 18

<210> 31

<211> 25

<212> DNA

<213> Artificial

<400> 31

ggtcaacaaa tcataaagat attgg 25

<210> 32

<211> 26

<212> DNA

<213> Artificial

<400> 32

taaacttcag ggtgaccaaa aaatca 26

<210> 33

<211> 20

<212> DNA

<213> Artificial

<220>

<221> misc_feature

<222> (12)..(12)

<223> n为次黄嘌呤

<220>

<221> misc_feature

<222> (18)..(18)

<223> n为次黄嘌呤

<400> 33

cchgatataa cnttyccncg 20

<210> 34

<211> 24

<212> DNA

<213> Artificial

<220>

<221> misc_feature

<222> (12)..(12)

<223> n为次黄嘌呤

<220>

<221> misc_feature

<222> (16)..(16)

<223> n为次黄嘌呤

<400> 34

gaaaatyata angaangcrt gagc 24

<210> 35

<211> 25

<212> DNA

<213> Artificial

<400> 35

attcaaccaa tcataaagat attgg 25

<210> 36

<211> 22

<212> DNA

<213> Artificial

<400> 36

taaacttctg gatgtccaaa aa 22

<210> 37

<211> 25

<212> DNA

<213> Artificial

<400> 37

aytcaacaaa tcataaagat attgg 25

<210> 38

<211> 23

<212> DNA

<213> Artificial

<400> 38

acytcrggrt gaccaaaaaa tca 23

<210> 39

<211> 22

<212> DNA

<213> Artificial

<400> 39

gcctgtttac caaaaacatc ac 22

<210> 40

<211> 22

<212> DNA

<213> Artificial

<400> 40

ctccataggg tcttctcgtc tt 22

<210> 41

<211> 20

<212> DNA

<213> Artificial

<400> 41

cgcctgttta tcaaaaacat 20

<210> 42

<211> 22

<212> DNA

<213> Artificial

<400> 42

ccggtctgaa ctcagatcac gt 22

<210> 43

<211> 20

<212> DNA

<213> Artificial

<400> 43

agggcaakyc tggtgccagc 20

<210> 44

<211> 19

<212> DNA

<213> Artificial

<400> 44

grcggtatct ratcgyctt 19

<210> 45

<211> 20

<212> DNA

<213> Artificial

<400> 45

cttaatttga ctcaacacgg 20

<210> 46

<211> 20

<212> DNA

<213> Artificial

<400> 46

tagcgacggg cggtgtgtac 20

Claims

1.一种基于全基因组测序技术的多种动物源性掺假鉴别方法，其特征在于，包括如下步骤：

4)将3)中比对到重组装线粒体基因组上的序列分为2类：只比对到单一物种重组装线粒体基因组的序列，比对到多个物种重组装线粒体基因组的序列；提取只比对到单一物种重组装线粒体基因组的序列，根据序列数量分析混合物的物种组成；

5)提取线粒体序列中未比对到重组装线粒体基因组上的序列，以COX1和16S rRNA为参考序列，用RDP Classifier软件进行物种鉴定；以18S rRNA为参考序列，用Usearch软件中的SINTAX模块进行物种鉴定；鉴定的结果用MEGAN进行可视化查看；

所述1)中：

使用BBMap软件中的filterbyname.sh命令提取出线粒体序列；

所述2)中：

使用MITOBim软件分别进行各物种线粒体基因组重组装；

所述3)中：

使用samtools软件提取比对到2)中重组装线粒体基因组上的序列，提取参数为“samtools view-bF 4”；

所述4)中：