CN112599200A - 一种基于宏条形码的家畜采食组成校正模型的构建方法 - Google Patents
一种基于宏条形码的家畜采食组成校正模型的构建方法 Download PDFInfo
- Publication number
- CN112599200A CN112599200A CN202011595272.2A CN202011595272A CN112599200A CN 112599200 A CN112599200 A CN 112599200A CN 202011595272 A CN202011595272 A CN 202011595272A CN 112599200 A CN112599200 A CN 112599200A
- Authority
- CN
- China
- Prior art keywords
- sequences
- daily ration
- correction
- sequence
- bar code
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000012937 correction Methods 0.000 title claims abstract description 46
- 244000144972 livestock Species 0.000 title claims abstract description 21
- 239000000203 mixture Substances 0.000 title claims abstract description 17
- 230000037406 food intake Effects 0.000 title claims description 10
- 108020004414 DNA Proteins 0.000 claims abstract description 26
- 238000005516 engineering process Methods 0.000 claims abstract description 22
- 238000012163 sequencing technique Methods 0.000 claims abstract description 21
- 241000894007 species Species 0.000 claims abstract description 17
- 238000001914 filtration Methods 0.000 claims abstract description 12
- 238000003908 quality control method Methods 0.000 claims abstract description 10
- 108091028043 Nucleic acid sequence Proteins 0.000 claims abstract description 8
- 238000012408 PCR amplification Methods 0.000 claims abstract description 8
- 108091093088 Amplicon Proteins 0.000 claims abstract description 7
- 238000012417 linear regression Methods 0.000 claims abstract description 7
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 5
- 238000012545 processing Methods 0.000 claims abstract description 4
- 244000025254 Cannabis sativa Species 0.000 claims description 31
- 241001494479 Pecora Species 0.000 claims description 22
- IJGRMHOSHXDMSA-UHFFFAOYSA-N Atomic nitrogen Chemical compound N#N IJGRMHOSHXDMSA-UHFFFAOYSA-N 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 6
- 239000007788 liquid Substances 0.000 claims description 5
- 229910052757 nitrogen Inorganic materials 0.000 claims description 5
- 238000003801 milling Methods 0.000 claims description 2
- 238000012216 screening Methods 0.000 claims description 2
- 239000000306 component Substances 0.000 description 38
- 238000011084 recovery Methods 0.000 description 24
- 150000001335 aliphatic alkanes Chemical class 0.000 description 13
- 238000011282 treatment Methods 0.000 description 13
- 241000219793 Trifolium Species 0.000 description 12
- 241000723343 Cichorium Species 0.000 description 9
- 235000021050 feed intake Nutrition 0.000 description 9
- 229920006395 saturated elastomer Polymers 0.000 description 8
- 241000196324 Embryophyta Species 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 7
- 241000209200 Bromus Species 0.000 description 6
- 241000219823 Medicago Species 0.000 description 6
- 235000007542 Cichorium intybus Nutrition 0.000 description 5
- 244000052363 Cynodon dactylon Species 0.000 description 5
- 241000209082 Lolium Species 0.000 description 5
- 241001465754 Metazoa Species 0.000 description 5
- 241000209049 Poa pratensis Species 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 241000339490 Brachyachne Species 0.000 description 4
- 240000004296 Lolium perenne Species 0.000 description 4
- 240000004658 Medicago sativa Species 0.000 description 4
- 235000010624 Medicago sativa Nutrition 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 235000005911 diet Nutrition 0.000 description 4
- 230000037213 diet Effects 0.000 description 4
- 210000003608 fece Anatomy 0.000 description 4
- 244000038280 herbivores Species 0.000 description 4
- 238000012165 high-throughput sequencing Methods 0.000 description 4
- 241000283690 Bos taurus Species 0.000 description 3
- 241001148733 Bromus erectus Species 0.000 description 3
- 241000566145 Otus Species 0.000 description 3
- 241000209048 Poa Species 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 235000012041 food component Nutrition 0.000 description 3
- 235000012631 food intake Nutrition 0.000 description 3
- 239000004615 ingredient Substances 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 238000009304 pastoral farming Methods 0.000 description 3
- 108091003079 Bovine Serum Albumin Proteins 0.000 description 2
- 244000298479 Cichorium intybus Species 0.000 description 2
- 238000007400 DNA extraction Methods 0.000 description 2
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 2
- 241000233866 Fungi Species 0.000 description 2
- 240000007171 Imperata cylindrica Species 0.000 description 2
- 241000511730 Leymus chinensis Species 0.000 description 2
- 241000209504 Poaceae Species 0.000 description 2
- 241000736229 Puccinellia Species 0.000 description 2
- 240000002913 Trifolium pratense Species 0.000 description 2
- 235000015724 Trifolium pratense Nutrition 0.000 description 2
- 241000379570 Trifolium rubens Species 0.000 description 2
- 239000011543 agarose gel Substances 0.000 description 2
- 230000003321 amplification Effects 0.000 description 2
- 238000000540 analysis of variance Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000003766 bioinformatics method Methods 0.000 description 2
- 229940098773 bovine serum albumin Drugs 0.000 description 2
- GDTBXPJZTBHREO-UHFFFAOYSA-N bromine Chemical compound BrBr GDTBXPJZTBHREO-UHFFFAOYSA-N 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 235000013526 red clover Nutrition 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 210000002268 wool Anatomy 0.000 description 2
- 241000283707 Capra Species 0.000 description 1
- 241000283074 Equus asinus Species 0.000 description 1
- 208000006687 Esophageal Fistula Diseases 0.000 description 1
- 241000234643 Festuca arundinacea Species 0.000 description 1
- 241001327887 Lemmus Species 0.000 description 1
- 241000511731 Leymus Species 0.000 description 1
- 241000612166 Lysimachia Species 0.000 description 1
- 235000017587 Medicago sativa ssp. sativa Nutrition 0.000 description 1
- 238000004497 NIR spectroscopy Methods 0.000 description 1
- 206010065835 Oesophageal fistula Diseases 0.000 description 1
- 108020005120 Plant DNA Proteins 0.000 description 1
- 241001127637 Plantago Species 0.000 description 1
- 244000292693 Poa annua Species 0.000 description 1
- 241000736230 Puccinellia distans Species 0.000 description 1
- 241000221300 Puccinia Species 0.000 description 1
- 241001411461 Trifolium squamosum Species 0.000 description 1
- 238000000137 annealing Methods 0.000 description 1
- 235000015278 beef Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000011109 contamination Methods 0.000 description 1
- 238000004925 denaturation Methods 0.000 description 1
- 230000036425 denaturation Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 235000019621 digestibility Nutrition 0.000 description 1
- 238000001962 electrophoresis Methods 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 239000005428 food component Substances 0.000 description 1
- 239000005417 food ingredient Substances 0.000 description 1
- 239000004459 forage Substances 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000003304 gavage Methods 0.000 description 1
- 239000000499 gel Substances 0.000 description 1
- 238000013090 high-throughput technology Methods 0.000 description 1
- 208000008025 hordeolum Diseases 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 235000013372 meat Nutrition 0.000 description 1
- 238000004452 microanalysis Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000010369 molecular cloning Methods 0.000 description 1
- 239000003147 molecular marker Substances 0.000 description 1
- 238000007481 next generation sequencing Methods 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 235000016709 nutrition Nutrition 0.000 description 1
- 230000035764 nutrition Effects 0.000 description 1
- 235000003715 nutritional status Nutrition 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000012165 plant wax Substances 0.000 description 1
- 238000012257 pre-denaturation Methods 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 210000004767 rumen Anatomy 0.000 description 1
- 238000007480 sanger sequencing Methods 0.000 description 1
- 230000001932 seasonal effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 239000001993 wax Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/02—Agriculture; Fishing; Forestry; Mining
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Evolutionary Biology (AREA)
- Pure & Applied Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Health & Medical Sciences (AREA)
- Computational Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Business, Economics & Management (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Algebra (AREA)
- Strategic Management (AREA)
- Mining & Mineral Resources (AREA)
- Tourism & Hospitality (AREA)
- Agronomy & Crop Science (AREA)
- Animal Husbandry (AREA)
- Primary Health Care (AREA)
- Databases & Information Systems (AREA)
- Human Resources & Organizations (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Marine Sciences & Fisheries (AREA)
- Marketing (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Biophysics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Biotechnology (AREA)
- Medical Informatics (AREA)
Abstract
本发明提供了一种基于宏条形码的家畜采食组成校正模型的构建方法:其特征在于,其包括:(1)选取源自不同牧草制备模拟日粮,作为校正样品,提取DNA、ITS2条形码PCR扩增、扩增子Illumina MiSeq双末端测序,获得原始测序数据;(2)对原始测序数据进行过滤和质控处理,将有效序列进行OTU聚类;(3)将OTU代表序列与NCBI数据库Blastn比对,完成物种注释;(4)使用宏条形码技术对样本的牧草基因序列进行测定,得到牧草DNA序列的相对比例测定值,分析获得模拟日粮的组分;(5)利用线性回归方法对模拟日粮各组分的测定值、各组分的干物质比例真实值进行关联,建立日粮组成的校正模型。
Description
技术领域
本发明属于分子生物学领域和畜牧学领域,具体地,本申请提供了一种基于宏条形码的家畜采食组成校正模型的构建方法
背景技术
放牧家畜的生产性能和营养状况与牧草摄入量密切相关。在放牧条件下,准确掌握家畜的采食成分与采食量极其关键,能够为明晰家畜营养状况和预测家畜生产性能,进而为制定草地管理决策、优化牧草资源配置等提供有效的数据支撑和理论指导。天然草地上的牧草资源丰富,种类繁多,食草家畜摄入的植物种类非常多元化,而且会对特定的牧草种类存在一定的偏好选择,准确测定食草家畜的采食组分仍然面临诸多困难与挑战。
国内外常用于估测食草动物采食成分的方法众多,主要有模拟采食法、牧草采食法、食道瘘管法、瘤胃内容物法、粪便显微分析法、植物蜡层指示剂法和近红外光谱法。饱和烷烃技术目前被认为是最准确、最客观的方法,它是将饱和烷烃作为内源指示剂,通过测定家畜所采食各牧草的链烷种类、含量,与粪便中相应链烷的种类、含量建立回归方程,从而估算动物对各牧草的采食比例。该方法能够准确地估测日粮组分简单(4~8种)的动物采食组分。但是当牧草中的烷烃浓度较低或者链烷模式相似时,随着家畜食物组成复杂化,其估测准确性大大降低。此外,蜡层指示剂的特征模式及其回收率也会因季节和地域等因素有所差异,直接影响季节性采食估测结果的准确性。
DNA条形码技术(DNA barcoding),是指用基因组内一段标准的、相对较短的DNA片段来鉴定物种或者其变异类型的一项分子鉴定新技术。该技术摆脱了传统鉴定方法依赖长期经验的障碍,通过建立标准数据库,可实现对物种的快速准确鉴定,是分子鉴定方法学上的创新。然而DNA条形码技术依赖传统的Sanger测序技术,尚无法实现地对多个体多物种的混合样品进行高效快速分类及评估,而且从陈旧材料难以获得完整、高质量的DNA模板。基于高通量测序技术(也称二代测序技术)的DNA宏条形码技术有望克服这一难题。
DNA宏条形码技术,也叫DNA复合条形码技术,是指利用高通量技术同时获得很多物种的条形码基因扩增子序列,借助生物信息学分析手段对群落的分类单元组成进行鉴定。它的工作原理是:(1)从环境样本中提取DNA;(2)选取合适的DNA条形码作为分子标记;(3)利用条形码通用引物从环境样本中获得扩增子;(4)利用合适的高通量测序平台,对大量的扩增子进行高通量测序;(5)将测序得到的序列与参考数据库进行比对,得到物种注释信息;(6)对测序结果进行生物信息学分析。
近些年来,DNA宏条形码技术(DNA metabarcoding)在量化膳食成分上的研究取得很大进展。研究表明,DNA宏条形码技术因其快速、操作简单、健壮等优势,适合测定食草类动物的食物组分。但是基于植物DNA条形码分析食草动物的饮食面临的困难更大。在动物食物组分的鉴定研究中,人们关注的是宏条形码技术是否能够针对动物所消耗的成分做出足够精确的估计。我们前期通过绵羊舍饲试验评估了DNA宏条形码技术在估测放牧家畜采食组分上的准确性。发现,通过从粪便中扩增植物ITS2条形码并进行Illumina MiSeq测序,能够定性鉴定绵羊所采食的牧草种类。并且初步证实绵羊粪便中回收得到的牧草DNA序列比例与绵羊实际消耗的牧草比例存在线性关系。
而由于食草动物消耗的种类及其消化率也存在差异等复杂因素,测定结果存在偏差在所难免。先前已经针对绵羊消耗的部分牧草比例构建的定量预测模型其准确性仍需要进一步补充和完善。
发明内容
一方面,本发明提供了一种基于宏条形码的家畜采食组成校正模型的构建方法:包括:(1)选取源自不同牧草制备模拟日粮,以此作为校正样品,提取混合样本DNA、ITS2条形码PCR扩增、扩增子Illumina MiSeq双末端测序,获得校正样品的原始测序数据;
(2)对原始测序数据进行过滤和质控处理,将有效序列进行操作分类单元OTU聚类;
(3)将OTU代表序列与NCBI数据库Blastn比对,在属或种水平上完成物种注释;
(4)使用宏条形码技术对每个混合样本的牧草基因序列进行测定,得到牧草DNA序列的相对比例测定值,分析获得模拟日粮的组分;
(5)利用线性回归方法对模拟日粮各组分的测定值、各组分的干物质比例真实值进行关联,建立日粮组成的校正模型。
进一步地,提取混合样本DNA包括液氮研磨步骤。
进一步地,ITS2条形码PCR扩增时所用引物为rD5-ITS2:TCCTCCGCTTATTGATATGC以及rb1-ITS2f:CGATACTTGGTGTGAATTGCAG。
进一步地,步骤(2)中的质控处理包括(i)过滤read尾部质量值20以下的碱基,以50bp为一个滑动窗口,若窗口内序列的平均质量值低于20,从窗口开始截去后端碱基。过滤质控后读长小于50bp的reads;(ii)根据PE reads之间的重叠关系,将成对reads拼接成一条序列,相互拼接上的序列之间,重叠区最小重叠长度为10bp,拼接序列的重叠区允许的最大错配比率为0.2,筛选不符合序列;(iii)根据序列首尾两端的barcode和引物区分样品,并调整序列方向,barcode允许的错配数为0,最大引物错配数为2,去掉无法拼接的序列,最后去除barcode标签及引物序列。
进一步地,步骤(2)中的OTU聚类使用Usearch version软件,按照97%相似性进行,在聚类过程中使用UCHIME软件识别并去除嵌合体序列。
进一步地,还包括回归校正步骤。
进一步地,回归校正中使用Kulczyński相似系数(KSI,%)来评价准确性,其计算公式如下:
其中,ci是模拟日粮中第i个牧草的真实值与估测值之间的较小值;(ai+bi)是每一种牧草组分的真实值与估测值的比例之和。
另一方面,本申请提供了上述方法在家畜采食组成测定中的应用。
进一步地,所述家畜为绵羊。
本申请中的牧草可根据具体需要和条件选择各种已知或未知的种类,包括但不限于碱茅属(Puccinellia)、狗牙根属(Cynodon)、早熟禾属(Poa)、黑麦草属(Lolium)、雀麦属(Bromus)、赖草属(Leymus sp.)、苜蓿属(Medicago)、车轴草属(Trifolium)、菊苣属(Cichorium)9个属等属的,碱茅(Puccinellia distans)、狗牙根(Cynodon dactylon)、草地早熟禾(Poa pratensis)、黑麦草(Lolium perenne)、直立雀麦(Bromus erectus)、紫花苜蓿(Medicago sativa)、红三叶(Trifolium pratense)、菊苣(Cichorium intybus)、狐尾三叶草(Trifolium rubens)、鳞状三叶草(Trifolium squamosum)大麦状雀麦(Bromushordeaceus)等具体种。
本申请中的家畜包括各种食草或杂食类家畜,包括但不限于羊如山羊、绵羊或肉用羊、毛用羊、肉毛兼用羊;牛如奶牛、肉牛;猪;马;驴等。
本申请中的分子生物学操作方法,如DNA提取、PCR方法等本领域技术人员可以根据本领域常规技术手段(包括但不限于《分子克隆》,萨姆布鲁克等工具书)选择和实施。并可以根据需要选用各种成品试剂盒。
本发明的有益效果包括:本发明建立了模拟日粮牧草组分的回归校正模型,包括总体回归方程和单个回归方程。与模拟日粮组分的实际比例进行对比,利用相似系数KSI对估测值和校正值进行准确性分析,发现用总体回归方程和单个回归方程校正之后,采食组分的测定结果准确性显著提高。用构建的模型对舍饲绵羊的采食组分进行校正,校正之后测定结果的准确性有了明显提高。
附图说明
图1为模拟日粮中牧草的相对丰度(属水平);
图2为模拟日粮中牧草的相对丰度(种水平);
图3为模拟日粮中牧草组分的估测值与真实值之间的回归关系;
图4为模拟日粮中各个牧草种类的线性回归模型;
图5为模拟日粮处理中基于宏条形码技术的牧草组分估测值与真实值间的相似系数(KSI)牧草组分的估测值包括未校正(灰色方形)、总体回归方程(CE-1,红色圆形)和单个回归方程(CE-2,蓝色三角)。D:模拟日粮;RC:回归校正;D×R:模拟日粮和回归校正方法的交互作用。星号***表示在P<0.001水平上有显著差异;
图6为日粮处理1、2、3和4中基于DNA条形码技术的采食成分估测值与测量值间的相似系数(KSI)。粪便中检测的采食组分的估测值包括未校正(灰色圆圈)、校正方程1(黑色方形)和校正方程2(黑色三角形)。D:日粮;RC:回归校正;D×R:日粮和回归校正方法的交互作用。星号***表示在P<0.001水平上有显著差异;
图7为日粮处理1、2、3和4中基于宏条形码和饱和烷烃两种方法的采食成分估测值与真实值间的相似系数(KSI)比较。相似系数计算所基于的校正方法包括未校正(灰色圆圈)、校正方程1(黑色方形)、校正方程2(蓝色三角形)、个体回收率(黑色圆圈)、处理回收率(红色圆圈)和总体回收率(黑色三角形)。D:日粮;CM:校正方法;D×CM:日粮和校正方法的交互作用。星号***表示在P<0.001水平上有显著差异。
具体实施方式
实施例1对模拟日粮中牧草组分的测定
将收集的9种牧草经液氮充分研磨后,按照设定比例(干物质比例)充分混匀,作为模拟日粮,比例见下表1。其中包括10个处理,每个处理重复4次,共40个牧草混合样本。每个混合牧草样本约0.5g装入到离心管内,置于液氮罐中保存。
表1模拟日粮的组成
经液氮磨碎混匀后的模拟日粮样品用植物基因组DNA提取试剂盒(DNAsecurePlant Kit)提取样品植物总DNA。以上述DNA为模板,用文献中已报道的引物rD5-ITS2和rb1-ITS2f(表2)PCR扩增植物ITS2序列,且对于每个样本分别加上8bp的标签序列,用于区分测序分析时各个数据的样本来源。
表2 Illumina MiSeq测序引物
PCR扩增反应在ABI型仪器上进行。ITS2基因的PCR扩增条件为:94℃预变性5分钟;94℃变性30秒,59℃退火1分钟,72℃延伸1分钟;反应45个循环;72℃延伸10分钟。每次PCR反应需设置空白对照,以排除样本扩增污染。每个样品的扩增重复三次,反应体系为20μL,包括4μL的5×FastPfu buffer,2μL的2.5mM dNTPs,引物(5μM)各0.8μL,0.4μL的FastPfu Polymerase,0.2μL的Bovine Serum Albumin(BSA)和10ng的DNA模板。所有PCR扩增产物用2.0%琼脂糖凝胶进行电泳观察,采用DL2000 marker进行条带大小对比。选择阳性PCR产物用于下一步测序分析。
使用AxyPrepDNA凝胶回收试剂盒(Axygen Bioscience,Union City,CA,U.S.)从2%琼脂糖凝胶中回收PCR产物,用QuantiFluorTM-ST蓝色荧光定量系统(Promega,U.S.)进行检测定量。之后将纯化后的PCR扩增子等比例混合。然后根据Illumina MiSeq测序平台的标准流程进行双端(2×300bp)测序。
用QIIME version 1.17软件对原始fastq文件进行严格的过滤和质控处理。数据过滤方法和参数如下:(i)过滤read尾部质量值20以下的碱基,以50bp为一个滑动窗口,若窗口内序列的平均质量值低于20,从窗口开始截去后端碱基。过滤质控后读长小于50bp的序列(reads);(ii)根据PE reads之间的overlap关系,将成对reads拼接成一条序列,相互拼接上的序列之间,重叠区最小overlap长度为10bp。拼接序列的overlap区允许的最大错配比率为0.2,筛选不符合序列;(iii)根据序列首尾两端的barcode和引物区分样品,并调整序列方向,barcode允许的错配数为0,最大引物错配数为2。去掉无法拼接的序列,最后去除barcode标签及引物序列。
原始序列文件经过滤和质控处理后,形成一个新的序列文件,且每条序列都有一个特定的标签。使用Usearch version 7.1软件,按照97%相似性对序列进行操作分类单元(Operational Taxonomic Units,OTU)聚类,在聚类过程中使用UCHIME软件识别并去除嵌合体序列,得到OTU的代表序列。将所有优化序列匹配至OTU代表序列,选出与OTU代表序列相似性在97%以上的序列,生成OTU表格。
分类学比对时,用GenBank“nucleotide collection(nr/nt)”数据库,利用在线BLASTN工具,按照序列同源性最高原则,对每一个OTU进行物种注释。若两条或两条以上代表性OTU序列所得分数相同,或者没有比对到种水平上,则在更高水平上(属或科水平)对该序列进行物种分类学注释。
将OTU表中的不相关序列(真菌)进行剔除,然后进行模拟日粮组成分析。OTU序列数大于等于2的,认定为有效序列。序列数小于2的,可能是由于ITS2测序错误所导致,后续分析不予考虑。对DNA序列数进行对数转换后,计算得到模拟日粮样本中每种牧草DNA序列的相对比例,进而分析模拟日粮的组分。
对40份混合牧草样品(模拟日粮)中的ITS2条形码进行测序后,共得到1,473,296优质序列,通过聚类并去除真菌类后,得到40个OTUs。对全部样品中的有效序列进行归类操作分析,在属和种的水平统计所在分类单元对应的牧草种类及相对丰度(图1和图2)。对OTU代表序列进行注释,结果表明样品中共有碱茅属(Puccinellia)、狗牙根属(Cynodon)、早熟禾属(Poa)、黑麦草属(Lolium)、雀麦属(Bromus)、赖草属(Leymus sp.)、苜蓿属(Medicago)、车轴草属(Trifolium)、菊苣属(Cichorium)9个属。其中丰度最高的3个分别是车轴草属、菊苣属、和苜蓿属,占总OTUs的62.5%。其中有36个OTUs鉴定到种的水平,分别是碱茅(Puccinellia distans)、狗牙根(Cynodon dactylon)、草地早熟禾(Poa pratensis)、黑麦草(Lolium perenne)、直立雀麦(Bromus erectus)、紫花苜蓿(Medicago sativa)、红三叶(Trifolium pratense)、菊苣(Cichorium intybus)、狐尾三叶草(Trifoliumrubens)、鳞状三叶草(Trifolium squamosum)大麦状雀麦(Bromus hordeaceus)11个植物种。
实施例2回归模型构建和模拟日粮组分的准确性检验
采用线性回归分析确定通过测序获得的DNA序列其相对比例与模拟日粮中牧草比例二者之间的定量关系,得到的回归方程用于校正直接估测结果。
对高通量测序得到的采食组分的直接估测结果进行回归校正,估测和校正后结果的准确性采用Kulczyński相似系数(KSI,%)来评价。其计算公式如下:
其中,ci是模拟日粮中第i个牧草的真实值与估测值之间的较小值;(ai+bi)是每一种牧草组分的真实值与估测值的比例之和。
应用Illumina MiSeq测序后得到每个OTU的序列数目,经过对数转化后计算各个牧草在不同混合牧草样品中的相对比例,然后与混合牧草样品中的真实比例进行比较。然后对九种牧草DNA序列的相对比例与它们在模拟日粮中的实际比例进行回归分析,结果表明,二者之间存在极显著的线性回归关系(图3)。采用SPSS软件对参数进行拟合,得到模拟日粮中牧草组分的总体回归预测方程y=0.425x+0.064。
共设置10种不同比例的模拟日粮,其中包含9种常见草种。针对这9种牧草种类分别建立了单个的线性回归方程并进行方差分析,如图4所示。这些方程分别是:碱茅(PD),y=0.946x+0.098;狗牙根(CD),y=0.999x+0.088;早熟禾(PP),y=0.617x+0.044;黑麦草(LP),y=0.377x+0.022;雀麦(BE),y=0.437x+0.038;羊草(LC),y=0.650x+0.059;紫花苜蓿(MS),y=1.727x-0.189;红三叶(TP),y=1.018x-0.065;菊苣(CI),y=0.055x+0.095。
通过DNA宏条形码技术估测获得日粮中各种牧草的相对比例,利用总体回归方程(CE-1)和单个回归方程(CE-2)这两种模型,对估测的结果进行回归校正。表1展示了模拟日粮中9种牧草的实际测定值(Oberserved)、估测值(Estimated)、回归校正值(CE-1和CE-2)。采用相似系数KSI对估测结果以及两种方法校正后的结果的准确性进行评估。图5是三种结果的相似系数KSI的方差分析结果。可以看出,日粮处理(D)、校正方法(RC)以及二者之间的交互作用(D×RC)对KSI有极显著影响(P<0.001)。
显然,经单个回归方程和总体回归方程校正后,对日粮组分估测结果的准确性明显提高。直接估测结果(未经校正的)的KSI值为66.02%~76.18%,平均值为70.15%;采用总体回归方程(CE-1)校正的KSI值为73.84%~86.37%,平均值为80.42%;经单个回归方程(CE-2)校正的KSI值为85.84%~93.29%,平均值为90.58%。
实施例3估测并校正舍饲绵羊日粮组分
利用本发明中ITS2条形码测序的方法对绵羊采食组分进行了估测。同样采用KSI对该方法的准确性进行了方差检验(图6)。方差分析结果表明,日粮处理、回归方程校正方法以及二者之间的交互作用对KSI有着极显著作用(P<0.001)。经过两种回归方程校正之后,KSI明显增加(P<0.001)。三种估测结果相比较而言,可以发现采用第二种校正方程(CE-2)校正后,KSI最高(88.41%),其次是第二种校正方程CE-1(70.24%),未经校正的KSI值最低(57.97%)。
从日粮组分的角度分析,直接利用DNA宏条形码技术估测得到的采食组分,估测值与真实值之间的相似性较低(46.98%~67.99%),且随着采食组分的增加KSI明显降低。而经CE-1(66.89%~72.03%)和CE-2(84.5%~92.0%)校正后,随着采食组分的增加,KSI比较平稳,并没有呈现骤然下降的趋势。
实施例4与饱和烷烃技术的应用效果对比
本研究分别用宏条形码和饱和烷烃技术对绵羊的采食组分进行了估测,并利用相似系数KSI对这两种技术的准确性进行了评估。图7呈现了在四种日粮处理下,采用6种方法对绵羊采食组分的估测值与真实值之间的相似性。结果显示,6种估测结果的准确性顺序为:个体回收率(I)>处理回收率(T)>校正方程2(CE-2)>总体回收率(G)>校正方程1(CE-1)>直接估测值(estimated)。表2列出了这6种校正方法的多重比较结果。可以看出,相似系数KSI在校正方法2和处理回收率二者之间并没有显著差异。
粪便中指示剂的回收率差异从单只绵羊回收率、处理回收率到总体回收率呈递增趋势变化,而且回收率校正之后提高了采食成分估测结果的准确性。然而,由于日粮组分显著影响粪便中长链醇的回收率,所以由于日粮组分引起的长链醇的总体回收率很大程度地偏离了处理平均回收率。所以总体回收率仅对其中的一种日粮组分进行了准确估测。根据单只绵羊回收率校正后的估测结果最为准确,然而在野外环境下难以操作]。与单只绵羊回收率校正的方法相较而言,虽然同一日粮处理回收率校正的估测结果准确性有所下降,但是影响很小。因此建议使用同日粮处理回收率校正法。
同样,采用相似系数KSI对DNA条形码技术对绵羊采食组分的估测结果进行了评价。首先我们利用两个校正方程对估测结果加以校正。经过回归方程校正之后发现,与校正前相比而言,KSI值呈明显增加,即估测结果的准确性明显提高(图7)。而且,与饱和烷烃方法的结果有所不同,就是随着采食组分的增加,KSI的变化幅度比较小,受采食组分的影响较小。由此可以预见,对于复杂组分的估测而言,宏条形码技术比饱和烷烃的准确性更高。
在饱和烷烃技术的研究结果中,从实际应用角度出发,我们推荐使用处理回收率对烷烃的回收率进行校正。而图7和表2中的方差分析结果表明,宏条形码技术估测的结果经第二种方法校正之后,二者的准确性并没有显著差异,这也证实了本发明在估测绵羊采食组分上的应用效果和潜能。
表4于六种校正方法的估测值与真实值之间的相似系数
此实施例仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (9)
1.一种基于宏条形码的家畜采食组成校正模型的构建方法:其特征在于,其包括:
(1)选取源自不同牧草制备模拟日粮,以此作为校正样品,提取混合样本DNA、ITS2条形码PCR扩增、扩增子Illumina MiSeq双末端测序,获得校正样品的原始测序数据;
(2)对原始测序数据进行过滤和质控处理,将有效序列进行操作分类单元OTU聚类;
(3)将OTU代表序列与NCBI数据库Blastn比对,在属或种水平上完成物种注释;
(4)使用宏条形码技术对每个混合样本的牧草基因序列进行测定,得到牧草DNA序列的相对比例测定值,分析获得模拟日粮的组分;
(5)利用线性回归方法对模拟日粮各组分的测定值、各组分的干物质比例真实值进行关联,建立日粮组成的校正模型。
2.根据权利要求1所述的构建方法,其中提取混合样本DNA包括液氮研磨步骤。
3.根据权利要求1所述的构建方法,其中步骤(1)中ITS2条形码PCR扩增时所用引物为rD5-ITS2:TCCTCCGCTTATTGATATGC以及rb1-ITS2f:CGATACTTGGTGTGAATTGCAG。
4.根据权利要求1所述的构建方法,其中步骤(2)中的质控处理包括(i)过滤read尾部质量值20以下的碱基,以50bp为一个滑动窗口,若窗口内序列的平均质量值低于20,从窗口开始截去后端碱基;过滤质控后读长小于50bp的reads;(ii)根据PEreads之间的重叠关系,将成对reads拼接成一条序列,相互拼接上的序列之间,重叠区最小重叠长度为10bp,拼接序列的重叠区允许的最大错配比率为0.2,筛选不符合序列;(iii)根据序列首尾两端的barcode和引物区分样品,并调整序列方向,barcode允许的错配数为0,最大引物错配数为2,去掉无法拼接的序列,最后去除barcode标签及引物序列。
5.根据权利要求1所述的构建方法,其中步骤(2)中的OTU聚类使用Usearch version7.1软件,按照97%相似性进行,在聚类过程中使用UCHIME软件识别并去除嵌合体序列。
6.根据权利要求1所述的构建方法,其中还包括回归校正步骤。
8.根据权利要求1-7任一项所述的方法在家畜采食组成测定中的应用。
9.根据权利要求8所述的应用,其中所述家畜为绵羊。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011595272.2A CN112599200A (zh) | 2020-12-29 | 2020-12-29 | 一种基于宏条形码的家畜采食组成校正模型的构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011595272.2A CN112599200A (zh) | 2020-12-29 | 2020-12-29 | 一种基于宏条形码的家畜采食组成校正模型的构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112599200A true CN112599200A (zh) | 2021-04-02 |
Family
ID=75203567
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011595272.2A Pending CN112599200A (zh) | 2020-12-29 | 2020-12-29 | 一种基于宏条形码的家畜采食组成校正模型的构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112599200A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113343736A (zh) * | 2021-06-21 | 2021-09-03 | 天津大学合肥创新发展研究院 | 一种dna测序用条形码识别算法的硬件加速装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102517392A (zh) * | 2011-12-26 | 2012-06-27 | 深圳华大基因研究院 | 基于宏基因组16s高可变区v3的分类方法和装置 |
CN105567843A (zh) * | 2016-02-04 | 2016-05-11 | 浙江大学 | 用于稻田广食性捕食天敌猎物多样性高通量测序的复合标签及其应用 |
CN106381337A (zh) * | 2016-10-27 | 2017-02-08 | 中国林业科学研究院林业新技术研究所 | 一种通过粪便dna分析大鸨食源植物的方法 |
CN107404901A (zh) * | 2015-03-16 | 2017-11-28 | 洛桑联邦理工学院 | 生物活性动物饲料中的古细菌,制造组合物的方法和使用该组合物的方法 |
CN109711674A (zh) * | 2018-12-03 | 2019-05-03 | 北京师范大学 | 一种用于湖库水体污染溯源的指纹图谱库构建方法及装置 |
CN109943645A (zh) * | 2019-04-26 | 2019-06-28 | 南京易基诺环保科技有限公司 | 一种淡水鱼类线粒体12s通用宏条形码扩增引物及其应用方法 |
CN111172258A (zh) * | 2020-02-24 | 2020-05-19 | 国家海洋环境监测中心 | 基于宏条形码技术的海洋浮游动物多样性的评价方法 |
CN111304336A (zh) * | 2020-02-24 | 2020-06-19 | 国家海洋环境监测中心 | 一种海洋浮游动物通用宏条形码扩增引物 |
-
2020
- 2020-12-29 CN CN202011595272.2A patent/CN112599200A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102517392A (zh) * | 2011-12-26 | 2012-06-27 | 深圳华大基因研究院 | 基于宏基因组16s高可变区v3的分类方法和装置 |
CN107404901A (zh) * | 2015-03-16 | 2017-11-28 | 洛桑联邦理工学院 | 生物活性动物饲料中的古细菌,制造组合物的方法和使用该组合物的方法 |
CN105567843A (zh) * | 2016-02-04 | 2016-05-11 | 浙江大学 | 用于稻田广食性捕食天敌猎物多样性高通量测序的复合标签及其应用 |
CN106381337A (zh) * | 2016-10-27 | 2017-02-08 | 中国林业科学研究院林业新技术研究所 | 一种通过粪便dna分析大鸨食源植物的方法 |
CN109711674A (zh) * | 2018-12-03 | 2019-05-03 | 北京师范大学 | 一种用于湖库水体污染溯源的指纹图谱库构建方法及装置 |
CN109943645A (zh) * | 2019-04-26 | 2019-06-28 | 南京易基诺环保科技有限公司 | 一种淡水鱼类线粒体12s通用宏条形码扩增引物及其应用方法 |
CN111172258A (zh) * | 2020-02-24 | 2020-05-19 | 国家海洋环境监测中心 | 基于宏条形码技术的海洋浮游动物多样性的评价方法 |
CN111304336A (zh) * | 2020-02-24 | 2020-06-19 | 国家海洋环境监测中心 | 一种海洋浮游动物通用宏条形码扩增引物 |
Non-Patent Citations (1)
Title |
---|
YANPING GUO ET AL.: "herbivore diet analysis based on illumine miseq sequencing: the potential use of an ITS2-Barcoding approach to establish qualitative and quantitative predictions of diet composition of Mongolian sheep", 《JOURNAL OF AGRICULTURAL AND FOOD CHEMISTRY》, 31 December 2018 (2018-12-31), pages 9858 - 9867 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113343736A (zh) * | 2021-06-21 | 2021-09-03 | 天津大学合肥创新发展研究院 | 一种dna测序用条形码识别算法的硬件加速装置 |
CN113343736B (zh) * | 2021-06-21 | 2023-07-25 | 天津大学合肥创新发展研究院 | 一种dna测序用条形码识别算法的硬件加速装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107794304B (zh) | 用于牦牛个体识别和亲子鉴定的基因分型检测试剂盒 | |
CN107760789B (zh) | 一种用于牦牛亲子鉴定和个体识别的基因分型检测试剂盒 | |
KR102062452B1 (ko) | 터봇 친자 식별용 유전자 마커 및 이를 이용한 친자 확인방법 | |
CN105648046B (zh) | 一次性鉴别绵羊、山羊、水貂、海狸鼠和鸭肉的方法 | |
CN115198023B (zh) | 一种海南黄牛液相育种芯片及其应用 | |
KR20190135789A (ko) | 넙치 친자 식별용 유전자 마커 및 이를 이용한 친자 확인방법 | |
CN112599200A (zh) | 一种基于宏条形码的家畜采食组成校正模型的构建方法 | |
CN113430279A (zh) | 用于肉制品中动物种源成分筛查的dna宏条形码检测靶标序列、检测试剂盒及检测方法 | |
KR102147142B1 (ko) | 염소 개체 식별용 멀티플렉스용 프라이머 세트 및 이의 용도 | |
CN113293216A (zh) | 一种基于高通量测序的鲑科鱼制品中动物源成分鉴别方法 | |
CN116072229B (zh) | 一种用于油橄榄品种鉴定的种质资源数据库及其构建方法和应用 | |
US20110295632A1 (en) | Systems And Methods For Predicting a Livestock Marketing Method | |
CN107868830B (zh) | 一套用于犬类品系鉴定的snp位点 | |
Bhuyan et al. | Studies on DNA fingerprinting in Murrah buffaloes using microsatellite markers | |
CN109182505A (zh) | 奶牛乳腺炎关键SNPs位点rs75762330及2b-RAD基因分型和分析方法 | |
KR20120050840A (ko) | 고 올레인산 땅콩 판별용 분자 마커 개발 | |
CN117230214B (zh) | 一种鉴别食品中动物源性成分的长片段通用引物组合物、检测试剂盒及鉴别方法 | |
KR101307008B1 (ko) | 한우 근내지방도 연관 분자표지를 이용한 고급육 생산 한우 진단 방법 | |
CN111518918B (zh) | 一种筛选不同乳铁蛋白含量奶牛的方法及其使用的试剂盒 | |
CN109182504A (zh) | 奶牛乳腺炎关键SNPs位点rs20438858及2b-RAD基因分型和分析方法 | |
WO2022168195A1 (ja) | 遺伝情報解析システム、及び遺伝情報解析方法 | |
US20220220567A1 (en) | Method for identifying racehorse using microsatellite marker | |
Mishra et al. | Chapter-7 Improvement of Molecular Markers in Animal Science | |
KR101629247B1 (ko) | Ngs를 이용한 한우 특이적 snp 조성물 및 이를 이용한 한우판별방법 | |
KR101754502B1 (ko) | 마이크로새틀라이트 마커를 활용한 돼지의 개체식별 및 친자감별방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |