CN111370058B - 一种基于全基因组snp信息追溯水牛血统来源以及进行基因组选配的方法 - Google Patents

一种基于全基因组snp信息追溯水牛血统来源以及进行基因组选配的方法 Download PDF

Info

Publication number
CN111370058B
CN111370058B CN202010198365.5A CN202010198365A CN111370058B CN 111370058 B CN111370058 B CN 111370058B CN 202010198365 A CN202010198365 A CN 202010198365A CN 111370058 B CN111370058 B CN 111370058B
Authority
CN
China
Prior art keywords
buffalo
snp
genome
type
river
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010198365.5A
Other languages
English (en)
Other versions
CN111370058A (zh
Inventor
刘庆友
罗西尔
阮珏
石德顺
周宇
崔奎青
李志鹏
李辉
冯彤
王晓波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Foshan University
Original Assignee
Foshan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Foshan University filed Critical Foshan University
Priority to CN202010198365.5A priority Critical patent/CN111370058B/zh
Publication of CN111370058A publication Critical patent/CN111370058A/zh
Application granted granted Critical
Publication of CN111370058B publication Critical patent/CN111370058B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6888Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • G16B5/20Probabilistic models
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Organic Chemistry (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Genetics & Genomics (AREA)
  • Wood Science & Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Zoology (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Biochemistry (AREA)
  • Probability & Statistics with Applications (AREA)
  • Physiology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供一种基于全基因组SNP信息追溯水牛血统来源以及基因组选配的方法,包括以下步骤:从待血统测验的水牛个体中提取DNA并测序,通过从数据库中下载世界主要水牛品种的二代测序数据,得到基因组SNP的基因型信息;将基因组SNP位点进行质控筛选,选取SNP位点;将获得的SNP信息合并,将SNP数据转换为PLINK的ped格式,进行STUCTURE分析,预设不同K值,推测亚群类型;计算待测水牛之间的近交系数,为后续基因组选配提供基础。本发明能够对血统进行更准确地追溯;新的追溯方法按比例显示各种组成成分,可依此对水牛选配,提升后代生产性能;通过计算个体之间亲缘关系,降低近亲配种概率。

Description

一种基于全基因组SNP信息追溯水牛血统来源以及进行基因 组选配的方法
技术领域
本发明属于动物育种技术领域,具体涉及一种基于全基因组SNP信息追溯水牛血统来源并依据血统进行基因组选配的方法。
背景技术
家养化的水牛分为两种主要类型——沼泽型水牛和河流型水牛,我国的水牛全部是沼泽型水牛,长期的役用选择使其生产性状低下,河流型水牛广泛分布在南亚、中亚和欧洲等地,有许多优良奶肉用品种。所以当前水牛育种就是用国外优良河流型水牛与本地水牛杂交进行育种,然而杂交工作并不是只用进行一代杂交就可以完成得到,为保证有足够多血统,本地水牛要与国外纯种水牛进行多代多品种反复杂交,这就需要养殖场或者农户对水牛进行精确的血统记录,并在下一代杂交育种选种时选择对应杂交品种。因此,准确的系谱记录是保证杂交育种选配的必要前提。
在进行水牛杂交选择时,会将沼泽型水牛结合南亚的摩拉水牛、尼里拉菲和意大利的地中海水牛进行三元-四元杂交育种,这么做可以最大程度的保证优良性状的继承,同时水牛的世代间隔有6年,时间远远高于猪和羊等其他家养动物,一次失误的育种会导致这头水牛的育种周期以年为单位延迟。另一方面水牛育种中往往伴有公牛效应,一头优秀的公牛会通过人工授精的方法与成百上千的母牛配种,如果忽视了亲本之间的遗传关系,会造成培育的后代有害基因纯合累积以及稀有基因的丢失,这反而会造成近交衰退,不利于育种进程。所以在进行杂交育种时需要多方面考虑:目标水牛的血统来源、水牛之间的遗传关系以及当前育种进程。然而在实际育种生产中,只有制度健全的水牛场以及育种基地才会对系谱调查予以重视,一般农户和地方水牛场常常缺乏系谱记录,无法为本地水牛或者一代杂交的水牛提供有效的选配和育种指导,常常造成近亲交配,影响后代水牛的优良性状发挥。
发明内容
为了解决现有技术中划分方法不可靠,缺失系谱信息以及缺乏细化水牛之间遗传关系等问题,本发明提供了一种基于全基因组SNP信息追溯水牛血统来源并依此进行基因组选配方法。本发明通过挖掘水牛个体以及已有不同品种水牛SNP基因型,通过基因组数据计算遗传结构,确定水牛个体之间的亲缘关系,确定血统来源与比例,计算出每头水牛的中国东南亚沼泽型水牛、印度尼西亚沼泽型水牛、意大利地中海河流型水牛、中亚河流型水牛和南亚河流型水牛的血统比例,从而能够解决实际生产中因谱系缺乏而造成的育种限制,特别是品种改良中杂交水牛后代的血统成分分析,有助于优化水牛遗传改良的育种方案,提高水牛生长速度、产奶和产肉能力。
伴随全基因组测序、生物信息等技术的发展,单核苷酸多态性(SNP)、插入/缺失(InDel)等遗传标记被发现并大量应用,人类遗传学对人群SNP标记的研究解决了人类起源和进化等问题,揭示出人群之间的遗传差异和群体遗传结构,说明其应用的可靠性。在农业育种中,分子标记辅助育种同样有着广泛运用,运用全基因组测序技术可以获得生物体内全部遗传信息,根据群体遗传学的理论,这些遗传信息进行基因分型所获得的SNP位点在一个群体内是符合哈代-温伯格平衡,那么这个亚群内的基因频率分布应该可通过哈温平衡检验。当预设亚群数目后,用贝叶斯模型的隐马科夫-蒙特卡罗链来对样本进行随机分组反复迭代找到亚群分类的最佳解。进行水牛血统追溯的同时,方法还会计算测序水牛之间的亲缘关系,不同于传统系谱信息得到的A矩阵,运用全基因组标记信息得到现实关系矩阵G矩阵。本申请人认为运用这一方法找到的对应个体遗传结构和遗传关系矩阵可以在水牛育种中弥补与替代传统基于系谱对水牛血统的追溯方法。
本发明可以不依赖系谱,只通过水牛的SNP基因型对水牛个体进行亚群推断并计算出对应成分比例,预设不同K值就可以进一步细化亚群类型以满足育种需要。
本发明的目的是提供一种基于全基因组SNP信息追溯水牛血统来源以及基因组选配的方法,包括以下步骤:
S1:从待血统测验的水牛个体中提取DNA并测序,以及从数据库中下载世界主要水牛品种的二代测序数据(BIG sub:CRA001463),得到基因组SNP的基因型信息;
S2:SNP质量控制:将S1中得到的基因组SNP位点进行质控筛选,选取SNP位点;
S3:将S2中选取的待测水牛SNP信息与S2中选取的世界主要品种水牛的SNP信息合并,将SNP数据转换为PLINK的ped格式,并用ADMIXTURE进行STUCTURE分析,预设不同K值,推测亚群类型;
S4:计算待测水牛之间的近交系数,为后续基因组选配提供基础:将S2中选取的待测水牛SNP信息转换为0,1,2三种分型格式的数据,用PLINK软件进行IBS分析,用“--distance square ibs allele-ct”参数选择算法计算。
应该理解,本发明不限于上述步骤,还可以包含其他的步骤,例如在步骤S1之前、步骤S1和S2之间、步骤S2和S3之间、步骤S3和S4之间、S4之后,还包含其他额外的步骤,而不超出本发明的保护范围。
作为优选,S3中,通过基于贝叶斯方法的祖先成分分析和SNP信息进行STRUCTURE分析。
可以看出,本发明的方法不仅适用于水牛,也适用于所有的为二倍体的物种并且只用双等位基因型分析。
作为优选,S3分析的结果中,当K=2时,初步推断杂交水牛的代数,当成分比例为40~60%时为沼泽型和河流型的杂交一代,当成分比例为70~80%为沼泽型和河流型的杂交二代,当比例小于5%时为沼泽型或河流型纯种水牛。
作为优选,S3分析的结果中,当K≥4时,较K=2多出来的成分作为意大利地中海河流型水牛以及印度尼西亚沼泽型水牛的推测依据。
作为优选,S3分析的结果中,当K≥6时,较K=4多出来的成分作为中亚河流型水牛和印度尼西亚群岛内部沼泽型水牛亚群的推测依据。
作为优选,S4分析的结果中,生成样品之间N×N的关系矩阵,值的范围0-1,值越接近1说明两者的亲缘关系越近,在后续育种中可以根据候选双方的遗传系数来进行科学选择。
作为优选,S1中,运用Illumina HiSeq高通量测序平台或者水牛SNP芯片进行测序。
基因组SNP分型获得方式不限于全基因组Illumina二代测序,现有技术中的方法都可以使用,比如外显子测序、SNP芯片测序和简化基因组测序的结果通过转化都可以作为研究对象。
作为优选,S2中,所述筛选SNP位点满足以下要求:1)只选择有两种等位基因的SNP位点;2)群体最小等位基因频率MAF≥0.025;3)单个位点在群体中缺失率低于20%。
选择上述筛选标准的理由为:在鉴定SNP时因为测序错误会有假阳性,所以用以上条件来既保证有足够多的低频SNP,又保证SNP集的准确性。
作为优选,S2中,将S1中获得的原始数据通过Fastqc和Trimmomatic软件进行质控,处理过的片段通过BWA软件比对到沼泽型水牛和河流型水牛参考基因组上,在进行碱基质量校正后,通过Samtools软件进行SNP分型。
本发明的又一目的是提供上述方法在水牛基因组选配和育种中的应用。
在符合本领域常识的基础上,上述各优选条件,可任意组合,而不超出本发明的构思与保护范围。
本发明的有益效果为:基于基因组SNP信息追溯水牛血统以及亲缘关系的方法,充分包含了之前对水牛群体研究遗传信息,相比于单纯依赖系谱记录的方法,本发明可以计算出血统的比例以及来源,从而能够对血统进行更准确地追溯;新的追溯方法按比例显示各种组成成分,育种人员可依此对水牛选配,提升后代生产性能;此外,计算个体之间亲缘关系,降低近亲配种概率,为后续个体基因组选配提供科学依据。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中基于基因组SNP数据进行追溯血统的流程图。
图2为各品种水牛以及测试水牛的遗传结构。
图3为测试水牛家系图谱。
具体实施方式
以下的实施例便于更好地理解本发明,但并不限定本发明。下述实施例中的实验方法,如无特殊说明,均为常规方法。下述实施例中所用的试验材料,如无特殊说明,均为市售。
本发明的一种基于全基因组SNP信息追溯水牛血统来源以及基因组选配的方法步骤如下:
本发明流程图见图1。
图1为本发明基于基因组SNP数据进行追溯血统的流程图。
(1)将待测水牛提取血液样本DNA,并在IlluminaHiSeq高通量测序平台上进行测序;从BIG Sub数据库中下载世界主要水牛品种的二代测序数据(BIG Sub:CRA001463),得到基因组SNP的基因型信息。
(2)SNP质量控制:将步骤(1)获得的原始数据通过Fastqc和Trimmomatic软件进行质控,处理过的片段通过BWA软件比对到沼泽型水牛和河流型水牛参考基因组上(GWHAAJZ00000000和GWHAAKA00000000),在进行碱基质量校正后,通过Samtools软件进行SNP分型。
其中,对获得的SNP进行质控,选留的标准为:只选择包含有二等位基因的SNP位点,最小等位基因频率MAF≥0.025和位点缺失率低于20%的SNP位点。
(3)将待测水牛SNP信息与世界各品种水牛的SNP信息合并,将SNP数据转换为PLINK的ped格式,并用ADMIXTURE进行STUCTURE分析,预设亚群数目(K值)为2-8,参照世界各品种水牛的分析结果,对每个待测水牛的SNP进行贝叶斯推断亚群,最后计算每个待测水牛全部SNP不同成分的比例,根据遗传学知识来推断血统来源。
当K为2时,参照世界各品种水牛的分析结果,分别计算此时待测水牛中各自地域水牛成分和比例,推断血统来源:推断出待测水牛祖先来源有2种,标记为①和②,①为沼泽水牛的血缘来源,②为河流型水牛的血缘来源(图二),两者成分比例为40~60%时为杂交一代,当成分比例为70~80%为杂交二代,当比例小于5%时为纯种水牛。
当K为4时,参照世界各品种水牛的分析结果,分别计算此时待测水牛中各自地域水牛成分和比例,推断血统来源:推断待测水牛祖先来源有4种,标记为①、②、③和④,①为部分中国以及东南亚的沼泽型水牛血缘来源,②为中亚南亚河流型水牛的血缘来源,③为部分东南亚和印度尼西亚的沼泽型水牛的血缘来源,④意大利地中海水牛血缘来源(图二),推断沼泽型水牛亚群来源时,当③成分超过80%时可以推测为印度尼西亚水牛,否则为中国或者东南亚水牛;推断河流型水牛亚群来源时,当④成分超过80%时可以推测为意大利地中海水牛,否则为南亚或者中亚河流型水牛。
当K为6时,参照世界各品种水牛的分析结果,分别计算此时待测水牛中各自地域水牛成分和比例,推断血统来源:推断待测水牛祖先来源有6种,标记为①、②、③、④、⑤和⑥,①为部分中国以及东南亚的沼泽型水牛血缘来源,②为中亚南亚河流型水牛的血缘来源,③为部分东南亚和印度尼西亚的沼泽型水牛的血缘来源,④意大利地中海水牛血缘来源,⑤为部分地区印度尼西亚沼泽型水牛的血缘来源,⑥为部分南亚河流型水牛血缘来源(图二),推断沼泽型水牛亚群来源时,当⑤成分超过80%时可以推测为印度尼西亚地方沼泽型水牛;推断河流型水牛时,当②成分超过80%时可以推测为中亚河流型水牛,否则为南亚河流型水牛。
当K为8时,参照世界各品种水牛的分析结果,分别计算此时待测水牛中各自地域水牛成分和比例,推断待测水牛祖先来源有8种,标记为①、②、③、④、⑤、⑥、⑦和⑧,①-⑥的推测依据与K=6时一致,⑦和⑧可以推断中国地方水牛的血缘来源,作为补充依据,推测水牛来源时以K=2-6时为准。
图2为各品种水牛以及测试水牛的遗传结构;序号表明在当前K值下当前地域中祖先成分的不同来源。
(4)将步骤(2)选取的待测水牛SNP信息转换为0,1,2三种分型格式的数据,用PLINK软件进行IBS分析,用“--distance square ibs allele-ct”参数选择算法计算。结果生成样品之间N×N的关系矩阵,值的范围0-1,值越接近1说明两者的亲缘关系越近,在后续育种中可以根据候选双方的遗传系数来进行基因组选配。
实施例1基于基因组SNP数据的血统追溯分析和基因组选配
实验材料:4头测试杂交水牛的血液样本。所有水牛均已通过Illumina二代数据测序技术进行基因组SNP基因型挖掘。
具体步骤如下:
(1)所有水牛通过提取血液样本DNA,并在IlluminaHiSeq高通量测序平台上进行测序;从BIG Sub数据库中下载世界主要水牛品种的二代测序数据(BIG Sub:CRA001463),得到基因组SNP的基因型信息。
(2)SNP质量控制:将步骤(1)获得的原始数据通过Fastqc和Trimmomatic软件进行质控,处理过的片段通过BWA软件比对到沼泽型水牛和河流型水牛参考基因组上(GWHAAJZ00000000和GWHAAKA00000000),在进行碱基质量校正后,通过Samtools软件进行SNP分型。
其中,对获得的SNP进行质控,选留的标准为:只选择包含有二等位基因的SNP位点,最小等位基因频率MAF≥0.025和位点缺失率低于20%的SNP位点。
(3)将待测水牛SNP信息与世界各品种水牛的SNP信息合并,将SNP数据转换为PLINK的ped格式,并用ADMIXTURE进行STUCTURE分析。
(4)将步骤(2)选取的待测水牛SNP信息转换为0,1,2三种分型格式的数据,用PLINK软件进行IBS分析,用“--distance square ibs allele-ct”参数选择算法计算。结果生成样品之间N×N的关系矩阵,值的范围0-1,值越接近1说明两者的亲缘关系越近,在后续育种中可以根据候选双方的遗传系数来进行基因组选配(见表1,表1为IBS分析得到的亲缘关系矩阵)。
Figure BDA0002418439450000081
实施例2新的血统追溯方法与系谱结果比较
实验材料:测试杂交水牛的图谱
基于贝叶斯方法的祖先成分分析和实施例1收集的水牛SNP信息,用ADMIXTURE对水牛群体进行遗传结构分析,预设亚群数目(K值)为2-8,对每个个体的SNP进行贝叶斯推断亚群,最后计算每个个体全部SNP不同成分的比例。
当亚群数目(K值)为2时,此时的结构为沼泽型水牛和河流型水牛的成分,ADMIXTURE会将计算所有个体这两部分的成分比例,根据杂交水牛体内两部分的比例初步推断杂交代数,成分比例为40~60%时为杂交一代,当成分比例为70~80%为杂交二代,当比例小于5%时为纯种水牛。当亚群数目(K值)为4时,此时的结构为印度尼西亚沼泽型水牛、中国及东南亚沼泽型水牛、南亚及中亚河流型水牛和欧洲地中海水牛,当亚群数目(K值)为6时,此时的结构比亚群数目为4时多出南亚河流型水牛与中亚河流型水牛分歧以及印度尼西亚沼泽型水牛内部分歧,分别计算此时杂交水牛中各自地域水牛成分和比例,推断血统来源。
表1测试水牛遗传结构详细信息以及推测血统来源
Figure BDA0002418439450000091
图3为测试水牛家系图谱。
图3是4个样品的系谱图,根据记录信息发现本申请方法推测的结果与系谱结果一致。虽然用遗传结构的方法无法细化区分到南亚水牛地方品种——摩拉水牛和尼里-拉菲水牛,但是可以区分南亚、中亚以及欧洲的河流型水牛以及中国和印度尼西亚的沼泽型水牛。本申请方法在能保证准确性同时,还可以提供更多遗传信息,便于为育种人员在实际应用中提供参考。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种基于全基因组SNP信息追溯水牛血统来源以及基因组选配的方法,其特征在于:包括以下步骤:
S1:从待血统测验的水牛个体中提取DNA并测序,以及从数据库中下载世界主要水牛品种的二代测序数据,得到基因组SNP的基因型信息;
S2:SNP质量控制:将S1中获得的原始数据通过Fastqc和Trimmomatic软件进行质控,处理过的片段通过BWA软件比对到沼泽型水牛和河流型水牛参考基因组上,在进行碱基质量校正后,通过Samtools软件进行SNP分型,对获得的SNP进行质控,选留的标准为:1)只选择有两种等位基因的SNP位点;2)群体最小等位基因频率MAF≥0.025;3)单个位点在群体中缺失率低于20%;
S3:将S2中选取的待测水牛SNP信息与S2中选取的世界主要品种水牛的SNP数据集合进行合并,将SNP数据转换为PLINK的ped格式,并基于贝叶斯方法的祖先成分分析和SNP信息用ADMIXTURE进行STUCTURE分析,预设不同K值,推测亚群类型;分析的结果为:
当K=2时,初步推断杂交水牛的代数,当成分比例为40~60%时为沼泽型和河流型的杂交一代,当成分比例为70~80%为沼泽型和河流型的杂交二代,当比例小于5%时为沼泽型或河流型纯种水牛;
当K≥4时,较K=2多出来的成分作为意大利地中海河流型水牛以及印度尼西亚沼泽型水牛的推测依据;
当K≥6时,较K=4多出来的成分作为中亚河流型水牛和印度尼西亚群岛内部沼泽型水牛亚群的推测依据;
S4:计算待测水牛之间的近交系数,为后续基因组选配提供基础:将S2中选取的待测水牛SNP信息转换为0,1,2三种分型格式的数据,用PLINK软件进行IBS分析,用“--distancesquare ibs allele-ct”参数选择算法计算,生成样品之间N×N的关系矩阵,值的范围0-1,值越接近1说明两者的亲缘关系越近。
2.根据权利要求1所述的方法,其特征在于:S1中,运用Illumina HiSeq高通量测序平台或者水牛SNP芯片进行测序。
3.权利要求1或2所述的方法在水牛基因组选配和育种中的应用。
CN202010198365.5A 2020-03-19 2020-03-19 一种基于全基因组snp信息追溯水牛血统来源以及进行基因组选配的方法 Active CN111370058B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010198365.5A CN111370058B (zh) 2020-03-19 2020-03-19 一种基于全基因组snp信息追溯水牛血统来源以及进行基因组选配的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010198365.5A CN111370058B (zh) 2020-03-19 2020-03-19 一种基于全基因组snp信息追溯水牛血统来源以及进行基因组选配的方法

Publications (2)

Publication Number Publication Date
CN111370058A CN111370058A (zh) 2020-07-03
CN111370058B true CN111370058B (zh) 2022-12-06

Family

ID=71209085

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010198365.5A Active CN111370058B (zh) 2020-03-19 2020-03-19 一种基于全基因组snp信息追溯水牛血统来源以及进行基因组选配的方法

Country Status (1)

Country Link
CN (1) CN111370058B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113344593B (zh) * 2021-05-31 2022-04-26 优合集团有限公司 一种基于dna检测技术的肉制品溯源管理系统
CN117426323B (zh) * 2023-12-21 2024-03-01 四川省畜牧科学研究院 一种有效降低近交系数的牛群监管系统和方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106967722A (zh) * 2017-02-23 2017-07-21 广西壮族自治区水牛研究所 与水牛泌乳相关基因srebp1及其作为分子标记的应用

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117887804A (zh) * 2017-02-02 2024-04-16 纽约基因组研究中心公司 用于识别或量化在生物样品中的靶标的方法和组合物
CN109346124A (zh) * 2018-10-10 2019-02-15 深圳韦格纳医学检验实验室 基于snp分型的遗传定位方法
CN110176274B (zh) * 2019-05-09 2023-03-10 温氏食品集团股份有限公司 一种基于全基因组snp信息划分种猪血统的方法
CN110289048B (zh) * 2019-07-05 2023-03-24 广西壮族自治区水牛研究所 与水牛产奶性状相关的qtl及其筛选方法和应用

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106967722A (zh) * 2017-02-23 2017-07-21 广西壮族自治区水牛研究所 与水牛泌乳相关基因srebp1及其作为分子标记的应用

Also Published As

Publication number Publication date
CN111370058A (zh) 2020-07-03

Similar Documents

Publication Publication Date Title
CM Dekkers Application of genomics tools to animal breeding
CN107967409B (zh) 一种猪全基因组低密度snp芯片及其制作方法和应用
Van Eenennaam et al. DNA-based paternity analysis and genetic evaluation in a large, commercial cattle ranch setting
CN110218799B (zh) 猪剩余采食量性状的分子遗传标记及应用
Li et al. A whole genome association study to detect additive and dominant single nucleotide polymorphisms for growth and carcass traits in Korean native cattle, Hanwoo
CN110358840B (zh) 与剩余采食量相关的tpp2基因的snp分子遗传标记
JP2010538643A (ja) 遺伝マーカー及び関連するエピスタシス交互作用の使用方法
CN114292928B (zh) 一种与母猪繁殖性状有关的分子标记及筛选方法和应用
CN111370058B (zh) 一种基于全基因组snp信息追溯水牛血统来源以及进行基因组选配的方法
JP2020074781A (ja) 乳生産量を改善するための雌牛の育種方法
CN114941033A (zh) 一种基于snp位点辅助培育地方优质白羽鸡高产蛋品系的方法
CN111199773B (zh) 一种精细定位性状关联基因组纯合片段的评估方法
CN110144414B (zh) 与公猪精子畸形率相关的分子遗传标记及其应用和获取方法
CN115261486A (zh) 一种华西牛全基因组选择育种芯片及其应用
CN114134233B (zh) 一种与猪达100kg日龄和眼肌面积相关的SNP
CN110195116B (zh) 一种与公猪精子活力相关的分子遗传标记及其应用和获取方法
Dimitrijević et al. Genetic Characterization of the Yugoslavian Shepherd Dog–Sharplanina, a Livestock Guard Dog from the Western Balkans
CN114736975B (zh) 与母猪产仔数性状相关的snp分子标记及其应用
CN110396547A (zh) 用于鲁西牛谱系建立的snp分子标记组合
CN110195115B (zh) 与公猪精子直线运动相关的分子遗传标记及其应用和获取方法
Wilkinson Genetic diversity and structure of livestock breeds
Pierce Identifying single nucleotide polymorphisms associated with beef cattle terrain-use in the western United States
O'Connell et al. Selection of sequence variants to improve genomic predictions
Soattin The use of molecular markers for analyzing genes and genomes of livestock
Ozaki et al. Paradigm Shift in Fish Breeding: Marker-Assisted Selection to Genomic Selection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20221122

Address after: 528000 No. 18, No. 1, Jiangwan, Guangdong, Foshan

Applicant after: FOSHAN University

Address before: 530003 100 East University Road, XiXiangTang District, Nanning, the Guangxi Zhuang Autonomous Region

Applicant before: GUANGXI University

GR01 Patent grant
GR01 Patent grant