CN116580766A - 一种基于多亲本的遗传图谱标记开发方法与装置及计算机可读存储介质 - Google Patents
一种基于多亲本的遗传图谱标记开发方法与装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN116580766A CN116580766A CN202310006009.2A CN202310006009A CN116580766A CN 116580766 A CN116580766 A CN 116580766A CN 202310006009 A CN202310006009 A CN 202310006009A CN 116580766 A CN116580766 A CN 116580766A
- Authority
- CN
- China
- Prior art keywords
- genotype
- genetic
- population
- parent
- file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002068 genetic effect Effects 0.000 title claims abstract description 249
- 238000000034 method Methods 0.000 title claims abstract description 45
- 239000003550 marker Substances 0.000 title claims abstract description 33
- 238000011161 development Methods 0.000 title claims abstract description 15
- 238000013507 mapping Methods 0.000 claims abstract description 38
- 238000004458 analytical method Methods 0.000 claims abstract description 25
- 230000035772 mutation Effects 0.000 claims abstract description 21
- 239000002773 nucleotide Substances 0.000 claims description 71
- 125000003729 nucleotide group Chemical group 0.000 claims description 71
- 230000008774 maternal effect Effects 0.000 claims description 23
- 230000008775 paternal effect Effects 0.000 claims description 21
- 238000012360 testing method Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 3
- 230000007547 defect Effects 0.000 abstract description 2
- 210000000349 chromosome Anatomy 0.000 description 17
- 238000009396 hybridization Methods 0.000 description 10
- 238000002474 experimental method Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 229920000742 Cotton Polymers 0.000 description 3
- 230000006798 recombination Effects 0.000 description 3
- 238000012163 sequencing technique Methods 0.000 description 3
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- 108091092878 Microsatellite Proteins 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000009395 breeding Methods 0.000 description 1
- 230000001488 breeding effect Effects 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000021121 meiosis Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012070 whole genome sequencing analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Bioethics (AREA)
- Data Mining & Analysis (AREA)
- Chemical & Material Sciences (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Artificial Intelligence (AREA)
- Analytical Chemistry (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种基于多亲本的遗传图谱标记开发方法与装置及计算机可读存储介质。所述方法用于对具有未知亲本的遗传群体进行遗传群体作图。所述方法包括:获取遗传群体的基因型文件中所述遗传群体的推测母本与崔策父本的样本基因型集合;分别统计所述推测母本与推测父本样本集合的基因型信息;按照所述推测母本与推测父本的基因型组合,将变异位点进行分类;依据所述遗传群体的群体类型选择相应类型的标记,在joinmap软件中进行连锁分析,去除重复的位点得到所述遗传群体的遗传图谱标记。本发明中所提供的方法可以对多亲本测序的遗传群体进行遗传群体作图,弥补了目前遗传图谱仅能按照单个母本与父本进行标记开发的缺陷,适用性更广。
Description
技术领域
本发明涉及生物信息学领域,特别涉及一种基于多亲本的遗传图谱标记开发方法与装置及计算机可读存储介质。
背景技术
遗传图谱又称为遗传连锁图谱,是一种保存遗传标记在基因组上的相对遗传位置的图谱,构建遗传图谱的理论依据是减数分裂时的重组交换。从早期的一代测序微卫星等标记到现在的高通量二代测序多态性分子标记,遗传图谱的遗传标记检测更加精确,数量更多,对基因组的覆盖度更高,能反应大多数杂交实验中的遗传重组信息,如今遗传图谱已广泛用于数量性状定位,基因组辅助组装,物种进化研究。尤其在动植物基因组研究中,遗传图谱起到至关重要的作用。
研究物种本身特性,杂交实验处理方法,杂交实验规范性与策略性等因素,直接影响双亲间基因型多态性与子代群体的遗传重组信息。传统的育种实验中,有些群体不是用单株的母本与父本进行杂交,或者随着杂交实验的周期过长,最原始的母本与父本样本已经受到损坏,仅有同种或同代的其他个体样本,基于这种情况,遗传群体的遗传图谱构建难度非常大,主要原因是双亲的不确定性导致的基因型差异,后续利用双亲做标记开发难度大。
发明内容
本发明所要解决的技术问题是如何对多亲本遗传群体或未知亲本遗传群体开发遗传图谱标记。
为了解决上述技术问题,本发明首先提供了开发遗传图谱标记的方法。所述方法用于对具有未知亲本的遗传群体进行遗传群体作图。
所述方法可包括如下步骤:从所述遗传群体的包含变异核苷酸位点的基因型文件中,获取所述遗传群体的推测母本样本与推测父本样本的基因型集合;统计所述基因型集合的基因型信息,得到所述遗传群体的亲本基因型统计文件;根据所述亲本基因型统计文件,结合所述遗传群体的类型,确定所述遗传群体的亲本的基因型组合类型,得到所述遗传群体的父本和母本的基因型;整合所述基因型文件中的所述遗传群体的变异核苷酸位点、所述遗传群体的父本和母本基因型以及所述遗传群体的子代基因型信息得到所述遗传群体的遗传图谱作图标记文件;对所述遗传图谱作图标记文件中的遗传图谱作图标记进行连锁分析,得到所述遗传群体的遗传图谱标记。
上文所述方法中,所述基因型文件可来源于数据库下载,也可通过测序获得。上文所述方法中,所述遗传群体的推测母本样本与推测父本样本可为根据所述基因型文件并结合所述遗传群体的样本推测得到。
上文所述方法中,所述统计基因型集合的基因型信息,具体可包括统计所述遗传群体的推测母本样本的基因型类别和属于所述基因型类别的所述推测母本样本的数量,以及统计所述遗传群体的推测父本样本的基因型类别和属于所述基因型类别的所述推测父本样本的数量的过程。
上文所述方法中,所述遗传群体的亲本的基因型组合类型可包括:nnxnp,abxcc,hkxhk,abxcd,lmxll,efxeg,aaxbb和/或ccxab。
所述aaxbb代表所述亲本的基因型组合可为:所述遗传群体的父本和母本的基因型均为纯合且有差异。
所述nnxnp代表所述亲本的基因型组合可为:所述遗传群体的母本的基因型为纯合,所述遗传群体的父本的基因型为杂合且与所述母本的基因型有一个核苷酸相同。
所述abxcc代表所述亲本的基因型组合可为:所述遗传群体的母本的基因型为杂合,所述遗传群体的父本的基因型为纯合且与所述母本的基因型无相同的核苷酸。
所述hkxhk代表所述亲本的基因型组合可为:所述遗传群体的母本的基因型为杂合,所述遗传群体的父本的基因型为杂合且与所述母本的核苷酸相同。
所述abxcd代表所述亲本的基因型组合可为:所述遗传群体的母本的基因型为杂合,所述遗传群体的父本的基因型为杂合且与所述母本无相同的核苷酸。
所述lmxll代表所述亲本的基因型组合可为:所述遗传群体的母本的基因型为杂合,所述遗传群体的父本的基因型为纯合且与所述母本有一个相同的核苷酸。
所述efxeg代表所述亲本的基因型组合可为:所述遗传群体的母本的基因型为杂合,所述遗传群体的父本的基因型为杂合且与所述母本有一个相同的核苷酸。
所述ccxab代表所述亲本的基因型组合可为:所述遗传群体的母本的基因型为纯合,所述遗传群体的父本的基因型为杂合且与母本无相同的核苷酸。
上文所述方法中,所述遗传群体可为F2群体、DH群体、RIL重组自交系群体、BC回交群体或F1拟测交群体。所述遗传群体还可为其他遗传群体。
上文所述方法中,所述F2群体、DH群体、RIL重组自交系群体或BC回交群体对应的所述亲本的基因型组合类型可为aaxbb。所述F1拟测交群体对应的所述亲本的基因型组合类型可为nnxnp,abxcc,hkxhk,abxcd,lmxll,efxeg,和/或ccxab。
上文所述方法中,所述根据所述亲本基因型统计文件,结合所述遗传群体的类型,确定所述遗传群体的亲本的基因型组合类型,得到所述遗传群体的父本和母本的基因型的方法具体可为:
所述遗传群体为F2群体,所述亲本的基因型组合类型为aaxbb,选择上文所述基因型统计文件中所述遗传群体的推测父本和推测母本样本的同一变异核苷酸位点含有两种不同纯合基因型(如AA和TT)的所述推测父本(如基因型为AA)和所述推测母本(如基因型为TT)为最终确定的遗传群体的父本和母本。所述父本和母本对应的两种不同的纯合基因型(如AA和TT)即为所述遗传群体的父本和母本的基因型(如父本的基因型为纯合基因型为AA,母本的基因型为纯合基因型TT)。
上文所述基因型可以为A,C,T,G四种碱基的任意组合或缺失。
上文所述方法中,对所述遗传图谱作图标记文件中的遗传图谱作图标记进行连锁分析可包括使用joinmap软件对所述遗传图谱作图标记文件进行连锁分析去除所述遗传图谱作图标记重复连锁位点的步骤。
上文所述方法中,所述连锁分析的过程具体为对所述遗传图谱作图标记文件进行转码得到转码文件,将所述转码文件代入所述joinmap软件进行连锁分析,得到所述遗传群体的遗传图谱标记。
上文所述方法中,使用所述joinmap软件进行连锁分析的过程可去除重复遗传图谱作图标记连锁位点的过程(冗余位点),同一所述遗传图谱作图标记只能保留一个连锁标记位点。
为了解决上述技术问题,本发明还提供了一种存储有计算机程序的计算机可读存储介质。所述计算机程序使计算机执行如上文中所述的方法的步骤。
为了解决上述技术问题,本发明还提供了开发遗传图谱标记的装置。所述装置可为用于对具有未知亲本的遗传群体的遗传图谱标记开发的装置。所述装置可包括如下模块:
A、基因型集合获取模块:用于从所述遗传群体的包含变异核苷酸位点的基因型文件和所述遗传群体的推测母本样本与推测父本样本的列表组合文件中,提取出仅包含所述推测母本样本与所述推测父本样本基因型集合的基因型文件。
B、基因型统计模块:基于A中所述基因型文件,用于分别统计所述推测母本样本与所述推测父本样本的基因型类别和每种所述基因型类别的亲本数量,得到亲本基因型统计文件。
C、确定父本和母本的基因型模块:用于根据B模块中所述亲本基因型统计文件,结合所述遗传群体的类型,确定所述遗传群体的的亲本的基因型组合类型,得到所述遗传群体的父本和母本的基因型,整合A中所述基因型文件中的所述遗传群体的变异核苷酸位点、C中所述遗传群体的父本和母本基因型以及所述遗传群体的子代基因型信息得到所述遗传群体的遗传图谱作图标记文件。
D、连锁分析模块:用于将C模块中得到的所述遗传图谱作图标记文件进行连锁分析,得到遗传图谱标记。
上文所述装置中,C中所述遗传群体可为F2群体、DH群体、RIL重组自交系群体、BC回交群体或F1拟测交群体。
所述F2群体、所述DH群体、所述RIL重组自交系群体或所述BC回交群体对应的亲本的基因型组合类型可为aa x bb类型。所述F1拟测交群体对应的亲本的基因型组合类型可为nnxnp,abxcc,hkxhk,abxcd,lmxll,efxeg,和/或ccxab。
上文所述装置中,所述连锁分析可为使用joinmap软件进行连锁分析。
本发明提供的开发遗传图谱标记的方法与装置,具有以下优点:
首先,可以对多亲本测序的群体进行遗传群体作图,弥补了目前遗传图谱仅能按照单个母本与父本进行标记开发的缺陷,适用性更广。
其次,对母本和父本的基因型进行整合,统计多态性位点的组合,按照组合类型进行遗传标记分类。
最后,标记开发完成后,对于单个位点有多个遗传标记的情况,使用joinmap软件进行连锁分析,排除冗余位点,确保了单个位点上仅有1个遗传标记。
附图说明
图1为本发明实施例中上游得到的群体变异检测基因型文件中的内容展示。第1列为变异位点所在染色体信息,第2列为变异位点所在染色体的位置,第3列为变异位点所在染色体的位置对应的参考基因组的核苷酸序列,第4列及之后为群体样本的基因型信息。
图2为基于图1的基因型文件,按照母本与父本的样本集合,删选出仅包含母本与父本的基因型文件内容展示。
图3为基于图2结果做的母本与父本基因型统计文件内容展示。
图4为基于图3的母本与父本基因型统计结果,开发的遗传作图标记文件格式内容展示。
图5为将遗传图谱标记文件进行转码后得到的转码文件格式内容展示。
具体实施方式
下面结合具体实施方式对本发明进行进一步的详细描述,给出的实施例仅为了阐明本发明,而不是为了限制本发明的范围。以下提供的实施例可作为本技术领域普通技术人员进行进一步改进的指南,并不以任何方式构成对本发明的限制。
下述实施例中的实验方法,如无特殊说明,均为常规方法,按照本领域内的文献所描述的技术或条件或者按照产品说明书进行。下述实施例中所用的材料、试剂等,如无特殊说明,均可从商业途径得到。
以下将配合实施例来详细说明本发明的实施方式,藉此对本发明如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。
实施例1、一种基于多亲本(未知亲本)遗传群体的遗传图谱标记开发方法。
1.基于多亲本(未知亲本)的遗传群体的遗传图谱标记开发方法流程
1.1获取遗传群体基因型文件中推测母本样本与推测父本样本的基因型集合:
首先,获取遗传群体的变异位点检测得到的包含变异位点数据的基因型文件信息;根据基因型文件结果结合遗传群体的样本推测遗传群体的亲本,得到遗传群体的推测母本样本与推测父本样本列表组合文件;
然后,根据推测母本样本与推测父本样本列表组合文件,从群体的变异位点检测基因型文件中提取出仅包含推测母本样本与推测父本样本集合的基因型文件。
1.2分别统计母本与父本样本集合的基因型信息:
基于步骤1.1得到的仅包含推测母本样本与推测父本样本集合的基因型文件,分别统计推测母本样本与推测父本样本集合的基因型类别与每种类别的亲本数量,得到亲本基因型统计文件。
图3为遗传群体的亲本基因型统计文件的部分数据展示:亲本基因型统计文件的第1列为变异位点所在染色体,第2列为变异位点所在染色体的位置,第3列为变异位点所在染色体的位置对应的的参考基因组的核苷酸,第4列为female.stat即推测父本基因型类别与每种类别的推测父本数量,第5列为male.stat即推测母本基因型类别与每种类别的推测母本数量。
1.3按照母本与父本的基因型组合,将变异位点的基因型进行分类:
按照步骤1.2得到的推测母本样本与推测父本样本集合的基因型类别与每种类别的亲本数量信息的亲本基因型统计文件,对亲本的基因型组合类型进行分类,共可分为八类:nnxnp,abxcc,hkxhk,abxcd,lmxll,efxeg,aaxbb,ccxab。
aa x bb型表示亲本间的基因型组合为遗传群体的父本和母本的基因型均为纯合且有差异。aa代表母本基因型,bb代表父本基因型,x代表母本和父本杂交。具体aa x bb型组合类型如“AA x TT”,AA和TT分别代表同一基因位点的两种纯合基因型。
nn x np型表示亲本间的基因型组合为遗传群体的母本的基因型为纯合,遗传群体的父本的基因型为杂合且与所述母本的基因型有一个核苷酸相同。其中,nn代表母本基因型,np代表父本基因型,x代表母本和父本杂交,具体nn x np型组合类型如“AA x AT”,AA代某一基因位点的纯合基因型,AT代表同一基因位点的杂合基因型。
abxcc型表示亲本间的基因型组合为遗传群体的母本的基因型为杂合,遗传群体的父本的基因型为纯合且与所述母本的基因型无相同的核苷酸。其中,ab代表母本基因型,cc代表父本基因型,x代表母本和父本杂交,具体ab x cc型组合类型如“AT xCC”,AT代某一基因位点的杂合基因型,CC代表同一基因位点的纯合基因型。
hkxhk型表示亲本间的基因型组合为遗传群体的母本的基因型为杂合,遗传群体的父本的基因型为杂合且与所述母本的核苷酸相同。其中,hk代表母本基因型,hk代表父本基因型,x代表母本和父本杂交,具体hk x hk型组合类型如“AT x AT”,AT代某一基因位点的杂合基因型。
abxcd型表示亲本间的基因型组合为遗传群体的母本的基因型为杂合,遗传群体的父本的基因型为杂合且与所述母本无相同的核苷酸。其中,ab代表母本基因型,cd代表父本基因型,x代表母本和父本杂交,具体ab x cd型组合类型如“AT x CG”,AT代某一基因位点的杂合基因型,CG代表同一基因位点的另一种杂合基因型。
lmxll型表示亲本间的基因型组合为遗传群体的母本的基因型为杂合,遗传群体的父本的基因型为纯合且与所述母本有一个相同的核苷酸。其中,lm代表母本基因型,ll代表父本基因型,x代表母本和父本杂交,具体lm x ll型组合类型如“AC x CC”,AC代某一基因位点的杂合基因型,CC代表同一基因位点的纯合基因型。
efxeg型表示亲本间的基因型组合为遗传群体的母本的基因型为杂合,遗传群体的父本的基因型为杂合且与所述母本有一个相同的核苷酸。其中,ef代表母本基因型,eg代表父本基因型,x代表母本和父本杂交,具体ef x eg型组合类型如“AT x AG”,AT代某一基因位点的杂合基因型,AG代表同一基因位点的另一种杂合基因型。
ccxab型表示亲本间的基因型组合为遗传群体的母本的基因型为纯合,遗传群体的父本的基因型为杂合且与母本无相同的核苷酸。其中,cc代表母本基因型,ab代表父本基因型,x代表母本和父本杂交,具体cc x ab型组合类型如“AA x CG”,AA代某一基因位点的纯合基因型,CG代表同一基因位点的杂合基因型。
1.4依据遗传群体的类型选择相应类型的基因型组合,确定父本和母本的基因型:
常见的遗传图谱作图群体有F2群体、DH群体、RIL重组自交系群体、BC回交群体、F1拟测交群体等。如果遗传群体为F2、DH、RIL或BC群体,则选择亲本基因型组合类型中的aa xbb类型,如果遗传群体为F1群体需要用除aa x bb之外的7类基因型组合,即nnxnp,abxcc,hkxhk,abxcd,lmxll,efxeg,或ccxab。
最终确定父本和母本变异核苷酸位点的基因型,得到包含遗传群体的变异核苷酸位点父本和母本基因型以及群体子代基因型信息的遗传图谱作图标记文件。
1.5在joinmap软件中对遗传图谱作图标记文件进行连锁分析,确定遗传图谱标记:
将遗传图谱作图标记文件进行转码,得到转码文件;在joinmap软件对转码文件进行变异核苷酸位点连锁分析中,可去除重复的位点,确定最终遗传图谱标记的连锁关系。
2.基于多亲本遗传群体的遗传图谱标记开发方法应用实例
为使本发明实施例的目的,方法和优点更加清楚,下面结合本发明实施例中的附图,对本发明实例中的方法细节进行清晰与完善的描述,所述实施例是本发明的一部分实施例,并不是全部实施例。基于本发明中的实施例,本领域研究人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
选用棉花的多亲本(未知亲本)的F2群体使用步骤1中的基于多亲本的遗传图谱标记开发方法,开发遗传图谱标记。F2群体包含264个样本,F2群体的样本中包含多个可能的群体父本和多个可能的群体母本。
2.1获取F2群体的基因型文件中推测母本样本与推测父本样本基因型集合
从棉花F2群体的全基因组测序结果获取F2群体的变异检测基因型文件图1为上游检测得到的棉花F2遗传群体样本变异核苷酸位点基因型文件的部分数据展示。图1的的前3列分别为变异位点所在染色体、变异位点所在染色体的位置、变异位点所在染色体的位置的参考基因组的核苷酸,第4列及之后为样本的基因型信息。
按照推测母本样本与推测父本样本列表组合,从图1所示的F2群体变异核苷酸位点基因型文件中筛选出仅包含推测母本样本与推测父本样本基因型集合的文件,保存在数据存储对象中。如图2所示为仅包含推测母本与推测父本的样本基因型集合的文件的部分数据展示,其中推测母本包括9个,名称分别为179717-1,179717-10,179717-2,179717-3,179717-4,179717-179717-6,179717-8,179717-9,推测父本包括9个,名称分别为179718-1,179718-10,179718-2,179718-3,179718-179718-6,179718-7,179718-8,179718-9。
2.2分别统计推测母本样本与推测父本样本集合的基因型信息:
基于步骤2.1得到的仅包含推测母本样本与推测父本样本集合的文件,分别统计推测母本样本与推测父本样本集合的基因型类别与每种类别的亲本数量,得到亲本的基因型统计文件。
根据筛选出的仅包含推测母本样本与推测父本样本基因型集合的文件中的亲本基因型信息,对推测母本样本与推测父本样本的集合分别进行基因型统计:统计推测母本样本与推测父本样本的基因型类别与每种类别的亲本数量,得到亲本的基因型统计文件。图3为亲本基因型统计文件的部分数据展示:亲本基因型统计文件的第1列为变异位点所在染色体,第2列为变异位点所在染色体的位置,第3列为变异位点所在染色体的位置的参考核苷酸,第4列为female.stat即推测父本基因型类别与每种类别的推测父本数量,第5列为male.stat即推测母本基因型类别与每种类别的推测母本数量。
具体如图3的第二行所示,在F2遗传群体样本scaffold_A01染色体的第5121位核苷酸位点的变异核苷酸为T,推测父本样本集合的此核苷酸位点的基因型统计结果为“TT:9”,即推测父本集合中包含9个样本,且9个样本此核苷酸变异位点基因型均为TT,推测母本样本集合的基因型统计结果为“--:1;TT:8”,即推测母本集合中包含9个样本,且1个样本基因型均为缺失“--”,8个样本基因型为TT。
2.3按照推测母本样本与推测父本样本的基因型组合,将亲本的基因型组合类型进行分类:
亲本的基因型组合类型共可分为八类:nnxnp,abxcc,hkxhk,abxcd,lmxll,efxeg,aaxbb,ccxab。
F2选择亲本基因型组合类型中的aa x bb类型,进行后续变异位点连锁分析;。
2.4依据遗传群体的类型选择相应类型的基因型组合,确定父本和母本的基因型:
根据图3所示的步骤2.2得到的亲本的基因型统计文件信息,筛选出F2群体适用的aa x bb型标记,选择亲本基因型统计文件中推测父本和推测母本样本同一变异核苷酸为含有两种纯合基因型的推测父本和推测母本为最终确定的遗传群体的父本和母本。父本和母本对应的两种不同的纯合基因型即为遗传群体的父本和母本的基因型。具体为,如图3中所示染色体scaffold50_A01的第5160位变异核苷酸位点,推测父本的样本集合基因型信息为“CC:3;TT:3;--:3”,即推测父本集合中包含9个样本,且3个样本此核苷酸变异位点基因型CC,3个样本此核苷酸变异位点基因型为TT,3个样本此核苷酸变异位点基因型为缺失“--”;推测母本的样本集合基因型信息为“--:2;CC:7”,即推测母本集合中包含9个样本,且2个样本此核苷酸变异位点基因型为缺失“--”,7个样本此核苷酸变异位点基因型为CC。推测父本和推测母本此变异核苷酸位点包含两种纯合基因型TT和CC,确定父本的此变异核苷酸位点的基因型应为TT纯合基因型,母本的此变异核苷酸位点的基因型应为CC纯合基因型,父本和母本组合杂交得到的F2群体可以得到一种aa x bb型基因型组合类型标记,即TTx CC。其余位点类似,若没有aa x bb型标记的基因型组合类型,则过滤掉该位点。最终得到含有变异核苷酸位点的核苷酸、变异核苷酸位点父本的基因型和变异核苷酸位点母本基因型信息的遗传图谱作图标记文件,图4所示为部分遗传图谱作图标记文件的数据:图4的第1列为变异核苷酸位点所在染色体、第2列为变异核苷酸位点所在染色体的位置、第3列为变异位点所在染色体的位置的参考变异核苷酸,第4列为变异核苷酸位点对应的母本的基因型,第五列为父本的基因型,之后列为群体子代个体的变异核苷酸位点基因型信息。
2.5在joinmap软件中对遗传图谱作图标记文件进行连锁分析,确定遗传图谱标记:
2.5.1遗传图谱作图标记文件中的基因型转码处理
将图4所示的步骤2.4得到的遗传图谱作图标记文件中的变异核苷酸位点的基因型做转码处理,得到转码文件,便于导入joinmap软件中做连锁分析。
转码文件格式如图5部分数据所示:
第一行:name=marker表示导入的文件名称,这里可随意命名,无固定要求;popt=F2表示群体类型为F2;
第二行nloc=1018表示变异核苷酸遗传标记位点数量为1018个;
第三行nind=310表示群体子代个体数量为310个;
第四行及之后行的第一列为标记名称,可按照mk1、mk2、mk3、、mkn命名,不可有重复,第二列及其之后的列为变异核苷酸位点的基因型做转码处理后的群体子代个体基因型类型名称:若基因型类型名称为a,则表示群体子代基因型类型与母本基因型一致;若基因型类型名称为b,则表示群体子代基因型类型与父本基因型一致;若为h,则表示群体子代基因型类型为父本和母本的杂合基因型,若为为“-”,则表示基因型为缺失。
2.5.2将转码文件导入joinmap软件进行连锁分析。
根据变异核苷酸标记位点间LOD值确定变异核苷酸标记位点连锁程度,去除单个位点上的冗余标记,仅保留与其他标记连锁最紧密的一个标记,最终确定遗传图谱标记的连锁关系。
3、基于多亲本(未知亲本)遗传群体的遗传图谱标记开发的装置
基于步骤1中的基于多亲本遗传群体的遗传图谱标记开发方法和步骤2中基于多亲本遗传群体的遗传图谱标记开发方法应用实例,得到基于多亲本(未知亲本)遗传群体的开发遗传图谱标记的装置。该装置包括如下模块:
A、基因型集合获取模块:
用于从所述遗传群体的包含变异核苷酸位点的基因型文件和所述遗传群体的推测母本样本与推测父本样本的列表组合文件中,提取出仅包含所述推测母本样本与所述推测父本样本基因型集合的基因型文件。
B、基因型统计模块:
基于A模块中得到的基因型文件,用于分别统计推测母本样本与推测父本样本集合的基因型类别与每种基因型类别的亲本数量,得到亲本基因型统计文件。
C、父本和母本的基因型确定模块:
用于根据B模块中亲本基因型统计文件,结合遗传群体类型,确定亲本的基因型组合类型,得到遗传群体的父本和母本的基因型,整合A中所述基因型文件中的所述遗传群体的变异核苷酸位点、C中所述遗传群体的父本和母本基因型以及所述遗传群体的子代基因型信息得到所述遗传群体的遗传图谱作图标记文件。
D、连锁分析模块:
用于将遗传图谱作图标记文件信息使用joinmap软件进行变异核苷酸位点(遗传图谱作图标记)连锁分析,确定最终遗传图谱标记的连锁关系,得到遗传图谱标记。
以上对本发明进行了详述。对于本领域技术人员来说,在不脱离本发明的宗旨和范围,以及无需进行不必要的实验情况下,可在等同参数、浓度和条件下,在较宽范围内实施本发明。虽然本发明给出了特殊的实施例,应该理解为,可以对本发明作进一步的改进。总之,按本发明的原理,本申请欲包括任何变更、用途或对本发明的改进,包括脱离了本申请中已公开范围,而用本领域已知的常规技术进行的改变。按以下附带的权利要求的范围,可以进行一些基本特征的应用。
Claims (10)
1.开发遗传图谱标记的方法,其特征在于:所述方法用于对具有未知亲本的遗传群体进行遗传群体作图,所述方法包括:从所述遗传群体的包含变异核苷酸位点的基因型文件中,获取所述遗传群体的推测母本样本与推测父本样本的基因型集合;统计所述基因型集合的基因型信息,得到所述遗传群体的亲本基因型统计文件;根据所述亲本基因型统计文件,结合所述遗传群体的类型,确定所述遗传群体的亲本的基因型组合类型,得到所述遗传群体的父本和母本的基因型;整合所述基因型文件中的所述遗传群体的变异核苷酸位点、所述遗传群体的父本和母本基因型以及所述遗传群体的基因型信息得到所述遗传群体的遗传图谱作图标记文件;对所述遗传图谱作图标记文件中的遗传图谱作图标记进行连锁分析,得到所述遗传群体的遗传图谱标记。
2.根据权利要求1所述的方法,其特征在于:所述统计基因型集合的基因型信息,具体包括统计所述遗传群体的推测母本样本的基因型类别和属于所述基因型类别的所述推测母本样本的数量,以及统计所述遗传群体的推测父本样本的基因型类别和属于所述基因型类别的所述推测父本样本的数量的过程。
3.根据权利要求1或2所述的方法,其特征在于:所述遗传群体的亲本的基因型组合类型包括:nnxnp,abxcc,hkxhk,abxcd,lmxll,efxeg,aaxbb和/或ccxab;
所述aaxbb代表所述亲本的基因型组合为:所述遗传群体的父本和母本的基因型均为纯合且有差异;
nnxnp代表所述亲本的基因型组合为:所述遗传群体的母本的基因型为纯合,所述遗传群体的父本的基因型为杂合且与所述母本的基因型有一个核苷酸相同;
abxcc代表所述亲本的基因型组合为:所述遗传群体的母本的基因型为杂合,所述遗传群体的父本的基因型为纯合且与所述母本的基因型无相同的核苷酸;
hkxhk代表所述亲本的基因型组合为:所述遗传群体的母本的基因型为杂合,所述遗传群体的父本的基因型为杂合且与所述母本的核苷酸相同;
abxcd代表所述亲本的基因型组合为:所述遗传群体的母本的基因型为杂合,所述遗传群体的父本的基因型为杂合且与所述母本无相同的核苷酸;
lmxll代表所述亲本的基因型组合为:所述遗传群体的母本的基因型为杂合,所述遗传群体的父本的基因型为纯合且与所述母本有一个相同的核苷酸;
efxeg代表所述亲本的基因型组合为:所述遗传群体的母本的基因型为杂合,所述遗传群体的父本的基因型为杂合且与所述母本有一个相同的核苷酸;
ccxab代表所述亲本的基因型组合为:所述遗传群体的母本的基因型为纯合,所述遗传群体的父本的基因型为杂合且与母本无相同的核苷酸。
4.根据权利要求1-3中任一权利要求所述的方法,其特征在于:所述遗传群体为F2群体、DH群体、RIL重组自交系群体、BC回交群体或F1拟测交群体。
5.根据权利要求4所述的方法,其特征在于:所述F2群体、DH群体、RIL重组自交系群体或BC回交群体对应的所述亲本的基因型组合类型为aaxbb;所述F1拟测交群体对应的所述亲本的基因型组合类型为nnxnp,abxcc,hkxhk,abxcd,lmxll,efxeg,和/或ccxab。
6.根据权利要求1-5中任一权利要求所述的方法,其特征在于:对所述遗传图谱作图标记文件中的遗传图谱作图标记进行连锁分析包括使用joinmap软件对所述遗传图谱作图标记文件进行连锁分析去除所述遗传图谱作图标记的重复连锁位点的步骤。
7.一种存储有计算机程序的计算机可读存储介质,所述计算机程序使计算机执行如权利要求1-6中任一权利要求方法的步骤。
8.开发遗传图谱标记的装置,其特征在于:所述装置为用于对具有未知亲本的遗传群体的遗传图谱标记开发的装置,所述装置包括:
A、基因型集合获取模块;用于从所述遗传群体的包含变异核苷酸位点的基因型文件和所述遗传群体的推测母本样本与推测父本样本的列表组合文件中,提取出仅包含所述推测母本样本与所述推测父本样本基因型集合的基因型文件;
B、基因型统计模块;基于A中所述基因型文件,用于分别统计所述推测母本样本与所述推测父本样本的基因型类别和每种所述基因型类别的亲本数量,得到亲本基因型统计文件;
C、确定父本和母本的基因型模块:用于根据B模块中所述亲本基因型统计文件,结合所述遗传群体的类型,确定所述遗传群体的的亲本的基因型组合类型,得到所述遗传群体的父本和母本的基因型,整合A中所述基因型文件中的所述遗传群体的变异核苷酸位点、C中所述遗传群体的父本和母本基因型以及所述遗传群体的子代基因型信息得到所述遗传群体的遗传图谱作图标记文件;
D、连锁分析模块:用于将C模块中得到的所述遗传图谱作图标记文件进行连锁分析,得到遗传图谱标记。
9.根据权利要求8所述的装置,其特征在于:C中所述遗传群体为F2群体、DH群体、RIL重组自交系群体、BC回交群体或F1拟测交群体;
所述F2群体、所述DH群体、所述RIL重组自交系群体或所述BC回交群体对应的亲本的基因型组合类型为aa x bb类型;所述F1拟测交群体对应的亲本的基因型组合类型为nnxnp,abxcc,hkxhk,abxcd,lmxll,efxeg,和/或ccxab。
10.根据权利要求8或9所述的装置,其特征在于:所述连锁分析为使用joinmap软件进行连锁分析。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310006009.2A CN116580766A (zh) | 2023-01-04 | 2023-01-04 | 一种基于多亲本的遗传图谱标记开发方法与装置及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310006009.2A CN116580766A (zh) | 2023-01-04 | 2023-01-04 | 一种基于多亲本的遗传图谱标记开发方法与装置及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116580766A true CN116580766A (zh) | 2023-08-11 |
Family
ID=87538291
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310006009.2A Pending CN116580766A (zh) | 2023-01-04 | 2023-01-04 | 一种基于多亲本的遗传图谱标记开发方法与装置及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116580766A (zh) |
-
2023
- 2023-01-04 CN CN202310006009.2A patent/CN116580766A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108004344B (zh) | 一种玉米全基因组snp芯片及其应用 | |
Raatz et al. | Analyses of African common bean (Phaseolus vulgaris L.) germplasm using a SNP fingerprinting platform: diversity, quality control and molecular breeding | |
CN105740650B (zh) | 一种快速准确鉴定高通量基因组数据污染源的方法 | |
CN113795597B (zh) | 一种大豆snp分型检测芯片及其在分子育种与基础研究中的应用 | |
WO2019047074A1 (zh) | 用于水稻基因分型的snp分子标记组合及其应用 | |
CN110846429A (zh) | 一种玉米全基因组InDel芯片及其应用 | |
CN116004898A (zh) | 一种花生40K液相SNP芯片PeanutGBTS40K及其应用 | |
CN111778353A (zh) | 用于鉴定普通小麦品种的snp分子标记以及snp分子标记检测方法 | |
CN110444253B (zh) | 一种适用于混池基因定位的方法及系统 | |
CN114574613A (zh) | 一种小麦-拟鹅观草全基因组液相芯片及应用 | |
CN112289384A (zh) | 一种柑橘全基因组kasp标记库的构建方法及应用 | |
Gong et al. | Evolution of the sex-determining region in Ginkgo biloba | |
CN112466395B (zh) | 基于snp多态性位点的样本识别标签筛选方法与样本识别检测方法 | |
KR101539737B1 (ko) | 유전체 정보와 분자마커를 이용한 여교잡 선발의 효율성 증진 기술 | |
CN116580766A (zh) | 一种基于多亲本的遗传图谱标记开发方法与装置及计算机可读存储介质 | |
CN116935959A (zh) | Sanger基因测序结果快速判读方法、系统及介质 | |
CN115141893B (zh) | 包含7个分子标记的预测猕猴桃果实干物质含量的分子标记组及其应用和试剂盒 | |
CN114530200B (zh) | 基于计算snp熵值的混合样本鉴定方法 | |
CN113981070B (zh) | 胚胎染色体微缺失的检测方法、装置、设备和存储介质 | |
CN104573409B (zh) | 基因定位的多重检验方法 | |
Breton et al. | A protocol for detection of large chromosome variations in banana using next generation sequencing | |
CN108363906B (zh) | 水稻多样本变异整合图谱OsMS-IVMap1.0的创建 | |
AU2021423830A1 (en) | Genotype identification of multi-parent crop on basis of high-throughput whole genome sequencing | |
CN117587159B (zh) | 一种辣椒snp分子标记组合、snp芯片及其应用 | |
CN117305503B (zh) | 用于柑橘基因型鉴定的20k液相芯片及其应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |