CN116144794A - 牛12k sv液相芯片及其设计方法和应用 - Google Patents
牛12k sv液相芯片及其设计方法和应用 Download PDFInfo
- Publication number
- CN116144794A CN116144794A CN202310218543.XA CN202310218543A CN116144794A CN 116144794 A CN116144794 A CN 116144794A CN 202310218543 A CN202310218543 A CN 202310218543A CN 116144794 A CN116144794 A CN 116144794A
- Authority
- CN
- China
- Prior art keywords
- sites
- cattle
- chip
- variation
- bovine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 241000283690 Bos taurus Species 0.000 title claims abstract description 96
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000013461 design Methods 0.000 title claims abstract description 23
- 239000007791 liquid phase Substances 0.000 title claims abstract description 19
- 239000000523 sample Substances 0.000 claims abstract description 31
- 238000012216 screening Methods 0.000 claims abstract description 28
- 238000012163 sequencing technique Methods 0.000 claims abstract description 24
- 238000012217 deletion Methods 0.000 claims abstract description 21
- 230000037430 deletion Effects 0.000 claims abstract description 21
- 230000010354 integration Effects 0.000 claims abstract description 10
- 238000012070 whole genome sequencing analysis Methods 0.000 claims abstract description 8
- 230000002068 genetic effect Effects 0.000 claims abstract description 7
- 238000003908 quality control method Methods 0.000 claims abstract description 7
- 230000006872 improvement Effects 0.000 claims abstract description 4
- 238000009395 breeding Methods 0.000 claims description 16
- 230000001488 breeding effect Effects 0.000 claims description 16
- 238000003205 genotyping method Methods 0.000 claims description 13
- 230000035772 mutation Effects 0.000 claims description 12
- 108090000623 proteins and genes Proteins 0.000 claims description 12
- 239000007788 liquid Substances 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 206010028980 Neoplasm Diseases 0.000 claims description 6
- 210000000349 chromosome Anatomy 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000011161 development Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 4
- 238000003780 insertion Methods 0.000 claims description 4
- 230000037431 insertion Effects 0.000 claims description 4
- 238000011144 upstream manufacturing Methods 0.000 claims description 4
- 108091081062 Repeated sequence (DNA) Proteins 0.000 claims description 3
- 230000006835 compression Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 230000004069 differentiation Effects 0.000 claims description 3
- 238000012916 structural analysis Methods 0.000 claims description 3
- 239000013589 supplement Substances 0.000 claims description 3
- 108020004414 DNA Proteins 0.000 claims description 2
- 238000012098 association analyses Methods 0.000 claims description 2
- 238000011156 evaluation Methods 0.000 claims description 2
- 230000018109 developmental process Effects 0.000 claims 1
- 230000004807 localization Effects 0.000 claims 1
- 230000020509 sex determination Effects 0.000 claims 1
- 238000011160 research Methods 0.000 abstract description 9
- 238000009394 selective breeding Methods 0.000 abstract description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 241001465754 Metazoa Species 0.000 description 3
- 235000015278 beef Nutrition 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000000018 DNA microarray Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 239000007790 solid phase Substances 0.000 description 2
- RZVAJINKPMORJF-UHFFFAOYSA-N Acetaminophen Chemical compound CC(=O)NC1=CC=C(O)C=C1 RZVAJINKPMORJF-UHFFFAOYSA-N 0.000 description 1
- 101150030352 Arsi gene Proteins 0.000 description 1
- 235000005747 Carum carvi Nutrition 0.000 description 1
- 240000000467 Carum carvi Species 0.000 description 1
- 241000283014 Dama Species 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 241001137289 Lanius Species 0.000 description 1
- 240000000233 Melia azedarach Species 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 108700026244 Open Reading Frames Proteins 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- WHGYBXFWUBPSRW-FOUAGVGXSA-N beta-cyclodextrin Chemical compound OC[C@H]([C@H]([C@@H]([C@H]1O)O)O[C@H]2O[C@@H]([C@@H](O[C@H]3O[C@H](CO)[C@H]([C@@H]([C@H]3O)O)O[C@H]3O[C@H](CO)[C@H]([C@@H]([C@H]3O)O)O[C@H]3O[C@H](CO)[C@H]([C@@H]([C@H]3O)O)O[C@H]3O[C@H](CO)[C@H]([C@@H]([C@H]3O)O)O3)[C@H](O)[C@H]2O)CO)O[C@@H]1O[C@H]1[C@H](O)[C@@H](O)[C@@H]3O[C@@H]1CO WHGYBXFWUBPSRW-FOUAGVGXSA-N 0.000 description 1
- 230000004071 biological effect Effects 0.000 description 1
- 244000309466 calf Species 0.000 description 1
- 235000013365 dairy product Nutrition 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- JNSGIVNNHKGGRU-JYRVWZFOSA-N diethoxyphosphinothioyl (2z)-2-(2-amino-1,3-thiazol-4-yl)-2-methoxyiminoacetate Chemical compound CCOP(=S)(OCC)OC(=O)C(=N/OC)\C1=CSC(N)=N1 JNSGIVNNHKGGRU-JYRVWZFOSA-N 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000004907 flux Effects 0.000 description 1
- 238000012214 genetic breeding Methods 0.000 description 1
- 230000007614 genetic variation Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 238000009396 hybridization Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 235000013372 meat Nutrition 0.000 description 1
- 239000008267 milk Substances 0.000 description 1
- 235000013336 milk Nutrition 0.000 description 1
- 210000004080 milk Anatomy 0.000 description 1
- 239000003147 molecular marker Substances 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6888—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
-
- C—CHEMISTRY; METALLURGY
- C40—COMBINATORIAL TECHNOLOGY
- C40B—COMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
- C40B40/00—Libraries per se, e.g. arrays, mixtures
- C40B40/04—Libraries containing only organic compounds
- C40B40/06—Libraries containing nucleotides or polynucleotides, or derivatives thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/30—Circuit design
- G06F30/32—Circuit design at the digital level
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/124—Animal traits, i.e. production traits, including athletic performance or the like
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/156—Polymorphic or mutational markers
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Organic Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Analytical Chemistry (AREA)
- General Health & Medical Sciences (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Computation (AREA)
- Genetics & Genomics (AREA)
- General Engineering & Computer Science (AREA)
- Biochemistry (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Computer Hardware Design (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Medicinal Chemistry (AREA)
- General Chemical & Material Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Microbiology (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Immunology (AREA)
- Geometry (AREA)
- General Physics & Mathematics (AREA)
Abstract
本发明提供了一种牛12KSV液相芯片及其设计方法和应用,芯片包含12506个SV变异位点,对应12506个用于探针设计的位点。设计方法具体包括如下步骤:S1,牛的二代全基因组测序数据的收集;S2,测序数据的质控和序列对比;S3,SV变异位点的鉴定及分型;S4,对所有的缺失型SV变异位点进行整合筛选;S5,根据所有候选位点进行SV液相芯片的定制。本发明芯片能够为牛的种质鉴定、选择育种等领域和其他研究提供较好的研究基础和数据支撑,并进一步降低牛基因组选择的成本,加快我国优质牛品种改良的遗传进展,具有较好的社会价值和推广价值。
Description
技术领域
本发明属于动物分子生物学技术及动物遗传育种技术领域,特别涉及牛12K SV液相芯片及其设计方法和应用。
背景技术
养牛产业是关乎国计民生的支柱产业,但我国缺少优秀的种质资源,在产肉和产奶两个养牛重要的产业均受到国外的制约,每年由20-30%的产品需要从国外进口。基因组育种技术有效的提高了我国肉牛和奶牛的生产性能,但目前的育种效率还相对较低,不能实现对欧美国家的养牛业的超越,如何提高我国养牛业的育种效率是目前面临的重大问题。
目前对牛开展的基因组育种技术仅仅考虑了SNP的遗传效应,但多项研究报道很多性状不能被SNP完全解释,在基因组育种中需要将其它的变异类型进行整合,从而更加高效和准确的开展牛的育种。
基因组结构变异(Structural Variation,SV)是基因组上介于50bp-5Mbp的大片段序列变异,包括了缺失、插入、倒置、重复和拷贝数变异等多种形式,是基因组上除SNP外的另外一种重要的遗传变异,并且其相对SNP具有更为强烈的生物学效应,是全基因组育种中重要的分子标记。但由于其多变的形式和复杂的序列特征,导致其研究进展缓慢,阻碍了其在牛群体分析以及育种中的应用。目前对SV的鉴定和分型多基于全基因组测序数据,并且需要至少获得15X以上的数据才能初步实现对牛基因组SV的有效鉴定,成分费用较为昂贵,在没有足够资金的支持下不能有效的利用SV结合SNP展开牛的全基因组育种。
基因芯片(genechip)又称DNA芯片、生物芯片,是另外一种高通量分子标记技术。基因芯片具有快速、高通量的优点,可以在微小的玻片表面集成大量分子识别探针,从而在同一时间内平行分析大量基因,进行大信息量的检测分析,这也使得其在生物进化、基因定位、分子育种等领域中得到广泛的应用。在以基因组选择为核心的动植物分子育种领域,基因芯片更易于标准化、通用化、流程化,从而得到大规模应用。早期的固相芯片是利用杂交测序法,通过将已知序列的核苷酸作为探针与标记的靶核苷酸序列进行杂交,对检测到的信号进行定性与定量的分析。目前,被广泛使用的液相芯片是基于靶向测序技术,利用探针对候选区域开展高通量测序,来获得候选位点的基因型信息的手段,相对之前的固相芯片具有成本低和灵活的优势。目前在牛上没有可以用作SV鉴定和分型的芯片,开发基于SV的液相芯片将会填补这一空白,并且可以快速的促进SV在牛育种中的应用,从而大幅的提高牛的育种效率,对于我国肉牛产业的快速发展和摆脱国外的种源制约具有重大的实际意义。
发明内容
为克服上述现有技术的不足,本发明提供了一种牛12K SV液相芯片及其设计方法和应用。
为达到上述目的,本发明采用以下技术方案:
本发明提供的牛12K SV液相芯片,包含12506个SV变异位点,对应12506个用于探针设计的位点,所述用于探针设计的位点信息具体如表1所示。
其中,位点编号中左侧表示位点所在的染色体,中间表示位点在染色体上的起始位置,右侧表示位点在染色体上的结束位置,参考基因组的全基因组序列的版本号为:ARS-UCD1.2。
所述芯片通过下述方法获得:
S1:收集牛的原始第二代全基因组测序数据,比对到牛的参考基因组ARS-UCD1.2,鉴定与筛选出SV变异位点;
S2:根据S1筛选出SV变异位点,结合位点在染色体上的位置,分析其上下游序列并设计测序引物,挑选能够用于芯片开发的SV变异位点;
S3:运用靶向测序基因分型技术开发出所述芯片。
上述牛12K SV液相芯片在牛品种经济性状候选基因的定位、基因组选择、遗传多样性分析、品种鉴定、性别判断、亲缘关系鉴定、种质资源评价与改良、DNA指纹鉴定、全基因组关联分析或全基因组选择育种中的应用。
本发明提供的牛12K SV液相芯片的设计方法,具体包括如下步骤:
S1,牛的二代全基因组测序数据的收集;
S2,测序数据的质控和序列对比;
S3,SV变异位点的鉴定及分型;
S4,对所有的缺失型SV变异位点进行整合筛选;
S5,根据所有候选位点进行SV液相芯片的定制。
S1的具体过程为:在NCBI上查找家牛的测序信息,根据NCBI提供的登录号,用SRAtoolkit软件中的prefetch工具从NCBI数据库下载SRA文件,或使用ascp从EBI数据库下载fastq文件。
S2的具体过程为:对原始的测序数据fastq格式文件用NGSToolkit软件去除接头序列和低质量的读长序列reads信息,使用“-l 70-s 20-z g”参数去除测序平台的接头序列,设碱基质量分数低于20的为低质量碱基,去除低质量碱基占比超过70%的低质量reads,压缩后输出高质量reads信息;使用bwa软件的mem算法及默认参数将通过质量控制的序列信息比对到家牛的参考基因组ARS-UCD1.2,比对获得的bam文件,用samtools进行排序,用sambamba软件的默认参数去除冗余并建立索引。
S3的具体过程为:通过S2预处理的bam文件,分别使用Lumpy、Delly、Breakdancer、Pindel软件检测SV,分别对四个软件结果进行过滤和整合,仅保留常染色体上的变异,并去除变异长度低于50bp的SV,保留至少两个软件支持的SV,获得SV列表。对四个软件结果的过滤和整合采用脚本软件GGDTRS.py进行,脚本软件GGDTRS.py进行SV的基因分型并生成VCF文件,主要通过识别reads被拆分的断点位置、SV区域的测序深度、reads与断点的位置关系进行基因分型。
S4中整合筛选的具体步骤为:
S41,根据每个位点受个体支持的数量,选择至少受10个个体支持的变异位点作为所有的高频率位点;
S42,根据缺失变异DEL的群体结构学分析的结果,将群体分类成瘤牛和普通牛两大亚群,利用DEL基因分型数据计算瘤牛和普通牛亚群的选择信号FST值,取FST降序排序后前1%的位点为显著差异位点,进一步分析受地域选择影响相关的DEL位点,将群体为非洲、西欧、华南、印度、东北亚、中欧-南欧6个亚群,分别计算Di选择信号,获得受选择的缺失变异位点;为了评估DEL在品种之间的分化差异,选择和过滤样本量大于70的商业化品种,分别计算Di选择信号,挖掘各品种的受选择的DEL位点,获得受选择的特异DEL位点;
S43,筛选出与移动元件插入MEI相关的受选择的位点;
S44,对所有缺失型的SV位点按照不同品种和类群进行分类处理,根据不同的类群分别计算选择信号,筛选出Simmental西门塔尔牛群体受选择的高频位点和Holstein荷斯坦牛群体中受选择的高频位点;
S45,利用NCBI公共数据库和已鉴定的基因组功能元件,对缺失型变异位点进行基因注释,主要保留保留落在基因组功能元件区域的位点;
S46,将受选择信号筛选出的位点与由基因组功能元件筛选出的位点进行整合,筛选出同时受两者支持的位点,再与所有的高频位点进行合并,最终筛选出同时受三者支持的位点作为牛12K SV液相芯片位点的主要组成部分;
S47,添加高频位点作为补充;
S48,对S46和S47获得的所有SV位点进行区间合并整理得到最终SV变异位点。
S48中合并整理的具体步骤为:
S481,为保证最终芯片位点区间的唯一性和探针捕获的有效性,按照区间包含关系或重叠关系,且缺失序列长度差小于60bp的规则进行位点合并,同时删除不同变异类型的SV区间合并后区间发生改变的位点,最终保留合适的SV变异区间;
S482,对S481获得的SV变异区间进行探针设计,设计的规则为:在DEL断点上下游选取最优的序列为探针序列,探针长度120bp,探针的GC含量30%—70%之间,同源比对的次数<5,同时尽量避开简单重复序列区域,最终探针设计成功的SV变异区间作为整合筛选出的最终SV变异位点。
本发明的有益效果在于:
1、本发明牛12K SV液相芯片涉及到世界57个牛品种,具有广泛的品种和群体适用性,并且考虑到目前国内养殖数量较多的荷斯坦牛和西门塔尔牛,对部分位点进行了针对性的筛选和设计,进一步增加了本芯片的潜在利用率和价值。
2、本发明对SV变异位点进行鉴定和分型时,使用了Lumpy、Delly、Breakdancer、Pindel四个软件检测SV,相比于仅使用单种检测算法的软件有着更低的错误发现率。在对SV进行分型的过程中,同时考虑了被拆分reads的两个子片段的分布位置、SV区域的测序深度、reads与断点的位置关系进行基因分型,具有高准确率的分型效果,并且实现了二倍体分型。因此,本芯片的SV位点及其分型具有精准的前期数据支撑,可信度高。
3、本发明芯片能够为牛种质鉴定、选择育种等领域和其他研究提供较好的研究基础和数据支撑,并进一步降低牛基因组选择的成本,加快我国优质牛品种改良的遗传进展,具有较好的社会价值和推广价值。
4、本发明芯片中的SV信息是对目前应用SNP进行基因组选择育种的有效补充,突破了长期使用SNP开展育种的局限,通过利用本芯片添加SV信息将会进一步增强基因组选择的准确性。
附图说明
图1是本发明SV液相芯片位点整合筛选部分流程图;
图2是不同品种中受选择的SV位点统计韦恩图;
图3是SV位点在基因组功能元件区域的注释。
具体实施方式
为了更好地说明本发明的目的、技术方案和优点,下面将结合具体实施例对本发明做进一步描述。本发明可以以许多不同的形式实施,而不应该被理解为限于在此阐述的实施例。本发明仅由权利要求来限定。
本发明提供了牛12K SV液相芯片的设计方法,作为其中一种实施例,具体包括以下步骤:
S1,牛的二代全基因组测序数据的收集。
共收集了57个品种898头牛的原始第二代全基因组测序数据,从NCBI(NationalCenter for Biotechnology Information,https://www.ncbi.nlm.nih.gov/)下载收集。
57个品种898头牛包括:Afar(阿法牛)9头、Angus(安格斯牛)92头、Ankole(安科拉牛)3头、Arsi(阿鲁西牛)10头、Barka(巴尔卡牛)9头、Beefmaster(肉牛王牛)15头,BelgianBlue(比利时蓝牛)7头,BohaiBlackCattle(渤海黑牛)4头,Boran(布朗牛)10头,Brahman(婆罗门牛)8头,Butana(布塔纳牛)20头,ChaidamuYellowCattle(柴达木黄牛)4头,Charolais(夏洛莱牛)86头,Charolais-RedAngus(夏洛莱-红安格斯牛)1头,DabieshanCattle(大别山牛)1头,Dengchuan(邓川牛)2头,DianzhongCattle(滇中牛)6头,Enshi(恩施黄牛)10头,EthiopianBoran(埃塞俄比亚博兰牛)10头,Fogera(弗吉拉牛)8头,Gelbvieh(盖普威牛)4头,Gir(吉尔牛)3头,Goffa(高法牛)10头,GuangfengCattle(广丰牛)4头,Hanwoo(韩牛)21头,Hereford(海福特牛)97头,Holstein(荷斯坦牛)130头,Horro(霍罗牛)11头,Jersey(娟珊牛)24头,Ji'anCattle(吉安牛)4头,JiaxianRedCattle(郏县红牛)3头,JinjiangCattle(锦江牛)2头,KazakhCattle(哈萨克牛)8头,Kenana(凯纳牛)11头,LeiqiongCattle(雷琼牛)3头,Limousin(利木赞牛)54头,LingnanCattle(岭南牛)4头,LuxiCattle(鲁西牛)4头,MaineAnjou(曼安茹牛)2头,Mongolian(蒙古牛)3头,Mursi(穆尔西牛)9头,Muturu(穆图鲁牛)4头,N'Dama(达摩牛)4头,Nelore(内洛尔牛)13头,Ogaden(奥加登牛)8头,PolishHolstein-Friesian(波兰荷斯坦-弗里斯兰牛)18头,Rashoki(若索科牛)1头,RedAngus(红安格斯牛)7头,Salers(萨莱牛)1头,Sheko(色科牛)8头,Simmental(西门塔尔牛)81头,TibetanYellow(西藏黄牛)6头,WandongCattle(皖东牛)2头,WannanCattle(皖南牛)2头,WeiningCattle(威宁牛)3头,WenshanCattle(文山牛)5头,XuanhanCattle(宣汉牛)5头,YanbianCattle(延边牛)1头,ZaobeiCattle(枣北牛)3头。
在NCBI上查找家牛的测序信息,根据NCBI提供的登录号,用SRAtoolkit软件中的prefetch工具从NCBI数据库下载SRA文件,或使用ascp从EBI数据库下载fastq文件,平均测序深度为16×。
S2,测序数据的质控和序列对比。
对原始的测序数据文件(fastq格式)用NGSToolkit软件去除接头序列和低质量的读长序列(reads),使用“-l 70-s 20-z g”参数去除测序平台的接头序列,设碱基质量分数低于20的为低质量碱基,去除低质量碱基占比超过70%的低质量reads,压缩后输出高质量reads信息。
使用bwa软件的mem算法及默认参数将通过质量控制的序列信息比对到家牛的参考基因组ARS-UCD1.2(https://www.ncbi.nlm.nih.gov/genome/?term=txid9913)。比对获得的bam文件,用samtools进行排序,用sambamba软件的默认参数去除冗余并建立索引。
S3,SV变异位点的鉴定及分型。
通过以上步骤预处理的bam文件,分别使用Lumpy、Delly、Breakdancer、Pindel软件检测SV。由于各软件输出SV的格式文件有较大差异,本发明分别为四个软件结果编写自定义Python脚本进行过滤和整合,仅保留常染色体上的变异,并去除变异长度低于50bp的SV,保留至少两个软件支持的SV,获得SV列表。共检测到约330万个缺失变异(Deletion,DEL)。
需要说明的是,本发明综合了Lumpy、Delly、Breakdancer、Pindel四款SV检测软件进行研究,Breakdancer软件仅使用RP算法,Pindel、Lumpy、Delly整合了SR和RP算法,相比于仅使用单种检测算法的软件有着更低的错误发现率。四款软件的SV检测类型以及分类标准不一致,在整合过程中保留共有的DEL、DUP、INV三种类型的SV。至少被两款软件同时检测到的SV被保留下来进行后续的研究,在最大程度提高灵敏度的同时增加了准确率。鉴于各软件对相同的SV有不同的判型,本发明设计和开发新的脚本软件GGDTRS.py(https://github.com/yangzhou-bio-lib/SV-information)进行SV的基因分型并生成VCF文件,主要通过识别reads被拆分的断点位置、SV区域的测序深度、reads与断点的位置关系等信息进行基因分型。GGDTRS软件实现对DEL位点在二倍体生物中精准基因分型,具有高准确率的分型效果。
S4,对所有的缺失型SV变异位点进行整合筛选。主要筛选过程包括以下步骤:
S41,首先根据每个位点受个体支持的数量,选择至少受10个个体支持的变异位点,总计17,090个位点,作为所有的高频率位点以备候选。
S42,根据缺失变异(DEL)的群体结构学分析的结果,将群体分类成瘤牛和普通牛两大亚群,利用DEL基因分型数据计算瘤牛和普通牛亚群的选择信号FST值,取FST降序排序后前1%的位点为显著差异位点共获得136个显著位点。进一步分析了受地域选择影响相关的DEL位点,将群体为非洲、西欧、华南、印度、东北亚、中欧-南欧6个亚群,分别计算Di选择信号,获得731个受选择的缺失变异位点;最后为了评估DEL在品种之间的分化差异,本研究选择和过滤样本量大于70的商业化品种,分别计算Di选择信号,挖掘各品种的受选择的DEL位点,共发现了540个受选择的特异DEL位点。
S43,筛选出与移动元件插入MEI相关的受选择的位点共35个。
S44,为了进一步研究不同群体中受选择的位点,对所有缺失型的SV位点按照不同品种和类群进行分类处理,根据不同的类群分别计算选择信号,筛选出Simmental(西门塔尔牛)群体中受选择的高频位点2871个和Holstein(荷斯坦牛)群体中受选择的高频位点3414个。
S45,利用NCBI公共数据库和前期研究所鉴定的基因组功能元件,对缺失型变异位点进行基因注释,主要保留保留落在基因组功能元件区域的位点,总计68573个位点,其中大部分位点落在基因的蛋白编码区域(protein coding),少部分落在了基因的其它区域(如图3)。
S46,最后将受选择信号筛选出的位点与由基因组功能元件筛选出的位点进行整合,筛选出同时受两者支持的位点共9695个,再与所有的高频位点进行合并,最终筛选出同时受三者支持的位点总计12932个。通过以上筛选,共获得12932个DEL(缺失)型SV位点,我们将其称之为VIP(优先保留)位点,作为牛12K SV液相芯片位点的主要组成部分。
S47,额外添加其它4683个高频位点作为补充。
S5,对所有的17615个SV位点(12932个VIP位点和4683个补充位点)进行区间合并整理。合并整理的具体步骤如下:
S51,为保证最终芯片位点区间的唯一性和探针捕获的有效性,按照区间包含关系或重叠关系,且缺失序列长度差小于60bp的规则进行位点合并,同时删除不同变异类型的SV区间合并后区间发生改变的位点,最终保留了16682个SV变异区间。
S52,对16682个SV变异区间进行探针设计,设计的规则为:在DEL断点上下游选取最优的序列为探针序列,探针长度120bp,探针的GC含量30%—70%之间,同源比对的次数<5,同时尽量避开简单重复序列区域。经过严格设计,最终12506个SV区间探针设计成功,包含了9755个VIP的SV区间和2751个补充的SV区间。
S6,根据所有12506个候选位点进行SV芯片的定制。将筛选出的最终候选位点提交至北京康普森农业有限公司进行确认和定制。
表1用于探针设计的12506个位点信息
Claims (10)
2.根据权利要求1所述牛12K SV液相芯片,其特征在于:所述芯片通过下述方法获得:
S1:收集牛的原始第二代全基因组测序数据,比对到牛的参考基因组ARS-UCD1.2,鉴定与筛选出SV变异位点;
S2:根据S1筛选出SV变异位点,结合位点在染色体上的位置,分析其上下游序列并设计测序引物,挑选能够用于芯片开发的SV变异位点;
S3:运用靶向测序基因分型技术开发出所述芯片。
3.权利要求1所述牛12K SV液相芯片在牛品种经济性状候选基因的定位、基因组选择、遗传多样性分析、品种鉴定、性别判断、亲缘关系鉴定、种质资源评价与改良、DNA指纹鉴定、全基因组关联分析或全基因组选择育种中的应用。
4.牛12K SV液相芯片的设计方法,其特征在于:具体包括如下步骤:
S1,牛的二代全基因组测序数据的收集;
S2,测序数据的质控和序列对比;
S3,SV变异位点的鉴定及分型;
S4,对所有的缺失型SV变异位点进行整合筛选;
S5,根据所有候选位点进行SV液相芯片的定制。
5.根据权利要求4所述牛12K SV液相芯片的设计方法,其特征在于:S1的具体过程为:在NCBI上查找家牛的测序信息,根据NCBI提供的登录号,用SRAtoolkit软件中的prefetch工具从NCBI数据库下载SRA文件,或使用ascp从EBI数据库下载fastq文件。
6.根据权利要求4所述牛12K SV液相芯片的设计方法,其特征在于:S2的具体过程为:对原始的测序数据fastq格式文件用NGSToolkit软件去除接头序列和低质量的读长序列reads信息,使用“-l 70-s 20-z g”参数去除测序平台的接头序列,设碱基质量分数低于20的为低质量碱基,去除低质量碱基占比超过70%的低质量reads,压缩后输出高质量reads信息;
使用bwa软件的mem算法及默认参数将通过质量控制的序列信息比对到家牛的参考基因组ARS-UCD1.2,比对获得的bam文件,用samtools进行排序,用sambamba软件的默认参数去除冗余并建立索引。
7.根据权利要求6所述牛12K SV液相芯片的设计方法,其特征在于:S3的具体过程为:通过S2预处理的bam文件,分别使用Lumpy、Delly、Breakdancer、Pindel软件检测SV,分别对四个软件结果进行过滤和整合,仅保留常染色体上的变异,并去除变异长度低于50bp的SV,保留至少两个软件支持的SV,获得SV列表。
8.根据权利要求7所述牛12K SV液相芯片的设计方法,其特征在于:对四个软件结果的过滤和整合采用脚本软件GGDTRS.py进行,脚本软件GGDTRS.py进行SV的基因分型并生成VCF文件,主要通过识别reads被拆分的断点位置、SV区域的测序深度、reads与断点的位置关系进行基因分型。
9.根据权利要求4所述牛12K SV液相芯片的设计方法,其特征在于:S4中整合筛选的具体步骤为:
S41,根据每个位点受个体支持的数量,选择至少受10个个体支持的变异位点作为所有的高频率位点以备候选;
S42,根据缺失变异DEL的群体结构学分析的结果,将群体分类成瘤牛和普通牛两大亚群,利用DEL基因分型数据计算瘤牛和普通牛亚群的选择信号FST值,取FST降序排序后前1%的位点为显著差异位点,进一步分析受地域选择影响相关的DEL位点,将群体为非洲、西欧、华南、印度、东北亚、中欧-南欧6个亚群,分别计算Di选择信号,获得受选择的缺失变异位点;为了评估DEL在品种之间的分化差异,选择和过滤样本量大于70的商业化品种,分别计算Di选择信号,挖掘各品种的受选择的DEL位点,获得受选择的特异DEL位点;
S43,筛选出与移动元件插入MEI相关的受选择的位点;
S44,对所有缺失型的SV位点按照不同品种和类群进行分类处理,根据不同的类群分别计算选择信号,筛选出Simmental西门塔尔牛群体中受选择的高频位点和Holstein荷斯坦牛群体中受选择的高频位点;
S45,利用NCBI公共数据库和已鉴定的基因组功能元件,对缺失型变异位点进行基因注释,主要保留保留落在基因组功能元件区域的位点;
S46,将受选择信号筛选出的位点与由基因组功能元件筛选出的位点进行整合,筛选出同时受两者支持的位点,再与所有的高频位点进行合并,最终筛选出同时受三者支持的位点作为牛12K SV液相芯片位点的主要组成部分;
S47,添加高频位点作为补充;
S48,对S46和S47获得的所有SV位点进行区间合并整理得到最终SV变异位点。
10.根据权利要求9所述牛12K SV液相芯片的设计方法,其特征在于:S48中合并整理的具体步骤为:
S481,为保证最终芯片位点区间的唯一性和探针捕获的有效性,按照区间包含关系或重叠关系,且缺失序列长度差小于60bp的规则进行位点合并,同时删除不同变异类型的SV区间合并后区间发生改变的位点,最终保留合适的SV变异区间;
S482,对S481获得的SV变异区间进行探针设计,设计的规则为:在DEL断点上下游选取最优的序列为探针序列,探针长度120bp,探针的GC含量30%—70%之间,同源比对的次数<5,同时尽量避开简单重复序列区域,最终探针设计成功的SV变异区间作为整合筛选出的最终SV变异位点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310218543.XA CN116144794B (zh) | 2023-03-09 | 2023-03-09 | 牛12k sv液相芯片及其设计方法和应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310218543.XA CN116144794B (zh) | 2023-03-09 | 2023-03-09 | 牛12k sv液相芯片及其设计方法和应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116144794A true CN116144794A (zh) | 2023-05-23 |
CN116144794B CN116144794B (zh) | 2023-12-19 |
Family
ID=86356313
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310218543.XA Active CN116144794B (zh) | 2023-03-09 | 2023-03-09 | 牛12k sv液相芯片及其设计方法和应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116144794B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116606942A (zh) * | 2023-07-19 | 2023-08-18 | 浙江大学海南研究院 | 一种基于液相芯片技术检测畜禽基因组结构变异的方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20100013801A (ko) * | 2008-08-01 | 2010-02-10 | 박민구 | 디스트로핀 유전자 결실, 중복, 점 돌연변이 감별진단방법및 키트, 칩 그리고 이를 이용한 근이양증 스크리닝검사 |
KR20130134269A (ko) * | 2012-05-30 | 2013-12-10 | 주식회사 씨더스 | 차세대염기서열기반 에스엔피 유전형분석을 이용한 초고밀도 유전자지도 작성기법 |
WO2016000267A1 (zh) * | 2014-07-04 | 2016-01-07 | 深圳华大基因股份有限公司 | 确定探针序列的方法和基因组结构变异的检测方法 |
US20160153056A1 (en) * | 2013-02-07 | 2016-06-02 | China National Seed Group Co., Ltd. | Rice whole genome breeding chip and application thereof |
CN110191965A (zh) * | 2017-12-13 | 2019-08-30 | 中国农业大学 | 猪全基因组50k snp芯片及应用 |
CN115109843A (zh) * | 2021-03-22 | 2022-09-27 | 天津市农业科学院 | 一种多个水稻性状控制基因变异检测功能标记方法 |
CN115198023A (zh) * | 2022-08-08 | 2022-10-18 | 海南大学 | 一种海南黄牛液相育种芯片及其应用 |
CN115232880A (zh) * | 2022-05-16 | 2022-10-25 | 海南大学 | 一种海南黑山羊液相芯片及其应用 |
US20230287397A1 (en) * | 2020-10-15 | 2023-09-14 | The Board Of Trustees Of The Leland Stanford Junior University | Detection and analysis of structural variations in genomes |
-
2023
- 2023-03-09 CN CN202310218543.XA patent/CN116144794B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20100013801A (ko) * | 2008-08-01 | 2010-02-10 | 박민구 | 디스트로핀 유전자 결실, 중복, 점 돌연변이 감별진단방법및 키트, 칩 그리고 이를 이용한 근이양증 스크리닝검사 |
KR20130134269A (ko) * | 2012-05-30 | 2013-12-10 | 주식회사 씨더스 | 차세대염기서열기반 에스엔피 유전형분석을 이용한 초고밀도 유전자지도 작성기법 |
US20160153056A1 (en) * | 2013-02-07 | 2016-06-02 | China National Seed Group Co., Ltd. | Rice whole genome breeding chip and application thereof |
WO2016000267A1 (zh) * | 2014-07-04 | 2016-01-07 | 深圳华大基因股份有限公司 | 确定探针序列的方法和基因组结构变异的检测方法 |
CN106715711A (zh) * | 2014-07-04 | 2017-05-24 | 深圳华大基因股份有限公司 | 确定探针序列的方法和基因组结构变异的检测方法 |
CN110191965A (zh) * | 2017-12-13 | 2019-08-30 | 中国农业大学 | 猪全基因组50k snp芯片及应用 |
US20230287397A1 (en) * | 2020-10-15 | 2023-09-14 | The Board Of Trustees Of The Leland Stanford Junior University | Detection and analysis of structural variations in genomes |
CN115109843A (zh) * | 2021-03-22 | 2022-09-27 | 天津市农业科学院 | 一种多个水稻性状控制基因变异检测功能标记方法 |
CN115232880A (zh) * | 2022-05-16 | 2022-10-25 | 海南大学 | 一种海南黑山羊液相芯片及其应用 |
CN115198023A (zh) * | 2022-08-08 | 2022-10-18 | 海南大学 | 一种海南黄牛液相育种芯片及其应用 |
Non-Patent Citations (1)
Title |
---|
岳桂东;高强;罗龙海;王军一;许姣卉;尹烨;: "高通量测序技术在动植物研究领域中的应用", 中国科学:生命科学 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116606942A (zh) * | 2023-07-19 | 2023-08-18 | 浙江大学海南研究院 | 一种基于液相芯片技术检测畜禽基因组结构变异的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116144794B (zh) | 2023-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115198023B (zh) | 一种海南黄牛液相育种芯片及其应用 | |
CN116144794B (zh) | 牛12k sv液相芯片及其设计方法和应用 | |
CN110656157B (zh) | 用于高通量测序样本溯源的质控品及其设计和使用方法 | |
CN114657238B (zh) | 一种枸杞40k液相芯片及应用 | |
CN111534602A (zh) | 一种基于高通量测序分析人类血型基因型的方法及其应用 | |
CN113249495A (zh) | 一种绵羊液相芯片及其应用 | |
CN114959059B (zh) | 一种与细毛羊羊毛纤维直径变异系数相关的snp位点组合及其应用 | |
CN108642568A (zh) | 一种家犬全基因组低密度品种鉴定专用snp芯片设计方法 | |
CN109706231A (zh) | 一种用于凡纳滨对虾分子育种的高通量snp分型方法 | |
CN107862177B (zh) | 一种区分鲤群体的单核苷酸多态性分子标记集的构建方法 | |
CN108376210A (zh) | 基因组信息辅助育种方法ⅱ-一种基于全基因组snp有利单倍型挖掘的育种亲本选择方法 | |
CN109402247B (zh) | 一种基于dna变异计数的胎儿染色体检测系统 | |
CN112885407B (zh) | 一种基于二代测序的微单倍型检测分型系统和方法 | |
CN117587159B (zh) | 一种辣椒snp分子标记组合、snp芯片及其应用 | |
JP2021122180A (ja) | 疾患dnaの定量方法 | |
CN117305503B (zh) | 用于柑橘基因型鉴定的20k液相芯片及其应用 | |
CN117701722B (zh) | 一种牛高原适应育种10k液相芯片及应用 | |
CN117089635B (zh) | 分析山羊繁殖性能的分子标记组合及应用 | |
CN111128297B (zh) | 一种基因芯片的制备方法 | |
CN118098347A (zh) | 牛的23k甲基化芯片及其设计方法和应用 | |
CN117089633B (zh) | 分析山羊绒毛有无的分子标记组合及应用 | |
CN116386717A (zh) | 水牛的全基因组50k snp芯片及其设计方法和应用 | |
CN115679011A (zh) | 一种snp分子标记组合及其在玉米种质鉴定和育种中的应用 | |
CN117646081A (zh) | 辣椒gbts液相基因芯片及其应用 | |
CN116334247A (zh) | 用于水牛基因分型的snp分子标记组合及其应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |