CN116606942A - 一种基于液相芯片技术检测畜禽基因组结构变异的方法 - Google Patents
一种基于液相芯片技术检测畜禽基因组结构变异的方法 Download PDFInfo
- Publication number
- CN116606942A CN116606942A CN202310883827.0A CN202310883827A CN116606942A CN 116606942 A CN116606942 A CN 116606942A CN 202310883827 A CN202310883827 A CN 202310883827A CN 116606942 A CN116606942 A CN 116606942A
- Authority
- CN
- China
- Prior art keywords
- structural variation
- variation
- genome
- liquid phase
- sequencing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 239000007791 liquid phase Substances 0.000 title claims abstract description 45
- 238000005516 engineering process Methods 0.000 title claims abstract description 31
- 244000144972 livestock Species 0.000 title claims abstract description 18
- 244000144977 poultry Species 0.000 title claims abstract description 16
- 238000001514 detection method Methods 0.000 claims abstract description 52
- 239000000523 sample Substances 0.000 claims description 45
- 238000012163 sequencing technique Methods 0.000 claims description 33
- 238000003908 quality control method Methods 0.000 claims description 16
- 238000004458 analytical method Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 11
- 238000013461 design Methods 0.000 claims description 10
- 230000007614 genetic variation Effects 0.000 claims description 10
- 238000012216 screening Methods 0.000 claims description 8
- 239000007788 liquid Substances 0.000 claims description 5
- 230000036438 mutation frequency Effects 0.000 claims description 5
- 238000009826 distribution Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 210000000349 chromosome Anatomy 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000003205 genotyping method Methods 0.000 claims description 3
- 230000008685 targeting Effects 0.000 claims description 2
- 102000054765 polymorphisms of proteins Human genes 0.000 claims 1
- 238000009395 breeding Methods 0.000 abstract description 18
- 230000001488 breeding effect Effects 0.000 abstract description 18
- 238000011160 research Methods 0.000 abstract description 14
- 230000002068 genetic effect Effects 0.000 abstract description 11
- 230000004907 flux Effects 0.000 abstract description 5
- 230000006872 improvement Effects 0.000 abstract description 4
- 241000894007 species Species 0.000 abstract description 4
- 238000011161 development Methods 0.000 abstract description 3
- 241001465754 Metazoa Species 0.000 abstract description 2
- 230000008827 biological function Effects 0.000 abstract 1
- 230000004069 differentiation Effects 0.000 abstract 1
- 230000001737 promoting effect Effects 0.000 abstract 1
- 239000004005 microsphere Substances 0.000 description 20
- 230000035772 mutation Effects 0.000 description 16
- 239000012634 fragment Substances 0.000 description 14
- 238000001914 filtration Methods 0.000 description 7
- 108020004414 DNA Proteins 0.000 description 5
- 238000012217 deletion Methods 0.000 description 5
- 230000037430 deletion Effects 0.000 description 5
- 238000003780 insertion Methods 0.000 description 5
- 230000037431 insertion Effects 0.000 description 5
- 238000012165 high-throughput sequencing Methods 0.000 description 4
- 238000002360 preparation method Methods 0.000 description 4
- 108090000623 proteins and genes Proteins 0.000 description 4
- 238000007671 third-generation sequencing Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- YBJHBAHKTGYVGT-ZKWXMUAHSA-N (+)-Biotin Chemical compound N1C(=O)N[C@@H]2[C@H](CCCCC(=O)O)SC[C@@H]21 YBJHBAHKTGYVGT-ZKWXMUAHSA-N 0.000 description 2
- 239000004793 Polystyrene Substances 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012268 genome sequencing Methods 0.000 description 2
- 238000009396 hybridization Methods 0.000 description 2
- 150000007523 nucleic acids Chemical class 0.000 description 2
- 229920002223 polystyrene Polymers 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 102000053602 DNA Human genes 0.000 description 1
- 230000004544 DNA amplification Effects 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- 102000004190 Enzymes Human genes 0.000 description 1
- 241000282819 Giraffa Species 0.000 description 1
- 108020004711 Nucleic Acid Probes Proteins 0.000 description 1
- 238000012408 PCR amplification Methods 0.000 description 1
- 108010004729 Phycoerythrin Proteins 0.000 description 1
- 238000003975 animal breeding Methods 0.000 description 1
- 239000000427 antigen Substances 0.000 description 1
- 108091007433 antigens Proteins 0.000 description 1
- 102000036639 antigens Human genes 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 229960002685 biotin Drugs 0.000 description 1
- 235000020958 biotin Nutrition 0.000 description 1
- 239000011616 biotin Substances 0.000 description 1
- 238000006757 chemical reactions by type Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 238000004132 cross linking Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 239000000975 dye Substances 0.000 description 1
- 238000001952 enzyme assay Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 239000007850 fluorescent dye Substances 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000003018 immunoassay Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000003446 ligand Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000002493 microarray Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 239000002853 nucleic acid probe Substances 0.000 description 1
- 108020004707 nucleic acids Proteins 0.000 description 1
- 102000039446 nucleic acids Human genes 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005191 phase separation Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000004451 qualitative analysis Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 238000010223 real-time analysis Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012772 sequence design Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6888—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
- C12Q1/6874—Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/50—Mutagenesis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/156—Polymorphic or mutational markers
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A40/00—Adaptation technologies in agriculture, forestry, livestock or agroalimentary production
- Y02A40/70—Adaptation technologies in agriculture, forestry, livestock or agroalimentary production in livestock or poultry
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Analytical Chemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Organic Chemistry (AREA)
- Biophysics (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Wood Science & Technology (AREA)
- Zoology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Biochemistry (AREA)
- Microbiology (AREA)
- Immunology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种基于液相芯片技术检测畜禽基因组结构变异的方法,旨在满足当今现代种业领域对高通量、高精度且低成本的新方法和新技术的需求,以促进基因组学研究和生物育种应用的发展。本发明利用液相芯片技术的高通量和低成本优势,通过整合基于图形(Graph‑based)基因组的结构变异检测算法,开发群体规模的结构变异检测新方法。该方法可应用于基因组学基础研究、表型性状关联、遗传标记辅助精准育种等研究领域,有助于促进对生物体种内和种间的结构变异在群体分化和生物功能影响方面的理解,进一步加速经济动物的品种改良和新品种繁育。
Description
技术领域
本发明涉及一种基于液相芯片技术检测畜禽基因组结构变异的方法,尤其适用于现代畜禽种业的高通量、低成本的基因组学研究及育种应用的新方法和新技术。
背景技术
液相分型芯片技术是一种高通量的种业技术,其应用广泛。该技术采用高度集成化的探针杂交-延伸-连接反应,可以在单个PCR管内对多达上万个已知基因SNP、Indel等变异标记位点进行准确的定性、定量检测,具有操作快速简单、灵敏度高、重复性好、成本低等优点。其特点在于仅仅基于少量样本即可完成同一样本中的多种变异标记的同时定性、定量检测工作,并且操作快速简单、灵敏度高、重复性好、成本较低。
液相芯片体系是以聚苯乙烯(polystyrene)制成的许多大小均一的圆形微球(直径5.5~5.6 μm)为主要基质构成,每种微球上固定有不同的探针分子,将这些微球悬浮于一个液相体系中,就构成了一个液相芯片系统,利用这个系统可以对同一个样品中的多种不同分子同时进行检测。这些微球可根据不同研究目的如免疫分析、核酸研究、酶分析、受体和配体识别分析等,来标记特定抗体、核酸探针与各种受体探针。
在液相系统中,为了区分不同的探针,每一种固定有探针的微球都有一个独特的色彩编号,或称荧光编码。在微球制造过程中掺入了红色和绿色两种荧光染料(这两种染料各有10种不同区分),从而把微球分为100种不同的颜色,形成一个具有独特光谱地址的含有100种不同微球的阵列。不同颜色微球在分类激光激发下产生的荧光互不相同,这种分类荧光是识别不同微球的唯一途径。利用这100种微球,可以分别标记100种不同的探针分子。
检测时先后加入样品和报告分子与标记微球在96孔板中进行反应,样品中的目的分子(待检测的抗原或抗体、生物素标记的靶核酸片段、酶等)能够与探针和报告分子特异性结合,使交联探针的微球携带上报告分子藻红蛋白,随后利用仪器(如Luminex 200)对微球进行检测和结果分析。
红色激光可将微球分类,从而鉴定各个不同的反应类型(即定性);绿色激光可确定微球上结合的报告荧光分子的数量,从而确定微球上结合的目的分子的数量(即定量)。因此,通过红绿双色激光的同时检测,完成对反应的实时、定性和定量分析。
当前高通量“液相芯片”的遗传变异分型技术的应用仅仅局限于传统SNP遗传变异的检测。目前缺少成熟可靠的计算方法整合,以将其应用于大片段的结构变异检测中。SNP即单核苷酸多态性,是单个DNA碱基的变异,密度较大,是目前育种工作主要的应用对象。与SNP不同的是,Indel是插入或缺失少量碱基的变异,而大片段的结构变异(即本发明的主要针对对象)包含50bp以上序列的插入或者缺失,以及拷贝数变异和转置等。相较于SNP和Indel,大片段结构变异具有更大的基因组结构变化影响效应,能够补充SNP标记信号以及仅基于SNP研究丢失的遗传力,从而解释更加完整的表型变异。同时,大片段结构变异可以展示出不同个体之间的差异,甚至同一基因组内不同部分之间的差异。
但是由于大片段结构变异的长度通常等于或大于高通量测序的序列长度,因此其检测效率一直无法显著提升,这是遗传学研究领域的一大难题。尽管新的高通量测序技术,例如长读段和单分子测序可以有效提高检测效率,但是由于其成本过高,无法实现群体规模的基因组结构变异检测。
发明内容
针对上述背景技术中存在的缺陷,本发明提供一种基于液相芯片技术检测畜禽基因组结构变异的方法。该方法利用了局部基于图的泛基因组(Local graph-basedpangenome)进行高精度单碱基水平的结构变异分型,这是一种新颖的方法,可以更准确地检测出群体规模水平的结构变异,而这一技术的引入,将有助于提高遗传变异检测的准确度和精度。此外,这种新的技术也有望在未来的遗传学研究中得到广泛的应用,为更好地了解基因组多样性提供有力的支持。
本发明采用以下技术方案实现:
一种基于液相芯片技术检测畜禽基因组结构变异的方法,由候选结构变异筛选和质控、液相芯片设计和捕获测序、基于图形基因组的结构变异检测运算三部分组成。其中候选结构变异筛选和质控作为本发明的准备阶段,液相芯片制定的特异性由此阶段所决定,取决于候选变异来源的物种、品种、功能区域和群体频率等特征。基于图形基因组的结构变异检测运算依据液相芯片捕获测序的结果共同完成遗传信息捕获与处理操作。
该方法结合了液相芯片高通量、低成本等优点和基于图形基因组的结构变异检测算法的优势,实现了大片段结构变异的高通量低成本检测,具体包括以下三个步骤:
步骤1. 候选结构变异筛选和质控
筛选出用于结构变异分型的候选结构变异数据集。
可基于分析前期的研究积累和工作经验,确定最优的候选结构变异集,这样可以确保芯片检测结果的准确性和可靠性。在确定候选结构变异集时,需要进行质控过滤,质控过滤过程中需考虑多个因素,如结构变异长度和染色体分布特征、变异群体突变频率、断点侧翼序列重复特征和结构变异注释信息。这些因素不仅会影响芯片的检测效果,而且还会对后续的数据分析和结果解释产生重要影响。
该步骤的目的是为步骤2提供高质量候选结构变异数据集,为芯片设计提供基础。
步骤2.液相芯片设计和捕获测序
基于步骤1筛选的候选结构变异数据集,利用所选的液相芯片捕获平台,完成探针设计并进行序列捕获测序。
液相芯片捕获技术可以捕获特定的基因组区域,从而实现对这些区域的高通量测序。进行液相芯片捕获之前,需选定靶向捕获测序平台对筛选出的结构变异数据集进行测序,例如 Luminex 200 xMAP平台或TargetCap靶向捕获测序平台等。探针设计是液相芯片捕获中的关键步骤之一。探针的设计需要进行严格的质控,包括但不限于:探针序列特异性和保守性分析。即探针只能绑定到目标序列上而不会绑定到其他非目标序列上,同时需确保探针的保守性,降低因探针靶序列遗传突变的导致脱靶的可能性,这样可以提高捕获效率并减少脱靶率。通过以上质控步骤,可以确保探针的准确性和可靠性,从而提高基因组结构变异的检测效力。
该步骤的目的是在步骤1的候选遗传变异信息基础之上,基于候选结构变异探针特异性地捕获样品遗传信息,为步骤3提供测序结果,从而为高通量测序数据的分析和解读提供重要支持。
步骤3. 基于图形基因组的结构变异检测
基于步骤2的测序结果,进行测序信息到遗传变异多态性转化,完成遗传信息数字化工作。
结构变异检测在Linux平台上完成。该结构变异检测是基于图形基因组的结构变异检测,检测流程包括以下步骤:
首先,建立局部图形基因组,利用候选结构变异序列与断点信息,在线性参考基因组的基础上建立局部图形基因组。这样可以更好地包含待检测的结构变异特征信息,同时也能提供更准确的测序序列比对参考模板,以便于后续结构变异的分型。
然后,进行目标序列比对,将液相芯片捕获的测序信息与局部图形基因组进行比对,完成结构变异断点定位和基因分型。
最后,进行变异质控评估,对检测结果进行评估和筛选,并结合前期结构变异注释信息完成最终的结构变异鉴定的检测报告,以便畜禽研究者和育种专家更好地理解变异类型和意义。
通过以上流程,该算法可以实现一站式检测流程,从而快速、高效地检测基因组结构变异,为育种研究和遗传力挖掘提供有力的支持。
该步骤的目的是将液相芯片捕获的测序信息转化为基因型信息,以确定待测个体对应遗传变异的多态特征。
本发明的发明原理为:
为了更好地理解和解决遗传变异问题,将新的基于液相芯片的局部捕获测序技术引入遗传变异检测工作中,可以更好地捕获局部变异信息。本发明利用液相芯片高通量、重复性好、成本低等优点,结合基于图形基因组的结构变异检测的算法优势,真正意义上实现高通量且低成本的全基因组范围内的大片段结构变异检测。本发明方法不仅可以提高研究效率,更可以在育种中发挥更大的作用。在实际应用中,大片段结构变异检测可以为研究人员提供更全面的基因组结构信息,帮助确定基因组中的关键区域和重要基因。同时,对于育种工作,大片段结构变异检测可以辅助研究人员更好地挖掘遗传力,提高畜禽经济性状的产量和品质。
在本发明的基因组结构变异检测中,基于图形基因组的算法对于大片段的插入、缺失、拷贝数变异等变异类型的鉴定具有很大优势。这是因为基于线性基因组的传统算法必须从一个参考基因组来比对序列,而大片段的变异往往会导致序列不连续,从而无法通过线性比对得到准确结果。基于图形基因组的算法则可以通过构建基因组的变异图来解决这一问题:在变异图中,每个节点表示基因组的一个片段,边则表示片段之间的关系。通过对变异图的分析,可以准确地鉴定大片段的插入、缺失、拷贝数变异等变异类型,而且可以在同一变异区域保留多个不同个体的遗传变异信息,真正地代表一个种群的遗传信息。本发明方法可以为品种改良、基因育种、物种进化等研究提供重要帮助。
本发明的有益效果为:
本发明开发了一种基于液相芯片技术检测畜禽基因组结构变异的方法。该方法与传统的SNP芯片和微阵列比较基因组杂交(Array CGH)等方法相比,在检测精准度方面具有显著的提高。而相对于基于二代重测序(NGS)和三代测序的结构变异检测,该方法可以在不失去检测精准度的前提下,极大地降低检测成本。因此,本发明的方法在群体规模的研究中更为适用。同时,该方法也适用于动物分子育种的发展。相比于传统动物育种方式,通常需要多世代的杂交和表型筛选过程来获得优良的基因型。使用本发明方法可以低成本地提前获取关键结构变异基因型信息,有效地降低世代间隔,提高育种效率,从而更为高效地实现分子育种。此外,传统的基因组测序技术由于测序序列长度限制,导致结构变异检测的精度较低。而基于图形基因组的结构变异检测方法能够有效克服这一问题,因为它可以在一个断点处同时考虑多种基因型的存在,从而提高结构变异检测的准确性。并且将其与液相芯片技术相结合,可以充分发挥液相芯片技术在基因组测序中的优势,并弥补液相芯片技术测序序列长度的不足。因此,本发明的开发将有利于液相芯片技术在基础研究以及生物育种中的应用,通过提高基因组测序的准确性,为生物研究和育种工作提供更高质量的数据基础。
综上所述,本发明的基于液相芯片技术检测结构变异的方法具有精准度高、成本低、适用范围广等优点。因此,该方法在相关领域的研究和应用中具有广泛的前景和应用价值。
附图说明
图1是本发明方法的流程图。
具体实施方式
如图1所示为本发明方法的流程图。本发明的一种基于液相芯片技术检测畜禽基因组结构变异的方法,具体包括以下步骤:
1)结构变异收集
用于开发特定液相芯片的结构变异数据集通常基于前期科研积累和公共测序数据挖掘结果,收集的变异主要基于二代或三代测序检测结果。基于三代测序方法可准确检测插入或缺失序列的断点信息直接用于芯片构建;基于二代测序的方法可以整合多种检测策略,例如:基于双端测序读段匹配、基于测序读段分割匹配和基于测序读段的覆盖度方法。其中二代检测结果通常需要进一步通过局部组装过程实现断点的精确校准。
2)质控过滤
对收集到的多种来源的结构变异数据集进行质控过滤,得到最终的候选结构变异数据集。结构变异的质控过滤过程需要考虑结合结构变异长度和染色体分布、变异群体突变频率、断点侧翼序列重复特征和结构变异所在基因组注释信息。结构变异质控过滤的条件具有可变性,可依据液相芯片的检测目的进行调整。
3)探针设计及质控
对每个候选结构变异设计1-2个探针,探针长度可设置为基因组k-mer值的2倍数值。探针序列设计的质控过程主要包括特异性和保守性分析。特异性分析是将设计的探针序列进行全基因组序列比对,保留具有序列特异性的探针。保守性分析是通过探针靶向序列位置信息与已知SNP数据集比较,排除具有两个以上高频率SNP位点(突变频率 > 0.2)的探针。以上步骤将有效降低低质量探针比例,以保证探针的捕获效率。
4)液相芯片系统制备
以Luminex公司的xMAP的检测技术为例,基于步骤3)所设计的探针序列进行探针制备并固定在大小均一的圆形微球基质(直径5.5~5.6 μm)实现液相芯片系统制备,固定有探针的微球具有独特的荧光编码用于特异性信息识别,可以保证对同一样品中的多种不同分子同时进行检测。
5)探针靶向捕获
检测时,提取基因组DNA加入到液相芯片系统与携带探针的微球进行反应,确保目的DNA分子和探针特异性结合,交联探针实现靶向捕获。
6)DNA扩增和测序
对捕获得到的目标区域DNA进行清洗,去除非捕获序列提高捕获效率,对洗脱下来的DNA捕获产物进行PCR扩增,构建Illumina测序文库。
7)局部图形基因组构建
针对特定畜禽物种,在NCBI公共数据库下载其线性参考基因组序列。基于候选结构变异位点信息分割参考基因组序列,其中分割范围为结构变异断点处上下游10kb长度。基于分割后的局部参考基因组分别整合对应的结构变异序列信息(vcf格式),利用Variation Graph(VG)软件建立局部图形基因组,并为其构建xg、vg、snarls等索引信息用于后续比对。
8)目标序列比对
首先,为了确保比对数据的质量,需要通过 Fastqc 软件进行接头去除和数据质控处理。然后,使用 VG 软件中的 Giraffe 流程,将经过质控处理的测序数据回贴到局部图形基因组上。接着,利用 VG 软件中的 Filter 流程,基于比对质量进行序列过滤 (比对质量分数 > 5),以提高比对质量。最后,使用 VG 软件中的 Stats 流程评估比对分布特征以及捕获效率。
9)结构变异分型
将成功比对的测序数据结果进一步利用 VG 软件的 Call 流程进行结构变异检测和基因分型。其中,分型的过程中可选择建立验证群体,依据实际分型效率进行参数优化,调整分型阈值。
10)变异质控评估
对检测结果进行评估和筛选,并结合前期结构变异注释信息完成最终的结构变异鉴定的检测报告,以便畜禽研究者和育种专家更好地理解变异类型和意义。
液相芯片的制备过程应采用验证群体测试芯片探针序列和数据分析流程。验证群体个体数不应少于100个样本,并且应尽量保证遗传背景的多样性。通过比较候选结构变异在二代/三代测序与液相芯片检测结果的差异,优化结构变异分型算法参数。此外,在进行大规模液相芯片利用过程中,候选结构变异的群体频率以及检测率也可以作为主要的评估依据。
为了确保高质量液相芯片及其配套分析流程,将液相芯片技术与基于图形基因组的分析方法相结合,利用非线性比对策略,在很大程度上重塑了评估序列多样性整体格局的方法,可以在一个断点处同时考虑多种基因型的存在,从而提高了结构变异检测的准确性。在解决线性基因组无法有效鉴定大片段插入、缺失、拷贝数变异等问题的同时,能够存储、展示类群中不同个体的遗传变异信息,从而真正代表一个类群的遗传信息,为畜禽改良、基因育种、物种进化等研究提供了新的推动力。
Claims (4)
1.一种基于液相芯片技术检测畜禽基因组结构变异的方法,其特征在于,步骤如下:
1)候选结构变异的筛选和质控:筛选用于结构变异分型的候选结构变异数据集;同时,考虑结构变异长度、染色体分布、变异群体突变频率、断点侧翼序列重复特征和结构变异注释信息,进行候选结构变异的质控工作;
2)芯片设计和捕获测序:基于步骤1)筛选出的候选结构变异数据集,利用液相芯片捕获平台,完成探针设计并进行序列捕获测序;
3)基于图形基因组的结构变异检测:基于步骤2)的测序结果,进行测序信息到遗传变异多态性的转化。
2.根据权利要求1所述的基于液相芯片技术检测畜禽基因组结构变异的方法,其特征在于,步骤2)中,所述液相芯片捕获平台为Luminex 200 xMAP平台或TargetCap靶向捕获测序平台。
3.根据权利要求1所述的基于液相芯片技术检测畜禽基因组结构变异的方法,其特征在于,步骤2)中,所述探针设计需进行质控,质控过程包括特异性分析和保守性分析;所述特异性分析是将设计的探针序列进行全基因组序列比对,保留具有序列特异性的探针;所述保守性分析是通过探针靶向序列位置信息与已知SNP数据集比较,排除具有两个以上突变频率 > 0.2的SNP位点的探针。
4.根据权利要求1所述的基于液相芯片技术检测畜禽基因组结构变异的方法,其特征在于,所述步骤3)具体为:
首先,建立局部图形基因组,利用步骤2)测序得到的候选结构变异序列与断点信息,在线性参考基因组的基础上建立局部图形基因组;
然后,进行目标序列比对,将步骤2)获得的测序结果与局部图形基因组进行比对,完成结构变异断点定位和基因分型;
最后,进行变异质控评估,对检测结果进行评估和筛选,结合前期结构变异注释信息完成最终的结构变异鉴定的检测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310883827.0A CN116606942A (zh) | 2023-07-19 | 2023-07-19 | 一种基于液相芯片技术检测畜禽基因组结构变异的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310883827.0A CN116606942A (zh) | 2023-07-19 | 2023-07-19 | 一种基于液相芯片技术检测畜禽基因组结构变异的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116606942A true CN116606942A (zh) | 2023-08-18 |
Family
ID=87683886
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310883827.0A Pending CN116606942A (zh) | 2023-07-19 | 2023-07-19 | 一种基于液相芯片技术检测畜禽基因组结构变异的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116606942A (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060035252A1 (en) * | 2003-04-28 | 2006-02-16 | Applera Corporation | Methods and workflows for selecting genetic markers utilizing software tool |
CN101445831A (zh) * | 2008-12-23 | 2009-06-03 | 广州益善生物技术有限公司 | Fshr基因突变检测液相芯片及其检测方法 |
US20150156982A1 (en) * | 2012-06-01 | 2015-06-11 | Agriculture Victoria Services Pty Ltd | Selection of Symbiota by Screening Multiple Host-Symbiont Associations |
US20180137387A1 (en) * | 2016-11-16 | 2018-05-17 | Seven Bridges Genomics Inc. | Systems and Methods for Aligning Sequences to Graph References |
CN110033827A (zh) * | 2019-01-18 | 2019-07-19 | 臻悦生物科技江苏有限公司 | Hla基因分型的方法、装置、存储介质及处理器 |
CN113571131A (zh) * | 2021-08-06 | 2021-10-29 | 广东省农业科学院水稻研究所 | 一种泛基因组的构建方法及其相应的结构变异挖掘方法 |
CN113628685A (zh) * | 2021-07-27 | 2021-11-09 | 广东省农业科学院水稻研究所 | 一种基于多个基因组比较和二代测序数据的全基因组关联分析方法 |
CN114882956A (zh) * | 2022-04-19 | 2022-08-09 | 中国医学科学院医学实验动物研究所 | 一种基于图的泛基因组数据组织方法及其系统 |
CN115305290A (zh) * | 2022-08-30 | 2022-11-08 | 西北农林科技大学 | 一种鸡液相芯片及其应用 |
CN116144794A (zh) * | 2023-03-09 | 2023-05-23 | 华中农业大学 | 牛12k sv液相芯片及其设计方法和应用 |
CN116334248A (zh) * | 2023-04-07 | 2023-06-27 | 江苏省家禽科学研究所 | 一种地方鸡遗传资源保护与品种鉴定的液相芯片及其应用 |
-
2023
- 2023-07-19 CN CN202310883827.0A patent/CN116606942A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060035252A1 (en) * | 2003-04-28 | 2006-02-16 | Applera Corporation | Methods and workflows for selecting genetic markers utilizing software tool |
CN101445831A (zh) * | 2008-12-23 | 2009-06-03 | 广州益善生物技术有限公司 | Fshr基因突变检测液相芯片及其检测方法 |
US20150156982A1 (en) * | 2012-06-01 | 2015-06-11 | Agriculture Victoria Services Pty Ltd | Selection of Symbiota by Screening Multiple Host-Symbiont Associations |
US20180137387A1 (en) * | 2016-11-16 | 2018-05-17 | Seven Bridges Genomics Inc. | Systems and Methods for Aligning Sequences to Graph References |
CN110033827A (zh) * | 2019-01-18 | 2019-07-19 | 臻悦生物科技江苏有限公司 | Hla基因分型的方法、装置、存储介质及处理器 |
CN113628685A (zh) * | 2021-07-27 | 2021-11-09 | 广东省农业科学院水稻研究所 | 一种基于多个基因组比较和二代测序数据的全基因组关联分析方法 |
CN113571131A (zh) * | 2021-08-06 | 2021-10-29 | 广东省农业科学院水稻研究所 | 一种泛基因组的构建方法及其相应的结构变异挖掘方法 |
CN114882956A (zh) * | 2022-04-19 | 2022-08-09 | 中国医学科学院医学实验动物研究所 | 一种基于图的泛基因组数据组织方法及其系统 |
CN115305290A (zh) * | 2022-08-30 | 2022-11-08 | 西北农林科技大学 | 一种鸡液相芯片及其应用 |
CN116144794A (zh) * | 2023-03-09 | 2023-05-23 | 华中农业大学 | 牛12k sv液相芯片及其设计方法和应用 |
CN116334248A (zh) * | 2023-04-07 | 2023-06-27 | 江苏省家禽科学研究所 | 一种地方鸡遗传资源保护与品种鉴定的液相芯片及其应用 |
Non-Patent Citations (4)
Title |
---|
HENG LI 等: "The design and construction of reference pangenome graphs with minigraph", GENOME BIOLOGY, vol. 21, no. 1 * |
YUCHENG LIU 等: "From one linear genome to a graph-based pan-genome: a new era for genomics", SCIENCE CHINA LIFE SCIENCES, vol. 63, no. 12, pages 1940 * |
储陈辰 等: "杨树泛基因组构建与基因组变异分析", 南京林业大学学报(自然科学版), vol. 46, no. 6, pages 4 - 1 * |
邱恒清 等: "利用猪1.4M高密度SNP芯片检测巴马香猪全基因组拷贝数变异", 畜牧兽医学报, vol. 51, no. 9, pages 2079 - 2088 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112695107B (zh) | 一种肉用绵羊生长性能snp位点组合及其应用 | |
CN113278712B (zh) | 分析绵羊毛色的基因芯片、分子探针组合、试剂盒及应用 | |
CN112695108B (zh) | 一种肉用绵羊繁殖性能snp位点组合及其应用 | |
CN115198023B (zh) | 一种海南黄牛液相育种芯片及其应用 | |
CN114657238B (zh) | 一种枸杞40k液相芯片及应用 | |
WO2023001211A1 (zh) | 一种分析绵羊毛用性状的基因芯片、分子探针组合、试剂盒及应用 | |
CN111088382B (zh) | 一种玉米全基因组snp芯片及其应用 | |
CN109554493A (zh) | 一种梅花垂枝性状紧密连锁的snp分子标记及其检测方法与应用 | |
CN115029451A (zh) | 一种绵羊液相芯片及其应用 | |
CN116030892B (zh) | 一种鉴定染色体相互易位断点位置的系统和方法 | |
CN111647649A (zh) | 一种基于ccdc39基因cnv检测辅助选择黄牛生长性状的方法 | |
CN113718052A (zh) | 5000个snp位点组合的应用及小麦品种真实性身份鉴定的方法 | |
CN108866155B (zh) | 一种下一代测序文库的制备方法 | |
CN116606942A (zh) | 一种基于液相芯片技术检测畜禽基因组结构变异的方法 | |
CN114292924A (zh) | 梅花鹿全基因组snp分子标记组合、snp芯片及应用 | |
CN113293220A (zh) | 分析绵羊耳部大小的基因芯片、分子探针组合、试剂盒及应用 | |
CN113355401A (zh) | 一种基于ngs的cnv分析检测脑胶质瘤染色体的方法 | |
CN112522381A (zh) | 一种同时检测基因突变与拷贝数变化的高通量方法 | |
CN117089635B (zh) | 分析山羊繁殖性能的分子标记组合及应用 | |
CN117089636B (zh) | 分析山羊肉用性能的分子标记组合及应用 | |
CN117089633B (zh) | 分析山羊绒毛有无的分子标记组合及应用 | |
Karim et al. | A review of image analysis techniques for gene spot identification in cDNA Microarray images | |
CN117089634B (zh) | 分析山羊奶用性能的分子标记组合及应用 | |
CN117265088B (zh) | 一种仿刺参性别特异性分子标记及其筛选方法、应用 | |
CN117106935B (zh) | 分析山羊有无角性状的分子标记组合及应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20230818 |