CN116515955B

CN116515955B - 一种多基因靶向分型方法

Info

Publication number: CN116515955B
Application number: CN202310729058.9A
Authority: CN
Inventors: 于洋; 李富花; 刘桂嘉; 杨竣清
Original assignee: Institute of Oceanology of CAS
Current assignee: Institute of Oceanology of CAS
Priority date: 2023-06-20
Filing date: 2023-06-20
Publication date: 2023-11-17
Anticipated expiration: 2043-06-20
Also published as: CN116515955A

Abstract

本发明属于生物技术领域，具体涉及一种多基因靶向分型方法。本发明通过两套PCR引物，进行一轮PCR扩增可实现对不同靶基因的富集以及不同个体高通量测序文库的构建，之后对文库进行高通量测序，并通过生物信息学软件获得不同个体靶基因中不同目标片段的遗传变异信息，进而实现多个靶基因的基因分型。本发明提供的技术方案操作简单、成本低，可以快速实现大量个体多个目标靶基因的分析，用于目标基因或序列的SNP分型、单倍型分析、基因编辑个体筛选等，在基因组学和遗传学研究中具有广泛的应用前景。

Description

一种多基因靶向分型方法

技术领域

本发明属于生物技术领域，具体涉及一种多基因靶向分型方法。

背景技术

随着对生物功能基因研究的深入，越来越多与生物表型显著相关的目标基因被发掘，因此针对目标基因序列进行高通量分析的需求日益迫切。相较于全基因组重测序技术需要对个体的所有基因进行分析，靶向基因分型技术通过对目标基因捕获后开展高通量测序，具有针对性强、准确率高且分析成本低的优势，目前已经成为了目标基因分析的主流技术，已在农业种质资源鉴定、分子育种、基因的精细定位、基因编辑事件检测等方面发挥了重要作用。

针对目标基因序列进行靶向富集的技术包括基于探针杂交捕获技术和基于多重PCR扩增捕获技术两种，基于探针杂交的技术操作流程较复杂，对仪器设备的要求较高，而基于多重PCR扩增的靶基因富集技术具有操作简单，建库流程短，成本低等特点，尤其适合几十乃至数百个目标基因的序列分析。前期建立的基于多重PCR扩增的靶基因分型技术，需要首先对多个靶基因片段进行多重PCR扩增，之后对扩增产物纯化后分别通过酶切、连接后加入测序接头完成建库（申请号202110450756.6，通过扩增子测序用引物的设计及扩增子测序文库的构建方法）。该流程对PCR产物进行多次处理，操作流程长，成本高。因此研究人员提出了直接把测序接头加到PCR引物上，通过两轮PCR扩增构建高通量测序文库的技术，该技术已经应用于16S扩增子的测序中，通过在16S扩增引物前添加不同barcode序列区分不同个体，实现多个个体的同时混合建库测序。然而，在对多个目标区域进行捕获时，若在引物前添加不同的barcode进行个体区分，则需要设计非常多的引物。例如，对96个个体进行100个目标片段分型，若要通过barcode对不同个体进行区分，则需要设计96×100对引物，引物设计成本非常高。

发明内容

本发明目的在于提供一种多基因靶向分型方法。

为实现上述目的，本发明采用的技术方案为：

一种多基因靶向分型方法，构建高通量多目标基因文库，对文库进行高通量测序再通过生物信息学软件获得不同个体靶基因中不同目标片段的遗传变异信息，进而实现多个靶基因的基因分型；所述高通量多目标基因文库构建是通过两套引物进行一轮PCR扩增实现对不同目标片段的富集和不同个体高通量测序文库的构建。

所述两套引物为第一套引物组合和第二套引物组合；其中第一套引物为扩增不同目标片段的特异性引物组合；第二套引物为不同个体区分引物组合。

所述第一套引物组合为扩增不同目标片段的特异性引物组合，其中，每个不同目标片段的引物对含与目标扩增片段对应的特异性正向引物序列、特异性反向引物序列，能够实现对目标序列的特异性扩增。

所述每个不同目标片段的引物对中正向引物是由高通量测序接头序列、8个兼并碱基（NNNNNNNN）和目标基因引物序列组成；反向引物由高通量测序接头序列和目标基因引物组成。上述，8个兼并碱基（NNNNNNNN）中各个N为A/T/C/G碱基的混合物。

所述每个不同目标片段的引物对中正向引物中高通量测序接头序列为SEQ IDNO:1所示碱基，反向引物中高通量测序接头序列为SEQ ID NO:2所示碱基；

SEQ ID NO:1为 ACACGACGCTCTTCCGATCT；

SEQ ID NO:2为TGGAGTTCAGACGTGTGCTCTTCCGATCT。

所述第二套引物组合中正向引物由高通量测序文库接头序列和区分个体的barcode（标签）序列组成，其中，barcode为8bp长度ATCG碱基组合的序列，一种组合为一种barcode；反向引物为含高通量测序index序列的部分接头序列。

所述第二套引物正向引物序列中的高通量测序文库接头序列为SEQ ID NO:3所示碱基；反向引物含高通量测序index序列的部分接头序列为SEQ ID NO:4所示碱基，其中括号内NNNNNNNN为index序列，用于不同文库的区分，其中，各个N为A/T/C/G碱基中的一种，8个N碱基的不同组合形成不同index序列；

SEQ ID NO:3为

AATGATACGGCGACCACCGAGATCTACACAACGTGATACACTCTTTCCCTACACGACGCTCTTCCGATCT；

SEQ ID NO:4为

CAAGCAGAAGACGGCATACGAGAT[NNNNNNNN]GTGACTGGAGTTCAGACGTGTGCTCTTCCG。

所述的不同目标片段的富集和不同个体高通量测序文库的构建方法，具体为：将扩增多个目标基因的第一套引物组合中各引物对等量混合，使用混合引物对不同个体进行多重PCR扩增，获得每个个体含有多个目标片段的扩增产物，而后向产物中直接加入第二套引物组合，之后在原来的管中继续进行PCR扩增，实现对多个个体多个目标片段的扩增，之后将具有相同index不同barcode的个体混合形成1个文库，用于后续多基因靶向分型。

其中，第一套引物扩增体系如下：DNA模板0.8 μL （50 ng/μL）, 2×MultiplexDNA Buffer （诺唯赞）5μL，第一套正向混合引物0.8μL（每个引物浓度为1μM），第一套反向混合引物0.8μL（每个引物浓度为1μM），Multiplex DNA Polymerase（诺唯赞）0.1μL，超纯水2.5μL。PCR扩增条件为：94℃ 5分钟，之后94℃ 30 s，55℃ 90 s，72℃ 60s 进行20个循环。

第二套引物扩增体系中第二套引物各0.2μL（10μM），PCR扩增，程序为：94℃ 5分钟，之后94℃ 30 s，61℃ 90 s，72℃ 60s 进行20个循环，最后4℃保存。

所述的多基因靶向分型方法：使用IlluminaNovaseq或者X10高通量测序仪对上述构建每个文库进行测序，测序数据经过数据过滤后使用fastq-multx进行不同个体的数据的拆分，进一步使用BWA version 0.7.17和GATK version 4.1进行SNP、Indel分析，实现不同个体的基因分型。

一种所述的方法在用于个体突变位点分析、家系鉴定、种质鉴定或全基因组育种中基因分型中的应用。

本发明所具有的优点：

（1）本发明提供了一种针对大量样本的多位点靶向基因分型方法，该方法是一种通用性技术，针对农业领域和医学诊断领域的样品均适用，只需要在对应的靶基因引物前按照本发明添加对应的序列即可应用本技术；

（2）本发明所建立的多基因靶向分型技术，操作简单，成本低，大大简化了靶向基因分型的技术流程；

（3）本发明建立的技术不需要复杂的高通量建库仪器，一般的分子生物实验室即可操作，具有方便实用的优点。

附图说明

图1为本发明实施例提供的参考家系个体聚类结果。

图2为本发明实施例提供的待测定个体家系归类结果。

具体实施方式

本发明的多基因靶向分型方法中提出在目标基因正向引物前添加8个兼并碱基，并结合第二套引物中用于区分个体barcode实现不同样品的区分的方式，避免了每对靶基因引物前都需要添加不同barcode的问题，降低引物合成成本。同时本发明建立了一种在单管内实现多个目标基因扩增和高通量文库构建的技术，进一步提高了靶基因分型的效率。该技术针对不同物种、不同目标基因的分型具有通用性，只要能够设计出满足本专利需求的PCR扩增引物，即可采用本专利的技术方案建立该物种的高通量靶向分型技术，下面将以“凡纳滨对虾高通量靶向基因分型方法的建立”作为举例，对该技术方案、其实施过程及原理等作进一步的解释说明。

实施例1：凡纳滨对虾高通量靶向基因分型方法的建立

1）凡纳滨对虾靶向位点引物设计。

根据现有技术记载从凡纳滨对虾不同靶基因扩增引物对中选择58对引物（YangYu, Zheng Luo, Quanchao Wang, Qian Zhang, Xiaojun Zhang, Jianhai Xiang, FuhuaLi*. Development of high throughput SNP genotyping approach using targetsequencing in Pacific white shrimp and its application for genetic study.Aquaculture. 2020, 528:735549. 国家发明专利：一种用于凡纳滨对虾分子育种的高通量SNP分型方法。专利号：ZL201910150705.4）。

在每对引物正向引物前添加序列ACACGACGCTCTTCCGATCTNNNNNNNN，在反向引物前添加TGGAGTTCAGACGTGTGCTCTTCCGATCT，构建第一套引物，序列如表1所示。引物由上海生工生物技术有限公司合成，合成后的引物等量混合，最终每个引物的浓度为1μM。

表1：第一组引物序列信息（下表中序列依次为SEQ ID NO:5—SEQ ID NO:120）

引物名称	序列（5’-3’）
		M10103.223.189P1F	ACACGACGCTCTTCCGATCTNNNNNNNNGGAGCAGAGGAACACCAATAAGAATA
M10103.223.189P1R	TGGAGTTCAGACGTGTGCTCTTCCGATCTATTATTTATCTTCACGTCGTCCTCGTT
		M1029.254.247P1F	ACACGACGCTCTTCCGATCTNNNNNNNNAAAAAGGAAGAACGATGACCATACCA
M1029.254.247P1R	TGGAGTTCAGACGTGTGCTCTTCCGATCTGCGTAAACAGCTGAGGTTGTTG
		M14355.271.264P1F	ACACGACGCTCTTCCGATCTNNNNNNNNGCTTAATTACTTCGAGGAGCGTCTT
M14355.271.264P1R	TGGAGTTCAGACGTGTGCTCTTCCGATCTCATCTCTTATTCGAACAAAACCCAAATCC
		M151.275.248P1F	ACACGACGCTCTTCCGATCTNNNNNNNNCACGCGCATCATTTAACCTAAGG
M151.275.248P1R	TGGAGTTCAGACGTGTGCTCTTCCGATCTGAGTCGAAATTCCCATACAAGAGCA
		M15416.183.159P1F	ACACGACGCTCTTCCGATCTNNNNNNNNGTCATCCGGGTATTGATCTCACAG
M15416.183.159P1R	TGGAGTTCAGACGTGTGCTCTTCCGATCTGAGCAAGAGAAATCAAAGAGAATGGAAAT
		M16675.209.200P1F	ACACGACGCTCTTCCGATCTNNNNNNNNCAGGGTAGATGGAAATGTCGTATTTGT
M16675.209.200P1R	TGGAGTTCAGACGTGTGCTCTTCCGATCTCCCACTTTTCATTATTCCATCCCTCATTTA
		M16977.204.153P1F	ACACGACGCTCTTCCGATCTNNNNNNNNCTGACATATTTTTCCATTACTTCTAGTCACCT
M16977.204.153P1R	TGGAGTTCAGACGTGTGCTCTTCCGATCTTCTTTGTGATATCAAGTGATACAGTTTTTAGCT
		M17576.239.168P1F	ACACGACGCTCTTCCGATCTNNNNNNNNGGAACCTGTCCGACTGGAGTAA
M17576.239.168P1R	TGGAGTTCAGACGTGTGCTCTTCCGATCTAGTAATTGCCAACTCTTCCACCATT
		M18811.275.107P1F	ACACGACGCTCTTCCGATCTNNNNNNNNGCTATTCATATTTCTGCCATTACCAGAAGA
M18811.275.107P1R	TGGAGTTCAGACGTGTGCTCTTCCGATCTTGATAGCTAGTTGCCCTCTTATCAGT
		M1933.269.84P1F	ACACGACGCTCTTCCGATCTNNNNNNNNACACCTGGCCGAAGTGTTAATC
M1933.269.84P1R	TGGAGTTCAGACGTGTGCTCTTCCGATCTCAAAATTGGCCGAAAATTTGACACTTG
		M19726.275.150P1F	ACACGACGCTCTTCCGATCTNNNNNNNNTGACTAAACCTTCAGGCCTACAAC
M19726.275.150P1R	TGGAGTTCAGACGTGTGCTCTTCCGATCTGATTACAGTTACAATGCATAGGATCAGTCT
		M19992.246.150P1F	ACACGACGCTCTTCCGATCTNNNNNNNNATCTTGCATATATCTCCAGCCAAGT
M19992.246.150P1R	TGGAGTTCAGACGTGTGCTCTTCCGATCTCCACAGCGAAGTGTGTTATCCT
		M21173.244.212P1F	ACACGACGCTCTTCCGATCTNNNNNNNNAGTGACTGCAAAGACGCCTTTA
M21173.244.212P1R	TGGAGTTCAGACGTGTGCTCTTCCGATCTAACCCGTTGATATTTCTCTTTCGTCA
		M26607.210.104P1F	ACACGACGCTCTTCCGATCTNNNNNNNNGCGGAAAGGGAACTGTGGTATT
M26607.210.104P1R	TGGAGTTCAGACGTGTGCTCTTCCGATCTTCCTTGTGTAGGAGAAATCGTGTG
		M29898.275.221P1F	ACACGACGCTCTTCCGATCTNNNNNNNNGTCGTTGACGGGAAAAGGGAAA
M29898.275.221P1R	TGGAGTTCAGACGTGTGCTCTTCCGATCTGCCAACCAACTTCTATCCGAACA
		M2997.267.220P1F	ACACGACGCTCTTCCGATCTNNNNNNNNCCGCTAAACTGGTGTCGTTCTT
M2997.267.220P1R	TGGAGTTCAGACGTGTGCTCTTCCGATCTCAAAGTGCCCAGAGAAGTTCCT
		M3047.252.136P1F	ACACGACGCTCTTCCGATCTNNNNNNNNCCTACCCAGTGTCAGGACTGAA
M3047.252.136P1R	TGGAGTTCAGACGTGTGCTCTTCCGATCTGTAAGGAGGTCGCAGCAACACT
		M3106.252.154P1F	ACACGACGCTCTTCCGATCTNNNNNNNNCCCGTTGGTAATGAGAACTTTACAC
M3106.252.154P1R	TGGAGTTCAGACGTGTGCTCTTCCGATCTCAAATATGGGTTCCCTTCACTGTCA
		M33448.265.159P1F	ACACGACGCTCTTCCGATCTNNNNNNNNGCCCAAACTGTGCAAGTGTAGT
M33448.265.159P1R	TGGAGTTCAGACGTGTGCTCTTCCGATCTTCGTCAACTCGCATAATTGGCTA
		M37182.189.552P1F	ACACGACGCTCTTCCGATCTNNNNNNNNCGGATTATGTGCAGCTGCTTTTTC
M37182.189.552P1R	TGGAGTTCAGACGTGTGCTCTTCCGATCTCCTCAGGAGATAGAGAAGGAATTAATTACG
		M4003.273.186P1F	ACACGACGCTCTTCCGATCTNNNNNNNNTCAAGCGATTTGATTCACTTGTTGG
M4003.273.186P1R	TGGAGTTCAGACGTGTGCTCTTCCGATCTCCTGTTTCTGAAAAGTTACGGGAAGA
		M40314.275.183P1F	ACACGACGCTCTTCCGATCTNNNNNNNNGAAAAGGGTCCCTGGCTCATTA
M40314.275.183P1R	TGGAGTTCAGACGTGTGCTCTTCCGATCTGAACGTCTTGCAACATTCCGTATT
		M40542.275.217P1F	ACACGACGCTCTTCCGATCTNNNNNNNNCCTTTCTCTTCGTTTTGTGCGT
M40542.275.217P1R	TGGAGTTCAGACGTGTGCTCTTCCGATCTCTCCAATCTCCTCAGAGAAACACTAAAAA
		M4242.273.225P1F	ACACGACGCTCTTCCGATCTNNNNNNNNTGTGAAGGCATCGTAGGTATATGC
M4242.273.225P1R	TGGAGTTCAGACGTGTGCTCTTCCGATCTCTTCGTTCATCAGCTTCCTCTCT
		M45687.274.239P1F	ACACGACGCTCTTCCGATCTNNNNNNNNCCTCATTTCTCGGTGATACTAAATAACAGC
M45687.274.239P1R	TGGAGTTCAGACGTGTGCTCTTCCGATCTCAGCCACAGAATCTACAAGAGCA
		M4786.254.204P1F	ACACGACGCTCTTCCGATCTNNNNNNNNCAAGGGCAAATCCGGAGAGAATA
M4786.254.204P1R	TGGAGTTCAGACGTGTGCTCTTCCGATCTGCTTTCGTGCAAATACAACAAGTTTTT
		M5534.275.137P1F	ACACGACGCTCTTCCGATCTNNNNNNNNAGACGAGGAGGTACTTGTTTTGTTT
M5534.275.137P1R	TGGAGTTCAGACGTGTGCTCTTCCGATCTCTGCTACTACTACTGCCAAAACTACT
		M5596.275.212P1F	ACACGACGCTCTTCCGATCTNNNNNNNNACTTTCGTCGAGTGTATGAAAAGACA
M5596.275.212P1R	TGGAGTTCAGACGTGTGCTCTTCCGATCTCAAATGCTTAGGCAAAGTTAGCAGA
		M56564.223.175P1F	ACACGACGCTCTTCCGATCTNNNNNNNNGTTAATATCATTCTTGTCCCTCTTTTCCGA
M56564.223.175P1R	TGGAGTTCAGACGTGTGCTCTTCCGATCTCCAATACCATCAAGTCAAAAGGTTTTTCTT
		M5916.252.212P1F	ACACGACGCTCTTCCGATCTNNNNNNNNACATTCCTTAATTACAACAGCTGTCTTGA
M5916.252.212P1R	TGGAGTTCAGACGTGTGCTCTTCCGATCTCCTTACGTCGAGTGTCGAGATG
		M64597.232.283P1F	ACACGACGCTCTTCCGATCTNNNNNNNNGGTGTCTGTCAGAGAGCTGACT
M64597.232.283P1R	TGGAGTTCAGACGTGTGCTCTTCCGATCTTCAGTCAAAAGACCATCAAAGTTCCTT
		M6529.267.232P1F	ACACGACGCTCTTCCGATCTNNNNNNNNAAAGCACACTTGTATGCTTAAATAATCACC
M6529.267.232P1R	TGGAGTTCAGACGTGTGCTCTTCCGATCTTGGGAATCTGTGTATTGTGCGT
		M6582.200.164P1F	ACACGACGCTCTTCCGATCTNNNNNNNNCTGCCATCGTCGTCTTCAGATT
M6582.200.164P1R	TGGAGTTCAGACGTGTGCTCTTCCGATCTTTCTGCCACACGAACCTATCAG
		M66.260.224P1F	ACACGACGCTCTTCCGATCTNNNNNNNNTTTTTCTAAATGCTCAGTCCTATGAACTCA
M66.260.224P1R	TGGAGTTCAGACGTGTGCTCTTCCGATCTGTTAGCGTGTGTTGTAGTGATTGC
		M7644.265.178P1F	ACACGACGCTCTTCCGATCTNNNNNNNNAACCAACTGGCATCCACCAATA
M7644.265.178P1R	TGGAGTTCAGACGTGTGCTCTTCCGATCTTGGGTAAACTTCGAATCCCTTCTATAGAT
		M7789.204.210P1F	ACACGACGCTCTTCCGATCTNNNNNNNNCACACACACACAAACGTACACATC
M7789.204.210P1R	TGGAGTTCAGACGTGTGCTCTTCCGATCTCACACAATCAAAACACAATAATTACCGAGT
		M8720.245.338P1F	ACACGACGCTCTTCCGATCTNNNNNNNNATGGAATACTTTCACAAAATTCCCTTTCTG
M8720.245.338P1R	TGGAGTTCAGACGTGTGCTCTTCCGATCTTTCAATATTTCGGAAGAAGTCCACACATAT
		Marker13793.275PCR1F	ACACGACGCTCTTCCGATCTNNNNNNNNTCTAACGGCTCTCGAACTTTTGTT
Marker13793.275PCR1R	TGGAGTTCAGACGTGTGCTCTTCCGATCTCCAGTTTGGACTTCACAAGCACT
		Marker24577.270PCR1F	ACACGACGCTCTTCCGATCTNNNNNNNNTAGAGCCATAGTTAAAAAGCACACATAGAC
Marker24577.270PCR1R	TGGAGTTCAGACGTGTGCTCTTCCGATCTTGTTGCTCTTACAAATGAAATCTTTTCAGC
		Marker26030.231P1F	ACACGACGCTCTTCCGATCTNNNNNNNNGAAGACAGAAACAGAGCAAAATAGAGATG
Marker26030.231P1R	TGGAGTTCAGACGTGTGCTCTTCCGATCTCCCTCTCTCTCTATATTCTCTCCCTTT
		Marker32661.266PCR1F	ACACGACGCTCTTCCGATCTNNNNNNNNTGCTCTCTGCCTCTACCTTCTC
Marker32661.266PCR1R	TGGAGTTCAGACGTGTGCTCTTCCGATCTCCTCCTCCTCCTTCTCCTCTTC
		Marker34127.207P1F	ACACGACGCTCTTCCGATCTNNNNNNNNAAACGCATATACCTGACCCGAAA
Marker34127.207P1R	TGGAGTTCAGACGTGTGCTCTTCCGATCTTCTTGAGACTTGGTTTATCGGAATATGC
		Marker4024.272PCR1F	ACACGACGCTCTTCCGATCTNNNNNNNNTCCCAGATTTCTAGTGGGCTGAA
Marker4024.272PCR1R	TGGAGTTCAGACGTGTGCTCTTCCGATCTTCTTCCTTCTCCTTCTTGTTCTTCTTCTA
		Marker4670.262P1F	ACACGACGCTCTTCCGATCTNNNNNNNNGGAGGGTTGGGTTGTTCGAATA
Marker4670.262P1R	TGGAGTTCAGACGTGTGCTCTTCCGATCTCAATCCTCCCACATTTCTCGCT
		Marker5160.275PCR1F	ACACGACGCTCTTCCGATCTNNNNNNNNGAAGAAATGGTGGAGGGAAGCTT
Marker5160.275PCR1R	TGGAGTTCAGACGTGTGCTCTTCCGATCTCTTCCCTCTATCTAGTTCCTCCACTT
		Marker59200.273P1F	ACACGACGCTCTTCCGATCTNNNNNNNNTCCCATCCTTGGGCATTAACAG
Marker59200.273P1R	TGGAGTTCAGACGTGTGCTCTTCCGATCTGTGGATCCAAAATTATTTTGTGTCTGGT
		Marker7680.247P1F	ACACGACGCTCTTCCGATCTNNNNNNNNCAAAGACGCCGTTATCTGCTTG
Marker7680.247P1R	TGGAGTTCAGACGTGTGCTCTTCCGATCTGAGTGGCGAGCCAAAAGAATTT
		ALF2-1.271.251P1F	ACACGACGCTCTTCCGATCTNNNNNNNNCGCAAATGGAGTTGTTATATCTTGTGG
ALF2-1.271.251P1R	TGGAGTTCAGACGTGTGCTCTTCCGATCTATGTGTTATGAATTGAAGTTCCTGAAGGA
		ALF2-2.193.375P1F	ACACGACGCTCTTCCGATCTNNNNNNNNGGGTCTCATCACCGAATCAGAG
ALF2-2.193.375P1R	TGGAGTTCAGACGTGTGCTCTTCCGATCTCCGAGAGGTAGTAAAATGCTTATCTCATT
		ALF6-1.510.29P1F	ACACGACGCTCTTCCGATCTNNNNNNNNAATTCCAGCTAGGATAACCGTAACATG
ALF6-1.510.29P1R	TGGAGTTCAGACGTGTGCTCTTCCGATCTAGAGCTTTCTGAATGAAGTCTTTCACA
		CL1313.251.190P1F	ACACGACGCTCTTCCGATCTNNNNNNNNAAATAGTGGTCTTTGCTACAAACTCG
CL1313.251.190P1R	TGGAGTTCAGACGTGTGCTCTTCCGATCTCTCCCTTAACAGTTAGGATTAATTCCTTGG
		CL2732.272.109P1F	ACACGACGCTCTTCCGATCTNNNNNNNNGTCTGTGTATATGTCTGTGTACGTGT
CL2732.272.109P1R	TGGAGTTCAGACGTGTGCTCTTCCGATCTAGCAGTCAGACCAGATCCTCAA
		U14290.239PCR1F	ACACGACGCTCTTCCGATCTNNNNNNNNCTTCGGCAACGCAGGTTT
U14290.239PCR1R	TGGAGTTCAGACGTGTGCTCTTCCGATCTGGTTCTAATGACGCGGAACTGT
		U15749.265.170P1F	ACACGACGCTCTTCCGATCTNNNNNNNNCAATGCACAGTTGCACATATCTGA
U15749.265.170P1R	TGGAGTTCAGACGTGTGCTCTTCCGATCTCATTTTCTTGATTTATGTCTTCACCCAATTCTT
		Unigene16582.275P1F	ACACGACGCTCTTCCGATCTNNNNNNNNCAACTACAGAGCAAGATTCAGCATG
Unigene16582.275P1R	TGGAGTTCAGACGTGTGCTCTTCCGATCTACAAGAATTCCAGGTATCAACAGGT
		U22724.263.268P1F	ACACGACGCTCTTCCGATCTNNNNNNNNTGCTAGTGTGCTATTAGTGAGAGTTACTAT
U22724.263.268P1R	TGGAGTTCAGACGTGTGCTCTTCCGATCTCACCCATCTCTAAGAGTGATATTCTGACTA
		Unigene23477.275P1F	ACACGACGCTCTTCCGATCTNNNNNNNNGGAGATTTTATTGTAGGGAATGGTCAGA
Unigene23477.275P1R	TGGAGTTCAGACGTGTGCTCTTCCGATCTAGACCCTCGATTTAAAATTCCTGACATG
		U26970.232.206P1F	ACACGACGCTCTTCCGATCTNNNNNNNNCGCATCCGGTGCTCGAAT
U26970.232.206P1R	TGGAGTTCAGACGTGTGCTCTTCCGATCTGGGAGGTCATGAAACACGATTGAG

2）第二套建库引物设计。

根据分型样本的需求，本示例中设计48个第二套的正向引物和6个第二套的反向引物，正向引物接头序列的末端（3’）连接8个碱基的barcode序列组成，barcode为ATCG碱基的组合，其用于区分不同的个体。每个反向引物为62bp的接头序列，且接头序列中含有不同的index序列，6个反向引物仅index序列不同，用作不用文库的区分，引物序列如表2所示。

48个第二套的正向引物可以分别与6个反向引物组合，共计可以对288个体进行区分，如果分型个体数量较多，则可以设计更多种类的第二套正向引物和反向引物。

表2 用于凡纳滨对虾高通量靶向分型技术的第二组引物序列（下表中序列依次为SEQ ID NO:121—SEQ ID NO:174）

编号	序列（5’-3’）
		barcodePCR2F-1	AATGATACGGCGACCACCGAGATCTACACAACGTGATACACTCTTTCCCTACACGACGCTCTTCCGATCTAACCAAGG
barcodePCR2F-2	AATGATACGGCGACCACCGAGATCTACACAACGTGATACACTCTTTCCCTACACGACGCTCTTCCGATCTAACCGGTT
		barcodePCR2F-3	AATGATACGGCGACCACCGAGATCTACACAACGTGATACACTCTTTCCCTACACGACGCTCTTCCGATCTAACGATGG
barcodePCR2F-4	AATGATACGGCGACCACCGAGATCTACACAACGTGATACACTCTTTCCCTACACGACGCTCTTCCGATCTAACGTAGG
		barcodePCR2F-5	AATGATACGGCGACCACCGAGATCTACACAACGTGATACACTCTTTCCCTACACGACGCTCTTCCGATCTAACGTTCG
barcodePCR2F-6	AATGATACGGCGACCACCGAGATCTACACAACGTGATACACTCTTTCCCTACACGACGCTCTTCCGATCTAAGGAAGG
		barcodePCR2F-7	AATGATACGGCGACCACCGAGATCTACACAACGTGATACACTCTTTCCCTACACGACGCTCTTCCGATCTACACACTG
barcodePCR2F-8	AATGATACGGCGACCACCGAGATCTACACAACGTGATACACTCTTTCCCTACACGACGCTCTTCCGATCTACACCTCT
		barcodePCR2F-9	AATGATACGGCGACCACCGAGATCTACACAACGTGATACACTCTTTCCCTACACGACGCTCTTCCGATCTACACGACT
barcodePCR2F-10	AATGATACGGCGACCACCGAGATCTACACAACGTGATACACTCTTTCCCTACACGACGCTCTTCCGATCTACAGAGTG
		barcodePCR2F-11	AATGATACGGCGACCACCGAGATCTACACAACGTGATACACTCTTTCCCTACACGACGCTCTTCCGATCTACAGGAGT
barcodePCR2F-12	AATGATACGGCGACCACCGAGATCTACACAACGTGATACACTCTTTCCCTACACGACGCTCTTCCGATCTACAGTGAG
		barcodePCR2F-13	AATGATACGGCGACCACCGAGATCTACACAACGTGATACACTCTTTCCCTACACGACGCTCTTCCGATCTCTCTGACT
barcodePCR2F-14	AATGATACGGCGACCACCGAGATCTACACAACGTGATACACTCTTTCCCTACACGACGCTCTTCCGATCTCTGAACTG
		barcodePCR2F-15	AATGATACGGCGACCACCGAGATCTACACAACGTGATACACTCTTTCCCTACACGACGCTCTTCCGATCTCTGACAGT
barcodePCR2F-16	AATGATACGGCGACCACCGAGATCTACACAACGTGATACACTCTTTCCCTACACGACGCTCTTCCGATCTCTGACTCT
		barcodePCR2F-17	AATGATACGGCGACCACCGAGATCTACACAACGTGATACACTCTTTCCCTACACGACGCTCTTCCGATCTCTGAGACT
barcodePCR2F-18	AATGATACGGCGACCACCGAGATCTACACAACGTGATACACTCTTTCCCTACACGACGCTCTTCCGATCTCTGAGTGT
		barcodePCR2F-19	AATGATACGGCGACCACCGAGATCTACACAACGTGATACACTCTTTCCCTACACGACGCTCTTCCGATCTCGAACGTT
barcodePCR2F-20	AATGATACGGCGACCACCGAGATCTACACAACGTGATACACTCTTTCCCTACACGACGCTCTTCCGATCTCGAAGGAT
		barcodePCR2F-21	AATGATACGGCGACCACCGAGATCTACACAACGTGATACACTCTTTCCCTACACGACGCTCTTCCGATCTCGAATAGG
barcodePCR2F-22	AATGATACGGCGACCACCGAGATCTACACAACGTGATACACTCTTTCCCTACACGACGCTCTTCCGATCTCGATCCAA
		barcodePCR2F-23	AATGATACGGCGACCACCGAGATCTACACAACGTGATACACTCTTTCCCTACACGACGCTCTTCCGATCTCGATCCTT
barcodePCR2F-24	AATGATACGGCGACCACCGAGATCTACACAACGTGATACACTCTTTCCCTACACGACGCTCTTCCGATCTCGATGGAA
		barcodePCR2F-25	AATGATACGGCGACCACCGAGATCTACACAACGTGATACACTCTTTCCCTACACGACGCTCTTCCGATCTGACATCTG
barcodePCR2F-26	AATGATACGGCGACCACCGAGATCTACACAACGTGATACACTCTTTCCCTACACGACGCTCTTCCGATCTGACATGAG
		barcodePCR2F-27	AATGATACGGCGACCACCGAGATCTACACAACGTGATACACTCTTTCCCTACACGACGCTCTTCCGATCTGACTACTG
barcodePCR2F-28	AATGATACGGCGACCACCGAGATCTACACAACGTGATACACTCTTTCCCTACACGACGCTCTTCCGATCTGACTAGAG
		barcodePCR2F-29	AATGATACGGCGACCACCGAGATCTACACAACGTGATACACTCTTTCCCTACACGACGCTCTTCCGATCTGACTGACT
barcodePCR2F-30	AATGATACGGCGACCACCGAGATCTACACAACGTGATACACTCTTTCCCTACACGACGCTCTTCCGATCTGACTGTGT
		barcodePCR2F-31	AATGATACGGCGACCACCGAGATCTACACAACGTGATACACTCTTTCCCTACACGACGCTCTTCCGATCTGCTACCTT
barcodePCR2F-32	AATGATACGGCGACCACCGAGATCTACACAACGTGATACACTCTTTCCCTACACGACGCTCTTCCGATCTGCTACGAT
		barcodePCR2F-33	AATGATACGGCGACCACCGAGATCTACACAACGTGATACACTCTTTCCCTACACGACGCTCTTCCGATCTGCTATACG
barcodePCR2F-34	AATGATACGGCGACCACCGAGATCTACACAACGTGATACACTCTTTCCCTACACGACGCTCTTCCGATCTGCTTCGTT
		barcodePCR2F-35	AATGATACGGCGACCACCGAGATCTACACAACGTGATACACTCTTTCCCTACACGACGCTCTTCCGATCTGCCGTTAA
barcodePCR2F-36	AATGATACGGCGACCACCGAGATCTACACAACGTGATACACTCTTTCCCTACACGACGCTCTTCCGATCTGCTAATCG
		barcodePCR2F-37	AATGATACGGCGACCACCGAGATCTACACAACGTGATACACTCTTTCCCTACACGACGCTCTTCCGATCTTTCGATGG
barcodePCR2F-38	AATGATACGGCGACCACCGAGATCTACACAACGTGATACACTCTTTCCCTACACGACGCTCTTCCGATCTTTCGTAGG
		barcodePCR2F-39	AATGATACGGCGACCACCGAGATCTACACAACGTGATACACTCTTTCCCTACACGACGCTCTTCCGATCTTTGGATCG
barcodePCR2F-40	AATGATACGGCGACCACCGAGATCTACACAACGTGATACACTCTTTCCCTACACGACGCTCTTCCGATCTTTGGCCTT
		barcodePCR2F-41	AATGATACGGCGACCACCGAGATCTACACAACGTGATACACTCTTTCCCTACACGACGCTCTTCCGATCTTTGGCGAT
barcodePCR2F-42	AATGATACGGCGACCACCGAGATCTACACAACGTGATACACTCTTTCCCTACACGACGCTCTTCCGATCTTTGGTTGG
		barcodePCR2F-43	AATGATACGGCGACCACCGAGATCTACACAACGTGATACACTCTTTCCCTACACGACGCTCTTCCGATCTTGGTTCCT
barcodePCR2F-44	AATGATACGGCGACCACCGAGATCTACACAACGTGATACACTCTTTCCCTACACGACGCTCTTCCGATCTTGGTTGGT
		barcodePCR2F-45	AATGATACGGCGACCACCGAGATCTACACAACGTGATACACTCTTTCCCTACACGACGCTCTTCCGATCTTGTCAGTG
barcodePCR2F-46	AATGATACGGCGACCACCGAGATCTACACAACGTGATACACTCTTTCCCTACACGACGCTCTTCCGATCTTGTCCACT
		barcodePCR2F-47	AATGATACGGCGACCACCGAGATCTACACAACGTGATACACTCTTTCCCTACACGACGCTCTTCCGATCTTGTCCTGT
barcodePCR2F-48	AATGATACGGCGACCACCGAGATCTACACAACGTGATACACTCTTTCCCTACACGACGCTCTTCCGATCTTGTCGAGT
		indexP2R-1	CAAGCAGAAGACGGCATACGAGATATCACGTTGTGACTGGAGTTCAGACGTGTGCTCTTCCG
indexP2R-2	CAAGCAGAAGACGGCATACGAGATCGATGTTTGTGACTGGAGTTCAGACGTGTGCTCTTCCG
		indexP2R-3	CAAGCAGAAGACGGCATACGAGATTTAGGCATGTGACTGGAGTTCAGACGTGTGCTCTTCCG
indexP2R-4	CAAGCAGAAGACGGCATACGAGATTGACCACTGTGACTGGAGTTCAGACGTGTGCTCTTCCG
		indexP2R-5	CAAGCAGAAGACGGCATACGAGATACAGTGGTGTGACTGGAGTTCAGACGTGTGCTCTTCCG
indexP2R-6	CAAGCAGAAGACGGCATACGAGATGCCAATGTGTGACTGGAGTTCAGACGTGTGCTCTTCCG

3）用于家系鉴定的凡纳滨对虾家系材料。

凡纳滨对虾家系材料取自渤海水产育种（海南）有限公司，共计49个全同胞家系。49个家系的材料个体平均体长均为2~3cm，每个家系取4尾个体用作家系的参考个体。之后每个家系取50尾个体混合后进行耐高盐性状测试，测试盐度由30逐渐升至60，取最后存活的个体进行家系鉴定，以筛选耐高盐性状最强的家系。本实验从最终存活个体中随机取64尾活力好的个体进行分析。

4）样品DNA提取。

使用天根植物基因组提取试剂盒提取49个家系参考个体和64尾存活个体的DNA，操作步骤按照试剂盒说明书进行，提取的个体DNA使用Nanodrop1000测定DNA浓度，并通过1.5%的琼脂糖凝胶电泳检测DNA质量，每个个体的DNA稀释到100ng/μL，由于部分个体DNA浓度低，最终共有180个家系参考个体和64个待鉴定个体用于后续分析。

5）靶向基因分型文库构建。

上述提取的DNA共计244个个体，使用扩增凡纳滨对虾58个目标片段的第一套混合引物对不同个体进行多重PCR扩增，扩增体系如下：DNA模板0.8 μL （50 ng/μL）, 2×Multiplex DNA Buffer （诺唯赞）5μL，第一套正向混合引物0.8μL（每个引物浓度为1μM），第一套反向混合引物0.8μL（每个引物浓度为1μM），Multiplex DNA Polymerase（诺唯赞）0.1μL，超纯水2.5μL。PCR扩增条件为：94℃ 5分钟，之后94℃ 30 s，55℃ 90 s，72℃ 60s进行20个循环。上述PCR程序结束后直接向产物中加入第二套正反向引物各0.2μL（10μM）。程序为：94℃ 5分钟，之后94℃ 30 s，61℃ 90 s，72℃ 60s 进行20个循环，最后4℃保存。

上述不同的个体使用不同的第二套引物，第1-48号个体使用正向引物barcodePCR2F-1到barcodePCR2F-48，对应的反向引物使用indexP2R-1；第49-96个体使用正向引物barcodePCR2F-1到barcodePCR2F-48，对应的反向引物使用indexP2R-1；其他的个体分别使用barcodePCR2F-1到barcodePCR2F-48与不同的index进行配对组合，实现不同个体的区分。通过上述步骤即可完成多个目标片段不同个体的高通量测序文库构建。最终将具有相同index不同barcode的PCR产物直接混合，分别构建6个测序文库。

6）二代高通量测序和生物信息学分析。

构建的靶向基因分型文库使用Illumina Novaseq进行双末端PE-150测序，每个文库测序6G的原始数据，测序由贝瑞基因完成。原始数据使用fastQC

（https://www.bioinformatics.babraham.ac.uk/projects/download.html#fastqc）进行质量过滤，获得的高质量reads使用fastq-multx根据每个个体的barcode信息进行个体数据的拆分，生成244个个体的靶向测序数据，进一步使用BWA version 0.7.17

（https://bio-bwa.sourceforge.net/）和GATK version 4.1

（https://github.com/broadinstitute/gatk/releases/）进行SNP分析，并使用VCFtools进行SNP过滤，过滤标准为分型成功率（call rate）>90%, 最小等位基因频率（MAF）>0.05,通过上述分析共获得235个高质量SNP位点，平均每个片段上的SNP数量为4个。

根据获得SNP结果，对49个家系的个体进行聚类分析，通过构建系统进化树结果显示所有来自同一个家系的个体均聚类在1个分支，如图1中的A8-5-1、A8-5-2、A8-5-3、A8-5-4属于同一个家系的4个个体，均聚类到一起。说明利用本研究建立的高通量靶向基因分型技术能够实现不同家系的准确鉴定。

同时对待鉴定个体的家系鉴定结果，根据参考群体和待鉴定个体的基因分型结果，使用随机森林聚类方法randomForest（Liaw A, Wiener M (2002). “Classificationand Regression by randomForest.” R News, 2(3), 18-22. https://CRAN.R-project.org/doc/Rnews/.）对待鉴定的64个个体进行家系鉴定，最终结果如图2所示，所有的个体被分配到39个家系中，每个家系中的数量从1到13不等。在这些家系中，编号为A8-22的家系存活个体数量最多，为13个个体，排名第二的是H3-A10，存活个体数量为8个。

综上可见，利用本发明建立的技术方案，实现了凡纳滨对虾58个目标片段的靶向基因分型，利用分型结果实现了凡纳滨对虾不同家系的准确鉴定，并对未知家系的个体确定了其家系来源，从而实现了对虾的分子育种。

本实施例以凡纳滨对虾靶向基因分型为例说明了本发明专利的应用方法，其他依托于靶向基因分型开展的相关研究也可以应用本发明的技术开展。

Claims

1.一种多基因靶向分型方法，其特征在于：构建高通量多目标基因文库，对文库进行高通量测序再通过生物信息学软件获得不同个体靶基因中不同目标片段的遗传变异信息，进而实现多个靶基因的基因分型；

所述高通量多目标基因文库构建是通过两套引物进行PCR扩增实现对不同目标片段的富集和不同个体高通量测序文库构建；

所述两套引物为第一套引物组合和第二套引物组合；其中第一套引物为扩增不同目标片段的特异性引物组合；第二套引物为不同个体区分引物组合；

将扩增多个目标基因的第一套引物组合中各引物对等量混合，使用混合引物对不同个体进行多重PCR扩增，获得每个个体含有多个目标片段的扩增产物，而后向每个个体的PCR产物中直接加入对应的第二套引物组合，之后在原来的管中继续进行PCR扩增，实现对多个个体多个目标片段的扩增和高通量测序文库构建，之后直接将具有相同index不同barcode的个体文库混合形成1个文库，用于后续多基因靶向分型；

所述第一套引物组合为扩增不同目标片段的特异性引物组合，其中，每个不同目标片段的引物对含与目标扩增片段对应的特异性正向引物序列、特异性反向引物序列，能够实现对目标序列的特异性扩增；

所述每个不同目标片段的引物对中正向引物是由高通量测序接头序列、8个兼并碱基NNNNNNNN和目标基因引物序列组成，8个兼并碱基NNNNNNNN中各个N为A/T/C/G碱基的混合物；反向引物由高通量测序接头序列和目标基因引物组成；

所述第二套引物组合中正向引物由高通量测序文库接头序列和区分个体的barcode（标签）序列组成，其中，barcode为8bp长度A/T/C/G碱基组合的序列，一种组合为一种barcode；反向引物为含高通量测序index序列的部分接头序列。

2.按权利要求1所述的多基因靶向分型方法，其特征在于：所述每个不同目标片段的引物对中正向引物中高通量测序接头序列为SEQ ID NO:1所示碱基，反向引物中高通量测序接头序列为SEQ ID NO:2所示碱基。

3.按权利要求1所述的多基因靶向分型方法，其特征在于：所述正向引物序列中的高通量测序文库接头序列为SEQ ID NO:3所示碱基；反向引物含高通量测序index序列的部分接头序列为SEQ ID NO:4所示碱基。

4.一种权利要求1所述的方法在用于个体突变位点分析、家系鉴定、种质鉴定或全基因组育种中基因分型中的应用。