CN116144794A

CN116144794A - 牛12k sv液相芯片及其设计方法和应用

Info

Publication number: CN116144794A
Application number: CN202310218543.XA
Authority: CN
Inventors: 周扬; 韩佳政; 张淑君; 杨利国
Original assignee: Huazhong Agricultural University
Current assignee: Huazhong Agricultural University
Priority date: 2023-03-09
Filing date: 2023-03-09
Publication date: 2023-05-23
Anticipated expiration: 2043-03-09
Also published as: CN116144794B

Abstract

本发明提供了一种牛12KSV液相芯片及其设计方法和应用，芯片包含12506个SV变异位点，对应12506个用于探针设计的位点。设计方法具体包括如下步骤：S1，牛的二代全基因组测序数据的收集；S2，测序数据的质控和序列对比；S3，SV变异位点的鉴定及分型；S4，对所有的缺失型SV变异位点进行整合筛选；S5，根据所有候选位点进行SV液相芯片的定制。本发明芯片能够为牛的种质鉴定、选择育种等领域和其他研究提供较好的研究基础和数据支撑，并进一步降低牛基因组选择的成本，加快我国优质牛品种改良的遗传进展，具有较好的社会价值和推广价值。

Description

牛12K SV液相芯片及其设计方法和应用

技术领域

本发明属于动物分子生物学技术及动物遗传育种技术领域，特别涉及牛12K SV液相芯片及其设计方法和应用。

背景技术

养牛产业是关乎国计民生的支柱产业，但我国缺少优秀的种质资源，在产肉和产奶两个养牛重要的产业均受到国外的制约，每年由20-30％的产品需要从国外进口。基因组育种技术有效的提高了我国肉牛和奶牛的生产性能，但目前的育种效率还相对较低，不能实现对欧美国家的养牛业的超越，如何提高我国养牛业的育种效率是目前面临的重大问题。

目前对牛开展的基因组育种技术仅仅考虑了SNP的遗传效应，但多项研究报道很多性状不能被SNP完全解释，在基因组育种中需要将其它的变异类型进行整合，从而更加高效和准确的开展牛的育种。

基因组结构变异(Structural Variation,SV)是基因组上介于50bp-5Mbp的大片段序列变异，包括了缺失、插入、倒置、重复和拷贝数变异等多种形式，是基因组上除SNP外的另外一种重要的遗传变异，并且其相对SNP具有更为强烈的生物学效应，是全基因组育种中重要的分子标记。但由于其多变的形式和复杂的序列特征，导致其研究进展缓慢，阻碍了其在牛群体分析以及育种中的应用。目前对SV的鉴定和分型多基于全基因组测序数据，并且需要至少获得15X以上的数据才能初步实现对牛基因组SV的有效鉴定，成分费用较为昂贵，在没有足够资金的支持下不能有效的利用SV结合SNP展开牛的全基因组育种。

基因芯片(genechip)又称DNA芯片、生物芯片，是另外一种高通量分子标记技术。基因芯片具有快速、高通量的优点，可以在微小的玻片表面集成大量分子识别探针，从而在同一时间内平行分析大量基因，进行大信息量的检测分析，这也使得其在生物进化、基因定位、分子育种等领域中得到广泛的应用。在以基因组选择为核心的动植物分子育种领域，基因芯片更易于标准化、通用化、流程化，从而得到大规模应用。早期的固相芯片是利用杂交测序法，通过将已知序列的核苷酸作为探针与标记的靶核苷酸序列进行杂交，对检测到的信号进行定性与定量的分析。目前，被广泛使用的液相芯片是基于靶向测序技术，利用探针对候选区域开展高通量测序，来获得候选位点的基因型信息的手段，相对之前的固相芯片具有成本低和灵活的优势。目前在牛上没有可以用作SV鉴定和分型的芯片，开发基于SV的液相芯片将会填补这一空白，并且可以快速的促进SV在牛育种中的应用，从而大幅的提高牛的育种效率，对于我国肉牛产业的快速发展和摆脱国外的种源制约具有重大的实际意义。

发明内容

为克服上述现有技术的不足，本发明提供了一种牛12K SV液相芯片及其设计方法和应用。

为达到上述目的，本发明采用以下技术方案：

本发明提供的牛12K SV液相芯片，包含12506个SV变异位点，对应12506个用于探针设计的位点，所述用于探针设计的位点信息具体如表1所示。

其中，位点编号中左侧表示位点所在的染色体，中间表示位点在染色体上的起始位置，右侧表示位点在染色体上的结束位置，参考基因组的全基因组序列的版本号为：ARS-UCD1.2。

所述芯片通过下述方法获得：

S1：收集牛的原始第二代全基因组测序数据，比对到牛的参考基因组ARS-UCD1.2，鉴定与筛选出SV变异位点；

S2：根据S1筛选出SV变异位点，结合位点在染色体上的位置，分析其上下游序列并设计测序引物，挑选能够用于芯片开发的SV变异位点；

S3：运用靶向测序基因分型技术开发出所述芯片。

上述牛12K SV液相芯片在牛品种经济性状候选基因的定位、基因组选择、遗传多样性分析、品种鉴定、性别判断、亲缘关系鉴定、种质资源评价与改良、DNA指纹鉴定、全基因组关联分析或全基因组选择育种中的应用。

本发明提供的牛12K SV液相芯片的设计方法，具体包括如下步骤：

S1，牛的二代全基因组测序数据的收集；

S2，测序数据的质控和序列对比；

S3，SV变异位点的鉴定及分型；

S4，对所有的缺失型SV变异位点进行整合筛选；

S5，根据所有候选位点进行SV液相芯片的定制。

S1的具体过程为：在NCBI上查找家牛的测序信息，根据NCBI提供的登录号，用SRAtoolkit软件中的prefetch工具从NCBI数据库下载SRA文件，或使用ascp从EBI数据库下载fastq文件。

S2的具体过程为：对原始的测序数据fastq格式文件用NGSToolkit软件去除接头序列和低质量的读长序列reads信息，使用“-l 70-s 20-z g”参数去除测序平台的接头序列，设碱基质量分数低于20的为低质量碱基，去除低质量碱基占比超过70％的低质量reads，压缩后输出高质量reads信息；使用bwa软件的mem算法及默认参数将通过质量控制的序列信息比对到家牛的参考基因组ARS-UCD1.2，比对获得的bam文件，用samtools进行排序，用sambamba软件的默认参数去除冗余并建立索引。

S3的具体过程为：通过S2预处理的bam文件，分别使用Lumpy、Delly、Breakdancer、Pindel软件检测SV，分别对四个软件结果进行过滤和整合，仅保留常染色体上的变异，并去除变异长度低于50bp的SV，保留至少两个软件支持的SV，获得SV列表。对四个软件结果的过滤和整合采用脚本软件GGDTRS.py进行，脚本软件GGDTRS.py进行SV的基因分型并生成VCF文件，主要通过识别reads被拆分的断点位置、SV区域的测序深度、reads与断点的位置关系进行基因分型。

S4中整合筛选的具体步骤为：

S41，根据每个位点受个体支持的数量，选择至少受10个个体支持的变异位点作为所有的高频率位点；

S42，根据缺失变异DEL的群体结构学分析的结果，将群体分类成瘤牛和普通牛两大亚群，利用DEL基因分型数据计算瘤牛和普通牛亚群的选择信号FST值，取FST降序排序后前1％的位点为显著差异位点，进一步分析受地域选择影响相关的DEL位点，将群体为非洲、西欧、华南、印度、东北亚、中欧-南欧6个亚群，分别计算Di选择信号，获得受选择的缺失变异位点；为了评估DEL在品种之间的分化差异，选择和过滤样本量大于70的商业化品种，分别计算Di选择信号，挖掘各品种的受选择的DEL位点，获得受选择的特异DEL位点；

S43，筛选出与移动元件插入MEI相关的受选择的位点；

S44，对所有缺失型的SV位点按照不同品种和类群进行分类处理，根据不同的类群分别计算选择信号，筛选出Simmental西门塔尔牛群体受选择的高频位点和Holstein荷斯坦牛群体中受选择的高频位点；

S45，利用NCBI公共数据库和已鉴定的基因组功能元件，对缺失型变异位点进行基因注释，主要保留保留落在基因组功能元件区域的位点；

S46，将受选择信号筛选出的位点与由基因组功能元件筛选出的位点进行整合，筛选出同时受两者支持的位点，再与所有的高频位点进行合并，最终筛选出同时受三者支持的位点作为牛12K SV液相芯片位点的主要组成部分；

S47，添加高频位点作为补充；

S48，对S46和S47获得的所有SV位点进行区间合并整理得到最终SV变异位点。

S48中合并整理的具体步骤为：

S481，为保证最终芯片位点区间的唯一性和探针捕获的有效性，按照区间包含关系或重叠关系，且缺失序列长度差小于60bp的规则进行位点合并，同时删除不同变异类型的SV区间合并后区间发生改变的位点，最终保留合适的SV变异区间；

S482，对S481获得的SV变异区间进行探针设计，设计的规则为：在DEL断点上下游选取最优的序列为探针序列，探针长度120bp，探针的GC含量30％—70％之间，同源比对的次数<5，同时尽量避开简单重复序列区域，最终探针设计成功的SV变异区间作为整合筛选出的最终SV变异位点。

本发明的有益效果在于：

1、本发明牛12K SV液相芯片涉及到世界57个牛品种，具有广泛的品种和群体适用性，并且考虑到目前国内养殖数量较多的荷斯坦牛和西门塔尔牛，对部分位点进行了针对性的筛选和设计，进一步增加了本芯片的潜在利用率和价值。

2、本发明对SV变异位点进行鉴定和分型时，使用了Lumpy、Delly、Breakdancer、Pindel四个软件检测SV，相比于仅使用单种检测算法的软件有着更低的错误发现率。在对SV进行分型的过程中，同时考虑了被拆分reads的两个子片段的分布位置、SV区域的测序深度、reads与断点的位置关系进行基因分型，具有高准确率的分型效果，并且实现了二倍体分型。因此，本芯片的SV位点及其分型具有精准的前期数据支撑，可信度高。

3、本发明芯片能够为牛种质鉴定、选择育种等领域和其他研究提供较好的研究基础和数据支撑，并进一步降低牛基因组选择的成本，加快我国优质牛品种改良的遗传进展，具有较好的社会价值和推广价值。

4、本发明芯片中的SV信息是对目前应用SNP进行基因组选择育种的有效补充，突破了长期使用SNP开展育种的局限，通过利用本芯片添加SV信息将会进一步增强基因组选择的准确性。

附图说明

图1是本发明SV液相芯片位点整合筛选部分流程图；

图2是不同品种中受选择的SV位点统计韦恩图；

图3是SV位点在基因组功能元件区域的注释。

具体实施方式

为了更好地说明本发明的目的、技术方案和优点，下面将结合具体实施例对本发明做进一步描述。本发明可以以许多不同的形式实施，而不应该被理解为限于在此阐述的实施例。本发明仅由权利要求来限定。

本发明提供了牛12K SV液相芯片的设计方法，作为其中一种实施例，具体包括以下步骤：

S1，牛的二代全基因组测序数据的收集。

共收集了57个品种898头牛的原始第二代全基因组测序数据，从NCBI(NationalCenter for Biotechnology Information,https://www.ncbi.nlm.nih.gov/)下载收集。

57个品种898头牛包括：Afar(阿法牛)9头、Angus(安格斯牛)92头、Ankole(安科拉牛)3头、Arsi(阿鲁西牛)10头、Barka(巴尔卡牛)9头、Beefmaster(肉牛王牛)15头，BelgianBlue(比利时蓝牛)7头，BohaiBlackCattle(渤海黑牛)4头，Boran(布朗牛)10头，Brahman(婆罗门牛)8头，Butana(布塔纳牛)20头，ChaidamuYellowCattle(柴达木黄牛)4头，Charolais(夏洛莱牛)86头，Charolais-RedAngus(夏洛莱-红安格斯牛)1头，DabieshanCattle(大别山牛)1头，Dengchuan(邓川牛)2头，DianzhongCattle(滇中牛)6头，Enshi(恩施黄牛)10头，EthiopianBoran(埃塞俄比亚博兰牛)10头，Fogera(弗吉拉牛)8头，Gelbvieh(盖普威牛)4头，Gir(吉尔牛)3头，Goffa(高法牛)10头，GuangfengCattle(广丰牛)4头，Hanwoo(韩牛)21头，Hereford(海福特牛)97头，Holstein(荷斯坦牛)130头，Horro(霍罗牛)11头，Jersey(娟珊牛)24头，Ji'anCattle(吉安牛)4头，JiaxianRedCattle(郏县红牛)3头，JinjiangCattle(锦江牛)2头，KazakhCattle(哈萨克牛)8头，Kenana(凯纳牛)11头，LeiqiongCattle(雷琼牛)3头，Limousin(利木赞牛)54头，LingnanCattle(岭南牛)4头，LuxiCattle(鲁西牛)4头，MaineAnjou(曼安茹牛)2头，Mongolian(蒙古牛)3头，Mursi(穆尔西牛)9头，Muturu(穆图鲁牛)4头，N'Dama(达摩牛)4头，Nelore(内洛尔牛)13头，Ogaden(奥加登牛)8头，PolishHolstein-Friesian(波兰荷斯坦-弗里斯兰牛)18头，Rashoki(若索科牛)1头，RedAngus(红安格斯牛)7头，Salers(萨莱牛)1头，Sheko(色科牛)8头，Simmental(西门塔尔牛)81头，TibetanYellow(西藏黄牛)6头，WandongCattle(皖东牛)2头，WannanCattle(皖南牛)2头，WeiningCattle(威宁牛)3头，WenshanCattle(文山牛)5头，XuanhanCattle(宣汉牛)5头，YanbianCattle(延边牛)1头，ZaobeiCattle(枣北牛)3头。

在NCBI上查找家牛的测序信息，根据NCBI提供的登录号，用SRAtoolkit软件中的prefetch工具从NCBI数据库下载SRA文件，或使用ascp从EBI数据库下载fastq文件，平均测序深度为16×。

S2，测序数据的质控和序列对比。

对原始的测序数据文件(fastq格式)用NGSToolkit软件去除接头序列和低质量的读长序列(reads)，使用“-l 70-s 20-z g”参数去除测序平台的接头序列，设碱基质量分数低于20的为低质量碱基，去除低质量碱基占比超过70％的低质量reads，压缩后输出高质量reads信息。

使用bwa软件的mem算法及默认参数将通过质量控制的序列信息比对到家牛的参考基因组ARS-UCD1.2(https://www.ncbi.nlm.nih.gov/genome/？term＝txid9913)。比对获得的bam文件，用samtools进行排序，用sambamba软件的默认参数去除冗余并建立索引。

S3，SV变异位点的鉴定及分型。

通过以上步骤预处理的bam文件，分别使用Lumpy、Delly、Breakdancer、Pindel软件检测SV。由于各软件输出SV的格式文件有较大差异，本发明分别为四个软件结果编写自定义Python脚本进行过滤和整合，仅保留常染色体上的变异，并去除变异长度低于50bp的SV，保留至少两个软件支持的SV，获得SV列表。共检测到约330万个缺失变异(Deletion,DEL)。

需要说明的是，本发明综合了Lumpy、Delly、Breakdancer、Pindel四款SV检测软件进行研究，Breakdancer软件仅使用RP算法，Pindel、Lumpy、Delly整合了SR和RP算法，相比于仅使用单种检测算法的软件有着更低的错误发现率。四款软件的SV检测类型以及分类标准不一致，在整合过程中保留共有的DEL、DUP、INV三种类型的SV。至少被两款软件同时检测到的SV被保留下来进行后续的研究，在最大程度提高灵敏度的同时增加了准确率。鉴于各软件对相同的SV有不同的判型，本发明设计和开发新的脚本软件GGDTRS.py(https://github.com/yangzhou-bio-lib/SV-information)进行SV的基因分型并生成VCF文件，主要通过识别reads被拆分的断点位置、SV区域的测序深度、reads与断点的位置关系等信息进行基因分型。GGDTRS软件实现对DEL位点在二倍体生物中精准基因分型，具有高准确率的分型效果。

S4，对所有的缺失型SV变异位点进行整合筛选。主要筛选过程包括以下步骤：

S41，首先根据每个位点受个体支持的数量，选择至少受10个个体支持的变异位点，总计17,090个位点，作为所有的高频率位点以备候选。

S42，根据缺失变异(DEL)的群体结构学分析的结果，将群体分类成瘤牛和普通牛两大亚群，利用DEL基因分型数据计算瘤牛和普通牛亚群的选择信号FST值，取FST降序排序后前1％的位点为显著差异位点共获得136个显著位点。进一步分析了受地域选择影响相关的DEL位点，将群体为非洲、西欧、华南、印度、东北亚、中欧-南欧6个亚群，分别计算Di选择信号，获得731个受选择的缺失变异位点；最后为了评估DEL在品种之间的分化差异，本研究选择和过滤样本量大于70的商业化品种，分别计算Di选择信号，挖掘各品种的受选择的DEL位点，共发现了540个受选择的特异DEL位点。

S43，筛选出与移动元件插入MEI相关的受选择的位点共35个。

S44，为了进一步研究不同群体中受选择的位点，对所有缺失型的SV位点按照不同品种和类群进行分类处理，根据不同的类群分别计算选择信号，筛选出Simmental(西门塔尔牛)群体中受选择的高频位点2871个和Holstein(荷斯坦牛)群体中受选择的高频位点3414个。

S45，利用NCBI公共数据库和前期研究所鉴定的基因组功能元件，对缺失型变异位点进行基因注释，主要保留保留落在基因组功能元件区域的位点，总计68573个位点，其中大部分位点落在基因的蛋白编码区域(protein coding)，少部分落在了基因的其它区域(如图3)。

S46，最后将受选择信号筛选出的位点与由基因组功能元件筛选出的位点进行整合，筛选出同时受两者支持的位点共9695个，再与所有的高频位点进行合并，最终筛选出同时受三者支持的位点总计12932个。通过以上筛选，共获得12932个DEL(缺失)型SV位点，我们将其称之为VIP(优先保留)位点，作为牛12K SV液相芯片位点的主要组成部分。

S47，额外添加其它4683个高频位点作为补充。

S5，对所有的17615个SV位点(12932个VIP位点和4683个补充位点)进行区间合并整理。合并整理的具体步骤如下：

S51，为保证最终芯片位点区间的唯一性和探针捕获的有效性，按照区间包含关系或重叠关系，且缺失序列长度差小于60bp的规则进行位点合并，同时删除不同变异类型的SV区间合并后区间发生改变的位点，最终保留了16682个SV变异区间。

S52，对16682个SV变异区间进行探针设计，设计的规则为：在DEL断点上下游选取最优的序列为探针序列，探针长度120bp，探针的GC含量30％—70％之间，同源比对的次数<5，同时尽量避开简单重复序列区域。经过严格设计，最终12506个SV区间探针设计成功，包含了9755个VIP的SV区间和2751个补充的SV区间。

S6，根据所有12506个候选位点进行SV芯片的定制。将筛选出的最终候选位点提交至北京康普森农业有限公司进行确认和定制。

表1用于探针设计的12506个位点信息

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

Claims

1.牛12K SV液相芯片，其特征在于：所述芯片包含12506个SV变异位点，对应12506个用于探针设计的位点，所述用于探针设计的位点信息具体如下：

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

2.根据权利要求1所述牛12K SV液相芯片，其特征在于：所述芯片通过下述方法获得：

S3：运用靶向测序基因分型技术开发出所述芯片。

3.权利要求1所述牛12K SV液相芯片在牛品种经济性状候选基因的定位、基因组选择、遗传多样性分析、品种鉴定、性别判断、亲缘关系鉴定、种质资源评价与改良、DNA指纹鉴定、全基因组关联分析或全基因组选择育种中的应用。

4.牛12K SV液相芯片的设计方法，其特征在于：具体包括如下步骤：

S1，牛的二代全基因组测序数据的收集；

S2，测序数据的质控和序列对比；

S3，SV变异位点的鉴定及分型；

S4，对所有的缺失型SV变异位点进行整合筛选；

S5，根据所有候选位点进行SV液相芯片的定制。

5.根据权利要求4所述牛12K SV液相芯片的设计方法，其特征在于：S1的具体过程为：在NCBI上查找家牛的测序信息，根据NCBI提供的登录号，用SRAtoolkit软件中的prefetch工具从NCBI数据库下载SRA文件，或使用ascp从EBI数据库下载fastq文件。

6.根据权利要求4所述牛12K SV液相芯片的设计方法，其特征在于：S2的具体过程为：对原始的测序数据fastq格式文件用NGSToolkit软件去除接头序列和低质量的读长序列reads信息，使用“-l 70-s 20-z g”参数去除测序平台的接头序列，设碱基质量分数低于20的为低质量碱基，去除低质量碱基占比超过70％的低质量reads，压缩后输出高质量reads信息；

使用bwa软件的mem算法及默认参数将通过质量控制的序列信息比对到家牛的参考基因组ARS-UCD1.2，比对获得的bam文件，用samtools进行排序，用sambamba软件的默认参数去除冗余并建立索引。

7.根据权利要求6所述牛12K SV液相芯片的设计方法，其特征在于：S3的具体过程为：通过S2预处理的bam文件，分别使用Lumpy、Delly、Breakdancer、Pindel软件检测SV，分别对四个软件结果进行过滤和整合，仅保留常染色体上的变异，并去除变异长度低于50bp的SV，保留至少两个软件支持的SV，获得SV列表。

8.根据权利要求7所述牛12K SV液相芯片的设计方法，其特征在于：对四个软件结果的过滤和整合采用脚本软件GGDTRS.py进行，脚本软件GGDTRS.py进行SV的基因分型并生成VCF文件，主要通过识别reads被拆分的断点位置、SV区域的测序深度、reads与断点的位置关系进行基因分型。

9.根据权利要求4所述牛12K SV液相芯片的设计方法，其特征在于：S4中整合筛选的具体步骤为：

S41，根据每个位点受个体支持的数量，选择至少受10个个体支持的变异位点作为所有的高频率位点以备候选；

S43，筛选出与移动元件插入MEI相关的受选择的位点；

S44，对所有缺失型的SV位点按照不同品种和类群进行分类处理，根据不同的类群分别计算选择信号，筛选出Simmental西门塔尔牛群体中受选择的高频位点和Holstein荷斯坦牛群体中受选择的高频位点；

S47，添加高频位点作为补充；

10.根据权利要求9所述牛12K SV液相芯片的设计方法，其特征在于：S48中合并整理的具体步骤为：