发明内容
本发明所要解决的技术问题是如何预测待测猪的窝产活仔数的遗传性能。
1、为解决上述技术问题,本发明首先提供了与猪的窝产活仔数的遗传性能相关的SNP位点组合。
本发明所提供的与猪的窝产活仔数的遗传性能相关的SNP位点组合,可由SNP1位点、SNP2位点、SNP3位点、SNP4位点和SNP5位点组成;
所述SNP1位点可为猪基因组中序列表中序列1自5’末端起第501位核苷酸;
所述SNP2位点可为猪基因组中序列表中序列2自5’末端起第501位核苷酸;
所述SNP3位点可为猪基因组中序列表中序列3自5’末端起第501位核苷酸;
所述SNP4位点可为猪基因组中序列表中序列4自5’末端起第501位核苷酸;
所述SNP5位点可为猪基因组中序列表中序列5自5’末端起第501位核苷酸。
2、为解决上述技术问题,本发明还提供了预测待测猪的窝产活仔数遗传性能的系统,该系统可包括检测待测猪的所述SNP位点组合中各个SNP位点的基因型的试剂。
上述预测待测猪的窝产活仔数遗传性能的系统中,所述系统还可包括将待测猪的所述SNP位点组合中各个SNP位点的基因型转换为待测猪的所述SNP位点组合的效应值的系统。
所述SNP位点组合在预测待测猪的窝产活仔数遗传性能中的应用也属于本发明的保护范围。
上述任一所述系统在预测待测猪的窝产活仔数遗传性能中的应用也属于本发明的保护范围。
本发明还保护如序列表中的序列1所示的分子标记甲、或、如序列表中的序列2所示的分子标记乙、如序列表中的序列3所示的分子标记丙、或、如序列表中的序列4所示的分子标记丁、或、如序列表中的序列5所示的分子标记戊。
所述分子标记甲和/或所述分子标记乙和/或所述分子标记丙和/或所述分子标记丁和/或所述分子标记戊在预测待测猪的窝产活仔数遗传性能中的应用也属于本发明的保护范围。
所述SNP位点组合、或、上述任一所述预测待测猪的窝产活仔数遗传性能的系统、或、所述分子标记甲、或、所述分子标记乙、或、所述分子标记丙、或、所述分子标记丁、或、所述分子标记戊在猪育种中的应用也属于本发明的保护范围。
3、为解决上述技术问题,本发明还提供了一种预测待测猪的窝产活仔数遗传性能的方法,可依次包括如下步骤:
(1)检测待测猪的所述SNP位点组合中各个SNP位点的基因型;
(2)采用MBLUP模型估计待测猪SNP位点组合的效应值,SNP位点组合的效应值越大,其窝产活仔数的遗传性能越高;SNP位点组合的效应值越小,其窝产活仔数的遗传性能越低。
4、本发明还保护筛选与猪的窝产活仔数遗传性能相关的SNP位点的方法,可依次包括如下步骤:
(1)获得猪的窝产活仔数的估计育种值;
(2)获得覆盖猪的全基因组的遗传标记;
(3)获得各个SNP位点的效应值;取效应值较大的SNP位点,并计算其贝叶斯因子,贝叶斯因子值较大的SNP位点即为与猪的窝产活仔数遗传性能相关的SNP位点。
所述步骤(1)中,获得猪的窝产活仔数的估计育种值具体可采用BLUP方法。
所述步骤(2)中,获得覆盖猪的全基因组的遗传标记具体可采用限制酶切位点相关DNA测序技术(restriction-site associated DNA sequencing,RAD-seq)。
所述步骤(3)中,可采用BayesB模型筛选与猪的窝产活仔数遗传性能相关的SNP位点。在本发明的实施例中,筛选与猪窝产活仔数遗传性能相关的SNP位点时,综合考虑SNP位点效应值及贝叶斯因子,且SNP位点效应值优先级更高。
上述任一所述猪具体可为大白猪。
5、模型解释
5.1所述MBLUP模型如下:
y=Xb+Zip+Z2u+Z3w+e
y表示窝产活仔数性状向量,X表示固定效应关联矩阵,b表示固定效应向量,固定效应包括场—年、胎次效应,Z1表示永久环境效应关联矩阵、p表示永久环境效应向量,Z2表示加性遗传效应关联矩阵、u表示个体加性遗传效应向量,Z3表示标记效应关联矩阵、w表示标记效应向量,e表示残差。
I表示单位矩阵,A表示基于系谱的亲缘关系矩阵,分别为永久环境效应方差、加性遗传效应方差、残差。
所述混合模型方程组可为:
M=[X Z3]
M′为M的转置矩阵,为n的估计值,X′、Z′2、Z′1分别表示X、Z2、Z1的转置矩阵, 分别为b、u、p的估计值。
5.2所述bayesB模型如下:
yd表示逆回归育种值向量,μ表示窝产活仔数的(逆回归育种值)平均值向量,n表示SNP位点个数,xi表示第i个SNP位点的基因型(基因型的数字表示,比如CC、CT、TT基因型分别表示为0、1、2),gi表示第i个SNP位点的效应值,e表示残差向量,w为权重向量,gi服从混合分布,gi效应值为0的概率为1-π0,的概率为π0。
所述逆回归育种值向量和所述权重向量是根据估计育种值,采用Dorian JGarrick的方法(Genetics Selection Evolution,2009,41(1):1-8)计算得到的。
所述估计育种值可采用BLUP模型计算,首先采用AIREML算法对方差组分进行估计,然后根据方差组分求解混合模型方程组,求出u的估计值即为估计育种值。
5.3所述BLUP模型如下:
y=Xb+Z1p+Z2u+e
模型中y表示窝产活仔数性状向量,X表示固定效应关联矩阵,b表示固定效应向量,固定效应包括场—年、胎次效应,Z1表示永久环境效应关联矩阵、p表示永久环境效应向量,Z2表示加性遗传效应关联矩阵、u表示个体加性遗传效应向量,e表示残差,I表示单位矩阵,A表示基于系谱的亲缘关系矩阵,分别为永久环境效应方差、加性遗传效应方差、残差。
混合模型方程组为:
X′、Z′2、Z′1分别表示X、Z2、Z1的转置矩阵, 分别为b、u、p的估计值。
实验证明,采用BLUP方法预测的可靠性(rc)值为0.071,而采用本发明筛选的5个SNP位点预测的可靠性值为0.081,相比BLUP方法提高了13.8%。因此可以利用本发明提供的5个SNP位点来预测待测大白猪的窝产活仔数的遗传值,可以加快遗传进展,为育种者带来经济效益,具有重要的应用价值。
实施例1、与大白猪群体窝产活仔数相关的5个SNP位点的获得
一、估计大白猪群体窝产活仔数的育种值
1、对618头大白猪不同胎次的窝产活仔数进行记录,获得原始记录。例如,编号为502和305的大白猪的原始记录见表1。
表1
编号 |
被查个体号 |
胎次 |
配种日期 |
分娩日期 |
窝产活仔数(头) |
502 |
YYNMZC611060804 |
1 |
2012/6/12 |
2012/10/9 |
10 |
502 |
YYNMZC611060804 |
2 |
2012/11/13 |
/ |
/ |
502 |
YYNMZC611060804 |
2 |
2012/12/25 |
2013/4/20 |
11 |
502 |
YYNMZC611060804 |
3 |
2013/5/14 |
2013/9/5 |
9 |
502 |
YYNMZC611060804 |
4 |
2013/10/3 |
2014/1/29 |
7 |
502 |
YYNMZC611060804 |
5 |
2014/2/23 |
/ |
/ |
502 |
YYNMZC611060804 |
5 |
2014/3/16 |
2014/7/9 |
9 |
502 |
YYNMZC611060804 |
6 |
2014/7/31 |
2014/11/23 |
14 |
502 |
YYNMZC611060804 |
7 |
2014/12/21 |
2015/4/16 |
12 |
502 |
YYNMZC611060804 |
8 |
2015/5/11 |
/ |
/ |
305 |
YYNMZC611060808 |
1 |
2012/5/7 |
2012/8/31 |
10 |
305 |
YYNMZC611060808 |
2 |
2012/9/26 |
/ |
/ |
305 |
YYNMZC611060808 |
2 |
2012/10/18 |
2013/2/11 |
9 |
305 |
YYNMZC611060808 |
3 |
2013/3/9 |
2013/7/3 |
10 |
305 |
YYNMZC611060808 |
4 |
2013/8/2 |
2013/11/28 |
3 |
305 |
YYNMZC611060808 |
5 |
2013/12/30 |
2014/4/24 |
10 |
305 |
YYNMZC611060808 |
6 |
2014/5/21 |
2014/9/16 |
8 |
注:“/”表示不存在,即配种不成功或记录缺失。
2、对步骤1得到的原始记录进行质量控制(如去除个体编号重复、胎次记录重复及异常值),并保留前10个胎次,剩余2758条记录。结合系谱数据(共包含1899个个体)采用如下模型(BLUP模型)估计育种值:
y=Xb+Z1p+Z2u+e
模型中y表示窝产活仔数向量,X表示固定效应关联矩阵,b表示固定效应向量,固定效应包括场—年、胎次效应,Z1表示永久环境效应关联矩阵、p表示永久环境效应向量,Z2表示加性遗传效应关联矩阵、u表示个体加性遗传效应向量,e表示残差,I表示单位矩阵,A表示基于系谱的亲缘关系矩阵,分别为永久环境效应方差、加性遗传效应方差、残差。
采用AIREML(average information restricted maximum likelihood)算法对方差组分进行估计,的值分别为0.30、0.56、5.45。再将的值代入混合模型方程组,求出u的估计值即为估计育种值。
混合模型方程组为:
X′、Z′2、Z′1分别表示X、Z2、Z1的转置矩阵, 分别为b、u、p的估计值。
二、逆回归育种值及权重的计算
根据步骤一得到的育种值,采用Dorian J Garrick等的方法(GeneticsSelection Evolution,2009,41(1):1-8)计算逆回归育种值及权重。
三、检测与大白猪群体窝产活仔数性状相关的SNP位点
1、采用限制性内切酶TaqI和MspI对大白猪基因组DNA进行双酶切,添加个体识别序列后,取等量DNA混合(平均包含22个大白猪样本),选取长度在400-500bp之间的片段,在Hiseq 4000平台进行双端测序(PE100)。根据个体识别序列对原始测序数据进行拆分,平均每个个体测序短片段数为6.17×106条。对测序数据进行质控,过滤掉低质量值的测序片段(质量值小于20的碱基比例超过30%),平均每个个体剩余测序片段数为5.66×106条。
2、完成步骤1后,采用BWA软件(http://bio-bwa.sourceforge.net/bwa.shtml)将过滤后的片段比对到参考基因组(assembly Sscrofa10.2),然后采用SAMtools软件(http://samtools.sourceforge.net/)进行变异位点检测,结果共得到200588个原始单核苷酸多态性标记,即200588个SNP位点。
3、完成步骤2后,将200588个SNP位点进行过滤(过滤条件:群体检出率大于0.7,SNP位点质量值大于20,最小等位基因频率大于0.01,杂合度小于0.9),剩余80270个SNP位点。
4、完成步骤3后,采用fastphase软件对基因型进行填补,然后过滤(过滤条件:群体检出率大于0.7,最小等位基因频率大于0.01,杂合度小于0.9),共得到79725个高质量的SNP位点。
fastphase软件的网址为http://stephenslab.uchicago.edu/software.html。
四、SNP位点的筛选
以步骤二得到的逆回归育种值为因变量,采用bayesB模型计算每个SNP位点的效应值。bayesB模型如下:
模型中yd表示逆回归育种值向量,μ表示平均值向量,n表示SNP位点个数,xi表示第i个SNP位点的基因型(基因型的数字表示,比如CC、CT、TT基因型分别表示为0、1、2),gi表示第i个SNP位点的效应值,e表示残差向量,w为步骤二得到的权重向量,gi服从混合分布,gi效应值为0的概率为1-π0,的概率为π0。
随着SNP位点的效应值(绝对值)降低,SNP位点对表型(即窝产活仔数)方差的贡献一般也呈降低趋势,当然还受到等位基因频率的影响。为了以较少数量的SNP对窝产活仔数进行较好的预测,选取效应值最大的5个SNP位点,将这5个SNP位点分别命名为SNP1位点、SNP2位点、SNP3位点、SNP4位点和SNP5位点,基本信息见表2。
表2中贝叶斯因子(BF)采用如下公式进行计算:
p为SNP位点效应值不为0的后验概率,π0为SNP位点效应值不为0的先验概率。当BF<3时,该SNP位点与窝产活仔数不相关;当3<BF<20时,该SNP位点与窝产活仔数相关性较弱;当BF>20时,该SNP位点与表型(即窝产活仔数)有比较强的相关性(Robert E.Kass,Vol.90,No.430,773-795.)
结果表明,SNP1位点、SNP2位点、SNP3位点、SNP4位点和SNP5位点均与窝产活仔数相关。
SNP1位点为大白猪基因组中序列表中序列1自5’末端起第501位核苷酸。
SNP2位点为大白猪基因组中序列表中序列2自5’末端起第501位核苷酸。
SNP3位点为大白猪基因组中序列表中序列3自5’末端起第501位核苷酸。
SNP4位点为大白猪基因组中序列表中序列4自5’末端起第501位核苷酸。
SNP5位点为大白猪基因组中序列表中序列5自5’末端起第501位核苷酸。
表2
实施例2、采用5个SNP位点预测待测大白猪的窝产活仔数的方法
为更加符合育种实践(即用出生早的性状记录完备的个体,对后代性状行早期预测),将618头大白猪按出生日期先后进行分组,出生日期靠前的495头大白猪作为参考群,出生日期靠后的123头大白猪作为验证群。参考群和验证群中,窝产活仔数均已知,5个SNP位点的基因型也已知。
采用SNP位点的基因型信息及系谱信息预测窝产活仔数,并评估预测的准确性。具体方法为:将验证群中的窝产活仔数设定为未知,然后根据验证群中的SNP位点的基因型信息及系谱信息对窝产活仔数遗传值进行预测;将该预测结果与验证群窝产活仔数的估计育种值进行比较,进而评估预测的准确性。
在没有窝产活仔数记录情况下,采用如下模型预测验证群的育种值:
y=Xb+Zip+Z2u+Z3w+e
模型中y表示窝产活仔数向量,X表示固定效应关联矩阵,b表示固定效应向量,固定效应包括场—年、胎次效应,Z1表示永久环境效应关联矩阵、p表示永久环境效应向量,Z2表示加性遗传效应关联矩阵、u表示个体加性遗传效应向量,Z3表示标记效应关联矩阵、w表示标记效应向量,e表示残差,
I表示单位矩阵,A表示基于系谱的亲缘关系矩阵,分别为永久环境效应方差、加性遗传效应方差、残差。
采用AIREML(average information restricted maximum likelihood)算法对方差组分进行估计(取618个个体的窝产活仔数记录),的值分别为0.22、0.39、5.44。根据方差组分求解混合模型方程组(495个个体有窝产活仔数记录),进而得到没有窝产活仔数记录情况下123头大白猪(验证群)窝产活仔数的估计育种值。混合模型方程组为:
M=[X Z3]
其中,M′为M的转置矩阵,为n的估计值,X′、Z′2、Z′1分别表示X、Z2、Z1的转置矩阵, 分别为b、u、p的估计值。
按照实施例1步骤一的方法,获得有窝产活仔数记录情况下123头大白猪(验证群)窝产活仔数的估计育种值。
验证群育种值的预测可靠性采用验证群育种值与校正表型值的相关性(Guo etal.Journal of Animal Science,2015,93(2):503-12;Guosheng Su et al.PLoSOne.2012;7(9):e45293.)
来进行评价,r2=cor2(EBV,yc)/h2,r2为预测可靠性,EBV为验证
群体的育种值,为基于全部数据计算的育种值,为残差,n为记录胎次数,h2为遗传力。由于h2为常数,因此不同方法预测准确性的比较可以简化为比较rc=cor(EBV,yc)的大小。
结果表明,BLUP预测可靠性(rc)值为0.071,而采用本发明筛选的5个SNP位点预测的可靠性值为0.081,相比BLUP提高了13.8%。
因此可以利用本发明提供的5个SNP位点来预测待测大白猪的窝产活仔数遗传性能,且具有成本低、准确性高的特点,可以加快大白猪的窝产活仔数性状的遗传进展,为育种者带来经济效益。本发明具有重要的应用价值。
<110> 深圳华大基因研究院 深圳市农牧实业有限公司
<120> 一种预测待测猪的窝产活仔数遗传性能的SNP位点组合及方法
<160> 5
<170> PatentIn version 3.5
<210> 1
<211> 1001
<212> DNA
<213> 人工序列
<220>
<221>
<222> (501)..(501)
<223> n为c或t
<400> 1
tgccagggtg tcctagcact gcaacagtgg gattttaaga gaggattcta ctctggaggc 60
agcatcactc ctccgcagca actgaggggt aaaaaaaaga tggttcttac ccagcagaca 120
cccccacacc ccaggcatac tgtcctctct gagttgattc tgtgttagaa aaggggctgg 180
actctatgca acaattccta agtgaattct gggcacagca taaatcagtg ctacttagta 240
gaacatgggt ttgtagtgac aaaggttttt ccttcttaac acgaactaac caaggcagta 300
ttggctgtca ttcatttact ttcatatggc ctctggatta ctggcttggt tctttttttt 360
tttttttttt ttttttgctt tttagggcca cacccatagc atatggaagt tcccaggctt 420
ggggtcgaat tggaactaca actaccagcc tacgccacag ccacagcaac gtggctacaa 480
ccagcctaca ccacagttca nggcaatgct ggatccttaa cccactatgt gaggccaggg 540
attgaacctg catcctcatg gatattagtt gggttcattt ctgctgagcc acaatgggaa 600
tccctctcat ttctttttta agaaagttac tcatgctgct ctcagatact taataagtac 660
catggtttta aaatttaact tacggagttc aaatgtttat tataaagcat tatggttgtg 720
ctatggtctt aacatttgtg ccccgcccca attcctatat ttcgatccta acccccaaag 780
gtgattgtag gtgggggctt tgggagttgc ttaagtcatg agatggaacc ctcatgaatg 840
gaagcagtgc cttataagag aggccccaga gagatcccta gctaccttct gccatatgag 900
gattcaacag gaagtctgaa acctagaaga cggcccttac cctaccacgc tgccaccctg 960
atctctgact tctggcctct agaactgtgc caaataaact t 1001
<210> 2
<211> 1001
<212> DNA
<213> 人工序列
<220>
<221>
<222> (501)..(501)
<223> n为c或t
<400> 2
tttattagat atcaagggaa tggggatcct tgctaaactg ggctcggccc gtcaaggatg 60
aggtttcatc cagaagagta ttcaaaagga gactgactaa agtttggtca acgtacgctc 120
cttgccaggg ggagaaccgt ctcttcccca cagggcagaa ggccaggcaa gggccccagg 180
actcctccaa agacaggcaa aggcagcagg gaagaggcag gtgggaatct tctggagacc 240
aagcaaggat cggaagccag gttcagggcc tctgaaccct gaaagaaccc gcttccccgg 300
gtgaagggaa gacaagtgag cacgagcatg agcaattatg agccagcgag aaagaacagc 360
agagcagata agcacgacca aaaaaagggt tgattcattt gtcaggtttg tttatttatt 420
tttgtctttt tagggccaca cccatggcat atggaggttc ccaggctagg agtcgaattg 480
gagctacagc tgctggccaa ngccacagcc acagcgacgc cagatcccag ccacgtctgt 540
aaactacacc tcagctcaca gcaacgccag agccttaacc cactgagcga ggcccaggat 600
ggaacccacg tcatcgtgga tactagtcgg attcgttgcc gctgagccac gaagggaact 660
ccttttgtca ggtttaaatg acaggatccc accaggagaa tttgtggtac acggcagtca 720
ttcggcacag cccggaagaa tcactgaact tcttgcctct gaatataacg gggctctcag 780
agtgatcgcg gatgaaacac tgtaagaaac gtgaccttac tttattctct aaactgggga 840
ggcaggccat tctggctact atagatttca tctgtataag tgtcctgtgt tgcggggacc 900
aatgtactaa cacagattag aaacggggtt ttttggtttg tttgtttgga tggggtgggg 960
gagcaaagta aacctgaact cagagaaata tttctaactg g 1001
<210> 3
<211> 1001
<212> DNA
<213> 人工序列
<220>
<221>
<222> (501)..(501)
<223> n为c或t
<400> 3
gtctggggac aaccctgctg cggaccccaa ggatgctgct ctctgtattg gaggctgtca 60
ccactcctat ggcttctgga ttcatcgtca tcccacgcct ctgtattacc cgctgcaggg 120
ggggcccaga tcatcctccc ccccacccca cccccgcccg cgccccatcc atctcagctg 180
caagaaagcc tggcaagttt gtctctggca tctctggtct ttagtggtga gatggcttta 240
cctcccgagg gtgaggagtc cccaggcaca ggaaagaggt cacatcctgg gcaatgccaa 300
gtgagggacg aatatcattc ttgcacttga gaactgggac cacgtcctcc tctcttttac 360
gggggccaga ccgagcaccg tgccagcacg taggaggtgc caacacatcg atcatgagat 420
gcttgtcaac atctgttccg gagcgagtcc cacctcacag atcctaatag ctagagagct 480
gggcagcttg atggcataga nggtctgtgt tttcttgtac tgaccctgtt gtaatgtggc 540
cctgtgacag tcacattctc tgatggcatc tacgtcaaag ccattaacac cctttgggaa 600
tctccttccg atccccagga atacatccca ttttgcatgg ttcaagcaat aagggaagaa 660
gcgtatttaa agcctctggt cttctttaag ttagagagag aaaagatctc agccttggaa 720
gatgaacacc tcaaaaacgg tactccgggt ggcaagcggc atcatctagg gtgttatttg 780
acgagattgt tcttcctagt gactgcctac tggaggcaag tgcgtggagc tgatcgactg 840
gcaagccatc cgttttctgt gaaataaggg aggcactgag ggcttaaatg gtaaagttat 900
cgaatacctt acatccaaac agctacctta aaatgacttc cacacaggca gcgttttttc 960
cctgacagtc atgtttgcta tttgaacgta aagtagggtg c 1001
<210> 4
<211> 1001
<212> DNA
<213> 人工序列
<220>
<221>
<222> (501)..(501)
<223> n为c或t
<400> 4
tgcaaatcag gttggtctat gctcactctg atgaataact tatgtgaaaa gaacttgaag 60
atagcaaatg aatttaatta tcagtgaaaa ttaccaaaga agaactaatg tttgcaaatg 120
ctaatatttt attataaaat acactgttat tgtttctact atctaacact ttaccaaatt 180
tgaagcagat ttagcaattt gccttatgca caaaaaagta cttaggtctg catagtgtta 240
taccttcttt tttcttcagt tagtgctaaa cataaaacca ttattttcag atccttgatc 300
tagctttcag aatttatcct ctactcttca ccatgtgaaa taaaagttct gttttgacac 360
cagggaaaaa tacagaaaca cacatattta cacacaaata taaattatat gatcatttgc 420
ccaacacaat tacatttcca agtgaaaaag tatgtgaaag tggctttcta agagatgaag 480
cattccggca aaatgcaaaa naaaaaagtt ccaagtgaat gatcctttag ggtagaaaaa 540
ggttagctgt gaatacgctt gtgaaatata ctgtggagga ttctcattct gagattatga 600
tcgttcttgc ctccaggttc aagtgttgct caatcagcaa ggtgctcaat tcacagtgat 660
tgcggcgcat ttcctcgttg atcaggaaaa tgcgtaatct cagcctagac acatttacca 720
taaaaatgaa tatacgaaat aggatttttg atttaaattt tccagttgca gcatatcgag 780
aaaaatatat gcaagagaag attctgtttg aaaagctcta attcaaataa gtccaaaaag 840
aacacatctc tatgtaccta acgctgtctt gccattagat agcaagcttt tctcgctcag 900
agcccttgtc aatttgatta aactcacaaa cacgtggctg actccgcccc ttttaaaaat 960
actctctagc cgagccggag gatgactgag aagcatgtgg c 1001
<210> 5
<211> 1001
<212> DNA
<213> 人工序列
<220>
<221>
<222> (501)..(501)
<223> r为a或g
<400> 5
tggaataatg acagtcaggt tctagggtca ggcagcagta agggcttctg gcccaggatg 60
actgatgttc ttaaacagcc caaacctcta gggtctgagc aagaggagtc tcgtgttttc 120
ttattcccca tcccatactc ttccttctct tctaacctat ctataattag ctcatattca 180
ttacccttta ggctagagat agactacaga tgctattttg aaggacaact cttatcaata 240
gaggtcacac ggggtgctgg gttgaggatt attattatta tttttgtctt tttagggctg 300
tacctgtggc atgtggaggt tcccaggcta ggggtgggtc taatcggagc tgcagcttct 360
ggccctcacc acagccacag caacgcggga tccaagtcgt gtgtgcgacc tacaccacag 420
ctcgtggcaa catcagatcc ttaacccaat gatcgaggcc agggatcaaa cccacatcct 480
catggatgct agttgggttc rttaactgct gagccgtaag gggaactggg ttgagggtta 540
aaaagccaca tccacgtcta atgagaaata gtgctgtggt ccattagtaa tgtctgccat 600
gggcaacgaa cttaaggcag gggtttatat gcttatgact gccacctccg ctttagaatc 660
atctcctccg gagttcccgt cgtggcacag tggttaacga atccgactag gaaccatgag 720
gttgagggtt cggtccctgc ccttgctcag tgggttaacg atccggcgtt gccgtgagct 780
gtggtgtagg ttgcagacgt ggctcagatc ccgcgttgct gtggctctgg cgtaggccag 840
tggctacagc tccgattcaa cccctagcct gggaacctcc atatgcctcg ggagcggtcc 900
aagaaatagc aacaacaaca acaaaaagac aaaaagacaa aaaaaataaa ataaataaac 960
aaaaataaat taaaaaaaaa aaaaaaagaa tcatctcctc c 1001