CN105734120B

CN105734120B - 检测性发育相关基因变异的方法和试剂盒

Info

Publication number: CN105734120B
Application number: CN201410757689.2A
Authority: CN
Inventors: 易玉婷; 曹飞; 周丽颖; 易鑫
Original assignee: Tianjin Bgi Technology Co ltd; BGI Shenzhen Co Ltd
Current assignee: Tianjin Bgi Technology Co ltd; BGI Shenzhen Co Ltd
Priority date: 2014-12-11
Filing date: 2014-12-11
Publication date: 2020-11-27
Anticipated expiration: 2034-12-11
Also published as: CN105734120A

Abstract

本发明公开了一种试剂盒，其包括探针，所述探针固定在固相基质上或者游离于液相中，所述探针能够特异性识别X染色体上的特定的29个基因的外显子区和X染色体上的至少一个其它区域，所有的探针能够特异性识别的X染色体上的区域中的任两个相邻区域在X参考染色体上的距离不大于10M，所述探针能够特异性识别Y染色体上SRY基因的外显子区和Y染色体上的至少一个其它区域，所有的探针能够特异性识别的Y染色体上的区域中的任两个相邻区域在Y参考染色体上的距离不大于10M。同时，本发明还公开了试剂盒在检测性发育相关基因中的用途、一种检测SRY基因变异的方法、一种检测SRY基因变异的装置和一种检测性发育相关基因变异的方法。

Description

检测性发育相关基因变异的方法和试剂盒

技术领域

本发明涉及生物医学领域，具体的，本发明涉及检测性发育相关基因变异的方法和试剂盒，更具体的，本发明涉及一种试剂盒、试剂盒在检测性发育相关基因中的用途、一种检测SRY基因变异的方法、一种检测SRY基因变异的装置和一种检测性发育相关基因变异的方法。

背景技术

性发育疾病(Disorders of sex development，DSD)是性决定和性分化异常的一组异质性遗传病,是由于染色体畸变或单基因突变导致的性发育遗传和内分泌途径的改变[MacLaughlin,D.T.and P.K.Donahoe,Sex determination and differentiation.N EnglJ Med,2004.350(4):p.367-78.]。性发育疾病的发病率约为1-3‰，其中新生儿约为1/4500。分为性染色体异常、46,XY DSD和46,XX DSD三大类。

基因的各种类型的变异的发生或遗传，如点突变、插入缺失、拷贝数变异、染色体非整倍性等或者多类变异的组合，可能会使人体异常。性发育的遗传因素异质性高，涉及的基因众多、变异类型多样[Ono,M.and V.R.Harley,Disorders of sex development:newgenes,new concepts.Nat Rev Endocrinol,2013.9(2):p.79-91.]。性发育疾病在遗传因素层面，首先是通过传统的细胞遗传学方法，进行染色体核型检测分析，排除性染色体异常类型，并且确定是属于46,XY DSD还是46,XX DSD。在基因层面，目前主要集中在少数几个最常见的基因及其热点变异。对于比较常见的如SRY基因，46,XX睾丸性DSD中SRY基因阳性变异约占80％，具有非常重要的地位，46,XX睾丸性DSD中SRY基因阳性变异是由于Y染色体上的蛋白激酶PRKY与X染色体上的蛋白激酶PRKX高度同源，发生了部分区域或全部区域重组而发生的。临床上常用核型加上FISH或者PCR的方法进行检测。除了点突变、插入缺失等变异类型，不同大小的拷贝数变异(Copy Number Variant，CNV)，从单个外显子水平到几Mbp的染色体微缺失也在该疾病中占有重要地位，如46XY性反转4型/染色体9p24.3缺失综合征，46XX性反转2型/染色体17q24重复综合征，46XX性反转3型/染色体Xq26重复综合征。对于这类变异，目前主要采用FISH、MLPA、Array CGH等方法进行检测。尽管如此，新生儿DSD的检出率仍然只有20％左右，仍然面临着很大的挑战。

发明内容

本发明旨在提供至少一种商业选择或者至少一定程度解决上述问题之一。

依据本发明的一方面，提供一种试剂盒，其包括探针，所述探针固定在固相基质上或者游离于液相中，所述探针能够特异性识别X染色体上的29个基因的外显子区：CUL4B、OCRL、OFD1、OPHN1、SMS、GK、SOX3、AR、ARX、HCCS、MAMLD1、PHF6、ATRX、HDAC8、POF1B、MBTPS2、MECP2、MED12、MID1、BMP15、NAA10、BRWD3、FGD1、IGSF1、FLNA、NR0B1、KAL1、KDM5C和NSDHL，和X染色体上的其它至少一个区域，所有所述探针能够特异性识别的X染色体上的区域中的任两个相邻区域在X参考染色体上的距离不大于10M，所述探针能够特异性识别Y染色体上SRY基因的外显子区，和Y染色体上的其它至少一个区域，所有所述探针能够特异性识别的Y染色体上的区域中的任两个相邻区域在Y参考染色体上的距离不大于10M。所述探针能够特异性识别的性染色体上的区域，包括X染色体上的特定的29个基因和Y染色体上的SRY基因的外显子区域，是经过全面收集、多次组合筛选出的集合，能够基于很小的区域信息而全面代表或者反映性染色体上的性发育相关基因。本发明这一方面的试剂盒包含的探针能够用以捕获性发育相关基因区域获得区域信息，进一步的能够用于基于获得的捕获区域的信息，检测性发育相关基因变异。加上X/Y染色体上的其它至少一个区域使所有的探针能够特异性识别的X/Y染色体上的区域中的任两个相邻区域在X/Y参考染色体上的距离不大于10M，即探针能特异性识别的区域在X/Y染色体上的一定间距中有分布，且特异性识别的各个区域在X/Y染色体上呈现相对均匀分布，这样，各个区域的总的信息能够用以代表或准确反映整条染色体的信息，获得整条染色体的信息，而获得整体的信息反过来能够用作基准检验或校正以获取准确的性发育相关基因信息，还能够用以辅助判定特定变异的存在，比如用以辅助检测46,XX中的SRY基因阳性变异，有利于准确检测性发育相关基因的多种变异。需要说明的是，所说的区域不包括参考基因组上序列未知的区域，比如着丝粒附近的区域、Yq12等，即在衡量两个相邻区域在参考基因组上的的距离时跳过这些序列未知的区域。所说的两个区域的在参考染色体上的距离，可以是两个区域各自的中心点在参考染色体上的距离，也可以是前一区域的最后端和后一区域的最前端在参考染色体上的距离，在本发明的一个实施例中，所说的区域在参考染色体上的距离是指区域的中心点之间的距离，当所说的区域包含2n+1个碱基时，区域的中心点在第n+1个碱基处，当区域包含2n个碱基时，该区域的中心点为第n或第n+1个碱基处。需要说明的是，由于本发明中涉及的具体数值大多具有统计意义，例如前述的距离“10M”，如无特殊说明，任意以精确方式表达的数值均代表一个范围，即包含该数值正负10％的区间，以下不再重复说明。

在本发明的一个实施例中，进一步选择的性染色上的其它区域使所有的所述探针能够特异性识别的X/Y染色体上的区域中的任两个相邻区域在X/Y参考染色体上的距离不小于5M，以使利用更少的目标区域来准确代表反映整条染色体。在本发明的一个实施例中，所述探针能够特异性识别每5-10M所述X参考染色体区域中的至少一部分和每5-10M所述Y参考染色体区域中的至少一部分，这里对所说的5-10M区域中的至少一部分中的“部分”的大小没有特别限制，可以是整个5-10M区域，也可以是区域中的一部分，较佳的，所说的部分的大小不小于探针的长度，探针长度一般为50～300nt。

所说的X/Y染色体上的至少一个其它区域，可以是上述探针能够特异性识别的基因中的其它非外显子区域，也可以是染色体上的与上述探针能够特异性识别的基因不相关的其它基因区域，只要最后能够使得所有的探针能够特异性识别的X/Y染色体上的区域中的任两个相邻区域在X/Y参考染色体上的距离不大于10M就行。在本发明的一个实施例中，所述X染色体上的至少一个其它区域部分包括以下基因的外显子区：GATA1、KLHL4、DGKK、DIAPH2、EBP、MTCP1、HPRT1、MTM1、BRCC3、USP26、FMR1、BCOR、ZXDA、RAB40AL和CHRDL1，和/或，所述Y染色体上的至少一个其它区域包括以下基因的外显子区：KDM5D、PCDH11Y、DDX3Y、EIF1AY和USP9Y。这些基因外显子区域组合是经过序列分析和多次筛选组合获得的，不仅满足使所有的探针能够特异性识别的X/Y染色体上的区域中的任两个相邻区域在X/Y参考染色体上的距离不大于10M，而且区域中的序列具有特异性，易于设计探针使这些区域能够被同时特异性识别捕获出。

在本发明的一个实施例中，所述探针还能够特异性识别至少一个常染色体基因的至少一部分，这样利用该试剂盒能够获得常染色体信息，常染色体信息能够用作参照或者基准来检验或校正获得的性发育相关基因基因以及性染色体信息。在本发明的一个实施例中，至少一个常染色体基因的至少一部分包括以下常染色体基因的外显子区：AGPAT2、GADD45G、SLC39A4、AIP、CUL7、KIAA1267、SMARCA2、AIRE、CYB5A、GATA3、KIF7、AKAP2、CYB5R3、GATA4、KISS1、ORC1、SNAP29、AKR1C2、CYP11A1、GDF9、KISS1R、OTX2、SNRPN、AKR1C4、CYP11B1、GHR、PAPSS2、SOS1、ALMS1、CYP11B2、KRAS、PAX2、SOX10、ALX4、CYP17A1、GLI3、LEP、SOX2、AMH、CYP19A1、GNAS、LEPR、PCSK1、AMHR2、CYP21A2、GNRH1、LHB、PEX1、SOX8、CYP3A7、GNRHR、LHCGR、PEX12、SOX9、ARID1B、DAZ1、GPC6、LHX1、PEX14、SPATA17、ARID5B、DBH、GSTM1、LHX3、PEX2、SPATA4、ARL6、DCAF17、GSTT1、LHX4、PEX26、SRD5A1、H19、LHX9、PEX3、SRD5A2、ATF3、H6PD、LMNA、PEX5、ATPAF2、DHCR7、HARS2、LZTFL1、PEX6、STAR、ATR、DHH、STK11、MAP2K1、PITX2、STRA6、BBS1、DIS3L2、HESX1、MAP31、PMM2、SULT2A1、BBS10、DMRT1、HFE、MAP3K4、TAC3、BBS12、DMRT2、HHIP、MAPK1、POLG、TACR3、BBS2、DMRT3、HNF1B、MAPK14、POLR3A、TBCE、BBS4、DOCK8、HOXA10、POR、TBX1、BBS5、DPAGT1、HOXA11、POU1F1、TBX3、BBS7、EBF2、HOXA13、PPARG、TGFB1、BBS9、HOXA4、PPP1R3A、TGFBR3、BLM、HOXA9、MKKS、PRKAR1A、TMEM67、EIF2B1、HOXB6、MKS1、PROK2、TNXB、BMP2、EIF2B2、HOXC13、MLL2、PROKR2、TP63、BMP4、EIF2B3、HOXD13、PROP1、TRIM32、BMP7、EIF2B4、PSMC3IP、TSHR、BMPR1B、EIF2B5、HS6ST1、MTMR1、PTCH1、TSPYL1、BRAF、EMX2、HSD11B1、PTGDS、TTC8、ERCC8、HSD17B3、NBN、PTPN11、UBR1、ESR1、HSD17B4、NDN、RAB23、UPK3A、BSCL2、ESR2、HSD3B1、NELF、RAB3GAP2、BUB1B、EVC、HSD3B2、NIN、RAB40AL、CBL、EVC2、ICK、NKAIN2、RAF1、WDPCP、CBX2、IGF1R、NLGN4X、RECQL4、WDR11、CCDC28B、FGF8、NOBOX、RET、WHSC1、CD96、FGF9、INHA、NOS1、RIPK4、WNT3、CDKN1C、FGFR1、INHBA、NOTCH2、ROR2、WNT4、CEP290、FGFR2、INHBB、NPR1、RSPO1、WNT5A、CFTR、FIGLA、INPP5E、NPR2、RXFP2、WNT7A、CGA、INSL3、SDCCAG8、WT1、CHD7、INSR、NR1I2、SEMA3A、WWOX、CHRM3、FOXL2、INSRR、NR1I3、SEMA3E、ZBTB16、CLTCL1、FRAS1、IRF6、NR3C1、SF3B4、ZFPM2、CNBP、FREM2、IRX5、NR5A1、SHBG、ZFY、CREBBP、FSHB、NRAS、SHH、CTNNB1、FSHR、KCNQ1OT1、NSD1、SHOC2、CTNS、FST和SLC29A3。这些基因外显子区域是经过长时间收集、序列分析、多次组合筛选获得的，其整体信息能够用以代表或全面反映常染色体上的性发育相关基因区域，而且这些区域中的序列之间具有特异性，方便于设计探针使这些区域能够在同一个混合探针体系中同时被特异性识别出。利用这一试剂盒，能够获得319个性发育相关基因的信息，能够用以一次性检测319个与性发育相关的基因，进一步的能够用以实现性染色体剂量、微缺失微重复变异、相关基因的点突变、插入/缺失以及拷贝数变异的一次性检测分析。

在本发明的一个实施例中，所述探针还能够特异性识别与其能够特异性识别的基因的外显子区相邻的30bp内含子区。这些与外显子上下游相邻的内含子区通常与某些类型变异相关，例如可变剪接，使探针能够特异性识别这些内含子区域也有利于目标基因的特异性识别捕获。

依据本发明的另一方面，本发明提供了上述本发明一方面的或者任一具体实施方式中的试剂盒在检测性发育相关基因中的用途。前述本发明一方面提供的试剂盒或者任一具体实施方式中的试剂盒的技术特征和优点的描述，也适用于本发明这一方面的试剂盒的用途，在此不再赘述。

依据本发明的又一方面，本发明提供一种检测SRY基因变异的方法，该方法包括：(1)获取待测样本核酸；(2)对所述核酸中的目标区域进行测序，获得测序数据，所述测序数据由多个读段组成，所述目标区域是通过上述任一试剂盒捕获所述核酸获得的；(3)将所述测序数据与第一参考序列比对，获得第一比对结果；(4)基于所述第一比对结果，计算X染色体和Y染色体的测序深度，任选的，计算常染色体的测序深度，X染色体的测序深度＝比对上X染色体目标区域的读段数目/X染色体目标区域的大小，Y染色体的测序深度＝比对上Y染色体目标区域的读段数目/Y染色体目标区域的大小，常染色体的测序深度＝比对上常染色体目标区域的读段数目/常染色体目标区域的大小；(5)比较Y染色体测序深度和X染色体测序深度，任选的比较Y染色体测序深度和常染色体测序深度，进行以下(a)或(b)：(a)当Y染色体测序深度小于1/5的X染色体测序深度，和/或Y染色体测序深度小于1/10的常染色体测序深度时，将所述测序数据与第二参考序列比对，获得第二比对结果，将所述第二比对结果中的未比对上所述第二参考序列的读段与第三参考序列比对，获得第三比对结果，基于所述第三比对结果，检测SRY基因变异，(b)当Y染色体测序深度不小于1/5的X染色体测序深度，和/或Y染色体测序深度不小于1/10的常染色体测序深度时，基于所述第一比对结果，检测SRY基因变异；其中，所述第一参考序列包括X染色体、Y染色体和常染色体的参考序列，所述第二参考序列不包括Y染色体的参考序列，所述第三参考序列包括Y染色体的参考序列。所说的测序可以利用已知平台进行，可选择但不限于Illumina公司的Hisq2000/2500测序平台、Life Technologies公司的Ion Torrent平台和单分子测序平台，测序可以是单端测序，也可以是双末端测序，在本发明的一个实施例中，利用双末端测序获得测序数据，测序数据由成对的读段组成。所说的比对，可利用但不限于SOAP或BWA等软件来进行。在本发明的一个实施例中，所说的第一参考序列为人参考基因组，包含常染色体、X染色体和Y染色体参考序列，例如为HG19，HG19可从NCBI数据库中获得，所说的第二参考序列为X染色体参考序列和常染色体参考序列，例如可以将HG19中的Y染色体参考序列(Y参考染色体)掩盖掉或者以N替代Y染色体参考序列来获得，和/或所述第三参考序列为Y染色体参考序列。步骤(4)中计算性染色体的测序深度，即对性染色体剂量分析，有利于变异解读分析和/或辅助疾病诊断，例如能够用以辅助判断待测样本属于性染色体异常、46,XY DSD和46,XX DSD这三类性发育相关疾病中的哪一种的可能性以及可能性的高或低。在本发明的一个实施例中，步骤(4)的性染色体剂量分析主要为判断待测样本中是否包含Y染色体，当待测样本不包含Y染色体DNA时，理论上Y染色体测序深度为0、覆盖度为0，但在实际中，一般仍有读段能够比对到Y染色体参考序列，使得计算得的Y染色体测序深度和覆盖度不为0。步骤(5)基于步骤(4)的性染色体剂量分析结果，将Y染色体测序深度与常染色体的测序深度大小进行比较，当Y染色体测序深度小于常染色体测序深度的十分之一时，可判定待测样本不包含Y染色体。SRY虽为Y染色体上的基因，但待测样本不含Y染色体并不表示待测样本不含SRY基因，即不能通过有无Y染色体直接确定有无SRY基因，而且由于SRY基因很小，其测序数据量很小，在测序数据中占很小比例，为准确测定待测样本是否为不包含Y染色体但包含SRY基因的样本，在本发明的一个实施例中，在判定待测样本不含Y染色体之后，将待测样本测序数据与屏蔽掉Y染色体参考序列的HG19比对，将未比对上的读段对提取出来与Y染色体参考序列比对，通过比对上Y染色体参考序列的读段的数目和这些读段的覆盖区域来判断待测样本是否包含SRY基因，当计算得的SRY基因覆盖度不小于90％和/或SRY基因测序深度不小于1/10的常染色体测序深度时，判定待测样本存在SRY基因阳性变异，所述SRY基因的覆盖度＝有读段比对上的SRY基因参考序列的区域的大小/SRY基因的大小，所述SRY基因的测序深度＝比对上SRY基因的读段数目/SRY基因的大小。

依据本发明的再一方面，本发明提供一种检测SRY基因变异的装置，该装置用以实现本发明上一方面的方法的部分或全部步骤，该装置包括：核酸获取单元，用于获取待测样本核酸；测序单元，用于对来自核酸获取单元的核酸中的目标区域进行测序，获得测序数据，所述测序数据由多个读段组成，所述目标区域是通过本发明一方面的试剂盒或前述任一具体实施方式中的试剂盒捕获所述核酸获得的；第一比对单元，用于将来自测序单元的测序数据与第一参考序列比对，获得第一比对结果，所述第一参考序列包括X染色体、Y染色体和常染色体的参考序列；计算单元，用于基于来自第一比对单元的第一比对结果，计算X染色体和Y染色体的测序深度，以及任选的计算常染色体的测序深度，X染色体的测序深度＝比对上X染色体目标区域的读段数目/X染色体目标区域的大小，Y染色体的测序深度＝比对上Y染色体目标区域的读段数目/Y染色体目标区域的大小，常染色体的测序深度＝比对上常染色体目标区域的读段数目/常染色体目标区域的大小；检测单元，用于比较来自计算单元的Y染色体测序深度和X染色体测序深度，任选的用于比较来自计算单元的Y染色体测序深度和常染色体测序深度，用于执行以下(i)或(ii)程序以检测SRY基因变异，(i)当Y染色体测序深度小于1/5的X染色体测序深度，和/或Y染色体测序深度小于1/10的常染色体测序深度时，将来自测序单元的测序数据与第二参考序列比对，获得第二比对结果，将所述第二比对结果中的未比对上所述第二参考序列的读段与第三参考序列比对，获得第三比对结果，基于所述第三比对结果，检测SRY基因变异，所述第二参考序列不包括Y染色体的参考序列，所述第三参考序列包括Y染色体的参考序列，(ii)当Y染色体测序深度不小于1/5的X染色体测序深度，和/或Y染色体测序深度不小于1/10的常染色体测序深度时，基于来自第一比对单元的第一比对结果，检测SRY基因变异。可将所说的(i)和(ii)程序存储于计算机可读介质中，存储介质可以包括：只读存储器、随机存储器、磁盘或光盘等。本领域普通技术人员可以理解，本发明的这一装置中的全部或部分单元，可选择的、可拆卸的包含一个或多个子单元以执行或实现前述本发明方法的各个具体实施方式。利用本发明的SRY基因变异检测方法和/或装置，能够同时准确检测SRY基因的多种变异，包括能够检测出SRY阳性变异。

依据本发明的一方面，本发明还提供一种检测性发育相关基因变异的方法，该方法包括：(1)获取待测样本核酸；(2)对所述核酸中的目标区域进行测序，获得测序数据，所述测序数据由多个读段组成，所述目标区域包括所述性发育相关基因的至少一部分，所述目标区域是通过本发明一方面的试剂盒或任一具体实施方式中的试剂盒捕获所述核酸获得的；(3)将所述测序数据和参考序列进行一级比对，获得一级比对结果；(4)将所述一级比对结果和所述参考序列的一部分进行二级比对，获得二级比对结果；(5)基于所述一级比对结果和所述二级比对结果，同时检测所述性发育相关基因的SNP和INDEL变异。所说的一级比对为全局比对，二级比对为局部比对，一级比对为常规比对，可利用但不限于SOAP或BWA等软件依照其默认设置进行，获得一级比对结果，一级比对结果包括序列信息在参考序列上的匹配位置及匹配情况信息，在本发明的一个实施例中，所说的参考序列为HG19，二级比对中所说的参考序列的一部分包括与所捕获的性发育相关基因区域对应的参考序列中的每个已知INDEL位点，以及所述每个已知INDEL位点上下游各1000bp的参考序列，进行二级比对即基于一级比对结果对与所捕获的性发育相关基因区域对应的参考序列中的所有已知INDEL附近的所有序列信息(读段，reads)进行局部重新比对，能够消除一级比对中的错误，提高后续变异检测的准确率，二级比对可利用GATK重比对软件(https:// www.broadinstitute.org/gatk/)进行。在本发明的一个实施例中，同时检测所述SNP和INDEL变异，是通过GATK UnifiedGenotyper软件进行的，按照该软件检测出的INDEL有较多的假阳性，利用前面的二级比对即局部重比对有利于减少假阳性INDEL。

本发明的试剂盒、SRY基因变异的检测方法、SRY基因变异的检测装置和/或性发育相关基因变异的检测方法，是结合目标区域捕获、高通量测序和/或数据处理技术开发出的，利用本发明的试剂盒、方法和/或装置，能够一次性对319个与性发育相关的基因进行检测，实现性染色体剂量、微缺失微重复变异、点突变、插入/缺失以及拷贝数变异的同时检测分析，利于性发育相关基因信息的一次性获取，性发育相关基因变异的一次性检测，利于辅助性发育相关疾病的综合的全面的评估，而且通量高、覆盖全面、准确度高。当待测样本为产前样本时，利用本发明的试剂盒、方法和/或装置来检测样本，所得的检测结果能够作为科学依据及用于辅助指导生育，且具有高效准确、低成本、易操作的特点。

附图说明

本发明的上述和/或附加的方面和优点，结合下面附图对实施方式的描述将变得明显和容易理解，其中：

图1是本发明的一个具体实施方式中的目标区域捕获测序及信息分析流程图；

图2是本发明的一个具体实施方式中的性染色体剂量分析基因分布示意图；

图3是本发明的一个具体实施方式中的46,XX,SRY基因阳性的信息分析结果示意图。

具体实施方式

本发明中的“变异”、“核酸变异”、“基因变异”可通用，本发明中的“SNP”、“CNV”、“插入缺失”(indel)、“剪切位点突变”同通常定义，但本发明中对各种变异的大小不作特别限定，这样这几种变异之间有的有交叉，比如当插入/缺失的为大片段甚至整条染色体时，也属于发生拷贝数变异(CNV)或是染色体非整倍性。这些类型变异的大小交叉并不妨碍本领域人员通过上述描述执行实现本发明的方法和/或装置并且达到所描述的结果。

本发明中的“参考序列”为已知基因组序列或者已知基因组序列的一部分，“X染色体参考序列”与“X参考染色体”可替换使用，都是指已知的X染色体序列、“Y染色体参考序列”与“Y参考染色体”可替换使用，都是指已知的Y染色体序列。

本发明中所使用的“第一”、“第二”、“第三”、“一级”、“二级”、“三级”等仅为方便描述指代，不能理解为指示或暗示相对重要性，也不能理解为有先后顺序关系。本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

获得本发明一方面的试剂盒、实现本发明一方面的方法和/或装置，一般包括检测探针/芯片的设计、目标区域捕获测序以及信息分析流程的开发。

1.性发育疾病基因检测芯片的设计

检索收集OMIM数据库现已报道与性发育相关基因，高质量文献报道性发育疾病相关基因，而为了实现性染色体剂量分析，在X和Y参考染色体上，每5～10Mb设计一个或多个唯一比对的基因或区域，而为了实现染色体微缺失微重复综合征分析，在综合征相关染色体区域选取部分致病基因。将这些基因进行序列分析、组合筛选最终合计获得319个作为性发育疾病或者性发育相关检测基因，表1为具体基因列表。

表1

1	2	3	4	5	6
						AGPAT2	CUL4B*	GADD45G	KDM5D**	OCRL*	SLC39A4
AIP	CUL7	GATA1*	KIAA1267	OFD1*	SMARCA2
						AIRE	CYB5A	GATA3	KIF7	OPHN1*	SMS*
AKAP2	CYB5R3	GATA4	KISS1	ORC1	SNAP29
						AKR1C2	CYP11A1	GDF9	KISS1R	OTX2	SNRPN
AKR1C4	CYP11B1	GHR	KLHL4*	PAPSS2	SOS1
						ALMS1	CYP11B2	GK*	KRAS	PAX2	SOX10
ALX4	CYP17A1	GLI3	LEP	PCDH11Y**	SOX2

AMH	CYP19A1	GNAS	LEPR	PCSK1	SOX3*
						AMHR2	CYP21A2	GNRH1	LHB	PEX1	SOX8
AR*	CYP3A7	GNRHR	LHCGR	PEX12	SOX9
						ARID1B	DAZ1	GPC6	LHX1	PEX14	SPATA17
ARID5B	DBH	GSTM1	LHX3	PEX2	SPATA4
						ARL6	DCAF17	GSTT1	LHX4	PEX26	SRD5A1
ARX*	DDX3Y**	H19	LHX9	PEX3	SRD5A2
						ATF3	DGKK*	H6PD	LMNA	PEX5	SRY**
ATPAF2	DHCR7	HARS2	LZTFL1	PEX6	STAR
						ATR	DHH	HCCS*	MAMLD1*	PHF6*	STK11
ATRX*	DIAPH2*	HDAC8*	MAP2K1	PITX2	STRA6
						BBS1	DIS3L2	HESX1	MAP3K1	PMM2	SULT2A1
BBS10	DMRT1	HFE	MAP3K4	POF1B*	TAC3
						BBS12	DMRT2	HHIP	MAPK1	POLG	TACR3
BBS2	DMRT3	HNF1B	MAPK14	POLR3A	TBCE
						BBS4	DOCK8	HOXA10	MBTPS2*	POR	TBX1
BBS5	DPAGT1	HOXA11	MECP2*	POU1F1	TBX3
						BBS7	EBF2	HOXA13	MED12*	PPARG	TGFB1
BBS9	EBP*	HOXA4	MID1*	PPP1R3A	TGFBR3
						BLM	EIF1AY**	HOXA9	MKKS	PRKAR1A	TMEM67
BMP15*	EIF2B1	HOXB6	MKS1	PROK2	TNXB
						BMP2	EIF2B2	HOXC13	MLL2	PROKR2	TP63
BMP4	EIF2B3	HOXD13	MTCP1*	PROP1	TRIM32
						BMP7	EIF2B4	HPRT1*	MTM1*	PSMC3IP	TSHR
BMPR1B	EIF2B5	HS6ST1	MTMR1	PTCH1	TSPYL1
						BRAF	EMX2	HSD11B1	NAA10*	PTGDS	TTC8
BRCC3*	ERCC8	HSD17B3	NBN	PTPN11	UBR1
						BRWD3*	ESR1	HSD17B4	NDN	RAB23	UPK3A
BSCL2	ESR2	HSD3B1	NELF	RAB3GAP2	USP26*
						BUB1B	EVC	HSD3B2	NIN	RAB40AL	USP9Y**
CBL	EVC2	ICK	NKAIN2	RAF1	WDPCP
						CBX2	FGD1*	IGF1R	NLGN4X	RECQL4	WDR11
CCDC28B	FGF8	IGSF1*	NOBOX	RET	WHSC1
						CD96	FGF9	INHA	NOS1	RIPK4	WNT3
CDKN1C	FGFR1	INHBA	NOTCH2	ROR2	WNT4

CEP290	FGFR2	INHBB	NPR1	RSPO1	WNT5A
						CFTR	FIGLA	INPP5E	NPR2	RXFP2	WNT7A
CGA	FLNA*	INSL3	NR0B1*	SDCCAG8	WT1
						CHD7	FMR1*	INSR	NR1I2	SEMA3A	WWOX
CHRM3	FOXL2	INSRR	NR1I3	SEMA3E	ZBTB16
						CLTCL1	FRAS1	IRF6	NR3C1	SF3B4	ZFPM2
CNBP	FREM2	IRX5	NR5A1	SHBG	ZFY
						CREBBP	FSHB	KAL1*	NRAS	SHH	BCOR*
CTNNB1	FSHR	KCNQ1OT1	NSD1	SHOC2	ZXDA*
						CTNS	FST	KDM5C*	NSDHL*	SLC29A3	RAB40AL*
CHRDL1*

注：“*”标记的基因为X染色体上的基因，“**”标记的基因为Y染色体上的基因。

根据人类基因组HG19，选取上述319个基因的外显子区域，并对外显子区域前后延伸了30bp，进行探针设计，可以这样设计探针：从hg19上获取上述319个基因的外显子序列以及侧翼±30bp区域的各段参考序列，对每一段参考序列，都从一段参考序列的一端开始，依次拷贝预定长度的参考序列获得探针序列，使得最后总的探针能够覆盖该段参考序列至少一次，相邻探针序列之间可以重叠或不重叠，这边，预定长度为探针的长度，接着合成这些探针，最终获得的探针总计1.5M。该液相或固相芯片上有丰富的捕获探针，探针覆盖区域达98％，可以从复杂的基因组中富集目标DNA片段，在同一张芯片上以高特异性和高覆盖率捕获约1.5M的基因组区域。

2.目标区域捕获测序及其分析流程

整个试验及分析流程如图1所示。

首先从全血中提取基因组DNA，并将检测合格的DNA同时进行SNP质谱检测和文库制备。文库制备是将1μg基因组DNA打断成主带为200-300bp小片段DNA，然后将打断后DNA片段进行末端补平，在3'端加碱基“A”，使得DNA片段能与3'端带有“T”碱基的特殊接头连接，经Non-Captured PCR(捕获前的PCR)构建完成的文库，通过性发育相关基因芯片将Exon(外显子)区域进行富集，再通过PCR扩增富集后产物，最后通过杂交前后PCR产物QPCR检测获得序列捕获杂交效率。QPCR检测合格后，将一定数量的文库进行Hiseq2000/Hisq2500上机测序。

信息分析采用自主开发的信息分析流程进行数据处理，主要包括过滤、比对、去重复、重比对、碱基质量值校正、质控、SNV(SNP)+INDEL检测、CNV检测、注释等步骤。注释结果的解读，主要基于HGMD、BGI-Gap以及文献搜索查阅进行，同时结合多个功能预测软件结果及受检者临床表征进行综合解读，基本规则参考美国医学遗传学和基因组学学院(American College of Medical Genetics and Genomics，ACMG)相关指南进行。

3.性染色体剂量分析

图2是性染色体剂量分析基因分布示意图，图中染色体旁边的不同粗细横线代表代表基因(genes)，反映的基因分布，染色体上显示的各块区域代表了细胞遗传学高分辨率(850带)带型，带的染色深浅和长度反映了细胞遗传学所观察到的实际情形。

基于两次比对获得的比对文件，统计捕获区域各个区段的深度情况，通过各个区段的GC含量情况对各个区段的深度进行基于GC含量的深度校正；基于GC含量校正后的深度，统计各条染色体的相对深度；针对X、Y染色体相对于常染色体的深度情况，判断X、Y染色体的拷贝数，从而判断样本的性别以及性染色体的剂量。

4.46,XX DSD的SRY阳性样本的信息分析

对于3中性染色体剂量分析结果中不含Y染色体的样本，需要进一步判断判断DNA序列中是否包含SRY基因的序列。分析方法如下：将样本的所有reads比对到不含Y染色体序列的参考序列上，将比对文件中未必对上读段(unmapped reads)中的PE reads(双末端侧序获得的成对读段)成对提出，将提出的unmapped PE reads比对到含有Y染色体的参考序列中，接着依据该次比对文件统计SRY基因的覆盖度及测序深度，当SRY基因覆盖度不小于90％，测序深度不小于1/10的常染色体测序深度时，判定存在SRY基因阳性变异。

以下结合具体个体样本对依据本发明的方法获得的检测结果进行详细的描述。下面示例，仅用于解释本发明，而不能理解为对本发明的限制。除另有交待，以下实施例中涉及的未特别交待的试剂、序列(接头、标签和引物)、软件及仪器，都是常规市售产品或者开源的，比如购自Illumina公司的hiseq2000测序平台建库相关试剂盒来进行文库构建等。

实施例一

本例样本来自重庆儿童医院，临床诊断为疑似雄激素不敏感综合征，在利用本发明方法/装置进行检测前，采用传统的Sanger检测方法对雄激素受体基因(AR)进行了检测分析，结果为阴性。

1、DNA提取：使用QIAGEN试剂盒对外周血样本进行DNA提取，并进行NanoDrop8000检测及琼脂糖凝胶电泳检测质控。

2、样品打断：使用Covaris打断法，将样品DNA打碎至100-700bp范围的片段。

3、文库制备

3.1末端修复

末端修复反应体系：

反应个数	1个反应(μL)
		10x Polynucleotide Kinase Buffer(B904)	10μL
dNTP Solution Set	4μL
		T4 DNA Polymerase	5μL
Klenow Fragment	1μL
		T4 Polynucleotide Kinase(T4PNK)	5μL
Total volume	25μL

3.2末端加“A”

末端加“A”反应体系：

反应个数	1个反应(μL)
		10x Blue buffer	3.5μL
dATP(5mM)	1.4μL
		Klenow(3’-5’exo-)	2μL
Total volume	6.9μL

配置好的mix震荡混匀后，每管加入6.9μL酶反应混合液，反应条件：37℃，30min。

3.3Adapter连接

Adapter连接反应体系：

试剂名称	1个反应(μL)
		10x Ligation buffer	1.5
Index PE Adapter(40μM)	1
		ATP(10mM)	3.5
T4 DNA Ligase	3
		ddH2O	6
Total volume	15

将配置好的mix震荡混匀，每个反应加入15μL酶反应混合液。反应条件：16℃温浴12-16h(过夜)。

3.4Non-Captured样品的Pre-LM-PCR(预先的连接介导PCR)

PCR反应体系：

试剂名称	1个样品(μL)
		Index P1(10μM公用引物)	8
10×Pfx Amplification Buffer	10
		dNTP(10mM)	4
MgSO4(50mM)	4
		PCR Index primer 2.0(10pmol/μL)	4

ddH<sub>2</sub>O	34
		Total volume	62

PCR程序：

94℃2min；

{94℃15s,

62℃30s，

72℃30s}4cycles；

72℃5min；

4℃forever

3.5芯片杂交，目标区域捕获富集

本实验中参照NimbleGen使用说明书进行杂交洗脱，获取目的基因并PCR富集。

4、上机测序

本实验采用hiseq2000PE101+8+101程序进行上机测序。

5、信息分析

1)从测序仪获取原始数据(FASTQ数据)

2)过滤：对原始FASTQ数据进行质量控制，去除常规所说的低质量值数据，包括去

(1)平均质量值过低，比如低于Q20的reads，(2)含N比例超过10％的reads，3)包含adapter的reads。

3)比对：采用BWA-backtrack算法的bwa软件及其默认参数，使用Hg19参考序列进行比对，并行化处理任务。

4)去重复：基于Picard的reads去重复算法，并行化地从比对结果中找出重复reads并以SAM/BAM文件的tag方式进行标记。

5)重比对：在上一比对结果的基础上，对INDEL附近的所有reads进行局部重新比对，以消除比对的错误，提高变异检测的准确率。

6)检测SNV INDEL：使用在GATK UnifiedGenotyper基础上开发的并行化变异检测模块同时进行SNP和Indel的检测。

7)检测CNV:通过对测序深度进行GC修正和批次修正，去掉PCR不均匀和捕获测序不均匀的影响，然后利用隐马模型对数据进行检测，识别出深度发生变化的区域，设置过滤参数过滤后输出CNV，可参考[Quantifying copy number variations using a hiddenMarkov model with inhomogeneous emission distributions，Mccalum，Wang etal.Biostatistics(2013),14,3,pp.600–611.]，[PennCNV:An integrated hidden Markovmodel designed for high-resolution copy number variation detection in whole-genome SNP genotyping data，wang et al.]等进行。

8)注释：使用人类基因组数据库NCBI 104，频率数据库dbSNP137、1000human、ESP6500，以及BGI内部频率数据库进行注释；使用HGVS对变异进行标准命名，同时使用OMIM、HGMD疾病数据库，CGD临床基因组数据库进行突变及注释，包括疾病注释。

6、结果分析

检测结果显示，该样本的目标区域的平均测序深度为298X，目标区域的覆盖度＞98％。

经过变异解读，得到样本检测结果如表2。

表2

本次基因检测，在先证者检出类固醇5α-还原酶2缺乏症相关的SRD5A2基因的2个已知致病突变[c.607G>A,杂合]和[c.737G>A,杂合]。并对先证者的父母进行了这两个位点的验证，发现这两个杂合突变1个来自父亲，1个来自母亲,构成复合杂合突变。类固醇5α-还原酶2缺乏症呈常染色体隐性遗传,纯合突变或复合杂合突变会导致疾病的发生。结合本检测结果，进行临床表征的复核，证实该受检者确实罹患类固醇5α-还原酶2缺乏症。这个结果证明了该方法可以准确为性发育相关疑似个体或患者找到原因，辅助疾病诊断，利于辅助指导后续治疗。

实施例二

样本来自西南医院，对1外生殖器发育不良，尿道下裂的46,XX DSD患儿进行基因检测。

1-5部分同实施例一。

6.结果分析

检测结果显示，该样本的目标区域的平均测序深度为419X，目标区域的覆盖度＞98％。

46XX,SRY基因阳性的信息分析结果如图3所示。从该图可以看出，该样本的SRY基因的测序深度＞150X；全基因的覆盖度为100％，表明该46,XX的受检者存在完整的SRY基因，即为SRY阳性。SRY基因是雄性的性别决定基因，从而导致该受检者呈现出男性化的表征。为了证实本发明检测方法的真实、可靠，进一步采用SRY基因PCR方法对该样本进行验证，结果与本发明方法一致。证明该方法可以准确同步实现46XX,SRY基因阳性变异的检出，辅助诊断性发育疾病。

Claims

1.一种检测SRY基因变异的装置，其特征在于，包括，

核酸获取单元，用于获取待测样本核酸；

测序单元，用于对来自核酸获取单元的核酸中的目标区域进行测序，获得测序数据，所述测序数据由多个读段组成，所述目标区域是使用试剂盒捕获所述核酸获得的；

第一比对单元，用于将来自测序单元的测序数据与第一参考序列比对，获得第一比对结果；

计算单元，用于基于来自第一比对单元的第一比对结果，计算X染色体和Y染色体的测序深度，以及任选的计算常染色体的测序深度，X染色体的测序深度＝比对上X染色体目标区域的读段数目/X染色体目标区域的大小，Y染色体的测序深度＝比对上Y染色体目标区域的读段数目/Y染色体目标区域的大小，常染色体的测序深度＝比对上常染色体目标区域的读段数目/常染色体目标区域的大小；

检测单元，用于比较来自计算单元的Y染色体测序深度和X染色体测序深度，任选的用于比较来自计算单元的Y染色体测序深度和常染色体测序深度，用于执行以下(i)或(ii)程序以检测SRY基因变异，

(i)当Y染色体测序深度小于1/5的X染色体测序深度，和/或Y染色体测序深度小于1/10的常染色体测序深度时，将来自测序单元的测序数据与第二参考序列比对，获得第二比对结果，

将所述第二比对结果中的未比对上所述第二参考序列的读段与第三参考序列比对，获得第三比对结果，

基于所述第三比对结果，检测SRY基因变异；

(ii)当Y染色体测序深度不小于1/5的X染色体测序深度，和/或Y染色体测序深度不小于1/10的常染色体测序深度时，基于来自第一比对单元的第一比对结果，检测SRY基因变异；其中，

所述第一参考序列包括X染色体、Y染色体和常染色体的参考序列，所述第二参考序列为X染色体参考序列和常染色体参考序列，所述第三参考序列为Y染色体参考序列；

(i)中的基于第三比对结果检测SRY基因变异包括，

基于所述第三比对结果中的比对到SRY基因参考序列的读段的信息，计算SRY基因的覆盖度和/或SRY基因的测序深度，当所述SRY基因覆盖度不小于90％和/或所述测序深度不小于1/10的常染色体测序深度时，判定存在SRY基因阳性变异，其中，

所述SRY基因的覆盖度＝有读段比对上的SRY基因参考序列的区域的大小/SRY基因的大小，

所述SRY基因的测序深度＝比对上SRY基因的读段数目/SRY基因的大小；

其中：

所述试剂盒包括探针，所述探针固定在固相基质上或者游离于液相中，所述探针能够特异性识别X染色体上的以下29个基因的外显子区：CUL4B、OCRL、OFD1、OPHN1、SMS、GK、SOX3、AR、ARX、HCCS、MAMLD1、PHF6、ATRX、HDAC8、POF1B、MBTPS2、MECP2、MED12、MID1、BMP15、NAA10、BRWD3、FGD1、IGSF1、FLNA、NR0B1、KAL1、KDM5C和NSDHL，和X染色体上的至少一个其它区域；以及

所述探针能够特异性识别Y染色体上SRY基因的外显子区，和Y染色体上的至少一个其它区域。

2.权利要求1的装置，其特征在于，所述探针能够特异性识别X染色体上的与每个所述29个基因的外显子区相邻的30bp内含子区，所有的所述探针能够特异性识别的X染色体上的区域中的任两个相邻区域在X参考染色体上的距离不大于10M。

3.权利要求1的装置，其特征在于，所述探针能够特异性识别Y染色体上的与SRY基因的外显子区相邻的30bp内含子区，所有的所述探针能够特异性识别的Y染色体上的区域中的任两个相邻区域在Y参考染色体上的距离不大于10M。

4.权利要求1的装置，其特征在于，所述探针能够特异性识别每5-10M所述X参考染色体区域中的至少一部分，和/或

所述探针能够特异性识别每5-10M所述Y参考染色体区域中的至少一部分。

5.权利要求1的装置，其特征在于，所述X染色体上的至少一个其它区域包括以下X染色体上的15个基因的外显子区：GATA1、KLHL4、DGKK、DIAPH2、EBP、MTCP1、HPRT1、MTM1、BRCC3、USP26、BCOR、ZXDA、RAB40AL、CHRDL1和FMR1，任选的，包括与每个所述15个基因的外显子区相邻的30bp内含子区，和/或

所述Y染色体上的至少一个其它区域包括以下Y染色体上的5个基因的外显子区：KDM5D、PCDH11Y、DDX3Y、EIF1AY和USP9Y。

6.根据权利要求5所述的装置，其特征在于，包括与每个所述5个基因的外显子区相邻的30bp内含子区。

7.权利要求1的装置，其特征在于，所述探针能够特异性识别至少一个常染色体基因的至少一部分。

8.根据权利要求7所述的装置，其特征在于，至少一个常染色体基因的至少一部分包括以下常染色体基因的外显子区：AGPAT2、GADD45G、SLC39A4、AIP、CUL7、KIAA1267、SMARCA2、AIRE、CYB5A、GATA3、KIF7、AKAP2、CYB5R3、GATA4、KISS1、ORC1、SNAP29、AKR1C2、CYP11A1、GDF9、KISS1R、OTX2、SNRPN、AKR1C4、CYP11B1、GHR、PAPSS2、SOS1、ALMS1、CYP11B2、KRAS、PAX2、SOX10、ALX4、CYP17A1、GLI3、LEP、SOX2、AMH、CYP19A1、GNAS、LEPR、PCSK1、AMHR2、CYP21A2、GNRH1、LHB、PEX1、SOX8、CYP3A7、GNRHR、LHCGR、PEX12、SOX9、ARID1B、DAZ1、GPC6、LHX1、PEX14、SPATA17、ARID5B、DBH、GSTM1、LHX3、PEX2、SPATA4、ARL6、DCAF17、GSTT1、LHX4、PEX26、SRD5A1、H19、LHX9、PEX3、SRD5A2、ATF3、H6PD、LMNA、PEX5、ATPAF2、DHCR7、HARS2、LZTFL1、PEX6、STAR、ATR、DHH、STK11、MAP2K1、PITX2、STRA6、BBS1、DIS3L2、HESX1、MAP31、PMM2、SULT2A1、BBS10、DMRT1、HFE、MAP3K4、TAC3、BBS12、DMRT2、HHIP、MAPK1、POLG、TACR3、BBS2、DMRT3、HNF1B、MAPK14、POLR3A、TBCE、BBS4、DOCK8、HOXA10、POR、TBX1、BBS5、DPAGT1、HOXA11、POU1F1、TBX3、BBS7、EBF2、HOXA13、PPARG、TGFB1、BBS9、HOXA4、PPP1R3A、TGFBR3、BLM、HOXA9、MKKS、PRKAR1A、TMEM67、EIF2B1、HOXB6、MKS1、PROK2、TNXB、BMP2、EIF2B2、HOXC13、MLL2、PROKR2、TP63、BMP4、EIF2B3、HOXD13、PROP1、TRIM32、BMP7、EIF2B4、PSMC3IP、TSHR、BMPR1B、EIF2B5、HS6ST1、MTMR1、PTCH1、TSPYL1、BRAF、EMX2、HSD11B1、PTGDS、TTC8、ERCC8、HSD17B3、NBN、PTPN11、UBR1、ESR1、HSD17B4、NDN、RAB23、UPK3A、BSCL2、ESR2、HSD3B1、NELF、RAB3GAP2、BUB1B、EVC、HSD3B2、NIN、RAB40AL、CBL、EVC2、ICK、NKAIN2、RAF1、WDPCP、CBX2、IGF1R、NLGN4X、RECQL4、WDR11、CCDC28B、FGF8、NOBOX、RET、WHSC1、CD96、FGF9、INHA、NOS1、RIPK4、WNT3、CDKN1C、FGFR1、INHBA、NOTCH2、ROR2、WNT4、CEP290、FGFR2、INHBB、NPR1、RSPO1、WNT5A、CFTR、FIGLA、INPP5E、NPR2、RXFP2、WNT7A、CGA、INSL3、SDCCAG8、WT1、CHD7、INSR、NR1I2、SEMA3A、WWOX、CHRM3、FOXL2、INSRR、NR1I3、SEMA3E、ZBTB16、CLTCL1、FRAS1、IRF6、NR3C1、SF3B4、ZFPM2、CNBP、FREM2、IRX5、NR5A1、SHBG、ZFY、CREBBP、FSHB、NRAS、SHH、CTNNB1、FSHR、KCNQ1OT1、NSD1、SHOC2、CTNS、FST和SLC29A3。

9.根据权利要求8所述的装置，其特征在于，包括与每个所述常染色体基因的外显子区相邻的30bp内含子区。

10.一种计算机可读介质，所述计算机可读介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行以检测SRY基因变异，所述计算机程序为：

基于所述第三比对结果中的比对到SRY基因参考序列的读段的信息，计算SRY基因的覆盖度和/或SRY基因的测序深度，当所述SRY基因覆盖度不小于90％和/或所述测序深度不小于1/10的常染色体测序深度时，判定存在SRY基因阳性变异；

(ii)当Y染色体测序深度不小于1/5的X染色体测序深度，和/或Y染色体测序深度不小于1/10的常染色体测序深度时，基于来自第一比对单元的第一比对结果，检测SRY基因变异；

其中，

所述X染色体的测序深度＝比对上X染色体目标区域的读段数目/X染色体目标区域的大小，所述Y染色体的测序深度＝比对上Y染色体目标区域的读段数目/Y染色体目标区域的大小，所述常染色体的测序深度＝比对上常染色体目标区域的读段数目/常染色体目标区域的大小；

所述X染色体的测序深度、Y染色体的测序深度和常染色体的测序深度是基于来自第一对比单元的第一比对结果计算获得的；所述第一比对单元用于将来自测序单元的测序数据与第一参考序列比对，获得第一比对结果；所述测序单元用于对来自核酸获取单元的核酸中的目标区域进行测序，获得测序数据，所述测序数据由多个读段组成，所述目标区域是通过试剂盒捕获所述核酸获得的；所述核酸获取单元用于获取待测样本核酸；

所述第一参考序列包括X染色体、Y染色体和常染色体的参考序列，所述第二参考序列不包括Y染色体的参考序列，所述第三参考序列包括Y染色体的参考序列；

其中：

所述试剂盒包括探针，所述探针固定在固相基质上或者游离于液相中，所述探针能够特异性识别X染色体上的以下29个基因的外显子区：CUL4B、OCRL、OFD1、OPHN1、SMS、GK、SOX3、AR、ARX、HCCS、MAMLD1、PHF6、ATRX、HDAC8、POF1B、MBTPS2、MECP2、MED12、MID1、BMP15、NAA10、BRWD3、FGD1、IGSF1、FLNA、NR0B1、KAL1、KDM5C和NSDHL，和X染色体上的至少一个其它区域，

11.权利要求10的计算机可读介质，其特征在于，所述第二参考序列为X染色体参考序列和常染色体参考序列，和/或

所述第三参考序列为Y染色体参考序列。

12.权利要求10的计算机可读介质，其特征在于，所述探针能够特异性识别X染色体上的与每个所述29个基因的外显子区相邻的30bp内含子区，所有的所述探针能够特异性识别的X染色体上的区域中的任两个相邻区域在X参考染色体上的距离不大于10M。

13.权利要求10的计算机可读介质，其特征在于，所述探针能够特异性识别Y染色体上的与SRY基因的外显子区相邻的30bp内含子区，所有的所述探针能够特异性识别的Y染色体上的区域中的任两个相邻区域在Y参考染色体上的距离不大于10M。

14.权利要求10的计算机可读介质，其特征在于，所述探针能够特异性识别每5-10M所述X参考染色体区域中的至少一部分，和/或

15.权利要求10的计算机可读介质，其特征在于，所述X染色体上的至少一个其它区域包括以下X染色体上的15个基因的外显子区：GATA1、KLHL4、DGKK、DIAPH2、EBP、MTCP1、HPRT1、MTM1、BRCC3、USP26、BCOR、ZXDA、RAB40AL、CHRDL1和FMR1，任选的，包括与每个所述15个基因的外显子区相邻的30bp内含子区，和/或

所述Y染色体上的至少一个其它区域包括以下Y染色体上的5个基因的外显子区：KDM5D、PCDH11Y、DDX3Y、EIF1AY和USP9Y，任选的，包括与每个所述5个基因的外显子区相邻的30bp内含子区。

16.权利要求10的计算机可读介质，其特征在于，所述探针能够特异性识别至少一个常染色体基因的至少一部分。

17.根据权利要求16所述的计算机可读介质，其特征在于，至少一个常染色体基因的至少一部分包括以下常染色体基因的外显子区：AGPAT2、GADD45G、SLC39A4、AIP、CUL7、KIAA1267、SMARCA2、AIRE、CYB5A、GATA3、KIF7、AKAP2、CYB5R3、GATA4、KISS1、ORC1、SNAP29、AKR1C2、CYP11A1、GDF9、KISS1R、OTX2、SNRPN、AKR1C4、CYP11B1、GHR、PAPSS2、SOS1、ALMS1、CYP11B2、KRAS、PAX2、SOX10、ALX4、CYP17A1、GLI3、LEP、SOX2、AMH、CYP19A1、GNAS、LEPR、PCSK1、AMHR2、CYP21A2、GNRH1、LHB、PEX1、SOX8、CYP3A7、GNRHR、LHCGR、PEX12、SOX9、ARID1B、DAZ1、GPC6、LHX1、PEX14、SPATA17、ARID5B、DBH、GSTM1、LHX3、PEX2、SPATA4、ARL6、DCAF17、GSTT1、LHX4、PEX26、SRD5A1、H19、LHX9、PEX3、SRD5A2、ATF3、H6PD、LMNA、PEX5、ATPAF2、DHCR7、HARS2、LZTFL1、PEX6、STAR、ATR、DHH、STK11、MAP2K1、PITX2、STRA6、BBS1、DIS3L2、HESX1、MAP31、PMM2、SULT2A1、BBS10、DMRT1、HFE、MAP3K4、TAC3、BBS12、DMRT2、HHIP、MAPK1、POLG、TACR3、BBS2、DMRT3、HNF1B、MAPK14、POLR3A、TBCE、BBS4、DOCK8、HOXA10、POR、TBX1、BBS5、DPAGT1、HOXA11、POU1F1、TBX3、BBS7、EBF2、HOXA13、PPARG、TGFB1、BBS9、HOXA4、PPP1R3A、TGFBR3、BLM、HOXA9、MKKS、PRKAR1A、TMEM67、EIF2B1、HOXB6、MKS1、PROK2、TNXB、BMP2、EIF2B2、HOXC13、MLL2、PROKR2、TP63、BMP4、EIF2B3、HOXD13、PROP1、TRIM32、BMP7、EIF2B4、PSMC3IP、TSHR、BMPR1B、EIF2B5、HS6ST1、MTMR1、PTCH1、TSPYL1、BRAF、EMX2、HSD11B1、PTGDS、TTC8、ERCC8、HSD17B3、NBN、PTPN11、UBR1、ESR1、HSD17B4、NDN、RAB23、UPK3A、BSCL2、ESR2、HSD3B1、NELF、RAB3GAP2、BUB1B、EVC、HSD3B2、NIN、RAB40AL、CBL、EVC2、ICK、NKAIN2、RAF1、WDPCP、CBX2、IGF1R、NLGN4X、RECQL4、WDR11、CCDC28B、FGF8、NOBOX、RET、WHSC1、CD96、FGF9、INHA、NOS1、RIPK4、WNT3、CDKN1C、FGFR1、INHBA、NOTCH2、ROR2、WNT4、CEP290、FGFR2、INHBB、NPR1、RSPO1、WNT5A、CFTR、FIGLA、INPP5E、NPR2、RXFP2、WNT7A、CGA、INSL3、SDCCAG8、WT1、CHD7、INSR、NR1I2、SEMA3A、WWOX、CHRM3、FOXL2、INSRR、NR1I3、SEMA3E、ZBTB16、CLTCL1、FRAS1、IRF6、NR3C1、SF3B4、ZFPM2、CNBP、FREM2、IRX5、NR5A1、SHBG、ZFY、CREBBP、FSHB、NRAS、SHH、CTNNB1、FSHR、KCNQ1OT1、NSD1、SHOC2、CTNS、FST和SLC29A3。

18.根据权利要求17所述的计算机可读介质，其特征在于，包括与每个所述常染色体基因的外显子区相邻的30bp内含子区。