CN116665774A

CN116665774A - 一种家系全基因组单体型连锁分析方法、装置、存储介质和设备

Info

Publication number: CN116665774A
Application number: CN202310448681.7A
Authority: CN
Inventors: 冀元凯; 赵丁丁; 冒燕; 孔令印; 梁波
Original assignee: Suzhou Basecare Medical Device Co ltd
Current assignee: Suzhou Basecare Medical Device Co ltd
Priority date: 2023-04-24
Filing date: 2023-04-24
Publication date: 2023-08-29

Abstract

本发明公开了一种家系全基因组单体型连锁分析方法、装置、存储介质和设备。本发明通过将家系中男方、女方、子代(包括胚胎)中任意一个或两个样本的已知SNP信息(>30万)作为参比样本SNPs坐标建立基因型信息数据集，再结合家系遗传关系，基于孟德尔遗传定律和单体型矫正策略，达到在不影响分型准确性的情况下极大降低家系其他样本的检测数据量，显著降低测序成本，缩短检测时间，从而建立了一种高效低成本的家系全基因组单体型连锁分析方法，且该方法能同时满足对PGT‑A、PGT‑M、PGT‑SR的一体化检测。

Description

一种家系全基因组单体型连锁分析方法、装置、存储介质和设备

技术领域

本发明属于分子生物学领域，涉及一种家系全基因组单体型连锁分析方法、装置、存储介质和设备。

背景技术

染色体异常是造成人类胚胎低着床率、妊娠失败和出生缺陷的重要原因。自然妊娠的早期流产率约为15％-20％，体外受精-胚胎移植(In vitro fertilization andembryo transfer，IVF-ET)的早期流产率约为25％，其中胚胎染色体异常约占40-50％，新生儿染色体异常的发生率为0.5％-1％。对于患有染色体异常、单基因疾病、不明原因反复自然流产和植入失败的患者或其家属，在接受遗传咨询后，可能会建议他们接受来自多个PGT平台的胚胎检测，以避免复发性流产和后代罹患遗传病。

目前临床上对PGT-A/M/SR的检测分别是由不同的技术平台进行，导致临床检测成本高、操作繁琐、耗时长，临床大规模推广受限。PGT-A是针对母代高龄、复发性流产、反复种植失败、不良孕产史及父代严重畸精子症等患者，在胚胎植入前对胚胎进行染色体非整倍体的筛查。PGT-SR是针对父母双方或之一存在染色体结构异常，如倒位、平衡易位和罗氏易位等，卵子受精时染色体会进行重组，在胚胎植入前对胚胎进行染色体结构异常的检测。PGT-M是针对患有或携带已知单基因遗传病的父母，如地中海贫血、遗传性耳聋和多囊肾等，在胚胎植入前对胚胎进行单基因遗传病的检测。

近年发展起来的分子细胞遗传学技术是细胞遗传学、分子生物学、分子免疫学相结合的产物，在染色体病临床诊断和研究中得到广泛的应用。

染色体核型分析是将特定的细胞培养后，进行特殊制片染色和显带，在光学显微镜下观察分裂中期的染色体数目和结构，是确诊染色体病的基本方法。但该方法受到实验过程和培养时间较长，且仅能分析中期染色体等的限制。

荧光原位杂交(FISH)技术利用已知核酸序列作为探针，以荧光素直接标记或以非放射性物质标记后与靶DNA进行杂交，再通过免疫细胞化学过程连接上荧光素标记物，最后在荧光显微镜下观察杂交信号从而对标本中待测核酸进行定性、定位和定量分析。但该技术受特异性探针的制约，每次只能检测出1个或几个已知的染色体异常；某些亚家族DNA序列相互之间非常接近，在数对染色体中心着丝点序列之间可发生交叉反应；且技术复杂、操作繁琐、试剂昂贵，不适合临床大规模地开展。

微阵列-比较基因组杂交(Array-CGH)是将基因芯片和CGH相结合的技术，利用微阵列取代传统CGH的中期分裂相，使荧光标记的测试探针和参照DNA探针竞争性地与微阵列上的短片段靶序列杂交。缺点在于只能检测已知的染色体异常，且在检测过程中需要加入对照样本，通过与对照样本的信号对比进行结果的分析，极大的受限于杂交信号的影响。

SNP-array技术为了保证准确的检测结果，需要高质量和覆盖广的芯片探针。因此，SNP-array的诊断能力受限于芯片上己经固定的探针的来源、质量、数量和分布密度。高质量，覆盖广的芯片的费用高，配套的检测分析设备、耗材昂贵，均增加了患者经济负担，限制了其在临床的常规应用。

高深度全基因组测序可以检测出染色体数目异常及染色体片段异常及更小的微缺失和微重复，但是产生的测序数据量大(90Gb)，导致测序成本高，实验周期长，数据利用率低，造成资源浪费。

Nanopore三代测序对全基因组测序的成本极高，且无法直接用于胚胎检测。

CN111961707A公开了一种核酸文库构建方法及其在植入前胚胎染色体结构异常分析中的应用(RetSeq技术)。相比高深度全基因组测序，RetSeq测序成本极大降低，但测序数据量仍偏高(80M)。

综上所述，目前染色体异常诊断领域亟需一种成本低廉，检测速度快的临床诊断方法，达到通用PGT-A/M/SR一体化检测目的，解决临床多种疾病的检测需求。

发明内容

针对现有技术的不足和实际需求，本发明提供一种家系全基因组单体型连锁分析方法、装置、存储介质和设备，利用已知SNP信息为参考，结合家系关系，进一步降低测序数据量，可实现在同一次实验检测里，同时完成非整体、单基因疾病和染色体结构重排的一体化检测。

为达上述目的，本发明采用以下技术方案：

第一方面，本发明提供一种以非疾病诊断为目的的家系全基因组单体型连锁分析方法，所述方法包括以下步骤：

(1)取符合孟德尔遗传定律的家系中父代、母代或子代中任意一个或两个的基因组DNA样本，获取所述基因组DNA样本的SNP信息；

(2)以获取SNP信息后的基因组DNA样本作为参比样本，以人类标准参考基因组hg19或hg38为坐标，对参比样本的SNP位点建立坐标和基因型信息数据集合；

(3)对家系的其他个体样本进行测序，根据参比样本的SNP坐标和基因型信息数据集合，基于孟德尔遗传定律，分析家系其他样本相同坐标的SNP的基因型；

(4)根据家系样本在相同坐标下所有SNP位点的基因型信息，结合家系亲缘关系，构建该家系全基因组单体型连锁分析图谱；

(5)在家系全基因组单体型连锁分析图谱中，根据子代间的共遗传单体型信息应保持一致、非共遗传单体型信息应保持不一致的原则，进行单体型矫正，去除干扰区段。

本发明中，开发联合SNP定位的家系全基因组单体型连锁分析技术，在符合孟德尔遗传定律的家系中，只需一次获取父代、母代或子代(胚胎)任意一种或两种样本的基因组DNA的一定数量的SNP位点信息，而不需要重复获取整个家系成员的所有SNP信息，利用已知SNP信息为参考，结合家系关系，进一步降低测序数据量，同时，设计采用单体型矫正策略，去除干扰杂点(区段)影响，提高分型准确性，解决PGT-A、PGT-M、PGT-SR的一体化检测需求，无需分别针对各类疾病构建对应检测流程。

优选地，步骤(1)所述获取所述基因组DNA样本的SNP信息的方法包括：从已有NGS数据中获取、从已有SNP array数据中获取、进行WGS测序、进行SNP array检测、进行RetSeq检测(参见CN111961707A)或进行三代测序检测中任意一种。

优选地，步骤(1)所述SNP的个数为>30万，优选50万～80万，进一步优选60万～70万。

优选地，步骤(3)中所述测序的方法包括WGS测序或进行RetSeq检测(参见CN111961707A)。测序数据量可低于常规WGS或RetSeq检测；进一步，相比于常规WGS或RetSeq检测，测序数据量最多可以降低60％以上。

优选地，所述建立坐标为参考人类标准参考基因组hg19或hg38。

本发明中，步骤(3)所述基于孟德尔遗传定律的具体分析思路为：先对QC值过低的SNP位点进行过滤，对不符合遗传关系的SNP位点进行过滤；然后基于遗传关系，父母一方为AA、父母另一方为AA，则子代必为AA(概率100％)；父母一方为BB、父母另一方为BB，则子代必为BB(概率100％)；父母一方为AA、父母另一方为BB，则子代必为AB(概率100％)；父母一方为AB、父母另一方为AB，则子代必为AA或AB或BB(概率分别为25％，50％，25％)；父母一方为AA、父母另一方为AB，则子代必为AA或AB(概率分别为50％，50％)；父母一方为AB、父母另一方为BB，则子代必为AB或BB(概率分别为50％，50％)；从而在遗传关系下根据参比样本已知SNP基因型信息，获知其他样本每个坐标位点下SNP可能存在的基因型及各种基因型的发生概率；根据家系其他样本测序数据情况，在只可能存在的1～3种基因型及各自发生概率下，获得每个SNP的准确基因型信息。

如家系中的父亲和母亲样本作为参比样本先进行检测，获知了固定坐标的SNP信息45万个，固定坐标位点按在人类参考基因组上的位置，规定依次为SNP1、SNP2、SNP3、……SNP450000。

假如根据第1个固定坐标位点SNP1父亲基因型信息为GC，母亲为GG，则可知子代胚胎的SNP1位点的基因型只能为GG或GC(概率分别为50％，50％)；当低深度测序显示某胚胎在SNP1位点处有C碱基时，则可知该胚胎SNP1坐标位点的基因型为GC，当显示某另一胚胎SNP1位点处同时有G和C碱基时，则可知该胚胎SNP1坐标位点的基因型为GC，当显示某另一胚胎SNP1位点处只有G碱基时，则可知该胚胎SNP1坐标位点的基因型可能为GG或GC(具体为哪种在单体型矫正时可结合该胚胎上下游紧密连锁的坐标位点所在单体型进行区分)。

假如第2个固定坐标位点SNP2父亲基因型信息为AA，母亲为CC，则可知子代胚胎的SNP2位点的基因型只能为AC(概率100％)，这时不管胚胎低深度测序提示信息为什么，均知定为AC。

然后依次对第3个到第450000个固定坐标位点SNP3～SNP450000的父亲和母亲基因型信息进行分析，获得子代可能出现的基因型及概率，结合各胚胎低深度测序情况做出判读，对于暂时无法准确判读的胚胎基因型，可在单体型矫正时进一步确认。

本发明中，所述单体型矫正具体可包括：从家系所有子代(胚胎)中任意选择某一个作为参考；当选定参考后，其他子代均能与之进行单体型比较。如以某个子代(胚胎)作为参考，则其他子代(胚胎)或者仅与参考共享母源单体型；或者子代仅与参考共享父源单体型；或者子代与参考共享相同的父源和母源这两个单体型；或者子代与参考没有共享的单体型，通过参考子代构建父代两条链的单体型与母代两条链的单体型。另基于连锁定律，在Kb水平发生同源重组的概率远小于1％，故在单体型图谱上出现的杂点(区段)可以根据上述单体型共遗传关系进行有效的矫正和去除。

本发明一具体实施例中，为了后续分析方便区分不同的单体型，可将子代遗传自父代的等位基因颜色标记为蓝色，父代的另一条链的等位基因颜色标记为红色，将子代遗传自母代的等位基因颜色标记为橙色，母代另一条链的等位基因颜色标记为绿色，通过孟德尔遗传定律，确定胚胎等位基因与参考等位基因来源是否一致，如果来源一致，则该等位基因颜色标记为蓝色(父代有效位点)、橙色(母代有效位点)，否则标记为红色(父代有效位点)、绿色(母代有效位点)，有效SNP位点见表1。

表1

第二方面，第一方面所述的以非疾病诊断为目的的家系全基因组单体型连锁分析方法在构建PGT-A、PGT-M和PGT-SR检测装置中的应用。

第三方面，本发明提供一种PGT-A、PGT-M和PGT-SR检测装置，所述检测装置包括获取SNP单元、构建参比样本单元、PGT-A分析单元、构建全基因组单体型连锁分析图谱单元及PGT-M和PGT-SR分析单元。

所述获取SNP单元用于执行包括：

取符合孟德尔遗传定律的家系中父代、母代或子代中任意一个或两个的基因组DNA样本，获取所述基因组DNA样本的SNP信息。

所述构建参比样本单元用于执行包括：

以获取SNP信息后的基因组DNA样本作为参比样本，对参比样本的SNP位点建立坐标和基因型信息数据集合。

所述PGT-A分析单元用于执行包括：

对家系的其他个体样本中与参比样本相同坐标的SNP位点进行测序，根据参比样本的SNP坐标和基因型信息数据集合，基于孟德尔遗传定律，分析家系其他样本相同坐标的SNP的基因型，使用环状二元分割算法进行拷贝数变异分析。

本发明中拷贝数变异分析包括对测序数据进行比对分析，划分10Kb窗口统计Reads数，之后进行GC校正和窗口合并，获取合并窗口均一化后的Reads总数，然后，将样本均一化后的序列数与参考数据库进行比对，计算每个窗口的LogRR值，LogRR值反映了样本与参考数据库窗口片段的差异性，即每个窗口片段的CNV情况，最后，利用相邻窗口之间LogRR值的均值差构建t统计量分析，进而精确获得变异区段的分段点，确定CNV具体变异信息。

所述构建全基因组单体型连锁分析图谱单元用于执行包括：

根据家系样本在相同坐标下所有SNP位点的基因型信息，结合家系亲缘关系，构建该家系全基因组单体型连锁分析图谱。

所述PGT-M和PGT-SR分析单元用于执行包括：

在家系全基因组单体型连锁分析图谱中，根据子代间的共遗传单体型信息应保持一致、非共遗传单体型信息应保持不一致的原则，进行单体型区段矫正，去除干扰区段，进行PGT-M和PGT-SR分析。

优选地，获取SNP单元中所述获取所述基因组DNA样本的SNP信息的方法包括：从已有NGS数据中获取、从已有SNP array数据中获取、进行WGS测序、进行RetSeq检测、进行SNParray检测或进行三代测序检测中任意一种。

优选地，获取SNP单元中所述SNP的个数为>30万，优选50万～80万，进一步优选60万～70万。

优选地，PGT-A检测单元中所述测序的方法包括WGS测序、RetSeq检测、SNP array检测或三代测序。

第四方面，本发明提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序执行第一方面所述的以非疾病诊断为目的的家系全基因组单体型连锁分析方法或实现第三方面所述的PGT-A、PGT-M和PGT-SR检测装置的功能。

第五方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序执行第一方面所述的以非疾病诊断为目的的家系全基因组单体型连锁分析方法或实现第三方面所述的PGT-A、PGT-M和PGT-SR检测装置的功能。

与现有技术相比，本发明具有以下有益效果：

(1)本发明开发一种联合SNP定位的家系全基因组单体型连锁分析技术，在符合孟德尔遗传定律的家系中，只需获取父代、母代或子代(胚胎)任意一种或两种样本的基因组DNA的一定数量(>30万)的SNP位点信息，而不需要获取整个家系成员的所有SNP信息；基于家系中已知SNP信息的样本作为参比样本，构建参比样本的全基因组SNP位点坐标和基因型信息数据集合，然后对家系中其他样本进行检测和连锁分析时，仅分析该数据集合中固定坐标位点的基因型信息，达到低覆盖度(0.3×–1.4×)低成本测序即可获取足量SNP数据，同时结合家系遗传关系保证了SNP位点检测的准确性；

(2)本发明使用了单体型矫正策略，所有子代单体型信息均遗传自父母，子代间的共遗传单体型信息应保持一致，非共遗传单体型信息应保持不一致，从而可以进行单体型区段矫正，去除干扰杂点(区段)影响，提高分型准确性；

(3)本发明方法相较于常规高深度WGS或者RetSeq检测，测序数据量可降低60％以上，同时低深度测序可将整个检测时间缩短，达到降低测序成本、提高检测速率的目的；

(4)本发明可以通用解决PGT-A、PGT-M、PGT-SR的一体化检测需求，无需分别针对各类疾病构建对应检测流程。

附图说明

图1为PGT-A/SR/M一体化检测流程图；

图2为XY家系子代胚胎染色体非整倍体检测结果图；

图3A为XY家系单体型结果图(4号染色体)；

图3B为XY家系单体型结果图(10号染色体)；

图4为XY家系4q35及10q26区域遗传分析结果图；

图5为ZY家系的子代胚胎细胞低深度测序的全基因组单体型分型图谱；

图6为ZY家系的单体型结果图；

图7为ZY家系的CNV结果图；

图8为WZW家系子代胚胎染色体非整倍体检测结果图；

图9为WZW家系单体型结果图；

图10为WZW家系X染色体遗传分析结果图。

具体实施方式

为进一步阐述本发明所采取的技术手段及其效果，以下结合实施例和附图对本发明作进一步地说明。可以理解的是，此处所描述的具体实施方式仅仅用于解释本发明，而非对本发明的限定。

实施例中未注明具体技术或条件者，按照本领域内的文献所描述的技术或条件，或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者，均为可通过正规渠道购买获得的常规产品。

本发明通过对家系中父母或参考样本进行检测，采用能获知该样本>30万SNP信息(>30万SNP，优选50万～80万，进一步优选60万～70万)的任一方式进行(如已有NGS数据、已有SNP array数据、进行WGS测序、进行SNP array检测、进行RetSeq检测、进行三代测序检测等)。进行全基因组SNP定位及数据集合，构建亲本全基因组单体型，并对其他待检测的胚胎细胞的全基因组DNA部分代表性区域进行低深度测序，避免了每次进行胚胎细胞检测时对父母基因型的重复检测过程，进一步降低了测序成本，缩短了检测时间。通过分析胚胎是否存在染色体非整倍体、染色体结构异常及携带单基因遗传病突变，辅助临床医生选择染色体正常的胚胎进行植入。本发明进一步构建可以应用于PGT-A/M/SR的检测装置，流程示意图如图1所示，是一种低成本通用的一体化检测解决方案，也可应用于生命科学其他领域。

NGS：Next-Generation Sequencing下一代测序技术。

RAD-Seq：restriction site-associated DNA sequencing简化基因组测序

IVF-ET：in vitro fertilization-embryo transfer体外受精-胚胎移植。

SNP：single nucleotide polymorphism单核苷酸多态性。

PGT-A：Preimplantation Genetic Testing for aneuploidy胚胎植入前非整倍体遗传学筛查。

PGT-M：Preimplantation Genetic Testing for Monogenic胚胎植入前单基因遗传学检测。

PGT-SR：Preimplantation Genetic Testing for Structural Rearrangements胚胎植入前染色体结构变异遗传学检测。

实施例1

本实施例提供染色体非整倍体检测及单基因遗传病筛查装置。

遗传咨询诊断中，发现咨询者XY，年龄35岁，高龄产妇自发性流产，且男方QB患有X染色体连锁遗传病，为面肩肱肌营养不良症(FSHD)1型患者，男方母亲GLX也为面肩肱肌营养不良症(FSHD)1型患者，要求医院助孕及选择遗传学正常胚胎移植。面肩肱型肌营养不良是一种遗传性肌肉疾病，受其影响最严重的是脸、肩、上臂等部位的肌肉。(部分患者存在自身基因突变)面肩肱型患者优点在于病情进展缓慢，不会危及生命。研究发现该病的基因异常位于4号染色体近末端的4q35位点。

夫妻双方及男方父母亲均取外周血样本5mL于EDTA抗凝采血管中保存，采用天根血液/细胞/组织基因组DNA提取试剂盒进行抽提。经过药物刺激卵巢超排卵，体外受精(IVF)，从体外培养五天的囊胚中选取若干个囊胚滋养层细胞，编号为XY-1，XY-2，XY-8，XY-14。通过对胚胎部分细胞的DNA进行检测，分析胚胎染色体是否存在非整倍体数量异常，对4q35区域D4Z4重复区，10q26区域D4Z4重复区分别进行连锁分析，检测胚胎是否携带助FSHD致病突变，辅助临床医生判断胚胎是否植入。

质检合格的子代胚胎XY-1的单细胞扩增产物在750K单核苷酸多态性(SNP)微阵列芯片上进行反应，然后在Affymetrix基因芯片(GCS3000)扫描仪上扫描。家系中其他成员，包括男方父亲、男方母亲、男方、女方及其他子代胚胎样本进行低深度基因组测序分析(0.5×-0.9×)，子代胚胎样本采用QIAGEN REPLI-g Single Cell Kit进行全基因组扩增，随后进行RetSeq-NGS建库：

①.DNA酶切：取DNA样本200ng，加入NspI和MboI内切酶，用移液器吹打混匀(不要涡旋)，短暂离心，离心后立即置于PCR仪中：37℃20分钟，65℃20分钟，4℃保持；

②.DNA片段末端加接头：根据测序平台选择不同序列的接头，将接头混合液加入到酶切后的DNA中，涡旋混匀，短暂离心。离心后立即置于PCR仪中：60℃10分钟，4℃保持；

③.接头连接：将连接酶混合液加入到混合了接头的DNA中，涡旋混匀，短暂离心，离心后立即置于PCR仪中：22℃25分钟，65℃10分钟，4℃保持；

④.片段选择：补水到100μL然后加入AMPure XP磁珠60μL，混匀后室温放置5分钟，放置到磁力架上，然后磁力架上放置3～5分钟至液体澄清，转移上清至新的离心管中，加入18μLAMPure XP磁珠，混匀后室温放置5分钟，放置到磁力架上，等液体清亮，去上清，用200μL的80％酒精清洗，室温干燥后用22μL Low TE洗脱DNA；

⑤.文库扩增：在片段筛选后的DNA样本中，加入PCR反应混合液，再加入2μL特异性引物X，涡旋混匀，短暂离心，然后将PCR管放入PCR仪中：98℃45秒；(98℃15秒，55℃30秒，72℃30秒)*6个循环；72℃1分钟；4℃保存；

⑥.文库纯化：反应结束后离心，加入AMPure XP磁珠50μL，混匀后室温静置5分钟，然后磁力架上放置4分钟至液体澄清，弃上清，用200μL的80％酒精清洗，重复一次，室温干燥磁珠，加入25μL Low TE重悬磁珠，洗脱DNA。

构建好的文库使用PE100-NGS上机测序，测序数据量10M raw reads(0.5×-0.9×)。

获取SNP单元

首先使用基因芯片对子代胚胎XY-1样本检测，获取该样本的30万个SNP位点信息。

构建参比样本单元

然后以获得的SNP位点信息的作为参比样本，对参比样本的已知SNPs位点建立坐标和基因型信息数据集合(坐标为人类标准参考基因组hg19)。

PGT-A分析单元

然后对该家系中其他样本进行RetSeq检测，测序数据量10M raw reads(0.5×-0.9×)。对测序数据中QC值过低的SNP位点进行过滤，对不符合遗传关系的SNP位点进行过滤；然后根据参比样本SNPs坐标和基因型信息数据集合，基于孟德尔遗传定律，对家系其他样本相同坐标位点的SNP进行生信分析，获得准确基因型。

使用环状二元分割(circularbinary segmentation，CBS)算法，对测序结果进行分析，得到匹配到每条染色体上的有效序列数量，计算有效序列数量与参考数据库中相应染色体序列数量的比值，若该比值过高，则该染色体可判断为三体或重复；若该比值过低，则该染色体可判断为单体或缺失，实现对染色体非整倍体异常的检测，XY家系子代胚胎染色体非整倍体检测结果如图2所示。

构建全基因组单体型连锁分析图谱单元

根据家系样本在相同坐标下所有SNP位点的基因型信息，结合家系亲缘关系，构建好该家系全基因组单体型连锁分析图谱。进行子代胚胎全基因组单体型连锁分析，观察4q35区域D4Z4重复区，10q26区域D4Z4重复区，判断胚胎是否携带FSHD致病突变。XY家系测序数据指标情况如表2所示。

表2

例如根据第1个固定坐标位点SNP1男方基因型信息为GC，女方为GG，则可知子代胚胎的SNP1位点的基因型只能为GG或GC(概率分别为50％、50％)；低深度测序显示胚胎XY-2在SNP1位点处有C碱基时，则可知该胚胎SNP1坐标位点的基因型为GC，另一胚胎XY-8在SNP1位点处同时有G和C碱基时，则可知该胚胎SNP1坐标位点的基因型为GC，当胚胎XY-14在SNP1位点处只有G碱基时，则可知该胚胎SNP1坐标位点的基因型可能为GG或GC(在单体型矫正时可结合该胚胎上下游紧密连锁的坐标位点所在单体型进行区分)。然后依次对第2个到第300000个固定坐标位点SNP2～SNP300000的男方和女方基因型信息进行分析，获得子代可能出现的基因型及概率，结合各胚胎低深度测序情况做出判读，对于暂时无法准确判读的胚胎基因型，可在单体型矫正时进一步确认。

单体型矫正及PGT-SR分析

在家系全基因组单体型连锁分析图谱中，所有子代单体型信息均遗传自父母，子代间的共遗传单体型信息应保持一致，非共遗传单体型信息应保持不一致，从而可以进行单体型区段矫正，去除干扰杂点(区段)影响。在该家系中我们以子代(胚胎)XY-1作为参考，则其他子代(胚胎)或者仅与参考共享母源单体型；或者子代仅与参考共享父源单体型；或者子代与参考共享相同的父源和母源这两个单体型；或者子代与参考没有共享的单体型。总之，所有子代间的单体型来源同一父本或母本单体型的，则为共遗传单体型，单体型信息应完全一致；所有子代间的单体型来源不同父本或母本单体型的，为非共遗传单体型，单体型信息应不一致。XY家系单体型结果如图3A和图3B所示。XY家系4q35及10q26区域遗传分析结果如图4所示，XY家系胚胎检测结果如表3所示。

表3

根据以上结果分析，XY-14胚胎样本染色体非整倍体检测正常，且在4q35区域D4Z4重复区，10q26区域D4Z4重复区未发现异常变异的遗传，该胚胎可进行植入。

实施例2

本实施例提供平衡易位家系检测装置。

遗传咨询诊断中，发现咨询者ZY，年龄28岁，自发性流产，未行基因检测，要求医院助孕。进行PGT-SR检测项目，夫妻双方均取外周血样本5mL于EDTA抗凝采血管中保存。经过药物刺激卵巢超排卵，体外受精(IVF)，从体外培养五天的囊胚中选取若干个囊胚滋养层细胞进行胚胎植入前染色体平衡易位分析。

获取SNP单元

男女方样本编号为ZY-mother，ZY-father，子代胚胎样本编号为ZY-1，ZY-4，ZY-5，首先将男方、女方的外周血提取的DNA使用微阵列芯片(Illumina iScan)进行检测，获取该样本约40万个SNP位点信息。

构建参比样本单元

然后以获取到的SNP位点信息作为参比样本建立坐标和基因型信息数据集合(坐标为人类标准参考基因组hg19)。对子代胚胎细胞进行低深度全基因组测序分析，普通WGS检测，PE100-NGS检测，测序数据量50M raw reads(1.5×-3×)。ZY家系的子代胚胎细胞低深度测序的全基因组单体型分型图谱如图5所示。

构建全基因组单体型连锁分析图谱单元

对测序数据中QC值过低的SNP位点进行过滤，对不符合遗传关系的SNP位点进行过滤；然后基于遗传关系随后根据参比样本SNPs坐标和基因型信息数据集合，基于孟德尔遗传定律，对家系其他样本相同坐标位点的SNP进行生信分析，获得准确基因型。根据家系样本在相同坐标下所有SNP位点的基因型信息，结合家系亲缘关系，构建好该家系全基因组单体型连锁分析图谱。ZY家系测序数据指标情况如表4所示。

表4

样本编号

信息

数据量

测序深度

LogRR_MAPD

LogRR_SD

有效位点数

ZY-1

胚胎

50.0M

3×

0.06

0.138

chr5:52；chr7:15

ZY-4

胚胎

51.8M

3×

0.056

0.1

chr5:53；chr7:17

ZY-5

胚胎

50.5M

3×

0.07

0.128

chr5:51；chr7:13

例如根据第1个固定坐标位点SNP1男方基因型信息为AG，女方为GG，则可知子代胚胎的SNP1位点的基因型只能为AG或GG(概率分别为50％，50％)；低深度测序显示胚胎ZY-1在SNP1位点处有A碱基时，则可知该胚胎SNP1坐标位点的基因型为AG，另一胚胎ZY-4在SNP1位点处同时有A和G碱基时，则可知该胚胎SNP1坐标位点的基因型为AG，当胚胎ZY-5在SNP1位点处只有G碱基时，则可知该胚胎SNP1坐标位点的基因型为GG。然后依次对第2个到第400000个固定坐标位点SNP2～SNP400000的男方和女方基因型信息进行分析，获得子代可能出现的基因型及概率，结合各胚胎低深度测序情况做出判读，对于暂时无法准确判读的胚胎基因型，可在单体型矫正时进一步确认。

单体型矫正

在家系全基因组单体型连锁分析图谱中，所有子代单体型信息均遗传自父母，子代间的共遗传单体型信息应保持一致，非共遗传单体型信息应保持不一致，从而可以进行单体型区段矫正，去除干扰杂点(区段)影响。在该家系中我们以子代(胚胎)XY-4作为参考，则其他子代(胚胎)或者仅与参考共享母源单体型；或者子代仅与参考共享父源单体型；或者子代与参考共享相同的父源和母源这两个单体型；或者子代与参考没有共享的单体型。若所有子代间的单体型来源同一父本或母本单体型的，则为共遗传单体型，单体型信息应完全一致；若所有子代间的单体型来源不同父本或母本单体型的，则为非共遗传单体型，单体型信息应不一致。ZY家系的单体型结果如图6所示。

通过本技术进行分析，所有子代胚胎样本均显示了>99％的SNP定位准确性。

ZY家系的CNV结果如图7所示，分析结果：家系ZY中男方正常，女方为易位携带型，胚胎ZY-4在易位区域存在拷贝数异常为易位携带型，胚胎ZY-1在易位区域存在拷贝数异常为易位携带型。在5号染色体易位判读观察区域，胚胎ZY-4的橙色单体型为易位携带型，胚胎ZY-5的单体型为绿色说明该胚胎为正常型；在7号染色体易位判读观察区域，胚胎ZY-4的橙色单体型为易位携带型，胚胎ZY-5的单体型为绿色说明该胚胎为正常型。

实施例3

本实施例提供PGT-A/SR/M联合检测装置。

临床诊断中，发现咨询者WZW，年龄31岁，自发性流产，要求医院助孕及选择遗传学正常胚胎移植。女方WZW及男方ZYL均取外周血样本5mL，流产胎儿WZW-0取组织取约20mg，采用康为世纪核酸提取纯化试剂盒进行DNA抽提。女方经过体外受精(IVF)后选取若干个囊胚滋养层细胞进行检测，编号为WZW-2，WZW-8，WZW-9，分析胚胎染色体是否存在非整倍体数量异常、染色体结构异常(如染色体易位、倒位、微缺失和微重复等)、携带单基因遗传病，辅助临床医生判断胚胎是否植入。

获取SNP

将女方和流产胎儿的DNA使用全基因组测序WGS进行检测，对全基因组中基因覆盖率至少达到30×，获取每个样本30万SNP位点信息。然后以女方和流产胎儿作为参比样本，对参比样本的已知SNPs位点建立坐标和基因型信息数据集合(坐标为人类标准参考基因组hg19)。子代胚胎样本采用QIAGEN REPLI-g Single Cell Kit进行全基因组扩增，对男方DNA及子代胚胎进行普通WGS检测，PE100，测序数据量20M raw reads(0.5×-0.9×)。

构建参比样本

得到测序下机文件后，对QC值过低的SNP位点进行过滤，将测序数据与人类基因组数据库进行匹配，建立参比样本SNP信息数据集合，以识别遗传变异。

使用环状二元分割(circularbinary segmentation，CBS)算法进行拷贝数变异分析。对测序数据进行比对分析，划分10kb窗口统计Reads数，之后进行GC校正和窗口合并，获取合并窗口均一化后的Reads总数。然后，将样本均一化后的序列数与参考数据库进行比对，计算每个窗口的LogRR值。LogRR值反映了样本与参考数据库窗口片段的差异性，即每个窗口片段的CNV情况。最后，利用相邻窗口之间LogRR值的均值差构建t统计量分析，进而精确获得变异区段的分段点，确定CNV具体变异信息。WZW家系子代胚胎染色体非整倍体检测结果如图8所示，WZW家系测序数据指标情况如表5所示。

表5

构建家系全基因组单体型连锁分析图谱

例如根据第1个固定坐标位点SNP1女方的基因型信息为AA，男方为GG，则可知子代胚胎的SNP1位点的基因型只能为AG；第2个固定坐标位点SNP2女方的基因型信息为AG，男方为CC。则可知子代胚胎的SNP2位点的基因型只能为AC或GC(概率分别为50％、50％)；当低深度测序显示胚胎WZW-2在SNP2位点处有A碱基时，则可知该胚胎SNP2坐标位点的基因型为AC，当显示胚胎WZW-8在SNP2位点处同时有G和C碱基时，则可知该胚胎SNP2坐标位点的基因型为GC，当显示胚胎WZW-9在SNP2位点处只有C碱基时，则可知该胚胎SNP2坐标位点的基因型可能为AC或GC(单体型矫正时可结合该胚胎上下游紧密连锁的坐标位点所在单体型进行区分)。

然后依次对第3个到第300000个固定坐标位点SNP3～SNP300000的男方和女方基因型信息进行分析，获得子代可能出现的基因型及概率，结合各胚胎低深度测序情况做出判读，对于暂时无法准确判读的胚胎基因型，可在单体型矫正时进一步确认。

单体型矫正

在家系全基因组单体型连锁分析图谱中，所有子代单体型信息均遗传自父母，子代间的共遗传单体型信息应保持一致，非共遗传单体型信息应保持不一致，从而可以进行单体型区段矫正，去除干扰杂点(区段)影响。在该家系中我们以子代(流产胎儿)WZW-0作为参考，则其他子代(胚胎)或者仅与参考共享母源单体型；或者子代仅与参考共享父源单体型；或者子代与参考共享相同的父源和母源这两个单体型；或者子代与参考没有共享的单体型。所有子代间的单体型来源同一父本或母本单体型的，则为共遗传单体型，单体型信息应完全一致；所有子代间的单体型来源不同父本或母本单体型的，为非共遗传单体型，单体型信息应不一致。

WZW家系单体型结果如图9所示，WZW家系X染色体遗传分析结果如图10所示，WZW家系胚胎检测结果如靶标6所示。

表6

胚胎	分型
		WZW-2	携带
WZW-8	正常
		WZW-9	正常

根据以上结果分析，女方及流产胎儿均在Xq28区域发生0.47M缺失，是导致流产的主要原因。胚胎WZW-8和WZW-9在X染色体Xq28区域未发生缺失，均可进行植入。

综上所述，本发明通过联合SNP定位技术，利用已知SNP信息为参考，结合家系关系，进一步降低测序数据量，无论采用RetSeq还是高深度WGS测序，测序数据量均可降低60％以上，可实现在同一次实验检测里，同时完成非整体、单基因疾病和染色体结构重排的一体化检测。

申请人声明，本发明通过上述实施例来说明本发明的详细方法，但本发明并不局限于上述详细方法，即不意味着本发明必须依赖上述详细方法才能实施。所属技术领域的技术人员应该明了，对本发明的任何改进，对本发明产品各原料的等效替换及辅助成分的添加、具体方式的选择等，均落在本发明的保护范围和公开范围之内。

Claims

1.一种以非疾病诊断为目的的家系全基因组单体型连锁分析方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的以非疾病诊断为目的的家系全基因组单体型连锁分析方法，其特征在于，步骤(1)所述获取所述基因组DNA样本的SNP信息的方法包括：从已有NGS数据中获取、从已有SNParray数据中获取、进行WGS测序、进行RetSeq检测、进行SNParray检测或进行三代测序检测中任意一种。

3.根据权利要求1或2所述的以非疾病诊断为目的的家系全基因组单体型连锁分析方法，其特征在于，步骤(1)所述SNP的个数为>30万，优选50万～80万，进一步优选60万～70万。

4.根据权利要求1-3任一项所述的以非疾病诊断为目的的家系全基因组单体型连锁分析方法，其特征在于，步骤(3)中所述测序的方法包括WGS测序或RetSeq检测。

5.权利要求1-4任一项所述的以非疾病诊断为目的的家系全基因组单体型连锁分析方法在构建PGT-A、PGT-M和PGT-SR检测装置中的应用。

6.一种PGT-A、PGT-M和PGT-SR检测装置，其特征在于，所述检测装置包括获取SNP单元、构建参比样本单元、PGT-A分析单元、构建全基因组单体型连锁分析图谱单元及PGT-M和PGT-SR分析单元；

所述获取SNP单元用于执行包括：

取符合孟德尔遗传定律的家系中父代、母代或子代中任意一个或两个的基因组DNA样本，获取所述基因组DNA样本的SNP信息；

所述构建参比样本单元用于执行包括：

以获取SNP信息后的基因组DNA样本作为参比样本，对参比样本的SNP位点建立坐标和基因型信息数据集合；

所述PGT-A分析单元用于执行包括：

对家系的其他个体样本中与参比样本相同坐标的SNP位点进行测序，根据参比样本的SNP坐标和基因型信息数据集合，基于孟德尔遗传定律，分析家系其他样本相同坐标的SNP的基因型，使用环状二元分割算法进行拷贝数变异分析；

所述构建全基因组单体型连锁分析图谱单元用于执行包括：

根据家系样本在相同坐标下所有SNP位点的基因型信息，结合家系亲缘关系，构建该家系全基因组单体型连锁分析图谱；

所述PGT-M和PGT-SR分析单元用于执行包括：

7.根据权利要求6所述的PGT-A、PGT-M和PGT-SR检测装置，其特征在于，获取SNP单元中所述获取所述基因组DNA样本的SNP信息的方法包括：从已有NGS数据中获取、从已有SNParray数据中获取、进行WGS测序、进行RetSeq检测、进行SNParray检测或进行三代测序检测中任意一种；

8.根据权利要求6或7所述的PGT-A、PGT-M和PGT-SR检测装置，其特征在于，PGT-A检测单元中所述测序的方法包括WGS测序、RetSeq检测、SNParray检测或三代测序。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述计算机程序执行权利要求1-4任一项所述的以非疾病诊断为目的的家系全基因组单体型连锁分析方法或实现权利要求6-8任一项所述的PGT-A、PGT-M和PGT-SR检测装置的功能。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序执行权利要求1-4任一项所述的以非疾病诊断为目的的家系全基因组单体型连锁分析方法或实现权利要求6-8任一项所述的PGT-A、PGT-M和PGT-SR检测装置的功能。