CN114836536B

CN114836536B - 一种基于malbac的单细胞高扩增区域筛选方法及系统

Info

Publication number: CN114836536B
Application number: CN202210776293.7A
Authority: CN
Inventors: 严智强; 乔杰; 闫丽盈; 宋石; 李汉娜
Original assignee: Peking University Third Hospital Peking University Third Clinical Medical College
Current assignee: Peking University Third Hospital Peking University Third Clinical Medical College
Priority date: 2022-07-04
Filing date: 2022-07-04
Publication date: 2022-09-30
Anticipated expiration: 2042-07-04
Also published as: CN114836536A

Abstract

本发明提供了一种基于MALBAC的单细胞高扩增区域筛选方法及系统，其方法包括：获取基于MALBAC单细胞的高扩增区域，且从人类基因组SNP库中，筛选杂合度高的SNP位点，得到用于检测高扩增区域的SNP位点；获取胚胎样本进行MALBAC扩增，并结合高扩增区域的SNP位点，选取得到目的基因上下游SNP位点，进行引物设计；结合引物设计结果、普通PCR、一代测序进行SNP连锁分析，选取正常胚胎进行移植。本发明依据单细胞扩增特性，筛选出胚胎中易于扩增的高扩增区以及高扩增区中的高变异度SNP，进一步通过PCR检测挑选出的SNP位点，完成后续连锁分析，从而提高胚胎诊断的效率。

Description

一种基于MALBAC的单细胞高扩增区域筛选方法及系统

技术领域

本发明涉及区域筛选技术领域，特别涉及一种基于MALBAC的单细胞高扩增区域筛选方法及系统。

背景技术

胚胎植入前遗传学检测（Preimplantation Genetic Testing, PGT），指通过体外受精的方式获得胚胎，并活检少量胚胎细胞用于胚胎中遗传异常检测的一种手段。PGT通过遗传检测挑选不携带致病突变的胚胎并移植，从而帮助患者生育健康后代。在PGT中，单基因疾病是临床上遇到的一种常见类型。针对单基因疾病，临床上目前发展出多种检测手段，主要包括基于SNP芯片的karyomapping技术和基于二代测序的连锁分析技术。

在对胚胎进行遗传检测之前，由于活检的细胞量极少，需要对活检的少量胚胎细胞进行单细胞基因组扩增，从而获得足够的DNA用于遗传检测。多次退火环状循环扩增技术(Multiple Annealing and Looping-Based Amplification Cycles, MALBAC) 是一种单细胞全基因组扩增技术。由于MALBAC扩增近似于将基因组线性扩增，而PCR及多重置换扩增(Multiple Displacement Amplification, MDA) 是指数放大，MALBAC应用于单细胞全基因组扩增比传统的PCR及MDA技术更为均匀和准确。MALBAC技术特别适用于较少细胞数的样本的基因组分析，并能够在低深度完成更为准确的基因组扩增，节约检测成本。该技术通过让扩增产物带有互补的引物序列，并多次退火，使扩增产物的两端发生链内杂交，以保证扩增产物上携带的引物序列不再能与游离的互补引物发生杂交，防止了指数杂交，并减少了扩增偏向性。但是由于GC解链所需能量更高、GC单链区域比较容易自身互补配对形成稳定的发夹环二级结构等原因，DNA中GC含量较高的区域仍然无法有效扩增。非指数扩增虽然减小了扩增偏向性所带来的影响，但其仍然存在。因此MALBAC扩增虽然是目前相对理想的扩增方法，较其他扩增技术更均匀。然而，MALBAC在基因组中的扩增仍旧存在一定程度的不均一性，依然存在高扩增区与低扩增区。在实际应用过程中，只有处于高扩增区的SNP位点可进一步作为胚胎连锁分析诊断的位点，低扩增区域内的SNP位点无法用于后续检测。

针对单基因病的临床胚胎检测，主要目标是检测胚胎中是否携带家系中的致病突变。针对突变位点的检测，目前主要有两种策略：一种是针对突变位点本身的直接检测。这种方法具有一定的局限性，如果突变位点位于扩增后的低覆盖区，则会导致无法检测目标位点。另一种是连锁分析的检测方法。这种方法通过挑选突变位点周围的SNP，对突变周围的SNP位点进行检测，进一步通过SNP位点实现连锁分析，得到突变所在的单体型。如果胚胎具有突变位点所在的单体型，则判定胚胎携带突变位点。这种方法通过获得胚胎单体型，从而间接推断胚胎是否携带突变，在临床诊断中是一种主要的检测手段。

然而，在进行连锁分析诊断之前，需要挑选突变位点周围的SNP位点进行扩增并检测，得到每个SNP位点的基因型信息，如果挑选的SNP位点在胚胎活检细胞DNA扩增产物中位于低扩增区域，则后续实验难以实现SNP位点的有效鉴定，则会给检测过程造成很大的难度且会极大地增加工作量。因此，挑选易于扩增的SNP位点，是整个连锁分析胚胎诊断的重要任务。

因此，本发明提出一种基于MALBAC的单细胞高扩增区域筛选方法及系统。

发明内容

本发明提供一种基于MALBAC的单细胞高扩增区域筛选方法及系统，用以解决上述提出的技术问题。

本发明提供一种基于MALBAC的单细胞高扩增区域筛选方法，包括：

步骤1：获取基于MALBAC单细胞的高扩增区域；

步骤2：从人类基因组SNP库中，筛选杂合度高的SNP位点；

步骤3：基于所述高扩增区域以及杂合度高的SNP位点，得到用于检测所述高扩增区域的SNP位点；

步骤4：获取胚胎样本进行MALBAC扩增，并结合所述高扩增区域的SNP位点，选取得到目的基因上下游SNP位点，并进行引物设计；

步骤5：结合引物设计结果、普通PCR、一代测序进行SNP连锁分析，选取正常胚胎进行移植。

优选的，获取基于MALBAC单细胞的高扩增区域，包括：

选取基于MALBAC单细胞全基因组扩增及二代测序的第一数据；

对所述第一数据进行预处理，得到第二数据；

将所述第二数据与人类参考基因组进行比对；

利用比对结果，统计所述第二数据中各个位点的测序深度；

统计所述测序深度大于预设深度的位点在与所述第二数据对应的各样本文件中的出现频率，筛选所述出现频率大于预设频率的位点区域，并作为高扩增区域。

优选的，基于所述高扩增区域以及杂合度高的SNP位点，得到用于检测所述高扩增区域的SNP位点，包括：

根据预设注释文件，筛选杂合度高的SNP位点；

获取所述高扩增区域与所述杂合度高的SNP位点的交集；

基于交集结果，获取用于检测所述高扩增区域的SNP位点。

优选的，获取胚胎样本进行MALBAC扩增，并结合所述高扩增区域的SNP位点，选取得到目的基因上下游SNP位点，包括：

获取胚胎样本；

利用MALBAC单细胞全基因组扩增试剂盒对获取的胚胎样本进行全基因组DNA扩增；

确定家系成员，并提取所述家系成员的基因组DNA样本；

确定所述基因组DNA样本中的目的基因位置；

根据所述目的基因位置，从扩增后的全基因组DNA样本中，选取基于所述目的基因位置对应的目的基因上下游范围内SNP位点。

优选的，选取得到目的基因上下游SNP位点，并进行引物设计，包括：

选取得到目的基因上下游SNP位点；

对所述目的基因上下游SNP位点进行位点片段的引物设计以及引物评估。

当引物设计结果以及引物评估结果满足引物标准时，对选取得到目的基因上下游SNP位点进行PCR扩增，获取PCR产物。

优选的，结合引物设计结果、普通PCR、一代测序进行SNP连锁分析，选取正常胚胎进行移植，包括：

当引物设计结果以及引物评估结果满足引物标准时，对选取得到目的基因上下游SNP位点进行PCR扩增，获取PCR产物；

对选取的目的基因上下游SNP位点进行一代测序，并根据一代测序结果，分析所述目的基因上下游SNP位点的等位基因型；

根据所述等位基因型，获取家系成员以及胚胎的SNP位点信息；

根据所述等位基因型、SNP位点信息以及PCR产物，对所述家系成员及胚胎进行连锁分析，判断胚胎是否携带家系中突变所在的单体型，并完成对胚胎的诊断。

优选的，所述预处理为对所述第一数据进行数据去掉处理；

所述数据去掉处理包括：去掉所述第一数据的扩增及测序接头、低质量碱基。

优选的，选取基于MALBAC单细胞全基因组扩增及二代测序的第一数据的过程中，包括：

获取历史选取数据，并分别计算每次历史选取数据对应的数据选取可靠性；

其中，Y1表示对应历史选取数据的数据选取可靠性；n1表示对应历史选取数据的数量；y(r _i ,z _i)表示对应历史选取数据中第i个数据基于扩增及测序接头r _i以及低质量碱基z _i的数据可靠性，且取值范围为[1，2]；

表示对应历史选取数据中第i个数据的可靠调整因子；∆y(r _i ,z _i)表示对应历史选取数据中第i个数据的微小可靠调整函数；

筛选前两个最大数据选取可靠性，并确定对应的第一选取数值和第二选取数值，根据第一选取数值以及第二选取数值，确定最佳数据选取范围；

当所述第一选取数值与第二选取数值一致时，持续获取下一个最大数据选取可靠性，直到获取到最佳数据选取范围；

获取基于所述MALBAC单细胞的细胞属性以及对应的家系基因突变概率，确定所述最佳数据选取范围内的最佳数据选取点；

基于所述最佳数据选取点进行初次数值筛选，同时，获取二代测序的测序属性，对筛选的初始数值进行调整，得到二次数值；

基于所述二次数值，确定获取的第一数据的数据量。

优选的，利用MALBAC单细胞全基因组扩增试剂盒对获取的胚胎样本进行全基因组DNA扩增，包括：

在所述胚胎样本中加入预扩增混合液，在低退火温度下进行第一轮线性扩增；

根据第一轮线性扩增结果以及预设扩增结果，确定后续的待线性扩增轮数；

实时记录按照待线性扩增轮数进行第一轮数的线性扩增后的扩增信息，并基于所述扩增信息构建扩增矩阵；

分别相邻两轮每类元素的扩增差值，并得到相邻两轮的差值阵列；

分析每相邻两轮的差异阵列，并判断最后一轮线性扩增，是否满足全基因组DNA扩增标准；

若满足，按照所述待线性扩增轮数进行扩增结束后，实现全基因组DNA扩增；

若不满足，根据每相邻两轮的差异阵列，确定不满足全基因组DNA扩增标准的第一元素种类，并分别获取每个第一元素种类的扩增规律；

从所有第一元素种类中筛选元素权重大于对应预设权重的第二元素种类，并根据每个第二元素种类的扩增规律，筛选允许最小待增加扩增轮数；

基于所有允许最小待扩增轮数，确定需要待增加扩增轮数；

基于所述需要待增加扩增轮数进行持续线性扩增，并在线性扩增结束后，加入扩增混合液，在高退火温度下进行第二轮指数扩增；

将扩增后的产物进行纯化并检测DNA浓度以判断扩增情况，进而获取得到全基因组DNA。

本发明提供一种基于MALBAC的单细胞扩增区域筛选系统，包括：

区域获取模块，用于获取基于MALBAC单细胞的高扩增区域；

位点筛选模块，用于从人类基因组SNP库中，筛选杂合度高的SNP位点；

位点检测模块，用于基于所述高扩增区域以及杂合度高的SNP位点，得到用于检测所述高扩增区域的SNP位点；

引物设计模块，用于获取胚胎样本进行MALBAC扩增，并结合所述高扩增区域的SNP位点，选取得到目的基因上下游SNP位点，并进行引物设计；

胚胎选取模块，用于结合引物设计结果、普通PCR、一代测序进行SNP连锁分析，选取正常胚胎进行移植。

与现有技术相比，本申请的有益效果是：

本发明依据单细胞扩增特性，筛选出胚胎中易于扩增的高扩增区，同时筛选高扩增区中的高变异度SNP，帮助临床挑选合适、易于进行实验的SNP位点，并进一步通过PCR检测挑选出的SNP位点，完成后续连锁分析，从而提高胚胎诊断的效率。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种基于MALBAC的单细胞高扩增区域筛选方法的流程图；

图2为本发明实施例中一种基于MALBAC的单细胞高扩增区域筛选方法的具体流程图；

图3为本发明实施例中一种基于MALBAC的单细胞高扩增区域筛选系统的结构图；

图4-1为本发明实施例中连锁分析的第一结构图；

图4-2为本发明实施例中连锁分析的第二结构图；

图5为本发明实施例中常染色体显性遗传病的结构图；

图6为本发明实施例中常染色体显性遗传病的另一结构图；

图7为本发明实施例中rs1065663的位点检测结果图；

图8为本发明实施例中rs12598216的位点检测结果图；

图9为本发明实施例中rs2072314的位点检测结果图；

图10为本发明实施例中rs143847285的位点检测结果图；

图11为本发明实施例中rs188198556的位点检测结果图；

图12为本发明实施例中rs12448662的位点检测结果图；

图13为本发明实施例中实例2 CNV图；

图14为本发明实施例中rs2582990的位点检测结果图；

图15为本发明实施例中rs2741288的位点检测结果图；

图16为本发明实施例中rs7677047的位点检测结果图；

图17为本发明实施例中rs3095080的位点检测结果图；

图18为本发明实施例中rs6819202的位点检测结果图；

图19为本发明实施例中rs6843312的位点检测结果图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明提供一种基于MALBAC的单细胞高扩增区域筛选方法，如图1所示，包括：

步骤1：获取基于MALBAC单细胞的高扩增区域；

步骤2：从人类基因组SNP库中，筛选杂合度高的SNP位点；

针对该实施例的具体实现过程，参见图2。

针对该实施例中连锁分析参见图4。

针对该实施例，已有专利CN105543339B只是选择目标位点周围人群杂合度高的SNP位点，由于MALBAC扩增技术的基因组覆盖不均一，使得基因组无差别选择的位点在实际多重PCR预扩增实验中难以每次都得到足够数量的可用SNP位点。这影响了后续连锁分析的准确性，在实际使用过程中会由于SNP位点数量不足，造成无法进行连锁分析诊断或误诊。

借助MALBAC的扩增偏好区域在不同样本中具有重复性的特点，本发明首先通过大量MALBAC扩增后测序样本，筛选出基因组高扩增区域，这些区域内的SNP位点在后续PCR过程中极易完成扩增，通过选取位于高扩增区域的SNP位点，很好地保证了后续PCR扩增的成功率，克服了已有技术CN105543339B的缺点。此外，本筛选系统挑选亚洲人群中高杂合度的SNP位点，增加了获得可用的SNP位点数量的概率。这两方面的改进，提高了整个诊断过程中的成功率和准确性。

该实施例中，测序结果样本可以是自己测定的基于MALBAC扩增的人类基因组的测序数据，也可以是他人公开的基于MALBAC扩增的二代测序结果。测序结果比对所述的参考序列应为人参考基因组，例如hg19、hg38。测序比对及计算测序深度所需软件包括但不限于BWA、bedtools。本专利中用于计算样本集的高富集区的样本比例以及筛选高富集区选用的测序深度为参考值。

针对步骤1-5的具体实施例1：

针对单细胞高扩增区域及高扩增区SNP的获得具体可以为：

1.1 取已有的102个基于MALBAC单细胞全基因组扩增及二代测序的样本，测序数据去掉扩增及测序接头以及低质量碱基，采用比对软件BWA以默认参数将处理后的数据比对到人类参考基因组hg38。

1.2 利用软件统计各样本中各个位点的测序深度，此处使用bedtools coverage计算22条常染色体及X染色体中各位点的测序深度和覆盖度。所用到的染色体信息（-genome）来源于人类基因组参考序列hg38，并排除了chrUn、random、chrM、chrEBV。

1.3 使用bedtools coverage及awk统计测序深度大于3（不包含3）的位点在各样本文件中的出现频率，共得到位点数1898691743个。利用awk筛选出存在于50%以上样本中的位点区域，作为MALBAC单细胞高扩增区域，共获得位点361229132个。

1.4 根据从NCBI下载的1000genome的注释文件，筛选亚洲人群样本中杂合度高的位点，与上一步所得高扩增区域取交集，得到MALBAC易扩增且亚洲人群杂合度高的SNP位点，共计23163024个SNP位点。在临床诊断时可以选取目标基因附近的这些位点进行PCR扩增，并进行后续家系连锁分析的诊断。

表1：MALBAC单细胞高扩增区SNP数

染色体	高扩增区SNP数	染色体	高扩增区SNP数
				chr1	12037375	chr13	449798
chr2	4033096	chr14	613325
				chr3	1194865	chr15	695049
chr4	800502	chr16	1105947
				chr5	1024010	chr17	959300
chr6	956409	chr18	484845
				chr7	988229	chr19	861145
chr8	922634	chr20	723662
				chr9	925291	chr21	460510
chr10	1058216	chr22	781563
				chr11	1597561	chrX	276633
chr12	1263895	chrY	3980

针对家系单基因病连锁分析诊断具体为：

本例为一常染色体显性遗传病，致病基因为PKD1，如图5所示。本家系中，母本及先证均为携带者，携带突变位点(c.11017-1G>C)。该夫妇通过体外受精共获得5枚囊胚。现需通过SNP连锁分析判定每个胚胎是否携带致病突变。

2.1 胚胎细胞样本的获得

体外培养的囊胚期胚胎，通过活检每个胚胎分离外滋养层3-10个细胞作为检测样本。

2.2 胚胎样本全基因组扩增

2.2.1 MALBAC扩增

利用商业化MALBAC单细胞全基因组扩增试剂盒进行少量胚胎细胞的全基因组DNA扩增。根据试剂盒说明书，在样本中加入裂解液，放入PCR仪中进行裂解、失活蛋白酶，对获得的细胞裂解样本进行MALBAC全基因组扩增；扩增的步骤包括：在细胞裂解样本中加入预扩增混合液，在低退火温度下进行第一轮线性扩增；进行五至八轮线性扩增之后再加入扩增混合液，在高退火温度下进行第二轮指数扩增；将扩增后的产物进行纯化并检测DNA浓度以判断扩增情况；将扩增后的产物在4℃ 保存。

其中，第一轮线性扩增的条件为：

1) 94℃ 反应3min；

2) 20℃ 反应40s；

3) 30℃ 反应40s；

4) 40℃ 反应30s；

5) 50℃ 反应30s；

6) 60℃ 反应30s；

7) 70℃ 反应4min；

8) 95℃ 反应20s；

9) 58℃ 反应10s；

10) 步骤2)到步骤9)共重复8个循环。

第二轮指数扩增的条件为：

1) 94℃ 反应30s；

2) 94℃ 反应20s；

3) 58℃ 反应30s；

4) 72℃ 反应3min；

5) 步骤(2)到步骤(4)共重复17个循环；将扩增后的产物在4℃ 保存。

2.2.2 MALBAC扩增结果

单细胞或等量DNA可通过单细胞扩增反应，从每65μL的反应体系中，获得范围在300-2000bp之间的扩增产物2-4μg，并进行产物电泳，定性分析是否扩增成功。也可在纯化后通过检测产物中双链DNA浓度判断扩增情况(结果见下表)。

表2 ：本家系胚胎MALBAC扩增及纯化后DNA浓度

	胚胎1	胚胎4	胚胎5	胚胎8
					浓度(ng/μl)	13.8	15.1	18.3	12.0

2.3 家系基因组样本获取

抽取家系成员外周血，提取其基因组DNA。提取先症儿组织的基因组DNA样本。

2.4 目的基因上下游位点扩增

根据目的基因位置，根据本案例1.4中筛选系统所得的SNP，选取目的基因PKD1附近上下游各3个亚洲人群中杂合度高且易扩增的SNP位点(rs1065663、rs12598216、rs2072314、rs143847285、rs188198556、rs12448662)，进行位点片段的引物设计、引物评估。引物设计如下。

表3：本案例所选SNP位点的PCR引物设计

编号	Primer名称	序列(5'to3')
			1	rs1065663-1-F	CAGCCTCTCAGAGAAACAGAG
2	rs1065663-1-R	CCCGAGCTAAACACAGATGA
			3	rs12598216-1-F	TCCAGCACCTCCTTTCAAAC
4	rs12598216-1-R	ACCAGATCCTGTGGGAACTA
			5	rs2072314-1-F	AAGCACACACTGGCTTAGAG
6	rs2072314-1-R	ATGGATACAGGAGAGCAGGA
			7	rs143847285-1-F	TTACAAGTGCCCACCATCAC
8	rs143847285-1-R	AAGCAGGAACAGACTCTTTGG
			9	rs188198556-1-F	AGCCAAACTCGGTGTCTTT
10	rs188198556-1-R	GCCAGAGATGGTCTAAACATGA
			11	rs12448662-1-F	CTTGTGTTGAGATGCCCACTA
12	rs12448662-1-R	CTGAGTGCTTTCCATGACTCTC

之后进行PCR扩增获得SNP位点的PCR产物。PCR使用20ul体系，扩增的条件为：

1) 95℃ 反应5min；

2)95℃ 反应20s；

3) 57℃ 反应30s；

4) 72℃ 反应45s;

5) 72℃ 反应5min；

6) 步骤(2)到步骤(4)共重复35个循环；将扩增后的产物在4℃ 保存。

2.5测序

将目的基因附近SNP位点片段进行一代测序，并得到测序峰图。

2.6 SNP-单体型分析：

通过本专利所述筛选系统，优选出的6个SNP位点，测序结果显示，所有位点在单细胞扩增后的样本中均成功检出。通过连锁分析发现，胚胎1、4、8不携带突变，胚胎5携带突变。如表4：

表4：SNP位点单体型结果

注：不携带突变位点的染色体中，SNP位点用下划线标记，携带突变位点的染色体中，SNP位点标记用方框圈起。

2.7 着床情况和产前羊水突变位点检测

最终该夫妇在知情同意下，选择移植诊断正常且胚胎质量较好的胚胎4并成功宫内妊娠。产前羊水检测无异常，胎儿不携带母源突变，羊水检测结果与胚胎检测结果一致。

针对步骤1-5的具体实施例2：

本例为一常染色体显性遗传病，致病基因为HTT。本家系中，父本及父本母亲均为携带者，均携带(CAG)n重复数异常。在本实施例中，应用本专利所述筛选系统对胚胎进行SNP连锁分析，判断胚胎是否携带重复数异常突变，如图6所示。

1．步骤1~2.3 同实例1（单细胞高扩增区域的获得、样本的提取、MALBAC扩增、家系基因组样本获取）。

2.4. MALBAC扩增结果

单细胞或等量DNA可通过单细胞扩增反应，从每65μL的反应体系中，获得范围在300-2000bp之间的扩增产物2-4μg，并进行产物电泳，定性分析是否扩增成功。也可在纯化后通过检测产物中双链DNA浓度判断扩增情况(结果见下表5)。

表5：案例2家系胚胎MALBAC扩增及纯化后DNA浓度

	胚胎1	胚胎2	胚胎3
				浓度Kit (ng/μl)	12	16.8	14.7

2.5. 胚胎SNP位点扩展及连锁分析

利用筛选系统选取HTT基因上下游各3个适合的SNP位点。依据筛选出的SNP位点，进行引物设计、位点PCR扩增以及一代测序（同实例1）。由于胚胎2为非整倍体，无法用于移植，故不进行后续致病位点的连锁分析。

引物设计如下表：

表6：HTT基因(CAG)n重复数异常家系SNP位点的PCR引物设计

编号	Primer名称	序列(5'to3')
			1	rs113051486-1-F	CTGCTGTTGGCTGTTGTTTG
2	rs113051486-1-R	GCCTATGATCCCAGCACTTT
			3	rs9291158-2-F	GGGTGGACTCATGATGGTTAAT
4	rs9291158-2-R	GAGGGACAGAACTAATGGAACAG
			5	rs7677047-3-F	GCCTCCAGAATCATGAGAGTAAA
6	rs7677047-3-R	TGAATGTGGCCTGAGACAAG
			7	rs3095080-4-F	TAAACAGAGGGCAGCGAAAG
8	rs3095080-4-R	GAACACGAGCATCTTACAGTAGAA
			9	rs6819202-5-F	GGTTAAGAGCAGGGAGAGAATC
10	rs6819202-5-R	TCTCAACAGCAGAAAGGAGAC
			11	rs6843312-6-F	GTTAAGAGCAGGGAGAGAATCAG
12	rs6843312-6-R	AGTTCCAGTGAAGGCAAAGG

筛选所得6个SNP位点，单细胞产物PCR均得到目的条带。经一代测序得样本基因型，如表7及图7-19所示。

表7：SNP位点单体型结果

上述技术方案的有益效果是：本发明依据单细胞扩增特性，筛选出胚胎中易于扩增的高扩增区，同时筛选高扩增区中的高变异度SNP，帮助临床挑选合适、易于进行实验的SNP位点，并进一步通过PCR检测挑选出的SNP位点，完成后续连锁分析，从而提高胚胎诊断的效率。

本发明提供一种基于MALBAC的单细胞高扩增区域筛选方法，获取基于MALBAC单细胞的高扩增区域，包括：

选取基于MALBAC单细胞全基因组扩增及二代测序的第一数据；

对所述第一数据进行预处理，得到第二数据；

将所述第二数据与人类参考基因组进行比对；

利用比对结果，统计所述第二数据中各个位点的测序深度；

优选的，所述预处理为对所述第一数据进行数据去掉处理；

该实施例中，第一数据指的是少于100个基于MALBAC单细胞全基因组扩增及二代测序的数据。

该实施例中，比对是用的软件统计的个样本各位点的测序深度，比如使用bedtools genomecov计算22条常染色体及X染色体中各位点的测序深度。

该实施例中，预设深度比如为3。

该实施例中，预设频率可以指的是50%。

上述技术方案的有益效果是：通过进行数据预处理以及比对，可以有效统计测序深度，进而根据频率，筛选得到高扩增区域。

本发明提供一种基于MALBAC的单细胞高扩增区域筛选方法，基于所述高扩增区域以及杂合度高的SNP位点，得到用于检测所述高扩增区域的SNP位点，包括：

根据预设注释文件，筛选杂合度高的SNP位点；

获取所述高扩增区域与所述杂合度高的SNP位点的交集；

基于交集结果，获取用于检测所述高扩增区域的SNP位点。

该实施例中，预设注释文件，可以是1000genome的注释文件。

该实施例中，杂合度高的SNP位点指的是亚洲人群样本中的位点。

上述技术方案的有益效果是：通过进行交集获取，便于获取SNP位点。

本发明提供一种基于MALBAC的单细胞高扩增区域筛选方法，获取胚胎样本进行MALBAC扩增，并结合所述高扩增区域的SNP位点，选取得到目的基因上下游SNP位点，包括：

获取胚胎样本；

确定家系成员，并提取所述家系成员的基因组DNA样本；

确定所述基因组DNA样本中的目的基因位置；

该实施例中，获取胚胎样本，主要是通过单精子注射获得受精卵，培养至囊胚期。每个囊胚期胚胎分离外滋养层3-10个细胞作为样本。

上述技术方案的有益效果是：通过获取胚胎样本，以及获取家系成员的DNA样本，便于得到基因上下游范围内的SNP位点。

本发明提供一种基于MALBAC的单细胞高扩增区域筛选方法，选取得到目的基因上下游SNP位点，并进行引物设计，包括：

选取得到目的基因上下游SNP位点；

上述技术方案的有益效果是：通过选取位点，便于进行引物设计以及引物评估。

本发明提供一种基于MALBAC的单细胞高扩增区域筛选方法，结合引物设计结果、普通PCR、一代测序进行SNP连锁分析，选取正常胚胎进行移植，包括：

上述技术方案的有益效果是：通过进行一代测序，等位基因型的分析以及连锁分析，便于完成对胚胎的诊断。

本发明提供一种基于MALBAC的单细胞高扩增区域筛选方法，选取基于MALBAC单细胞全基因组扩增及二代测序的第一数据的过程中，包括：

基于所述二次数值，确定获取的第一数据的数据量。

该实施例中，历史选取数据指的是历史进行胚胎诊断的细胞基础数据量以及细胞基础。

该实施例中，数据选取可靠性是基于每个细胞所对应的数据可靠性，因为每个细胞都会存在相关的数据，所以，每个细胞对应一个数据，且历史选取数据中包括若干个细胞，就会包括若干个数据。

该实施例中，计算结果越大，对应的数据选取可靠性雨大，因此，选取前两个最大数据选取可靠性对应的数值。

该实施例中，细胞属性指的是需要测量的细胞所属的类型，家系基因突变概率指的是历史存在的基因突变或者存在的历史遗传性疾病等综合确定的。

该实施例中，比如：范围为100-120，此时，对应的最佳数据选取点为110，此时按照110进行初次数值筛选，比如是：108-113，进而，根据测序属性，比如，同时可以处理的数量等，最后得到得的二次数值为111，此时111即为需要获取的第一数据的数据量。

上述技术方案的有益效果是：通过基于历史选取数据，确定对应的数据选取可靠性，进而确定选取范围，且通过细胞属性以及家系基因突变概率，确定选取点，并后续通过测序属性，实现对初始数值的调整，得到二次数值，保证需要获取的数据数量，为后续的准确性提供基础。

本发明提供一种基于MALBAC的单细胞高扩增区域筛选方法，利用MALBAC单细胞全基因组扩增试剂盒对获取的胚胎样本进行全基因组DNA扩增，包括：

基于所有允许最小待扩增轮数，确定需要待增加扩增轮数；

该实施例中，获取相邻两轮的差异阵列是为了确定每个元素在相邻扩增过程中的扩增结果的差异。

该实施例中，全基因组DNA扩增标准是预先设置好的。

该实施例中，扩增规律，比如是某个元素按照一定的扩增比例进行的扩增。

该实施例中，允许最小待增加扩增轮数是按照扩增差异与扩增比例计算得到的。

上述技术方案的有益效果是：通过确定拆阵列，并按照扩增规律，获取对应元素的允许最小待增加扩增轮数，进而确定待增加扩增轮数，保证线性扩增的合理性以及可靠性。

本发明提供一种基于MALBAC的单细胞扩增区域筛选系统，如图3所示，包括：

区域获取模块，用于获取基于MALBAC单细胞的高扩增区域；

上述技术方案的有益效果是：与专利CN105543339B相比，本技术通过上百个样本的MALBAC扩增测序数据，得到基因组中的高度覆盖区域，并从中筛选亚洲人群高杂合度的SNP用于后续PCR位点扩增和连锁分析。这使得本技术在单细胞扩增产物中具有更高的PCR位点扩增成功率，并可在后续直接通过PCR位点的连锁分析进行诊断，成功率更高。因为以往未经过高覆盖区筛选的SNP位点，极有可能在多重PCR中无法成功扩增，从而造成可用SNP位点过少的结果，无法实现连锁分析诊断。

减少了针对SNP位点PCR实验的工作量。由于本技术所挑选的SNP位点位于高扩增区，所以检出率很高，因此所需设计和PCR实验的SNP位点数量相对减少，从而减少了实验工作量，很好地节约了时间与成本。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种非诊断目的的基于MALBAC的单细胞高扩增区域筛选方法，其特征在于，包括：

步骤1：获取基于MALBAC单细胞的高扩增区域；

步骤2：从人类基因组SNP库中，筛选杂合度高的SNP位点；

步骤5：结合引物设计结果、普通PCR、一代测序进行SNP连锁分析，选取正常胚胎进行移植；

其中，获取基于MALBAC单细胞的高扩增区域，包括：

选取基于MALBAC单细胞全基因组扩增及二代测序的第一数据；

对所述第一数据进行预处理，得到第二数据；

将所述第二数据与人类参考基因组进行比对；

利用比对结果，统计所述第二数据中各个位点的测序深度；

统计所述测序深度大于预设深度的位点在与所述第二数据对应的各样本文件中的出现频率，筛选所述出现频率大于预设频率的位点区域，并作为高扩增区域；

其中，所述预设深度为3，所述预设频率为50%；

其中，基于所述高扩增区域以及杂合度高的SNP位点，得到用于检测所述高扩增区域的SNP位点，包括：

根据预设注释文件，筛选杂合度高的SNP位点；

获取所述高扩增区域与所述杂合度高的SNP位点的交集；

基于交集结果，获取用于检测所述高扩增区域的SNP位点；

其中，选取基于MALBAC单细胞全基因组扩增及二代测序的第一数据的过程中，包括：

基于所述二次数值，确定获取的第一数据的数据量。

2.如权利要求1所述的基于非诊断目的的MALBAC的单细胞高扩增区域筛选方法，其特征在于，获取胚胎样本进行MALBAC扩增，并结合所述高扩增区域的SNP位点，选取得到目的基因上下游SNP位点，包括：

获取胚胎样本；

确定家系成员，并提取所述家系成员的基因组DNA样本；

确定所述基因组DNA样本中的目的基因位置；

3.如权利要求1所述的基于非诊断目的的MALBAC的单细胞高扩增区域筛选方法，其特征在于，选取得到目的基因上下游SNP位点，并进行引物设计，包括：

选取得到目的基因上下游SNP位点；

对所述目的基因上下游SNP位点进行位点片段的引物设计以及引物评估；

4.如权利要求1所述的基于非诊断目的的MALBAC的单细胞高扩增区域筛选方法，其特征在于，结合引物设计结果、普通PCR、一代测序进行SNP连锁分析，选取正常胚胎进行移植，包括：

5.如权利要求1所述的基于非诊断目的的MALBAC的单细胞高扩增区域筛选方法，其特征在于，所述预处理为对所述第一数据进行数据清洗处理；

所述数据清洗处理包括：去掉所述第一数据的扩增及测序接头、低质量碱基。

6.如权利要求1所述的基于非诊断目的的MALBAC的单细胞高扩增区域筛选方法，其特征在于，利用MALBAC单细胞全基因组扩增试剂盒对获取的胚胎样本进行全基因组DNA扩增，包括：

基于所有允许最小待扩增轮数，确定需要待增加扩增轮数；

7.一种基于非诊断目的的MALBAC的单细胞扩增区域筛选系统，其特征在于，包括：

区域获取模块，用于获取基于MALBAC单细胞的高扩增区域；

胚胎选取模块，用于结合引物设计结果、普通PCR、一代测序进行SNP连锁分析，选取正常胚胎进行移植；

所述区域获取模块，还用于：

选取基于MALBAC单细胞全基因组扩增及二代测序的第一数据；

对所述第一数据进行预处理，得到第二数据；

将所述第二数据与人类参考基因组进行比对；

利用比对结果，统计所述第二数据中各个位点的测序深度；

其中，所述预设深度为3，所述预设频率为50%；

所述位点检测模块，还用于：

根据预设注释文件，筛选杂合度高的SNP位点；

获取所述高扩增区域与所述杂合度高的SNP位点的交集；

基于交集结果，获取用于检测所述高扩增区域的SNP位点；

基于所述二次数值，确定获取的第一数据的数据量。