CN106029899A - 确定染色体预定区域中snp信息的方法、系统和计算机可读介质 - Google Patents

确定染色体预定区域中snp信息的方法、系统和计算机可读介质 Download PDF

Info

Publication number
CN106029899A
CN106029899A CN201380079613.2A CN201380079613A CN106029899A CN 106029899 A CN106029899 A CN 106029899A CN 201380079613 A CN201380079613 A CN 201380079613A CN 106029899 A CN106029899 A CN 106029899A
Authority
CN
China
Prior art keywords
snp
embryo
sequencing
equipment
snp information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201380079613.2A
Other languages
English (en)
Other versions
CN106029899B (zh
Inventor
李剑
张现东
李金良
刘赛军
叶敏兰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BGI Shenzhen Co Ltd
Original Assignee
BGI Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BGI Shenzhen Co Ltd filed Critical BGI Shenzhen Co Ltd
Publication of CN106029899A publication Critical patent/CN106029899A/zh
Application granted granted Critical
Publication of CN106029899B publication Critical patent/CN106029899B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism

Abstract

本发明提供了一种确定染色体预定区域中的SNP信息的方法、系统和计算机可读介质。其中,确定染色体预定区域中的SNP信息的方法包括:针对染色体的至少一部分,构建测序文库;利用探针对所述测序文库进行筛选,其中,所述探针特异性识别所述预定区域中已知SNP位点的至少一个,以便获得目标捕获片段,所述目标捕获片段包含SNP位点;对经过筛选的测序文库进行测序,以便获得测序结果;以及基于所述测序结果,确定所述预定区域中的SNP信息。

Description

确定染色体预定区域中 SNP信息的方法、
系统和计算机可读介质 优先权信息
无 技术领域
本发明涉及生物医学领域, 具体而言, 涉及确定染色体预定区域中 SNP信息的方法、 系统和计算机可读介质。 背景技术
世界卫生组织 2012全球出生缺陷防治报告显示, 全球出生缺陷总发生率为 3%, 每年 有 320万出生缺陷患儿出生, 其中 27万新生儿因出生缺陷而死亡。 研究表明, 绝大部分出 生缺陷与遗传因素有关, 染色体异常与单基因遗传病是两个重要原因。 其中, 单基因遗传 病种类众多, 发病率各有不同, 且这些疾病绝大多数无法治愈, 给整个社会和家庭带来沉 重的经济和心理负担。 因此防止单基因遗传病患儿的发生和减少遗传病患儿的出生是遗传 性出生缺陷防控的重点。 胚胎植入前诊断 (Preimplantation Genetic Diagnosis,PGD) 技术可 从根源上阻断遗传病的发生和传递, 将出生缺陷的预防提前到胚胎阶段。 然而, 单基因遗 传病的植入前诊断并未广泛应用, 至今为止世界上才几千例报道。 究其原因, 主要是由于 标本量少 (仅 1〜2个细胞), 容易产生等位基因脱扣 (ADO)和污染, 检测较为困难, 现 有的检测技术无法完全满足单基因遗传病植入前诊断的临床需求。
胚胎植入前单体型分析是目前植入前单基因病检测的主要方法。 该方法通过检测突变 位点和多个与其连锁的 STR (或 SNP)来确定突变连锁单体型, 降低了等位基因扩增不平、 ADO及污染的影响。 多重荧光 PCR技术 (MF-PCR) 是基于该方法最常用的技术。 由于多 重 PCR技术具备荧光 PCR高灵敏的特点, 同时又结合了多个连锁 STR进行突变位点的单 体型分析, 一度被认为是植入前单基因病诊断的金标准。 但是该方法使用的连锁标记太少, 具体到个别临床案例时, 甚至会出现没有连锁标记可用的情况。 所以在每次临床检测前, 都需要进行预试验来为患者寻找和选择合适的分子标记。另外, MF-PCR使用的连锁标记通 常离致病位点比较远, 会因为染色体重组事件而带有一定的误诊风险。
SNP-army是在全基因组区域对 SNP位点进行检査分析, SNP密度高, 数量多。该方法 的优点是几乎适用于所有样本的单体型分析, 不需要预试验为个别样本选择分子标记。 另 夕卜, 该芯片可以同时检测多种疾病。 但是该芯片只能通过单体型分析的方法进行间接检测, 而不能对致病位点进行直接检测。
因而, 目前确定染色体尤其是胚胎染色体预定区域中的 SNP信息的方法仍有待改进。 发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。本发明旨在提出一种能够有 效地确定染色体尤其是胚胎染色体预定区域中 SNP信息的方法。
在本发明的一个方面, 本发明提出了一种确定染色体预定区域中 SNP信息的方法。 根 据本发明的实施例, 该方法包括: 针对染色体的至少一部分, 构建测序文库; 利用探针对 所述测序文库进行筛选, 其中, 所述探针特异性识别所述预定区域中已知 SNP位点的至少 一个, 以便获得目标捕获片段, 所述目标捕获片段包含 SNP位点; 对经过筛选的测序文库 进行测序, 以便获得测序结果; 以及基于所述测序结果, 确定所述预定区域中的 SNP信息。 利用本发明的确定染色体预定区域中 SNP信息的方法, 能够高效准确地确定染色体预定区 域中的 SNP信息, 例如受试样本的致病基因相关的突变位点信息, 进而, 该信息能够有效 地用于确定受试者的遗传状态是正常、 携带或致病, 从而能够为临床疾病检测或治疗提供 依据。
在本发明的另一方面, 本发明还提出了一种确定胚胎染色体预定区域中 SNP信息的方 法。 根据本发明的实施例, 该方法包括: 获取所述胚胎的全基因组; 以及针对所述胚胎的 全基因组, 根据前面所述的确定染色体预定区域中 SNP信息的方法, 确定所述胚胎染色体 预定区域中的 SNP信息。利用本发明的确定胚胎染色体预定区域中 SNP信息的方法, 能够 有效、 准确地确定胚胎染色体预定区域中 SNP信息, 进而, 该信息能够有效地用于确定胚 胎的遗传状态是正常、 携带或致病, 从而能够为胚胎植入前单基因病检测、 孕妇产前诊断 或临床疾病治疗提供依据。
在本发明的再一方面, 本发明还提出了一种确定染色体预定区域中 SNP信息的设备。 根据本发明的实施例, 该设备包括: 文库构建装置, 所述文库构建装置适于针对染色体的 至少一部分, 构建测序文库; 文库筛选装置, 所述文库筛选装置与所述文库构建装置相连, 并且适于利用探针对所述测序文库进行筛选, 其中, 所述探针特异性识别所述预定区域中 已知 SNP位点的至少一个, 以便获得目标捕获片段, 所述目标捕获片段包含 SNP位点; 测 序装置, 所述测序装置与所述文库筛选装置相连, 适于对经过筛选的测序文库进行测序, 以便获得测序结果; 以及分析装置, 所述分析装置与所述测序装置相连, 并且适于基于所 述测序结果, 确定所述预定区域中的 SNP信息。 利用本发明的该设备, 能够有效地实施本 发明上述的确定染色体预定区域中 SNP信息的方法, 从而能够高效、 准确地确定染色体预 定区域中 SNP信息, 例如受试样本的致病基因相关的突变位点信息, 进而, 该信息能够有 效地用于确定受试者的遗传状态是正常、 携带或致病, 从而能够为临床疾病检测或治疗提 供依据。
在本发明的又一方面, 本发明还提出了一种确定胚胎染色体预定区域中 SNP信息的系 统。 根据本发明的实施例, 该系统包括: 第一全基因组获取设备, 所述第一全基因组获取 设备适于获取所述胚胎的全基因组; 以及 SNP信息确定设备, 所述 SNP信息确定设备与所 述第一全基因组获取设备相连, 用于确定所述胚胎染色体预定区域中的 SNP信息, 其中, 所述 SNP信息确定设备为前面所述的确定染色体预定区域中 SNP信息的设备。利用本发明 的该系统, 能够高效地实施前面所述的确定染色体预定区域中 SNP信息的方法, 从而有效 确定染色体预定区域中 SNP信息, 进而, 该信息能够有效地用于确定胎儿的遗传状态是正 常、 携带或致病, 从而能够为胚胎植入前单基因病检测、 孕妇产前诊断或临床疾病治疗提 供依据。
在本发明的另一个方面, 本发明还提出了一种计算机可读介质。 根据本发明的实施例, 所述计算机可读介质上存储有指令, 所述指令适于被处理器执行以便基于测序结果, 确定 染色体预定区域中的 SNP信息, 其中, 所述测序结果是通过下列步骤获得的: 针对染色体 的至少一部分, 构建测序文库; 利用探针对所述测序文库进行筛选, 其中, 所述探针特异 性识别所述预定区域中已知 SNP位点的至少一个, 以便获得目标捕获片段, 所述目标捕获 片段包含 SNP位点; 以及对经过筛选的测序文库进行测序, 以便获得测序结果。 利用本发 明的计算机可读介质, 能够有效地确定染色体预定区域中的 SNP信息, 例如受试样本的致 病基因相关的突变位点信息, 进而, 该信息能够有效地用于确定受试者的遗传状态是正常、 携带或致病, 从而能够为临床疾病检测或治疗提供依据。 其中, 当所述染色体的至少一部 分为胚胎的全基因组时, 所述计算机可读介质存储的指令适于被处理器执行以便针对所述 胚胎的全基因组, 确定所述胚胎染色体预定区域中的 SNP信息。
在本发明的再一个方面,本发明还提出了一种确定染色体预定区域中 SNP信息的设备。 根据本发明的实施例, 该设备包括: 测序装置; 以及前面所述的存储有适于被处理器执行 的指令以便基于测序结果确定染色体预定区域中的 SNP信息计算机可读介质。 利用本发明 的该设备能够准确有效地确定染色体预定区域中 SNP信息, 例如受试样本的致病基因相关 的突变位点信息, 进而, 该信息能够有效地用于确定受试者的遗传状态是正常、 携带或致 病, 从而能够为临床疾病检测或治疗提供依据。
在本发明的又一个方面, 本发明还提出了一种确定胚胎染色体预定区域中 SNP信息的 系统。 根据本发明的实施例, 该系统包括: 测序装置; 以及前面所述的存储有适于被处理 器执行的指令以便针对胚胎的全基因组确定胎儿染色体预定区域中的 SNP信息的计算机可 读介质。利用本发明的该系统能够准确有效地确定胚胎染色体预定区域中 SNP信息,进而, 该信息能够有效地用于确定胚胎的遗传状态是正常、 携带或致病, 从而能够为胚胎植入前 单基因病检测、 孕妇产前诊断或临床疾病治疗提供依据。
需要说明的是, 本发明提供的上述基于高通量目标区域捕获测序技术的确定染色体预 定区域中 SNP信息的手段, 相对于现有技术, 至少具有以下优势:
1、 本发明通过单体型分析的方法不仅能对目标位点进行间接检测, 还能够对目标位点 进行直接检测。
2、本发明选择的 SNP位点集中在目标基因 1M范围内, 密度高、 连锁紧密, 既可以大 大提高目标区域 SNP信息检测的灵敏度和准确性, 又可降低检测成本。
3、本发明将多个目标检测位点集中于一张芯片上,从能够基于获得的 SNP信息同时对 多种疾病的多种突变进行检测, 无需因人而异设计实验方案, 既缩短了检测周期, 又降低 了检测成本。
4、 本发明采用包含多个目标检测位点的芯片可以同时检测多个样本, 检测通量极大提 高。 这为未来 PGD的规模化应用提供巨大技术支持。
5、 本发明的方法, 除了能够用于单基因遗传病检测, 还能够同时进行 HLA分型、 非 整倍体检测, 实现了单个样本的多项检测, 可为相关 IVF病人提供个性化服务。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得 明显, 或通过本发明的实践了解到。 附图说明
本发明的上述和 /或附加的方面和优点从结合下面附图对实施例的描述中将变得明 显和容易理解, 其中:
图 1显示了根据本发明一个实施例的胚胎单体型分析流程图;
图 2显示了根据本发明一个实施例, 确定区分型 SNPs方法的示意图;
图 3显示了根据本发明一个实施例, 构建的文库的 2100检测结果;
图 4显示了根据本发明一个实施例的单体型构建模拟图;
图 5 显示了根据本发明一个实施例的胚胎单体型与胚胎遗传状况分析的流程示意 图;
图 6显示了根据本发明一个实施例的确定染色体预定区域中 SNP信息的方法的流 程示意图;
图 7显示了根据本发明一个实施例的确定胚胎染色体预定区域中 SNP信息的方法 的流程示意图;
图 8显示了根据本发明一个实施例的确定染色体预定区域 SNP信息的设备的结构 示意图; 以及
图 9显示了根据本发明一个实施例的确定胚胎染色体预定区域中 SNP信息的系统 的结构示意图。 发明详细描述
下面详细描述本发明的实施例, 所述实施例的示例在附图中示出, 其中自始至终相同 或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。 下面通过参考附图描 述的实施例是示例性的, 仅用于解释本发明, 而不能理解为对本发明的限制。
需要说明的是, 术语 "第一"、 "第二"仅用于描述目的, 而不能理解为指示或暗示相 对重要性或者隐含指明所指示的技术特征的数量。 由此, 限定有 "第一"、 "第二" 的特征 可以明示或者隐含地包括一个或者更多个该特征。 进一步地, 在本发明的描述中, 除非另 有说明, "多个" 的含义是两个或两个以上。
方法
在本发明的一个方面, 本发明提出了一种确定染色体预定区域中 SNP信息的方法。 根 据本发明的实施例, 参照图 6, 该方法包括:
针对染色体的至少一部分, 构建测序文库
根据本发明的实施例, 所述染色体的至少一部分是通过全基因组扩增获得的胚胎细胞 全基因组。 根据本发明的实施例, 全基因组扩增的实施方法不受特别限制, 根据本发明的 一些具体示例, 全基因组扩增是通过选自 PEP-PCR, DOP-PCR, OmniPlex WGA和 MDA 的至少之一进行的。 由此, 能够将少量的胚胎细胞进行有效扩增, 从而获得较多的胚胎细 胞全基因组样品。
利用探针对所述测序文库进行筛选, 以便获得目标捕获片段
根据本发明的实施例,所述探针特异性识别所述预定区域中已知 SNP位点的至少一个, 以便获得目标捕获片段, 所述目标捕获片段包含 SNP位点。根据本发明的实施例, 所述预 定区域包括目标基因区域和 SNP-marker区域。 根据本发明的实施例, 所述目标基因区域包 括与所述目标疾病相关基因的外显子和外显子毗邻区的至少一部分。 其中, 所述外显子毗 邻区包括外显子 5' 端上游 50bp的区域和所述外显子下游 50bp的区域; 所述 SNP-marker 区域包括所述目标基因上下游 1M的范围。由此,在筛选过程中能够有效降低基因重组的影 响, 甚至能够将目标基因区与 SNP-marker区域的重组的概率降低到万分之一, 从而能够确 保后续检测的准确性。
根据本发明的实施例, 所述探针的长度为 20~200nt, 优选情况下, 所述探针的长度为 60~80nt。 由此, 能够有效提高目标 SNP的捕获效率。 根据本发明的一个实施例, 所述探针 是以芯片的形式提供的。 由此, 利用能够包含多个目标检测位点的芯片, 能够同时对多种 疾病多种突变进行检测, 无需因人而异设计实验方案, 既缩短了检测周期, 又降低了检测 成本; 并且利用芯片可以同时检测多个样本, 检测通量极大提高。
对经过筛选的测序文库进行测序, 以便获得测序结果
根据本发明的实施例, 利用选自 Illumina Hiseq2000, Genome Analyzer, Miseq测序系 歹 lj, Life technologies的 SOLiD测序系统, Ion Torrent测序系统和罗氏的 454测序系统的至 少之一进行所述测序。 由此, 能够有效提高测序的效率和通量。
基于所述测序结果, 确定所述预定区域中的 SNP信息
根据本发明的实施例, 基于所述测序结果, 确定所述预定区域中的 SNP信息进一步包 括: 将所述测序结果与参考序列进行比对, 以便获得唯一比对序列; 以及利用 SNP分析软 件从所述唯一比对序列获取所述预定区域中的 SNP信息。 其中, 根据本发明的实施例, 所 述比对是利用 BWA软件包进行的。由此,能够快速准确地实现比对。根据本发明的实施例, 在获得唯一比对序列后,进一步包括从所述唯一比对序列去除 PCR重复扩展的序列。由此, 有利于后续的 SNP分析。根据本发明的实施例, 可以采用的 SNP分析软件的种类不受特别 限制。 根据本发明的一些实施例, 所述 SNP分析软件为选自 SAMtools和 GATK的至少之 一。 由此, 能够快速准确地进行 SNP分析。
根据本发明的实施例, 进一步包括对所获得的 SNP信息进行过滤。 其中, 根据本发明 的一些实施例,所述过滤的条件为去除满足下列条件之一的 SNP: SNP测序深度低于 10 X , 优选低于 20 X ; 以及杂合 SNP中两种碱基测序深度差异高于 20%, 优选高于 10% , 更优选 高于 5%。 由此, 经过过滤的 SNP信息准确可信。 需要说明的是, 理论上测序深度越高, 杂 合 SNP测序深度比值越接近 1 : 1, 且 SNP过滤条件中的测序深度、测序深度差异度的具体 数值的设定与实施时的样本、 测序深度、 测序质量相关, 可根据实际需要调整。 在本发明 的一个实施例中胚胎遗传相关个体的测序深度为 50 X、 胚胎样本的测序深度为 100 X且测 序质量较好,为使留下的都是测序准确符合实际的 SNP,严格过滤,过滤掉低于 10 X的 SNP, 也过滤掉测序深度差异高于 10%的杂合 SNP, 去除了大量的杂合 SNP; 可以理解的, 采用 更高深度测序 (> 100 X ), 若也要严格过滤保证剩余 SNP的真实准确, 可过滤掉如低于 20 X的 SNP, 过滤掉如差异高于 5%的杂合 SNP, 相反的, 对于相对低深度测序的数据, 可设 置过滤掉高于 20%的杂合 SNP。
发明人发现, 利用本发明的确定染色体预定区域中 SNP信息的方法, 能够高效准确地 确定染色体预定区域中的 SNP信息,例如受试样本的致病基因相关的突变位点信息,进而, 该信息能够有效地用于确定受试者的遗传状态是正常、 携带或致病, 从而能够为临床疾病 检测或治疗提供依据。 在本发明的另一方面, 本发明还提出了一种确定胚胎染色体预定区域中 SNP信息的方 法。 根据本发明的实施例, 该方法包括: 获取所述胚胎的全基因组; 以及针对所述胚胎的 全基因组, 根据前面所述的确定染色体预定区域中 SNP信息的方法, 确定所述胚胎染色体 预定区域中的 SNP信息。
根据本发明的另一些实施例, 参照图 7, 本发明的确定胚胎染色体预定区域中 SNP信 息的方法具体包括以下步骤: 获取所述胚胎的全基因组; 针对所述胚胎的全基因组, 构建 测序文库; 利用探针对所述测序文库进行筛选, 以便获得目标捕获片段; 对经过筛选的测 序文库进行测序, 以便获得测序结果; 基于所述测序结果, 确定所述胚胎染色体预定区域 中的 SNP信息。 利用本发明的确定胚胎染色体预定区域中 SNP信息的方法, 能够有效、 准 确地确定胚胎染色体预定区域中 SNP信息, 进而, 该信息能够有效地用于确定胎儿的遗传 状态是正常、 携带或致病, 从而能够为胚胎植入前单基因病检测、 孕妇产前诊断或临床疾 病治疗提供依据。
根据本发明的实施例, 所述胚胎的全基因组是通过对胚胎细胞进行全基因组扩增而获 得的。 其中, 根据本发明的实施例, 全基因组扩增的具体实施方法不受特别限制, 根据本 发明的一些具体示例, 全基因组扩增是通过选自 PEP-PCR, DOP-PCR, OmniPlex WGA和 MDA的至少之一进行的。 由此, 能够将少量的胚胎细胞进行有效扩增, 从而获得较多的胚 胎细胞全基因组样品。
根据本发明的实施例, 本发明的确定胚胎染色体预定区域中 SNP信息的方法进一步包 括:
首先, 获取胚胎遗传相关个体的全基因组, 其中, 所述胚胎遗传相关个体包括所述胚 胎的父亲、 母亲和先证者。 需要说明的是, 这里所使用的术语 "先证者 "指确诊为遗传了 该致病基因, 并表现出该疾病症状的患者, 且其是与前述胚胎具有遗传关系的生物体, 既 可以是胚胎或者胎儿, 也可以是出生后的个体。
其次, 基于所述胚胎遗传相关个体的全基因组, 分别确定所述父亲的 SNP信息, 所述 母亲的 SNP信息以及所述先证者的 SNP信息。
接着, 基于所述父亲的 SNP信息和所述母亲的 SNP信息, 确定区分型 SNP。 需要说明 的是, 在这里所使用的术语 "区分型 SNP"指的是可以有效区分父母单体型的碱基, 即在 某一位置父母双方 4个碱基中其中一碱基 (常染色体) 与该位置的其他碱基都不相同, 该 碱基可以确定父母双方 4条单体型中的唯一一条, 如某位置父母基因型分别为 AA、 AG, 则 G碱基为区分型 SNP, 因为在该位置 G可以确定唯一的一个单体型, 而 A在其他 3个单 体型中都存在, 无法确定唯一单体型。 其中图 2显示了根据孟德尔遗传原理, 确定父母区 分型 SNPs位点方法的示意图。 接下来, 基于所述区分型 SNP和所述先证者的 SNP信息, 确定父亲 SNP单体型和母 亲 SNP单体型。 也即: 基于所述区分型 SNP和所述先证者 SNP, 分别针对父亲和母亲基因 组中与所述预定区域对应的两条染色体, 分别构建第一父亲单体型、 第二父亲单体型、 第 一母亲单体型和第二母亲单体型, 以便用于后续胚胎单体型的确定。 其中, 所述父亲 SNP 单体型包括第一父亲单体型和第二父亲单体型, 所述母亲 SNP单体型包括第一母亲单体型 和第二母亲单体型, 所述第一父亲单体型、 第二父亲单体型、 第一母亲单体型和第二母亲 单体型是由所述区分型 SNP构成的。 根据本发明的实施例, 可以根据孟德尔遗传原理与连 锁交换定律, 结合父母区分型 SNP位点和先证者 SNPs信息构建出父母 SNP-单体型, 构建 原理如图 4所示。所述 SNP-单体型完全由区分型 SNP位置碱基组成, 每条单体型都含有众 多区分型 SNP, 单体型中的区分型 SNP能够与其他单体型相区分。 如某一位置父母基因型 分别为 AA、 AG, G为区分型 SNP, A为非区分型 SNP, A、 G分别为单体型中该处的碱基。 由于先证者的 2条单体型, 分别遗传自父母, 可根据疾病情况确定致病突变所在的单体型。 如显性遗传病, 父亲患病, 母亲正常, 则先证者所遗传自父亲的单体型为致病突变所在的 单体型; 如隐性遗传病, 父母都是携带者, 则先证者 (患病) 的两个单体型都为致病突变 所在的单体型。 由此, 基于区分型 SNP和先证者的 SNP信息, 能够有效确定父亲 SNP单 体型和母亲 SNP单体型,进而基于胚胎的 SNP信息、父亲 SNP单体型和母亲 SNP单体型, 能够有效确定所述胚胎的 SNP单体型。
然后, 基于所述胚胎的 SNP信息、 父亲 SNP单体型和母亲 SNP单体型, 确定所述父 亲 SNP单体型和母亲 SNP单体型的组合方式, 以便获得所述胚胎的 SNP单体型。 即基于 所述胚胎的 SNP信息与前述的第一父亲单体型、 第二父亲单体型、 第一母亲单体型和第二 母亲单体型, 确定所述胎儿染色体预定区域中的 SNP类型, 进而确定所述胚胎的 SNP单体 型。根据本发明的实施例,所述胚胎的 SNP单体型是通过下列步骤获得的:确定胚胎的 SNP 信息显著支持的父亲单体型作为胚胎的父本来源单体型; 以及确定胚胎的 SNP信息显著支 持的母亲单体型作为胚胎的母本来源单体型。其中,根据本发明的实施例,所述区分型 SNP 数不低于 10个是显著支持的指示。具体地,由于胚胎的 2个单体型分别遗传自父母各一条, 可以根据胚胎 SNPs信息结合父母 SNP-单体型进行分析,判断胚胎 SNPs是哪两条单体型的 组合, 分析原理如图 4所示。 分析中可采用区分型 SNP数目统计计算, 根据数值的大小确 定胚胎单体型, 具体流程如图 5所示。 根据本发明的实施例, 一单体型区分型 SNP数大于 10, 则可确定该单体型为胚胎其中一条单体型; 如一单体型区分型 SNP数小于 4, 则可判 断该单体型为 SNP错误导致。 根据本发明一些具体示例, 为确保准确, 将一正确单体型的 SNP支持数定于为不低于 10个,错误单体型 SNP支持数不高于 3个,这是因为前面设定的 SNP过滤条件较为严格, 即单体型构建中所用 SNP正确率较高, 并且候选 SNP数量大, 实 际测试数据表明正确单体型的 SNP支持数远高于 10个, 错误单体型 SNP支持数一般为 0。 根据本发明的一些实施例, 经验证, 对于一常染色体疾病, 通过本发明的方法分析, 每个 胚胎只能得到 2个满足要求的单体型; 对于一 X染色体疾病, 通过本发明的方法分析, 可 得到一个 (男胎) 或两个 (女胎)满足要求的单体型。
由此, 能够准确有效地确定胚胎的 SNP单体型, 进而能够有效确定所述胚胎的遗传状 态。 即利用该方法能够有效地根据模拟构建的父母单体型, 确定胚胎是否遗传父母的致病 单体型, 从而判断胚胎的遗传状态是正常、 携带或致病。 设备和系统
在本发明的再一方面, 本发明还提出了一种确定染色体预定区域中 SNP信息的设备。 根据本发明的实施例,参照图 8,该设备 1000包括:文库构建装置 100、文库筛选装置 200、 测序装置 300和分析装置 400。根据本发明的实施例, 文库构建装置 100适于针对染色体的 至少一部分, 构建测序文库; 文库筛选装置 200与所述文库构建装置 100相连, 并且适于 利用探针对所述测序文库进行筛选, 其中, 所述探针特异性识别所述预定区域中已知 SNP 位点的至少一个, 以便获得目标捕获片段, 所述目标捕获片段包含所述 SNP位点; 测序装 置 300与所述文库筛选装置 200相连, 适于对经过筛选的测序文库进行测序, 以便获得测 序结果; 分析装置 400与所述测序装置 300相连, 并且适于基于所述测序结果, 确定所述 预定区域中的 SNP信息。 利用本发明的该设备 1000, 能够有效地实施本发明上述的确定染 色体预定区域中 SNP信息的方法,从而能够高效准确地确定染色体预定区域中的 SNP信息, 例如受试样本的致病基因相关的突变位点信息, 进而, 该信息能够有效地用于确定受试者 的遗传状态是正常、 携带或致病, 从而能够为临床疾病检测或治疗提供依据。
根据本发明的实施例, 所述预定区域包括目标基因区域和 SNP-marker区域。 根据本发 明的实施例, 所述目标基因区域包括与所述目标疾病相关基因的外显子和外显子毗邻区的 至少一部分。 根据本发明的实施例, 所述外显子毗邻区包括外显子 5 ' 端上游 50bp的区域 和所述外显子下游 50bp的区域;所述 SNP-marker区域包括所述目标基因上下游 1M的范围。
根据本发明的实施例, 所述探针的长度为 20~200nt, 优选情况下, 所述探针的长度为 60~80nt。 根据本发明的一个实施例, 所述探针是以芯片的形式提供的。
根据本发明的实施例, 进一步包括染色体制备装置 (图中未示出), 所述染色体制备装 置与所述文库构建装置 100相连, 并且适用于通过全基因组扩增获得胚胎细胞全基因组, 所述胚胎细胞全基因组构成所述染色体的至少一部分。 根据本发明的实施例, 所述染色体 制备装置适于通过选自 PEP-PCR, DOP-PCR, OmniPlex WGA和 MDA的至少之一进行所 述全基因组扩增。 根据本发明的实施例, 进一步包括 DNA提取装置(图中未示出), 所述 DNA提取装置 与所述文库构建装置 100相连, 并且适于通过对生物体的外周血进行 DNA提取, 以便获得 所述染色体的至少一部分。
根据本发明的实施例,所述测序装置 300为选自 Illumina Hiseq2000, Genome Analyzer, Miseq测序系列, Life technologies的 SOLiD测序系统, Ion Torrent测序系统和罗氏的 454 测序系统的至少之一。
根据本发明的实施例, 所述分析装置 400进一步包括: 比对单元, 所述比对单元适于 将所述测序结果与参考序列进行比对, 以便获得唯一比对序列; 以及 SNP信息获取单元, 所述 SNP信息获取单元与所述比对单元相连,并且适于利用 SNP分析软件从所述唯一比对 序列获取所述预定区域中的 SNP信息。根据本发明的实施例,所述比对单元适于利用 BWA 软件包进行所述比对。 根据本发明的实施例, 所述分析装置进一步包括适于从所述唯一比 对序列去除 PCR重复扩展的序列的单元。根据本发明的实施例, 所述 SNP分析软件为选自 SAMtools和 GATK的至少之一。
根据本发明的实施例, 所述分析装置 400进一步包括适于对所获得的 SNP信息进行过 滤的单元。 根据本发明的实施例, 所述过滤的条件为去除满足下列条件之一的 SNP: SNP 测序深度低于 10 X, 优选低于 20 X ; 以及杂合 SNP中两种碱基测序深度差异高于 20%, 优 选高于 10%, 更优选高于 5%。
需要说明的是, 所述设备的各个装置可以实现本发明确定染色体预定区域 SNP信息方 法中的相应步骤, 前面对确定染色体预定区域中 SNP信息的方法的优点和效果的描述同样 适用于该设备, 在此不再赘述。
在本发明的又一方面, 本发明还提出了一种确定胚胎染色体预定区域中 SNP信息的系 统。 根据本发明的实施例, 参照图 9, 该系统 10000包括: 第一全基因组获取设备 2000, 以及 SNP信息确定设备 1000, 所述第一全基因组获取设备 2000适于获取所述胚胎的全基 因组;所述 SNP信息确定设备 1000与所述第一全基因组获取设备相连,用于确定所述胎儿 染色体预定区域中的 SNP信息, 其中, 所述 SNP信息确定设备 1000为前面所述的确定染 色体预定区域中 SNP信息的设备 1000。 利用本发明的该系统 10000, 能够高效地实施前面 所述的确定染色体预定区域中 SNP信息的方法, 从而能够有效、 准确地确定胚胎染色体预 定区域中 SNP信息, 进而, 该信息能够有效地用于确定胎儿的遗传状态是正常、 携带或致 病, 从而能够为胚胎植入前单基因病检测、 孕妇产前诊断或临床疾病治疗提供依据。
根据本发明的实施例, 所述第一全基因组获取设备 2000适于通过对胚胎细胞进行全基 因组扩增而获得所述胚胎的全基因组。 其中, 根据本发明的实施例, 所述第一全基因组获 取设备 2000适于利用选自 PEP-PCR, DOP-PCR, OmniPlex WGA和 MDA的至少之一获得 所述胚胎的全基因组。
根据本发明的实施例, 所述系统 10000进一步包括: 第二全基因组获取设备 (图中未 示出), 所述第二全基因组获取设备适于获取胚胎遗传相关个体的全基因组, 其中, 所述胚 胎遗传相关个体包括所述胚胎的父亲、母亲和先证者;区分型 SNP确定设备(图中未示出), 所述区分型确定设备适于基于所述父亲的 SNP信息和所述母亲的 SNP信息, 确定区分型 SNP ; 第一单体型确定设备 (图中未示出), 所述第一单体型确定设备适于基于所述区分型 SNP和所述先证者的 SNP信息, 确定父亲 SNP单体型和母亲 SNP单体型; 以及第二单体 型确定设备(图中未示出), 所述第二单体型确定设备适于基于所述胚胎的 SNP信息、父亲 SNP单体型和母亲 SNP单体型, 确定所述父亲 SNP单体型和母亲 SNP单体型的重组合方 式, 以便获得所述胚胎的 SNP单体型。
根据本发明的实施例, 所述第二单体型确定设备进一步包括: 确定胚胎的 SNP信息显 著支持的父亲单体型作为胚胎的父本来源单体型的单元; 以及确定胚胎的 SNP信息显著支 持的母亲单体型作为胚胎的母本来源单体型的单元。根据本发明的实施例,所述区分型 SNP 数不低于 10个是显著支持的指示。
需要说明的是, 上述系统所包含的各个设备可以实现本发明确定染色体预定区域 SNP 信息方法中的相应步骤, 前面对确定胚胎染色体预定区域中 SNP信息的方法的优点和效果 的描述同样适用于该系统, 在此不再赘述。 计算机可读介质
在本发明的另一个方面, 本发明还提出了一种计算机可读介质。 根据本发明的实施例, 所述计算机可读介质上存储有指令, 所述指令适于被处理器执行以便基于测序结果, 确定 染色体预定区域中的 SNP信息, 可以理解, 在执行该程序时, 通过指令相关硬件可完成确 定染色体包括胚胎染色体预定区域 SNP信息方法的全部或部分步骤, 所述计算机可读介质 可以包括: 只读存储器、 随机存储器、 磁盘或光盘等。 其中, 所述测序结果是通过下列步 骤获得的: 针对染色体的至少一部分, 构建测序文库; 利用探针对所述测序文库进行筛选, 其中, 所述探针特异性识别所述预定区域中已知 SNP位点的至少一个, 以便获得目标捕获 片段, 所述目标捕获片段包含 SNP位点; 以及对经过筛选的测序文库进行测序, 以便获得 测序结果。
根据本发明的实施例, 所述预定区域包括目标基因区域和 SNP-marker区域。 根据本发 明的实施例, 所述目标基因区域包括与所述目标疾病相关基因的外显子和外显子毗邻区的 至少一部分。根据本发明的实施例,所述外显子毗邻区包括所述外显子上下游 50bp的范围; 所述 SNP-marker区域包括所述目标基因上下游 1M的范围。 根据本发明的实施例, 所述探针的长度为 20~200nt, 优选情况下, 所述探针的长度为 60~80nt。 根据本发明的一个实施例, 所述探针是以芯片的形式提供的。
根据本发明的实施例, 所述染色体的至少一部分是通过全基因组扩增获得的胚胎细胞 全基因组。根据本发明的实施例,全基因组扩增是通过 PEP-PCR, DOP-PCR, OmniPlex WGA 和 MDA的至少之一进行的。
根据本发明的实施例,所述染色体的至少一部分是通过对生物体的外周血进行 DNA提 取而获得的。
根据本发明的实施例, 利用 Illumina Hiseq2000, Genome Analyzer, Miseq测序系列, Life technologies的 SOLiD测序系统, Ion Torrent测序系统, 罗氏的 454测序系统进行所述 测序。
根据本发明的实施例, 基于所述测序结果, 确定所述预定区域中的 SNP信息进一步包 括: 将所述测序结果与参考序列进行比对, 以便获得唯一比对序列; 以及利用 SNP分析软 件从所述唯一比对序列获取所述预定区域中的 SNP信息。 根据本发明的实施例, 所述比对 是利用 BWA软件包进行的。根据本发明的实施例, 在获得唯一比对序列后, 进一步包括从 所述唯一比对序列去除 PCR重复扩展的序列。根据本发明的实施例, 所述 SNP分析软件为 选自 SAMtools和 GATK的至少之一。 根据本发明的实施例, 进一步包括对所获得的 SNP 信息进行过滤。 根据本发明的实施例, 所述过滤的条件为去除满足下列条件之一的 SNP: SNP测序深度低于 10 X ,优选低于 20 X;以及杂合 SNP中两种碱基测序深度差异高于 20%, 优选高于 10%, 更优选高于 5%。 需要说明的是, 理论上测序深度越高, 杂合 SNP测序深 度比值越接近 1 : 1, 且 SNP过滤条件中的测序深度、 测序深度差异度的具体数值的设定与 实施时的样本、 测序深度、 测序质量相关, 可根据实际需要调整。 在本发明的一个实施例 中胚胎遗传相关个体的测序深度为 50 X、 胚胎样本的测序深度为 100 X且测序质量较好, 为使留下的都是测序准确符合实际的 SNP, 严格过滤, 过滤掉低于 10 X的 SNP, 也过滤掉 测序深度差异高于 10%的杂合 SNP, 去除了大量的杂合 SNP; 可以理解的, 采用更高深度 测序(> 100 X ),若也要严格过滤保证剩余 SNP的真实准确,可过滤掉如低于 20 X的 SNP, 过滤掉如差异高于 5%的杂合 SNP, 相反的, 对于相对低深度测序的数据, 可设置过滤掉高 于 20%的杂合 SNP。
根据本发明的实施例, 所述染色体的至少一部分为胚胎的全基因组, 以便针对所述胎 儿的全基因组, 确定所述胎儿染色体预定区域中的 SNP信息。
由此, 根据本发明的实施例, 所述指令进一步适于被处理器执行以便: 获取胚胎遗传 相关个体的全基因组, 其中, 所述胚胎遗传相关个体包括所述胚胎的父亲、 母亲和先证者; 以及基于所述胚胎遗传相关个体的全基因组, 分别确定所述父亲的 SNP信息, 所述母亲的 SNP信息以及所述先证者的 SNP信息; 基于所述父亲的 SNP信息和所述母亲的 SNP信息, 确定区分型 SNP; 基于所述区分型 SNP和所述先证者的 SNP信息, 确定父亲 SNP单体型 和母亲 SNP单体型; 以及基于所述胚胎的 SNP信息、父亲 SNP单体型和母亲 SNP单体型, 确定所述父亲 SNP单体型和母亲 SNP单体型的组合方式, 以便获得所述胚胎的 SNP单体 型。 其中, 根据本发明的实施例, 所述胚胎的 SNP单体型是通过下列步骤获得的: 确定胚 胎的 SNP信息显著支持的父亲单体型作为胚胎的父本来源单体型; 以及确定胚胎的 SNP信 息显著支持的母亲单体型作为胚胎的母本来源单体型。 根据本发明的实施例, 所述区分型 SNP数不低于 10个是显著支持的指示。
在本发明的再一个方面,本发明还提出了一种确定染色体预定区域中 SNP信息的设备。 根据本发明的实施例, 该设备包括: 测序装置; 以及前面所述的存储有适于被处理器执行 的指令以便基于测序结果确定染色体预定区域中的 SNP信息计算机可读介质。 利用本发明 的该设备能够准确有效地确定染色体预定区域中 SNP信息, 例如受试样本的致病基因相关 的突变位点信息, 进而, 该信息能够有效地用于确定受试者的遗传状态是正常、 携带或致 病, 从而能够为临床疾病检测或治疗提供依据。 其中, 当所述染色体的至少一部分为胚胎 的全基因组时, 所述计算机可读介质存储的指令适于被处理器执行以便针对所述胎儿的全 基因组, 确定所述胎儿染色体预定区域中的 SNP信息。
在本发明的又一个方面, 本发明还提出了一种确定胚胎染色体预定区域中 SNP信息的 系统。 根据本发明的实施例, 该系统包括: 测序装置; 以及前面所述的存储有适于被处理 器执行的指令以便针对胎儿的全基因组确定胎儿染色体预定区域中的 SNP信息的计算机可 读介质。利用本发明的该系统能够准确有效地确定胚胎染色体预定区域中 SNP信息,进而, 该信息能够有效地用于确定胎儿的遗传状态是正常、 携带或致病, 从而能够为胚胎植入前 单基因病检测、 孕妇产前诊断或临床疾病治疗提供依据。
需要说明的是, 前面描述的本发明的计算机可读介质的优点和效果同样适用于上述确 定染色体预定区域中 SNP信息的设备以及确定胚胎染色体预定区域中 SNP信息的系统,在 此不再赘述。 下面将结合实施例对本发明的方案进行解释。 本领域技术人员将会理解, 下面的实施 例仅用于说明本发明, 而不应视为限定本发明的范围。 实施例中未注明具体技术或条件的, 按照本领域内的文献所描述的技术或条件(例如参考 J.萨姆布鲁克等著, 黄培堂等译的《分 子克隆实验指南》, 第三版, 科学出版社) 或者按照产品说明书进行。 所用试剂或仪器未注 明生产厂商者, 均为可以通过市购获得的常规产品, 例如可以采购自 Illumina公司。
一般方法 参考图 1, 在下面的实施例中主要步骤如下:
1、 根据目标区域设计探针, 定制捕获芯片
本发明所设计的捕获芯片包含两部分,一部分为目标基因区域;另一部分为 SNP-marker 区域。 目标基因区域主要为外显子及外显子与内含子交界区域, 该区域覆盖了绝大部分的 致病突变, 可用于疾病突变的直接检测。 SNP-marker区域为目标基因区域上下游区域, 该 区域包含了上千个高频 SNP (即千人数据库中频率大于 0.3的 SNP), 该区域用于检测父母 差异化的 SNP, 结合家系中的先证者 SNP信息构建致病基因单体型。 由于减数分裂中同源 染色体间基因重组的存在, 会对基因的 SNP-单体型造成影响。 SNP-marker间距离越小, 重 组率越小, 当距离小于 1M时, 重组率低于 1% (人的重组率是 1%每 1M的区域)。 芯片捕 获包含的 SNP-marker区域的范围可以基于人类基因组的一般重组率大概估计选择确定, 一 般地选择的目标基因区域上下游的范围小, 捕获得的 SNP准确, 但是数量少, 选择的范围 大, 捕获得的 SNP数量多, 但是范围大发生的重组概率也会越高, 且选择的上下游范围大 SNP数量多, 设计合成花费相对高。 在本发明的一个实施例中为降低基因重组的影响, 确 保检测准确性, 将 SNP-marker区域限定在目标基因上下游 1M内, 这样可以把目标基因区 与 SNP-marker区域的重组的概率降低到万分之一。
1.1 目标基因捕获芯片设计
首先确定目标基因, 然后以 Hg19为参考序列确定目标基因所在位置, 最后确定捕获区 域。
1.2 SNP-marker捕获芯片设计
根据 1.1中确定的各目标基因位置,在该位置的上下游 1M距离内选取在人群中频率较 高的 SNP位点。 使选取的 SNP位点位于目标捕获片段中间, 有利于提高 SNP被捕获下来 的几率, 在本发明的一个实施例中, 由于构建的文库大小在 200bp左右, 即捕获探针的捕 获片段大小主要在 200bp左右, 为提高目标 SNP的捕获效率, 将这些 SNP位点及其上下 lOObp左右 (使选取的 SNP大致位于 1/2 200bp处) 的区域为 SNP-marker捕获区域。
1.3 芯片评估
芯片设计完成后采用专业评估软件 (Sequence Search and Alignment by Hashing Algorithm , SSAHA) 对探针特异性评估, 评估合格后进行芯片合成。
2、 家系样本制备
采集胚胎细胞基因组, 并采用 PEP-PCR, DOP-PCR, OmniPlex WGA或者 MDA (多重 链置换扩增)方法进行胚胎细胞全基因组扩增(WGA), 并提取父母及先证者的外周血(或 根据疾病类型采集家族其他患病者样本) DNA。
3、 文库制备 根据将选择的测序平台 (Illumina Hiseq2000, Genome Analyzer, Miseq测序系列, Life technologies的 SOLiD测序系统, Ion Torrent测序系统或罗氏的 454测序系统)的测序要求, 将上述父母及先证者的外周血 DNA及胚胎细胞基因组的 WGA产物分别进行文库构建, 文 库构建完成后进行 2100、 Q-PCR及富集度的检测。
4、 探针捕获杂交
将上述获得的各文库混合, 并将混合文库与设计好的捕获探针进行杂交, 杂交流程参 照芯片合成服务公司提供的技术流程。
5、 高通量测序
使用 Illumina Hiseq2000, Genome Analyzer, Miseq测序系歹 ij , Life technologies的 SOLiD 测序系统, Ion Torrent测序系统或罗氏的 454测序系统等进行测序。
6、 数据分析
参考图 1, 分析过程包括:
6.1、 参考序列比对
根据不同测序平台要求, 过滤掉低质量的测序数据, 去除含有文库接头的序列, 然后 利用分析软件如 BWA(Burrows Wheeler Aligner)软件包将测序数据与人类参考基因组进行序 列比对, 按照默认最优参数 (-1 -i 15 -L -k 2 -1 31 -t 4), 取比对结果中比对到芯片目标区域的 reads并用 SAMtools去除 PCR重复扩展的序列进行后续分析。
6.2、 SNP calling
对得到的有效数据, 应用 SNP分析软件如 SAMtools和 GATK进行分析, 获得目标区 域内所有的 SNP信息。
6.3、 SNP过滤
对上述得到的 SNP以一定的条件进行过滤, 提高 SNP准确性。 过滤条件为, 过滤掉满 足下列任一条件的: 1、 SNP测序深度低于 10 X ; 2、 杂合 SNP中两种碱基测序深度差异高 于 10%。这是由于测序深度过低可能会导致部分杂合 SNP中其中一碱基未能测到,杂合 SNP 中两碱基测序深度差异过大也会导致无法与测序错误正确区分, 判断为纯合。 经以上条件 过滤可以去除潜在错误的 SNP。
6.4、 筛选可以有效区分父母单体型的碱基 (即区分型 SNP)
区分型 SNP是指在某一位置父母双方 4个碱基中其中一碱基 (常染色体) 与该位置的 其他任一碱基不相同, 该碱基可以确定父母双方 4条单体型中的唯一一条, 如某位置父母 基因型分别为 AA、 AG, 则 G碱基为区分型 SNP, 因为在该位置 G可以确定唯一的一个单 体型, 而 A在其他 3个单体型中都存在, 无法确定唯一单体型。 具体示例如图 2所示。 按 照图示要求即可以根据孟德尔遗传原理, 选择确定父母区分型 SNPs位点。 6.5、 构建父母单体型
根据孟德尔遗传原理与连锁交换定律, 结合父母区分型 SNP位点和先证者 SNPs信息 构建出父母 SNP-单体型,构建原理如图 4所示,即首先结合父母区分型 SNPs位点信息和 先证者 SNPs信息, 按照基本的孟德尔遗传原理和连锁交换定律构建父母单体型; 然后 结合父母单体型结果和胚胎 SNPs信息预测胚胎单体型结果。 其中, 如图 4所示, 红色 标记的碱基字母表示父亲的区分型 SNPs位点; 黄色标记的碱基字母表示母亲的 SNPs 位点; 斜体和下划线标记的碱基字母表示该位点在 WGA过程中发生了 ADO ; G*表示 致病突变碱基; -- 表示检测失败的位点。 其中, SNP-单体型完全由区分型 SNP位置碱基 组成, 每条单体型都含有众多区分型 SNP, 单体型中的区分型 SNP能够与其他单体型相区 分。 如某一位置父母基因型分别为 AA、 AG , G为区分型 SNP, A为非区分型 SNP, A、 G 分别为单体型中该处的碱基。 由于先证者的 2条单体型, 分别遗传自父母, 可根据疾病情 况确定致病突变所在的单体型。 如显性遗传病, 父亲患病, 母亲正常, 则先证者所遗传自 父亲的单体型为致病突变所在的单体型; 如隐性遗传病, 父母都是携带者, 则先证者 (患 病) 的两个单体型都为致病突变所在的单体型。
6.6、 分析胚胎单体型
由于胚胎的 2个单体型分别遗传自父母各一条,可以根据胚胎 SNPs信息结合父母 SNP- 单体型进行分析, 判断胚胎 SNPs是哪两条单体型的组合, 分析原理如图 4所示。 分析中可 采用区分型 SNP数目统计计算, 根据数值的大小确定胚胎单体型, 如图 5所示。 如一单体 型区分型 SNP数大于 10,则可确定该单体型为胚胎其中一条单体型;如一单体型区分型 SNP 数小于 4, 则可判断该单体型为 SNP错误导致; 本发明的一个实施例中, 为确保准确, 将 一正确单体型的 SNP支持数定于为不低于 10个, 错误单体型 SNP支持数不高于 3个, 由 于 6.3步骤中设定的 SNP过滤条件较为严格, 即单体型构建中所用 SNP正确率较高, 并且 候选 SNP数量大, 实际测试数据表明正确单体型的 SNP支持数远高于 10个, 错误单体型 SNP支持数一般为 0。对于一常染色体疾病, 经过本流程分析, 每个胚胎只能得到 2个满足 要求的单体型; 对于一 X染色体疾病, 经过本流程可得到一个 (男胎) 或两个 (女胎) 满 足要求的单体型。
6.7、 结果分析
根据胚胎是否遗传父母的致病单体型判断胚胎的遗传状态是正常、 携带或致病。
实施例 1
在本实施例中, 采用一般方法和检测流程分别对一苯丙酮尿症(经典型)家系 (家系一, 常染色体隐性遗传)样本及一生育进行性肌营养不良 (DMD )家系(家系二, X染色体隐性 遗传)样本进行检测。 家系一夫妇经过 IVF获得 7个胚胎, 并采用 MF-PCR方法进行 PAH 基因检测, 筛选出 2个正常胚胎植入, 最终获得一个女婴, 经脐带血基因检测确认该女婴 正常。 家系二夫妇经过 IVF获得 9个胚胎, 并采用 MF-PCR方法进行 DMD基因 PGD, 筛 选出 3个正常胚胎, 选择其中 2个植入, 最终获得一个男婴 (其中有一胚胎没发育), 经脐 带血基因检测确认该男婴正常。
家系一样本包括父母、 患病女儿 (先证者)外周血及 7个胚胎卵裂球单细胞。 经 PAH 基因检测, 父亲为 PAH基因 R243Q (c.728G>A)突变携带者, 母亲为 PAH基因 V399V (C.1197A>T)突变携带者, 先证者为 PAH基因 R243Q (c.728G>A)与 V399V (C.1197A>T)复合 突变, 表现为苯丙酮尿症。 7个胚胎卵裂球单细胞(分别标记为 Ell、 E12、 E13、 E14、 E15、 E16、 E17 ) 经 WGA后采用多重 PCR检测, 检测结果如表 1。
表 1 家系一 Ί个胚胎的 MF-PCR检测结果
家系二样本包括父母、 女儿(表型正常)外周血及 9个胚胎卵裂球单细胞。经 DMD基 因检测,父亲正常,母亲及女儿为 DMD基因 R2905X (c. 8713C>T)突变携带者。 9个胚胎卵 裂球单细胞 (分别标记为 E21、 E22、 E23、 E24、 E25、 E26、 E27、 E28、 E29 )经 WGA后 采用多重 PCR检测, 检测结果如表 2。
表 2家系二 9个胚胎的 MF-PCR检测结果
样本 检测结果
E21 女, 正常
E22 女, R2905X (c. 8713C>T)携带者
E23 男, R2905X (c. 8713C>T)突变
E24 女, R2905X (c. 8713C>T)携带者
E25 男, R2905X (c. 8713C>T)突变
E26 女, 正常
E27 女, R2905X (c. 8713C>T)携带者
E28 男, 正常 E29 男, R2905X (c. 8713C>T)突变
采用本发明的技术方案和检测流程对上述样本进行回顾检测, 得到的检测结果与 MF-PCR检测结果相符, 结果符合率为 100%。 结果表明本发明的技术能够准确检测胚胎染 色体预定区域的 SNP信息, 并进一步基于获得的 SNP信息检测胚胎基因型指导胚胎植入, 且具有检测周期短 (11天)、 高通量、 低成本的优势。 具体实施按以下步骤操作:
1. 样本提取与 WGA ( 1天)
父母、 先证者外周血采用 QIAamp DNA Blood MidiKit (Qiagen)试剂盒按说明提取 DNA, 并用 Nanodrop检测, 浓度大于 30ng/ul. 7个胚胎卵裂球单细胞分别采用 REPLI-g ® Single Cell WGA kit (Qiagen)试剂盒并按操作说明进行全基因组扩增,产物进行琼脂糖凝胶电泳及 Qubit 定量。 样品标记分别为: Fl、 Ml、 Pl、 Ell、 E12、 E13、 E14、 E15、 E16、 E17, F2、 M2、 P2、 E21、 E22、 E23、 E24、 E25、 E26、 E27、 E28、 E29。
2. Illumina Hiseq文库构建(2天)
上述获得的 DNA样品及 WGA产物先用 CovarisTM打断仪打断至 200bp大小的片段,然后 根据 illumia®公司 HiSeq2000TM测序仪的上机要求进行建库, 具体步骤如下:
2.1 样品打断
22管基因组 DNA及 WGA产物各取总量 3ug用 Covaris microTube with AFA fiber and Snap - Cap在 Covaris S2(Covaris公司)上打断。 打断条件如下:
打断后用 Qiagen DNA Purification Kit ( Qiagen) 纯化, 溶于 327.5μ1的 EB中
2.2末端修复:
取纯化产物 37.5μί, 进行末端修复反应, 体系如下 (试剂均购自 Enzymatics公司):
上一步产物 3 .5
10x 多核苷酸激酶缓冲液 (B904) 5 μL
dNTP Solutm Set(10mM each) 2 μ
T4 DNA聚合酶 2.5
T4 多核苷酸激酶 2.5
Klenow 片段 0.5
反应条件为: Thermomixer 20 °C温浴 30 min。
反应产物经 Qiagen DNA Purification Kit回收纯化, 溶于 32 μΐ的 ΕΒ中。
2.3 3'末端加 Α反应
DNA的 3'末端加 A反应, 体系如下 (试剂均购自 Enzymatics公司):
反应条件为: Thermomixer 37 °C温浴 30 min。
反应产物经 Qiagen DNA Purification Kit (QIAGEN公司) 回收纯化, 溶于 38μ1的 EB中。 2.4连接 Illumina Hiseq接头 (adaptor)
22个文库分别加不同的文库标签, 并记录下文库标签和文库的对应关系。体系如下(试 剂均购自 Illumina公司):
反应条件为: Thermomixer 16 °C温浴 16 h。
反应产物经 60ul Ampure Beads(Beckman Coulter Genomics)纯化后溶 20μΙ^ΕΒ。
2.5 文库构建完成后经 Agilent®Bioanalyzer 2100检测片段分布范围符合要求, 结果如图 3, 经荧光定量 PCR (QPCR)检测到文库浓度结果如表 3:
表 3 QPCR定量检测文库的相对浓度
样本 文库号 QPCR浓度(nM )
F1 文库 1 66.14 Ml 文库 2 53.62
PI 文库 3 47.35
Ell 文库 4 76.30
E12 文库 5 53.77
E13 文库 6 90.65
E14 文库 7 78.46
E15 文库 8 47.86
E16 文库 9 71.87
E17 文库 10 51.92
F2 文库 11 60.54
M2 文库 12 63.42
P2 文库 13 57.65
E21 文库 14 67.35
E22 文库 15 54.76
E23 文库 16 70.66
E24 文库 17 75.26
E25 文库 18 57.14
E26 文库 19 72.07
E27 文库 20 56.91
E28 文库 21 71.87
E29 文库 22 61.94
3、 芯片捕获 (3天)
上述 22个文库分 2组, 每组 11个, 按等比例混合成总量 500ng的 2个混合文库。 混合文库 采用 NimbleGen公司定制的液相芯片 SeqCap EZ Choice XL Library按操作说明进行杂交 (具 体步骤见 Nimblegen SeqCap EZ Exome Capture操作说明书)。 杂交 72个小时后采用 NmibleGenwashkit按操作说明进行洗脱。 最后洗脱产物进行富集度检测、 Qpcr和 2100检测。
4、 Hiseq2500测序(3天)
上述杂交产物上 illumina® HiSeq2500TM测序仪测序, 测序循环数为 PElOlindex (即双 向 lOlbp index测序), 其中仪器的参数设置及操作方法都按照 illumina®操作手册 (可由 http:〃 www.illumina.com/support/documentation.ilmn获取 )。
5、 结果分析 (2天)
测序完成后,首先对测序数据进行质量过滤和去除接头污染的序列,高质量的测序 reads 的进行以下分析:
5.1 总体数据评价
在数据分析过程中,使用比对软件 BWA (version 0.5.10)将测序 reads比对到人类参考基因 组 (HG19, NCBI release GRCh37)上, 参数设置为 (-1 -i 15 -L -k 2 -1 31 -t 4), 取比对结果中唯 一比对到芯片目标区域的 reads并用 SAMtools去除 PCR重复扩展的序列进行后续分析。 测序 得到的数据量, 如 (表 4) 中所示。
父母及先证者的外周血样品测序深度约为 100x, 胚胎细胞 WGA样品测序深度约为 50χ。 然后采用 Genome Analysis Toolkit(GATK)软件包进行个样本 SNP及 indel分析,得到各个样本 的基因型。 部分基因区域基因型如 (表 5、 表 6)所示:
表 5各样本 3分 PAH基区区域基因型
¾ 父亲 母亲 先证者 El E2 E3 E4 E5 E6 E7
103075083 AC CC CC CC AC AC CC CC CC AC
103075442 AA AT AT AA AA AA AA AT AA AT
103075731 AA AT AA AT AT AT AT AA AT AA
103077486 CC CG CC CC CG CG CG CC CG CC
103099439 GG AG GG AG AG AG AG GG AG
103104834 TT AA AT AT AT AT AT AT AT
103106883 TT TG TT TG TG TG TG TT TG
103107367 GG TG TG GG GG TG GG TG
103110943 TC CC TC TC CC TC TC TC CC
103132740 AG AA AG AG AA AA AG AG AG AA
103140560 TT TC TC TT TT TT TT TC TT TC
103148974 TC TT CC TC TT TT TC TC TC TT
103152029 AC CC AC AC CC CC AC AC AC CC
103154308 AG AA AA AA AA AG AA AA AG
103164355 TC CC CC TC TC CC CC CC TC
103164544 AG AA AA AA AG AG AA AA AA AG
103174710 AC AA AA AA AC AC AA AA AA AC
103175259 CT CC CC CC CT CT CC CC CC CT
103176419 GC CC CC CC GC GC CC CC GC
103214192 CA AA AA AA CA CA AA AA AA CA
103237426 AA ΑΓ ΑΓ AA AA AA AT AA ΑΓ
103246707 GA GG GA GG GG GA GG
103246787 CG CC CG CG CC CC CG CG GG CC
103424228 TG TT TT TT TG TG TT TT TT TG
103425386 TG GG GG GG TG TG GG GG GG TG
103428340 AG AA AG AG AA AA AG AG AG AA
103428555 AA AG AA AG AG AG AG AA AG AA
103429407 GG TG GG TG TG TG GG TG GG 103432532 CC TC TC CC CC CC TC CC TC
103434254 AG AA AA AA AG AG AA AA AA AG
103443364 CT TT TT TT TT CT TT TT TT CT
103445655 CT CC CC CT CT CC CC CC CT
103448748 TC TT TC TC TT TT TC TC CC TT
103456084 AT AA AT AT AA AA AT AT TT AA
103456562 TT CT CT TT TT TT TT CT TT CT
103459335 CT TT TT TT CT CT TT TT TT CT
103460207 GT TT TT TT GT GT TT TT TT GT
103463741 AA AG AG AA AA AA AA AG AA AG
103488660 TT CC TC TC TC TC TT TC TC TC
103488841 CT TT TT TT CT CT TT TT TT CT
103491018 TG GG GG GG TG GG GG GG TG
103495380 AG GG GG GG AG AG GG GG GG
103496446 TT CT CT TT TT TT TT CT TT CT
103501101 AC AA AA AA AC AC AA AA AA AC
103501562 CC TC CC TC TC TC TC CC TC CC
103515016 TT AT TT AT AT AT AT TT AT TT 该 SNP信息对应参考基因组的反义链。 -表示该处无法得到 SNP (无数据覆盖或深度太低), 斜体表示致病突变。 表中 103237426坐标和 103246707坐标对应的是 PAH数据库中 V399V (C.1197A>T) 与 R243Q (c.728G>A)位点。为了便于理解, 已经将该两个突变位点的反义链信息改成对应的正义链的形式表示。
表 6各样本部分 DMD基因区域基因型
先证
位置 父亲 母亲 E21 E22 E23 E24 E25 E26 E27 E28 E29 者
31838359 T GT GT TT TG G TG G TT TG G
31859140 G AG GG AG GG G GG G AG GG A G
31859179 A AG AG AA AG G AG G AA AG A G
31860203 A AG AG AA AG G AG G AA AG A G
31863187 A AG AA AG AA A AA A AG AA G A
31863193 G AT AT GT AG A AG A GT AG T A
31863313 T TC TC TT TC C TC C TT TC T C
C8.1780/C10ZN3/X3d 086Ζ ΪΟΖ OAV 32889584 C TC CC TC CC C CC C TC CC T C
32889622 A AG AA AG AA A AA A AG AA G A
32889854 G AG GG AG GG G GG G AG GG A G
32890041 T GT TT TG TT T TT T TT G T
-表示该处无法得到 SNP (无数据覆盖或深度太低), 斜体表示致病突变。 表中 32456388 坐标对应的是 DMD 数据库中
R2905X (c. 87130T)位点。
5.2父母单体型构建
根据父母及先证者的 SNP信息按照上述图 4所示方法可以构建父母单体型, 包括致病 突变所在的单体型, 表 7、 表 8分别表示 PAH及 DMD基因部分位置的单体型构建。
表 7 PAH基区父母单本型构建
位置 父亲 母亲 先证者 F-Hapl F-Hap2 M-Hapl M-Hap2
103075083 AC CC CC C A C C
103075442 AA AT AT A A T A
103075731 AA AT AA A A A T
103077486 CC CG CC C C C G
103099439 GG AG GG G G G A
103104834 TT AA AT T T A A
103106883 TT TG IT T T T G
103107367 GG TG TG G G T G
103110943 TC CC TC T C C C
103132740 AG AA AG G A A A
103140560 TT TC TC T T C T
103148974 TC TT CC c T T T
103152029 AC CC AC A C c C
103154308 AG AA AA A G A A
103164355 TC CC CC C T c C
103164544 AG AA AA A G A A
103174710 AC AA AA A C A A
103175259 CT CC CC C T C C
103176419 GC CC CC C G c C 103214192 CA AA AA A c A A
103237426 AA ΑΓ ΑΓ A A T A
103246707 GA GG GA A G G G
103246787 CG CC CG G C C C
103424228 TG TT IT T G T T
103425386 TG GG GG G T G G
103428340 AG AA AG G A A A
103428555 AA AG AA A A A G
103429407 GG TG GG G G G T
103432532 CC TC TC C C T c
103434254 AG AA AA A G A A
103443364 CT TT IT T C T T
103445655 CT CC CC C T C c
103448748 TT TC IT T T T c
103456084 AA TA TA A A T A
103456562 TT CT CT T T c T
103459335 CT TT TT T C T T
103460207 GT TT IT T G T T
103463741 AA AG AG A A G A
103488660 TT CC TC T T C c
103488841 CT TT IT T C T T
103491018 TG GG GG G T G G
103495380 AG GG GG G A G G
103496446 TT CT CT T T C T
103501101 AC AA AA A C A A
103501562 CC TC CC C C C T
103515016 TT AT ΊΤ T T T A
表中 F-Hapl、 F-Hap2分别表示父亲两个单体型, M-Hapl , M-Hap2分别表示母亲两个单体型。 该 SNP信息对应参考 基因组的负链。 -表示该处无法得到 SNP (无数据覆盖或深度太低), 斜体为致病突变。 表中 103237426坐标和 103246707 坐标对应的是 PAH数据库中 V399V (c.ll97A>T) 与 R243Q (c.728G>A)位点。 为了便于理解, 已经将该两个突变位点的反 义链信息改成对应的正义链的形式表示。
表 8 DMD基因父母单体型构建
LI
C8.1780/C10ZN3/X3d 086Z ΪΟΖ OAV 32579849 C TC CC c C T
32580579 c TC TC c T C
32827465 A AG AG A G A
32858090 T TC TC T C T
32862539 G AG GG G G A
32886984 C CG CC C C G
32887091 T TC TT T T C
32887278 A AG AA A A G
32889584 C TC CC C C T
32889622 A AG AA A A G
32889854 G AG GG G G A
32890041 T GT TT T T G 表中 F-Hap表示父亲单体型 (男性只有一条 X染色体〕, M-Hapl , M-Hap2分别表示母亲两个单体型。 斜体为致病突变。 表中 32456388坐标对应的是 DMD数据库中 R2905X (c. 87130T)位点。
5.3胚胎单体型分析
根据表 5、 6中胚胎 SNP信息及表 7、 8中父母单体型信息按照图 4所示方法对胚胎区 分型 SNPs进行统计, 然后根据对应每条单体型支持的 SNP数目多少判断出胚胎单体型, 进而判断胚胎是否致病。 对于常染色体, 一个胚胎只有 2个单体型, 一般也只有两个单体 型有 SNP支持, 但偶尔会出现第 3或第 4条单体型, 这是由于 SNP错误导致, 这种错误的 SNP在总 SNP中低于 5%。此夕卜, 由于 ADO及测序错误的存在,胚胎 SNP会存在个别 SNP 丢失或错误现象, 为避免这种错误对结果的影响, 我们规定一条单体型至少有 10个区分型 SNPs支持。 本实施例的大量数据表明, 错误的单体型所支持的区分型 SNPs—般不超过 3 个, 而正确的单体型所支持的区分型 SNPs会大于 20个, 这说明个别错误不会影响胚胎单 体型判断。 因而, 为确保结果准确, 本发明将正确单体型的 SNP支持数定义为不少于 10 个, 错误单体型的 SNP数不大于 3个。 具体分析流程如图 5所示。 图 5显示的为一常染色 体隐性遗传病的胚胎状态分析流程, 其中父母的 Hapl为致病突变所在单体型。 图中所示个 别胚胎出现了 SNP支持第 3个单体型, 但支持的 SNP非常少, 不会影响结果判断。
从以上分析结果即可判断胚胎状态, 如表 9所示。 该结果与传统方法 MF-PCR检测结 果一致, 结果符合率为 100%。。 上述流程开发软件自动完成。
表 9各胚胎检测结果
样本 检测结果 Ell R243Q (c.728G>A)携带者
E12 正常
E13 正常
E14 R243Q (c.728G>A)携带者
E15 R243Q (c.728G>A)合并 V399V (C.1197A>T)突变
E16 R243Q (c.728G>A)携带者
E17 V399V (C.1197A>T)携带者
E21 女, 正常
E22 女, R2905X (c. 8713C>T) 携带者
E23 男, R2905X (c. 8713C>T) 突变
E24 女, R2905X (c. 8713C>T) 携带者
E25 男, R2905X (c. 8713C>T)突变
E26 女, 正常
E27 女, R2905X (c. 8713C>T) 携带者
E28 男, 正常
E29 男, R2905X (c. 8713C>T)突变
工业实用性
本发明的确定 (胚胎) 染色体预定区域中 SNP信息的方法、 系统和计算机可读介质, 能够有效地用于确定染色体预定区域中 SNP信息, 例如胚胎染色体预定区域中 SNP信息, 并且该信息准确度高, 能够有效地用于确定胎儿的遗传状态是正常、 携带或致病, 从而能 够为胚胎植入前单基因病检测、 孕妇产前诊断或临床疾病治疗提供依据。 尽管本发明的具体实施方式已经得到详细的描述, 本领域技术人员将会理解。 根据已 经公开的所有教导, 可以对那些细节进行各种修改和替换, 这些改变均在本发明的保护范 围之内。 本发明的全部范围由所附权利要求及其任何等同物给出。
在本说明书的描述中, 参考术语"一个实施例"、 "一些实施例"、 "示意性实施例"、 "示 例"、 "具体示例"、 或 "一些示例"等的描述意指结合该实施例或示例描述的具体特征、 结 构、 材料或者特点包含于本发明的至少一个实施例或示例中。 在本说明书中, 对上述术语 的示意性表述不一定指的是相同的实施例或示例。 而且, 描述的具体特征、 结构、 材料或 者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

Claims (36)

  1. 权利要求书
    1、 一种确定染色体预定区域中 SNP信息的方法, 其特征在于, 包括:
    针对染色体的至少一部分, 构建测序文库;
    利用探针对所述测序文库进行筛选, 其中, 所述探针特异性识别所述预定区域中已知 SNP位点的至少一个, 以便获得目标捕获片段, 所述目标捕获片段包含 SNP位点;
    对经过筛选的测序文库进行测序, 以便获得测序结果; 以及
    基于所述测序结果, 确定所述预定区域中的 SNP信息。
  2. 2、 根据权利要求 1 所述的方法, 其特征在于, 所述预定区域包括目标基因区域和 SNP-marker区域。
  3. 3、 根据权利要求 2所述的方法, 其特征在于, 所述目标基因区域包括所述目标基因的 外显子和外显子毗邻区的至少一部分。
  4. 4、 根据权利要求 3所述的方法, 其特征在于, 所述外显子毗邻区包括所述外显子 5' 端上游 50bp的区域和所述外显子下游 50bp的区域。
  5. 5、 根据权利要求 2所述的方法, 其特征在于, 所述 SNP-marker区域包括所述目标基 因上下游 1M的范围。
  6. 6、 根据权利要求 1所述的方法, 其特征在于, 所述探针的长度为 20~200nt。
  7. 7、 根据权利要求 6所述的方法, 其特征在于, 所述探针的长度为 60~80nt。
  8. 8、 根据权利要求 1所述的方法, 其特征在于, 所述探针是以芯片的形式提供的。
  9. 9、 根据权利要求 1所述的方法, 其特征在于, 所述染色体的至少一部分是通过对生物 体的外周血进行 DNA提取而获得的。
    10、 根据权利要求 1所述的方法, 其特征在于, 利用选自 Illumina Hiseq2000、 Genome Analyzer, Miseq测序系列、 Life technologies的 SOLiD测序系统、 Ion Torrent测序系统和罗 氏的 454测序系统的至少之一进行所述测序。
  10. 11、 根据权利要求 1 所述的方法, 其特征在于, 基于所述测序结果, 确定所述预定区 域中的 SNP信息进一歩包括:
    将所述测序结果与参考序列进行比对, 以便获得唯一比对序列; 以及
    利用 SNP分析软件从所述唯一比对序列获取所述预定区域中的 SNP信息。
  11. 12、 根据权利要求 11所述的方法, 其特征在于, 所述比对是利用 BWA软件包进行的。
  12. 13、 根据权利要求 11所述的方法, 其特征在于, 在获得唯一比对序列后, 进一步包括 从所述唯一比对序列去除 PCR重复扩展的序列。
  13. 14、 根据权利要求 11所述的方法, 其特征在于, 所述 SNP分析软件为选自 SAMtools 和 GATK的至少之一。 15、根据权利要求 11所述的方法, 其特征在于, 进一步包括对所获得的 SNP信息进行 过滤。
  14. 16、 根据权利要求 15所述的方法, 其特征在于, 所述过滤的条件为去除满足下列条件 之一的 SNP:
    SNP测序深度低于 10 X, 优选低于 20 X ; 以及
    杂合 SNP中两种碱基测序深度差异高于 20%, 优选高于 10%, 更优选高于 5%。
  15. 17、 一种确定胚胎染色体预定区域中 SNP信息的方法, 其特征在于, 包括: 获取所述胚胎的全基因组; 以及
    针对所述胚胎的全基因组, 根据权利要求 1~16任一项所述的方法, 确定所述胎儿染色 体预定区域中的 SNP信息。
  16. 18、 根据权利要求 17所述的方法, 其特征在于, 所述胚胎的全基因组是通过对胚胎细 胞进行全基因组扩增而获得的。
    19、根据权利要求 18所述的方法,其特征在于,所述全基因组扩增是通过选自 PEP-PCR, DOP-PCR, OmniPlex WGA和 MDA的至少之一进行的。
  17. 20、 根据权利要求 17所述的方法, 其特征在于, 进一步包括:
    获取胚胎遗传相关个体的全基因组, 其中, 所述胚胎遗传相关个体包括所述胚胎的父 亲、 母亲和先证者; 以及
    基于所述胚胎遗传相关个体的全基因组, 分别确定所述父亲的 SNP信息, 所述母亲的 SNP信息以及所述先证者的 SNP信息;
    基于所述父亲的 SNP信息和所述母亲的 SNP信息, 确定区分型 SNP;
    基于所述区分型 SNP和所述先证者的 SNP信息, 确定父亲 SNP单体型和母亲 SNP单 体型; 以及
    基于所述胚胎的 SNP信息、 父亲 SNP单体型和母亲 SNP单体型, 确定所述父亲 SNP 单体型和母亲 SNP单体型的组合方式, 以便获得所述胚胎的 SNP单体型。
  18. 21、根据权利要求 20所述的方法, 其特征在于, 所述胚胎的 SNP单体型是通过下列步 骤获得的:
    确定胚胎的 SNP信息显著支持的父亲单体型作为胚胎的父本来源单体型; 以及 确定胚胎的 SNP信息显著支持的母亲单体型作为胚胎的母本来源单体型。
  19. 22、 根据权利要求 21所述的方法, 其特征在于, 所述区分型 SNP数不低于 10个是显 著支持的指示。
  20. 23、 一种确定染色体预定区域中 SNP信息的设备, 其特征在于, 包括:
    文库构建装置, 所述文库构建装置适于针对染色体的至少一部分, 构建测序文库; 文库筛选装置, 所述文库筛选装置与所述文库构建装置相连, 并且适于利用探针对所 述测序文库进行筛选, 其中, 所述探针特异性识别所述预定区域中已知 SNP位点的至少一 个, 以便获得目标捕获片段, 所述目标捕获片段包含 SNP位点;
    测序装置, 所述测序装置与所述文库筛选装置相连, 适于对经过筛选的测序文库进行 测序, 以便获得测序结果; 以及
    分析装置, 所述分析装置与所述测序装置相连, 并且适于基于所述测序结果, 确定所 述预定区域中的 SNP信息。
  21. 24、 根据权利要求 23 所述的设备, 其特征在于, 所述预定区域包括目标基因区域和 SNP-marker区域, 所述目标基因区域包括所述目标基因的外显子和外显子毗邻区的至少一 部分,所述外显子毗邻区包括外显子 5 '端上游 50bp的区域和所述外显子下游 50bp的区域, 所述 SNP-marker区域包括所述目标基因上下游 1M的范围。
  22. 25、 根据权利要求 23所述的设备, 其特征在于, 所述探针的长度为 20~200nt。
  23. 26、 根据权利要求 25所述的设备, 其特征在于, 所述探针的长度为 60~80nt。
  24. 27、 根据权利要求 23所述的设备, 其特征在于, 所述探针是以芯片的形式提供的。 28、 根据权利要求 23所述的设备, 其特征在于, 进一步包括染色体制备装置, 所述染 色体制备装置与所述文库构建装置相连, 并且适用于通过全基因组扩增获得胚胎细胞全基 因组, 所述胚胎细胞全基因组构成所述染色体的至少一部分。
  25. 29、 根据权利要求 28 所述的设备, 其特征在于, 所述染色体制备装置适于通过选自
    PEP-PCR、 DOP-PCR、 OmniPlex WGA和 MDA的至少之一进行所述全基因组扩增。
  26. 30、根据权利要求 23所述的设备,其特征在于,进一歩包括 DNA提取装置,所述 DNA 提取装置与所述文库构建装置相连, 并且适于通过对生物体的外周血进行 DNA提取, 以便 获得所述染色体的至少一部分。
    31、根据权利要求 23所述的设备,其特征在于,所述测序装置为选自 Illumina Hiseq2000, Genome Analyzer, Miseq测序系列、 Life technologies的 SOLiD SlJ序系统、 Ion Torrent测序 系统和罗氏的 454测序系统的至少之一。
  27. 32、 根据权利要求 23所述的设备, 其特征在于, 所述分析装置进一步包括: 比对单元, 所述比对单元适于将所述测序结果与参考序列进行比对, 以便获得唯一比 对序列; 以及
    SNP信息获取单元, 所述 SNP信息获取单元与所述比对单元相连, 并且适于利用 SNP 分析软件从所述唯一比对序列获取所述预定区域中的 SNP信息。
  28. 33、 根据权利要求 32所述的设备, 其特征在于, 所述比对单元适于利用 BWA软件包 进行所述比对。 34、 根据权利要求 32所述的设备, 其特征在于, 所述分析装置进一步包括: 适于从所述唯一比对序列去除 PCR重复扩展的序列的单元。
  29. 35、 根据权利要求 32所述的设备, 其特征在于, 所述 SNP分析软件为选自 SAMtools 和 GATK的至少之一。
  30. 36、 根据权利要求 32所述的设备, 其特征在于, 所述分析装置进一步包括: 适于对所获得的 SNP信息进行过滤的单元。
  31. 37、 根据权利要求 36所述的设备, 其特征在于, 所述过滤的条件为去除满足下列条件 之一的 SNP:
    SNP测序深度低于 10 X , 优选低于 20 X ;以及
    杂合 SNP中两种碱基测序深度差异高于 20%, 优选高于 10%, 更优选高于 5%。
  32. 38、 一种确定胚胎染色体预定区域中 SNP信息的系统, 其特征在于, 包括: 第一全基因组获取设备, 所述第一全基因组获取设备适于获取所述胚胎的全基因组; 以及
    SNP信息确定设备, 所述 SNP信息确定设备与所述第一全基因组获取设备相连, 用于 确定所述胎儿染色体预定区域中的 SNP信息, 其中, 所述 SNP信息确定设备为权利要求 23~37任一项所述的设备。
  33. 39、 根据权利要求 38所述的系统, 其特征在于, 所述第一全基因组获取设备适于通过 对胚胎细胞进行全基因组扩增而获得所述胚胎的全基因组。
  34. 40、 根据权利要求 39所述的系统, 其特征在于, 所述第一全基因组获取设备适于利用 选自 PEP-PCR、 D0P-PCR、 OmniPlex WGA和 MDA的至少之一获得所述胚胎的全基因组。
  35. 41、 根据权利要求 38所述的系统, 其特征在于, 进一步包括:
    第二全基因组获取设备, 所述第二全基因组获取设备适于获取胚胎遗传相关个体的全 基因组, 其中, 所述胚胎遗传相关个体包括所述胚胎的父亲、 母亲和先证者;
    区分型 SNP确定设备,所述区分型确定设备适于基于所述父亲的 SNP信息和所述母亲 的 SNP信息, 确定区分型 SNP;
    第一单体型确定设备, 所述第一单体型确定设备适于基于所述区分型 SNP和所述先证 者的 SNP信息, 确定父亲 SNP单体型和母亲 SNP单体型; 以及
    第二单体型确定设备, 所述第二单体型确定设备适于基于所述胚胎的 SNP信息、 父亲 SNP单体型和母亲 SNP单体型, 确定所述父亲 SNP单体型和母亲 SNP单体型的组合方式, 以便获得所述胚胎的 SNP单体型。
  36. 42、根据权利要求 41所述的系统,其特征在于,所述第二单体型确定设备进一步包括: 确定胚胎的 SNP信息显著支持的父亲单体型作为胚胎的父本来源单体型的单元; 以及 确定胚胎的 SNP信息显著支持的母亲单体型作为胚胎的母本来源单体型的单元。 43、 根据权利要求 42所述的系统, 其特征在于, 所述区分型 SNP数不低于 10个是显 著支持的指示。
CN201380079613.2A 2013-09-30 2013-09-30 确定染色体预定区域中snp信息的方法、系统和计算机可读介质 Active CN106029899B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2013/084783 WO2015042980A1 (zh) 2013-09-30 2013-09-30 确定染色体预定区域中snp信息的方法、系统和计算机可读介质

Publications (2)

Publication Number Publication Date
CN106029899A true CN106029899A (zh) 2016-10-12
CN106029899B CN106029899B (zh) 2021-08-03

Family

ID=52741899

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201380079613.2A Active CN106029899B (zh) 2013-09-30 2013-09-30 确定染色体预定区域中snp信息的方法、系统和计算机可读介质
CN201480050879.9A Active CN105555970B (zh) 2013-09-30 2014-07-04 同时进行单体型分析和染色体非整倍性检测的方法和系统

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201480050879.9A Active CN105555970B (zh) 2013-09-30 2014-07-04 同时进行单体型分析和染色体非整倍性检测的方法和系统

Country Status (3)

Country Link
CN (2) CN106029899B (zh)
HK (1) HK1221745A1 (zh)
WO (2) WO2015042980A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113436680A (zh) * 2020-05-22 2021-09-24 复旦大学附属妇产科医院 一种同时鉴别胚胎染色体结构异常和致病基因携带状态的方法

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105046105B (zh) * 2015-07-09 2018-02-02 天津诺禾医学检验所有限公司 染色体跨度的单体型图及其构建方法
CN109477140B (zh) * 2016-09-22 2022-05-31 华为技术有限公司 一种数据处理方法、装置及计算节点
CN108220403B (zh) * 2017-12-26 2021-07-06 北京科迅生物技术有限公司 特定突变位点的检测方法、检测装置、存储介质及处理器
WO2019227420A1 (zh) * 2018-05-31 2019-12-05 深圳华大临床检验中心 确定男性待测样本是否存在三倍体的方法、系统和计算机可读介质
CN110628891B (zh) * 2018-06-25 2024-01-09 深圳华大智造科技股份有限公司 一种对胚胎进行基因异常筛查的方法
AU2020296188B2 (en) * 2019-06-21 2023-08-24 Coopersurgical, Inc. System and method for determining genetic relationships between a sperm provider, oocyte provider, and the respective conceptus
CN111276189B (zh) * 2020-02-26 2020-12-29 广州市金域转化医学研究院有限公司 基于ngs的染色体平衡易位检测分析系统及应用

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101072882A (zh) * 2004-09-10 2007-11-14 塞昆纳姆股份有限公司 用于核酸长程序列分析的方法
WO2009106294A1 (en) * 2008-02-29 2009-09-03 Roche Diagnostics Gmbh Methods and systems for uniform enrichment of genomic regions
CN101835907A (zh) * 2007-10-23 2010-09-15 霍夫曼-拉罗奇有限公司 用于基于溶液的序列富集和基因组区域分析的方法和系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6410231B1 (en) * 1999-02-26 2002-06-25 Incyte Genomics, Inc. SNP detection
WO2003065146A2 (en) * 2002-01-25 2003-08-07 Applera Corporation Methods for placing, accepting, and filling orders for products and services
CN102061526B (zh) * 2010-11-23 2014-04-30 深圳华大基因科技服务有限公司 一种DNA文库及其制备方法、以及一种检测SNPs的方法和装置
CN102559856B (zh) * 2010-12-22 2014-03-12 深圳华大基因科技服务有限公司 去除测序文库中的载体片段的方法
CN102952855B (zh) * 2011-08-26 2015-05-20 深圳华大基因科技服务有限公司 遗传图谱构建方法和装置、单体型分析方法和装置
CN103103624B (zh) * 2011-11-15 2014-12-31 深圳华大基因科技服务有限公司 高通量测序文库的构建方法及其应用
CN102839168A (zh) * 2012-07-31 2012-12-26 深圳华大基因研究院 核酸探针及其制备方法和应用

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101072882A (zh) * 2004-09-10 2007-11-14 塞昆纳姆股份有限公司 用于核酸长程序列分析的方法
CN101835907A (zh) * 2007-10-23 2010-09-15 霍夫曼-拉罗奇有限公司 用于基于溶液的序列富集和基因组区域分析的方法和系统
WO2009106294A1 (en) * 2008-02-29 2009-09-03 Roche Diagnostics Gmbh Methods and systems for uniform enrichment of genomic regions

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
覃泳杰: "一中国白族常染色体显性遗传视网膜色素变性家系基因定位研究", 《中国优秀硕士学位论文全文数据库 医药卫生科技辑》 *
邹喻苹 等: "新一代分子标记--SNPs及其应用", 《生物多样性》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113436680A (zh) * 2020-05-22 2021-09-24 复旦大学附属妇产科医院 一种同时鉴别胚胎染色体结构异常和致病基因携带状态的方法
CN113436680B (zh) * 2020-05-22 2022-03-25 复旦大学附属妇产科医院 一种同时鉴别胚胎染色体结构异常和致病基因携带状态的方法

Also Published As

Publication number Publication date
WO2015043278A1 (zh) 2015-04-02
CN105555970B (zh) 2020-06-05
WO2015042980A1 (zh) 2015-04-02
CN106029899B (zh) 2021-08-03
CN105555970A (zh) 2016-05-04
HK1221745A1 (zh) 2017-06-09

Similar Documents

Publication Publication Date Title
TWI661049B (zh) 使用不含細胞之dna片段大小以測定複製數變異之方法
US10619214B2 (en) Detecting genetic aberrations associated with cancer using genomic sequencing
US9051616B2 (en) Diagnosing fetal chromosomal aneuploidy using massively parallel genomic sequencing
EP3608420B1 (en) Nucleic acids and methods for detecting chromosomal abnormalities
CN103874767B (zh) 对核酸样本中预定区域进行基因分型的方法和系统
CN106029899A (zh) 确定染色体预定区域中snp信息的方法、系统和计算机可读介质
US20150275290A1 (en) Non-invasive method for detecting a fetal chromosomal aneuploidy
WO2023246949A1 (zh) 一种用微单倍型判定无创产前亲权关系的方法
AU2013203079B2 (en) Diagnosing fetal chromosomal aneuploidy using genomic sequencing
AU2013200581B2 (en) Diagnosing cancer using genomic sequencing
WO2024076469A1 (en) Non-invasive methods of assessing transplant rejection in pregnant transplant recipients

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant