CN114566213A

CN114566213A - 家系高通量测序数据的单亲二倍体分析方法及其系统

Info

Publication number: CN114566213A
Application number: CN202210065540.2A
Authority: CN
Inventors: 伍志灵; 王锦; 秦胜芳
Original assignee: Sichuan Provincial Hospital for Women and Children
Current assignee: Sichuan Provincial Hospital for Women and Children
Priority date: 2022-01-20
Filing date: 2022-01-20
Publication date: 2022-05-31

Abstract

本发明公开了家系高通量测序数据的单亲二倍体分析方法及其系统，属于高通量测序技术领域，分析方法包括以下步骤：读取家系高通量测序结果的三个VCF文件；去除InDel突变位点，再根据剩余的每个SNP位点的突变率、测序深度、以及测序质量进行数据过滤；比对先证者与其父母的基因型重合特性，通过B等位基因的频率判断定方法来计算先证者每一个SNP位点的突变频率；通过分析方法判断SNP位点的亲代来源，将分析数据通过计算机系统以图形的方式展示每号染色体亲代来源以及是否为单亲二倍体，同时快速区分单亲二倍体为单亲同二体或单亲异二体，为临床决策提供依据提高检出率，操作方便，上手快，实用性较强。

Description

家系高通量测序数据的单亲二倍体分析方法及其系统

技术领域

本发明涉及高通量测序技术数据分析领域，尤其涉及家系高通量测序数据的单亲二倍体分析方法及其系统。

背景技术

一、单亲二倍体：

人类有46条染色体，在减数分裂过程中，性状、大小相同的两条染色体会两两配对，其中一条来自父亲，一条来自母亲，配对的两条染色体称为同源染色体。单亲二倍体(uniparental disomy,UPD)是指后代某些同源染色体或染色体上的一部分片段均遗传自父母双亲的一方。其中，如来自同一个染色体的两个副本称为单亲同二体，如来自两个染色体的不同副本称为单亲异二体。UPD在新生儿中的发生率约为1/3500，其致病机制通常为UPD导致发育异常、基因印记异常表达、单基因纯合突变等。基因印记是一种表观遗传调控机制，其表现为控制某一表型的一对等位基因由于亲源不同而差异性表达,即机体只表达来自亲本一方的等位基因。当UPD出现在基因印记区域时，子代可能会遗传两个均有表达活性的等位基因，也可能遗传两个表达沉默的等位基因，从而引起基因剂量表达异常导致疾病发生。UPD所致的疾病常见于Prader-Willi综合征、Angelman综合征及Beckwith-Wiedemann综合征等疾病。

二、单核苷酸多态性与高通量测序技术变异检测原理：

人类基因组上的变异主要包括三种：单核苷酸多态性(single nucleotidepolymorphism，SNP)、小的插入缺失变异(InDel)、大的结构性变异。其中SNP 主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性，是人类可遗传的变异中最常见的一种，占所有已知多态性的90％以上。SNP在人类基因组中广泛存在，平均每300个碱基对中就有1个，估计其总数可达300万个甚至更多。

高通量测序技术又称下一代测序技术(Next Generation Sequencing，NGS)，其变异检测原理为：首先对目标样本利用高通量测序技术进行测序(包括全基因组测序，全外显子组测序、临床全外显子组测序)；然后将测序结果与人类参考基因组进行比对，获得样本中SNP变异位点的信息；最后对SNP变异位点进行注释、筛选,再根据该位点在各种数据库中的记录进行致病性评估。当前在遗传病分子检测技术中，高通量测序技术具有经济、通量高、筛查范围广、检出率高等优点,较其他分子检测技术具有明显的优势，已逐渐普及到临床应用。

现有技术存在的缺陷：

首先，高通量测序检测结果并没有报告UPD分析结果，导致临床在对测序结果进行致病性解读时出现偏差。其次，如临床怀疑UPD则需做其他检测如甲基化多重连接探针扩增(MS-MLPA)，如能直接分析高通量测序检测结果则给临床诊断提供了进一步佐证。因此，临床可对家系高通量测序结果的SNP位点进行分析，在不增加患者检测成本情况下对其进行UPD的筛查，为临床决策提供依据，提高检出率。由于UPD几乎涉及所有染色体，因此对家系高通量测序结果进行UPD分析是很有必要的。

基于以上问题本发明提出家系高通量测序数据的单亲二倍体分析方法及其系统。

发明内容

本发明的目的是提供家系高通量测序数据的单亲二倍体分析方法及其系统，解决了背景技术中所提高通量测序检测结果并没有报告UPD分析结果，导致临床在对测序结果进行致病性解读时出现偏差的问题。

本发明的技术方案是这样实现的：

家系高通量测序数据的单亲二倍体分析方法，包括以下步骤：

S1、读取高通量测序结果的三个VCF文件；

S2、去除InDel突变位点，再根据剩余每个SNP位点的突变率、测序深度、以及测序质量进行数据过滤；

S3、比对先证者与其父母在同一个位点的基因型重合特性，通过B等位基因的频率判断定方法来计算先证者每一个SNP位点的突变频率；

优选的，在S1中，所述三个VCF文件分别为所述先证者、先证者母亲和先证者父亲。

优选的，在S2中，所述B等位基因的频率判定方法即通过先证者SNP位点突变基因型分别与先证者母亲SNP位点突变基因型和先证者父亲SNP位点突变基因型来判定先证者SNP位点亲代来源。

优选的，在S3中，所述数据过滤标准为：去除InDel突变位点，突变率≥25％、测序深度≥30×、测序质量≥500。

家系高通量测序数据的单亲二倍体分析方法的系统，包括：多组分析按钮和图形显示界面；

每一组所述分析按钮分别对应每一号染色体，点击后直接分析相应染色体SNP 位点的突变率、测序深度、以及测序质量，过滤数据后数据接入所述图形显示界面；

所述图形显示界面采用用户界面编程技术，根据SNP位点亲代来源分析结果进行绘图，绘图区分为上、中、下三个区域。

优选的，上面区域为作为参考的染色体区带图及序列坐标；中间区域为先证者母亲散点图，绘制母亲来源的SNP位点；下面区域为先证者父亲散点图，绘制父亲来源的SNP位点，散点图的横坐标为碱基序列位置，纵坐标为突变率。

优选的，SNP位点亲代来源分析结果进行绘图原则为：先证者为母源单亲二体，则所有的点应在母亲图中绘制；先证者为父源单亲二体，则所有的点应在父亲图中绘制。优选的，纵坐标为0的点基因型为AA表示无突变；纵坐标为 1的点基因型为BB表示纯合突变；在0～1中间的点基因型为AB表示杂合突变。

本发明的有益效果是：

(1)本发明通过对家系高通量测序检测变异结果的VCF文件进行分析，去除InDel突变位点后根据每个SNP位点的突变率、测序深度、以及测序质量进行过滤，并通过B等位基因的频率判断定方法来计算先证者每一个SNP位点的突变频率，记录先证者及其父母基因组中SNP变异位点信息，如若先证者某条染色体上的SNP位点全部或一大片区域来自父母一方则可判断为单亲二倍体 (UPD)，无需进行额外的检测分析，由现有的检测数据计算分析得出先证者UPD 检测报告，为临床决策提供依据提高检出率。

(2)本发明通过对家系高通量测序检测变异结果的VCF文件进行分析数据，并采用用户界面编程技术将分析数据图形显示化，图形界面设有参考的染色体区带、将先证者SNP突变位点显示在母亲来源的SNP位点区域或父亲来源的SNP位点区域，根据先证者SNP位点显示区域情况可直接判断先证者是否为单亲二倍体，同时又能够确定该单亲二倍体属于母源单亲二体或父源单亲二体，操作简单，研判效率高。

附图说明

图1为本发明所提供的采用windows窗口操作界面；

图2为本发明所提供的VCF文件选择及测序质量过滤界面；

图3为本发明所提供的1号正常染色体分析结果一；

图4为本发明所提供的15号正常染色体分析结果二；

图5为本发明所提供的15号染色体母源单亲二倍体

图6为本发明所提供的1号染色体母源单亲二倍体。

具体实施方式

下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

根据本发明的实施例，提供了一种家系高通量测序变异数据分析单亲二倍体的方法。

实施例一

在家系高通量测序结果的三个VCF文件中(分别为先证者、先证者母亲、先证者父亲)记录了每个SNP位点信息，其中每个位点用“1/1”表示纯合突变、“0/1”表示杂合突变。通过比对先证者与其父母的基因型重合特性，可判断SNP 位点的亲代来源。结果基因型用“B等位基因的频率”的方法表示即：AA(无突变)、AB(杂合突变)、BB(纯合突变)表示。判定方法如下表：

i取VCF文件后，通过“B等位基因的频率”计算先证者每一个SNP位点的突变频率。去掉InDel突变位点，设置判断条件根据每个SNP位点的突变率、测序深度、以及测序质量进行过滤，以去掉测序质量较低的点，通常高通量测序的平均测序深度大于100×，其中大于20×的位点应大于95％，Q30位点(测序碱基的出错概率为0.1％)大于85％。因此一般情况下，建议每个SNP位点的过滤标准为：突变率≥(10％-25％)、测序深度≥(20×-30×)，测序质量≥(100-500)。

请参照图1、2所示，利用windows图形用户界面编程技术，实现用户只需要进行鼠标点击，就可加载并读取相应的VCF文件进行分析。操作界面简单易懂，每一号染色体都有按钮，点击就可直接分析相应染色体并将结果并直接显示在windows窗口中，操作界面如图1。

根据SNP位点亲代来源结果进行绘图，绘图区分为上、中、下三个区域。上面区域为作为参考的染色体区带图及序列坐标；中间区域为先证者母亲散点图，绘制母亲来源的SNP位点；下面区域为先证者父亲散点图，绘制父亲来源的SNP 位点。散点图的横坐标为碱基序列位置，纵坐标为突变率，请参照图3、图4位正常染色体分析结果。如先证者为母源单亲二体，则理论上所有的点应在母亲图中绘制，如图5所示；相反，如先证者为父源单亲二体，则理论上所有的点应在父亲图中绘制。

位点图的纵坐标的范围为0～1。因此，纵坐标为0的点基因型为AA；纵坐标为1的点基因型为BB；在0～1中间的点基因型为AB。

如若先证者为单亲异二体，则理论上所有点在母亲(或父亲)图中，并且包含AB点，如图5所示。如若先证者为单亲同二体，则理论上所有点在母亲(或父亲)图中，并且不包含AB点，即为杂合性丢失(loss of heterozygosity,LOH)。

病例一：如图5所示，该病例为15号染色体母源单亲二倍体，其中 15p11.1-q25.3为单亲异二体，15q26.1-q26.3为单亲同二体。

病例二：如图6所示，该病例为1号染色体母源性单亲二体，有多段单亲异二体与单亲同二体交叉区域。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.家系高通量测序数据的单亲二倍体分析方法，其特征在于，包括以下步骤：

S1、读取家系高通量测序结果的三个VCF文件；

S3、比对先证者与其父母在同一位点的基因型重合特性，通过B等位基因的频率判断定方法来计算先证者每一个SNP位点的突变频率。

2.根据权利要求1所述的家系高通量测序数据的单亲二倍体分析方法，其特征在于，在S1中，所述三个VCF文件分别为所述先证者、先证者母亲和先证者父亲。

3.根据权利要求1所述的家系高通量测序数据的单亲二倍体分析方法，其特征在于，在S3中，所述B等位基因的频率判定方法即通过先证者SNP位点突变基因型分别与先证者母亲SNP位点突变基因型和先证者父亲SNP位点突变基因型来判定先证者SNP位点亲代来源。

4.根据权利要求1所述的家系高通量测序数据的单亲二倍体分析方法，其特征在于，在S2中，所述数据过滤标准为：去除InDel突变位点，突变率≥25％、测序深度≥30×、测序质量≥500。

5.根据权利要求1-4任一所述的家系高通量测序数据的单亲二倍体分析方法的系统，其特征在于，包括：多组分析按钮和图形显示界面；

每一组所述分析按钮分别对应每一号染色体，点击后直接分析相应染色体，去除InDel突变位点并根据突变率、测序深度、以及测序质量过滤数据后数据接入所述图形显示界面；

6.根据权利要求5所述的家系高通量测序数据的单亲二倍体分析方法的系统，其特征在于，上面区域为作为参考的染色体区带图及序列坐标；中间区域为先证者母亲散点图，绘制母亲来源的SNP位点；下面区域为先证者父亲散点图，绘制父亲来源的SNP位点，散点图的横坐标为碱基序列位置，纵坐标为突变率。

7.根据权利要求5所述的家系高通量测序数据的单亲二倍体分析方法的系统，其特征在于，SNP位点亲代来源分析结果进行绘图原则为：先证者为母源单亲二体，则所有的点应在母亲图中绘制；先证者为父源单亲二体，则所有的点应在父亲图中绘制。

8.根据权利要求6所述的家系高通量测序数据的单亲二倍体分析方法的系统，其特征在于，纵坐标为0的点基因型为AA表示无突变；纵坐标为1的点基因型为BB表示纯合突变；在0～1中间的点基因型为AB表示杂合突变。