CN108220404B

CN108220404B - 一种识别dna大片段缺失的方法和系统

Info

Publication number: CN108220404B
Application number: CN201810114734.0A
Authority: CN
Inventors: 糜庆丰; 郭怿盈; 刘宇彬; 钟婉平; 向书芹; 吴春求; 黄铨飞; 刘丽菲
Original assignee: CapitalBio Genomics Co Ltd
Current assignee: CapitalBio Genomics Co Ltd
Priority date: 2018-02-06
Filing date: 2018-02-06
Publication date: 2018-11-09
Anticipated expiration: 2038-02-06
Also published as: CN108220404A

Abstract

本发明公开了一种识别DNA大片段缺失的方法和系统。本发明基于二代测序，提供了一种识别DNA大片段缺失的方法和系统，通过在目标缺失片段区域内设定检测区域，在目标缺失片段区域外同一染色体上设置内参区域，获取各区域的测序深度，并利用参考集及加权分析，获得待测样本的缺失类型，本发明方法检测准确性高，检测结果与Gap‑PCR一致，尤其适用于CYP2D6全基因缺失的检测，可解决现有技术无法准确检出超过测序读长的大片段缺失的问题。

Description

一种识别DNA大片段缺失的方法和系统

技术领域

本发明属于基因检测领域，更具体地涉及一种识别DNA大片段缺失的方法和系统。

背景技术

据安全用药相关调查报告显示，新生儿、儿童、成人的药物不良反应发生率分别为24.4％、12.9％、6.1％；每四个新生儿中，就有一个儿童因为药物不良反应，造成不同程度的器官损伤，如药物性耳聋、神经系统损伤、肝肾功能损伤等；全球死亡患者中，三分之一死于不合理用药，而非死于自然疾病本身；因此，安全、合理、有效、经济地用药是现阶段患者的诉求。目前，安全用药基因检测可以通过检测个体用药相关基因，实现个体化药物指导，辅助确定最适药物及剂量，尽可能规避药物不良反应和相互作用等，从而确定最佳治疗方案，避免多次试药，减轻患者的身体负担和经济负担。

安全用药基因检测涉及与药物代谢、疗效和毒性等上百种相关基因，其中包括CYP2D6基因。CYP2D6基因编码酶是一种具有基因多态性的药物代谢酶，该基因的突变可以引起酶活性及数量的差异，进而导致药物代谢有显著地个体差异，研究表明在临床上其参与了25％以上常用药物的代谢，其中基因型CYP2D6*5为全基因缺失，在中国人中约占3％～7％，FDA收录CYP2D6*5基因型与可待因、曲马多等镇痛药，普萘诺尔、普罗帕酮等心血管疾病药物；阿米替林、多塞平等抗焦虑药物的用药密切相关。因而，对个体CYP2D6基因型进行检测是个性化安全用药的必检项目。

二代测序技术(NGS)是目前应用最广的测序技术，具有测序深度高、通量大、准确率高、灵敏度好，价格低等优势，然而由于测序读长的限制，常规方法对于超过测序读长的大片段缺失往往无法准确检出，如CYP2D6*5基因型4.383kb全基因缺失检测对于二代测序技术来说是一项难以解决的技术问题。

发明内容

本发明的目的在于提供一种识别DNA大片段缺失的方法和系统。

本发明所采取的技术方案是：

一种识别DNA大片段缺失的方法，包括步骤：

S1：目标缺失片段区域内设定至少3个检测区域，其中2个检测区域分别位于目标缺失片段两端，在目标缺失片段区域外同一染色体上设置内参区域，内参区域个数≤检测区域个数；

S2：根据二代测序法获得的检测区域测序深度和内参区域测序深度，在参考集中找出与待测样本相似性高的若干个已知样本构成相似集，其中，所述参考集由已知样本构成；

S3：在相似集中，根据已知样本与待测样本的相似性，加权分析各缺失类型的已知样本支持度，支持度最高且超过阈值的缺失类型为待测样本的缺失类型。

优选的，步骤S2进一步包括：根据二代测序法获得的检测区域测序深度和内参区域测序深度，计算样本的特征值，所述特征值为同一样本的检测区域测序深度与内参区域测序深度的比值，根据样本的特征值，在参考集中找出与待测样本相似性高的若干个已知样本构成相似集。

优选的，步骤S2中，“在参考集中找出与待测样本相似性高的若干个已知样本构成相似集”具体包括：计算待测样本与参考集中所有已知样本之间的度量相似性的距离，选取与待测样本相似性高的前X个已知样本构成相似集，X是不大于20的整数且不大于已知样本总量的10％。

优选的，“度量相似性的距离”选自马氏距离、明氏距离、曼哈顿距离、切比雪夫距离、兰氏距离、欧氏距离。

优选的，计算待测样本与参考集中所有已知样本之间的欧式距离，采用下述公式：

其中，i表示待测样本编号，j表示已知样本编号，D_ij表示待测样本i与已知样本j的欧式距离；F_jM表示已知样本j第M个特征值，F_iM表示待测样本i第M个特征值，所述特征值为同一样本的检测区域测序深度与内参区域测序深度的比值。

优选的，步骤S3具体包括：在相似集中，对已知样本按与待测样本的相似性从高到低赋以从大到小的权重；统计各缺失类型的已知样本权重总和，作为各缺失类型的已知样本支持度；以权重总和最高且超过阈值的缺失类型为待测样本的缺失类型。

优选的，加权分析的权重赋值方式选自等差数列、等比数列，主成分分析。

优选的，参考集中至少30个已知样本，若已知样本个数≥150时，由已知样本直接组成参考集，否则，利用已知样本进行交叉验证获得最优训练集作为参考集。

一种识别DNA大片段缺失的系统，包括：

设计模块：用于在目标缺失片段区域内设定至少3个检测区域，其中2个检测区域分别位于目标缺失片段两端，在目标缺失片段区域外同一染色体上设置内参区域，内参区域个数≤检测区域个数；

分析模块：用于根据二代测序法获得的检测区域测序深度和内参区域测序深度，在参考集中找出与待测样本相似性高的若干个已知样本构成相似集，其中，所述参考集由已知样本构成；

加权模块：用于在相似集中，根据已知样本与待测样本的相似性，加权分析各缺失类型的已知样本支持度，支持度最高且超过阈值的缺失类型为待测样本的缺失类型。

优选的，所述系统还包括：测序模块，设于分析模块前，用于对样本进行建库和二代测序。

本发明的有益效果是：

本发明基于二代测序，提供了一种识别DNA大片段缺失的方法和系统，通过在目标缺失片段区域内设定检测区域，在目标缺失片段区域外同一染色体上设置内参区域，获取各区域的测序深度，并利用参考集及加权分析，获得待测样本的缺失类型，本发明方法检测准确性高，检测结果与Gap-PCR一致，尤其适用于CYP2D6全基因缺失的检测，可解决现有技术无法准确检出超过测序读长的大片段缺失的问题。

附图说明

图1是CYP2D6全基因缺失检测的检测区域和内参区域设计示意图。

具体实施方式

一种识别DNA大片段缺失的方法，包括步骤：

S1：在目标缺失片段区域内设定至少3个检测区域，其中2个检测区域分别位于目标缺失片段两端，在目标缺失片段区域外同一染色体上设置内参区域，内参区域个数≤检测区域个数；

其中，检测区域和内参区域大小不超过二代测序平台的测序读长，二代测序平台包括但不限于Illumina、Roche/454、Ion proton，以Ion proton平台为例，优选的，所述检测区域和内参区域大小为120～180bp，本领域技术人员可以利用靶向每个区域的特异性探针或特异性引物，捕获检测区域和内参区域，通过测序平台配套的建库方法，测序、比对、质控、排列获得检测区域测序深度和内参区域测序深度，获得测序深度的步骤不限于此。

优选的，“度量相似性的距离”选自马氏距离、明氏距离、曼哈顿距离、切比雪夫距离、兰氏距离、欧氏距离，但不限于此。

其中，阈值用于排除假阳性输出，以CYP2D6全基因缺失为例，所有权重总和为1的情况下，优选的，阈值为0.65。

基于上述方法，本发明还提供一种识别DNA大片段缺失的系统，包括：

实施例1

基于本发明提供的一种识别DNA大片段缺失的方法和系统，用于检测CYP2D6全基因缺失，缺失片段大小为4.383kb，通常来说，缺失类型有三种，即：正常(未缺失)、杂合缺失、纯合缺失。

本实施例以500例已知CYP2D6缺失类型的的样本(325正常，125杂合突变，50纯合突变)，30例待测样本进行测试，具体流程如下：

1、靶向区域的设计

在CYP2D6缺失片段区域内设定5个检测区域，在CYP2D6缺失片段区域外同一染色体上设置3个内参区域，针对共8个区域，分别设计8对特异性引物，其中引物信息及其靶向位置如表1所示，检测区域及内参区域设计示意图参考图1。

表1、引物及靶向区域

2、建库测序

利用特异性引物捕获每个检测区域和每个内参区域，依据Ion proton平台进行建库，测序，获取测序数据，使用tmap(Life Technologies)软件将测序数据比对至参考基因组，质控过滤不合格测序数据，使用samtools(http://www.htslib.org/)软件按基因组顺序进行排序，获取测序区域和内参区域的测序深度。

3、分析

计算待测样本和已知样本的特征值，所述特征值为同一样本检测区域测序深度与内参区域的测序深度的比值，由于有5个检测区域和3个内参区域，每个检测区域需要与每个内参区域一一作商，故共有15份特征值，示例性展示其中4个已知样本和4个待测样本的特征值结果如下表2所示。

表2、部分已知样本及待测样本的特征值

利用500例已知样本构成参考集，计算待测样本与参考集中所有已知样本之间的度量相似性的距离，本实施例采用欧式距离，公式如下：

将同一待测样本与所有已知样本的欧式距离按从小到大排序，欧式距离越小，与待测样本相似性越高，选取与待测样本相似性高的前10个已知样本构成相似集。

4、加权

在相似集中，对已知样本按与待测样本的相似性从高到低赋以从大到小的权重；本实施例权重赋值为一组从大到小排列的等差数列，所有权重之和为1，等差数列参数为：a1＝0.19，d＝-0.02，n＝10，统计各缺失类型的已知样本权重总和，作为各缺失类型的已知样本支持度；以权重总和最高且超过阈值0.65的缺失类型为待测样本的缺失类型。

以待测样本3为例，展示其与相似集中已知样本的欧式距离及权重，如下表3所示。

表3、待测样本3分析获得的相似集及赋予的权重

下表4展示测试的30例待测样利用上述方法获得的检测结果及利用Gap-PCR验证结果，可见本发明方法与GAP-PCR检测方法一致，准确性高，可用于检测DNA大片段缺失。

表4、本发明方法与Gap-PCR检测30例待测样本结果对比

实施例2

基于本发明提供的一种识别DNA大片段缺失的方法和系统，用于检测CYP2D6全基因缺失，缺失片段大小为4.383kb，本实施例选取100例已知CYP2D6*5基因类型的样本(65正常，25杂合突变，10纯合突变)，10例待测样本进行测试，具体流程如下：

1、靶向区域的设计

在CYP2D6缺失片段区域内设定5个检测区域，在CYP2D6缺失片段区域外同一染色体上设置3个内参区域，针对共8个区域，分别设计8对特异性引物，如表1所示。

2、建库测序

3、分析

计算待测样本和已知样本的特征值，所述特征值为同一样本检测区域测序深度与内参区域的测序深度的比值，由于有5个检测区域和3个内参区域，每个检测区域需要与每个内参区域一一作商，故共有15份特征值。

利用100例已知样本进行交叉验证构建参考集：采用常规的10倍交叉验证法，将100个样本随机平均分成10个子集，即每个子集中有10个样本，轮流将其中一个子集作为测试集，将其他9个子集作为训练集，筛选最优训练集作为参考集。

计算待测样本与参考集中所有已知样本之间的度量相似性的距离，本实施例采用欧式距离，公式如下：

4、加权

表5为10例待测样本的检测结果，可见本发明方法与GAP-PCR检测方法一致，准确性高，可用于检测DNA大片段缺失。

表5、10例待测样本的检测结果

待测样本	本发明方法	GAP-PCR
			31	纯合缺失	纯合缺失
32	正常	正常
			33	正常	正常
34	正常	正常
			35	杂合缺失	杂合缺失
36	正常	正常
			37	杂合缺失	杂合缺失
38	正常	正常
			39	正常	正常
40	正常	正常

SEQUENCE LISTING

<110> 东莞博奥木华基因科技有限公司

<120> 一种识别DNA大片段缺失的方法和系统

<130>

<160> 16

<170> PatentIn version 3.5

<210> 1

<211> 23

<212> DNA

<213> 人工引物

<400> 1

tcctctccct tgttagagtt cct 23

<210> 2

<211> 20

<212> DNA

<213> 人工引物

<400> 2

ccacccaacc caaagctagt 20

<210> 3

<211> 21

<212> DNA

<213> 人工引物

<400> 3

tagtttatgc caggcaccag g 21

<210> 4

<211> 22

<212> DNA

<213> 人工引物

<400> 4

cattcagagc tgtgaacctc cc 22

<210> 5

<211> 23

<212> DNA

<213> 人工引物

<400> 5

ttagagctct gctagaggga agc 23

<210> 6

<211> 23

<212> DNA

<213> 人工引物

<400> 6

aggttttcag tgaacaccta ctg 23

<210> 7

<211> 23

<212> DNA

<213> 人工引物

<400> 7

ccaactcata catgctgtcc aga 23

<210> 8

<211> 22

<212> DNA

<213> 人工引物

<400> 8

gcttgtgcag ctctatgttg tt 22

<210> 9

<211> 23

<212> DNA

<213> 人工引物

<400> 9

agactccatc tcaaaaacaa aca 23

<210> 10

<211> 21

<212> DNA

<213> 人工引物

<400> 10

gaggctgagg caggagaatt g 21

<210> 11

<211> 21

<212> DNA

<213> 人工引物

<400> 11

ctcagagctc aagttcccca c 21

<210> 12

<211> 21

<212> DNA

<213> 人工引物

<400> 12

gggctcgatg tacttcgaca g 21

<210> 13

<211> 18

<212> DNA

<213> 人工引物

<400> 13

tctgtgccca gggaggtg 18

<210> 14

<211> 19

<212> DNA

<213> 人工引物

<400> 14

cctaggtggt ggcatcgtg 19

<210> 15

<211> 23

<212> DNA

<213> 人工引物

<400> 15

ttgtgggtga cttcttggta tcc 23

<210> 16

<211> 20

<212> DNA

<213> 人工引物

<400> 16

ctttggcagc tcctggagag 20

Claims

1.一种识别DNA大片段缺失的方法，所述方法用于非疾病诊断目的，包括步骤：

2.根据权利要求1所述的方法，其特征在于：步骤S2进一步包括：根据二代测序法获得的检测区域测序深度和内参区域测序深度，计算样本的特征值，所述特征值为同一样本的检测区域测序深度与内参区域测序深度的比值，根据样本的特征值，在参考集中找出与待测样本相似性高的若干个已知样本构成相似集。

3.根据权利要求1所述的方法，其特征在于：步骤S2中，“在参考集中找出与待测样本相似性高的若干个已知样本构成相似集”具体包括：计算待测样本与参考集中所有已知样本之间的度量相似性的距离，选取与待测样本相似性高的前X个已知样本构成相似集，X是不大于20的整数且不大于已知样本总量的10%。

4.根据权利要求3所述的方法，其特征在于：“度量相似性的距离”选自马氏距离、明氏距离、曼哈顿距离、切比雪夫距离、兰氏距离、欧氏距离。

5.根据权利要求4所述的方法，其特征在于：计算待测样本与参考集中所有已知样本之间的欧式距离，采用下述公式：

D_ij=

6.根据权利要求1所述的方法，其特征在于：步骤S3具体包括：在相似集中，对已知样本按与待测样本的相似性从高到低赋以从大到小的权重；统计各缺失类型的已知样本权重总和，作为各缺失类型的已知样本支持度；以权重总和最高且超过阈值的缺失类型为待测样本的缺失类型。

7.根据权利要求1所述的方法，其特征在于：加权分析的权重赋值方式选自等差数列、等比数列，主成分分析。

8.根据权利要求1所述的方法，其特征在于：参考集中至少30个已知样本，若已知样本个数≥150时，由已知样本直接组成参考集，否则，利用已知样本进行交叉验证获得最优训练集作为参考集。

9.一种识别DNA大片段缺失的系统，包括：

10.根据权利要求9所述的系统，其特征在于：所述系统还包括：测序模块，设于分析模块前，用于对样本进行建库和二代测序。