CN114974416A

CN114974416A - 一种检测相邻多核苷酸变异的方法及装置

Info

Publication number: CN114974416A
Application number: CN202210837618.8A
Authority: CN
Inventors: 窦浩宇; 刘永初; 吕佩涛; 刘阳; 李阳
Original assignee: Shenzhen Yaji Technology Co ltd
Current assignee: Shenzhen Yaji Technology Co ltd
Priority date: 2022-07-15
Filing date: 2022-07-15
Publication date: 2022-08-30
Anticipated expiration: 2042-07-15
Also published as: CN114974416B

Abstract

一种检测相邻多核苷酸变异的方法及装置，包括：可疑相邻变异集获取步骤，包括从比对到参考基因组的待测样本测序数据中获取单核苷酸变异信号，从所述单核苷酸变异信号中扫描得到可疑相邻变异集；疑似有害相邻核苷酸变异检测步骤，包括从所述可疑相邻变异集中筛选得到疑似有害相邻多核苷酸变异。发明针对相邻多核苷酸变异进行特异性的筛查，保留疑似有害变异，筛除假阳性结果和干扰信号，显著提高对有害变异评级、有害基因诊断的准确性。

Description

一种检测相邻多核苷酸变异的方法及装置

技术领域

本发明涉及基因测序技术领域，具体涉及一种检测相邻多核苷酸变异的方法及装置。

背景技术

在人类遗传病检测中，相邻多核苷酸变异(Multi-nucleotide variant，简称MNV)是指在一定距离内(2bp)两个或以上的变异在同一条单链脱氧核苷酸DNA上同时出现的异常变异现象。根据中心法则，人体遗传信息从脱氧核苷酸DNA传递到核糖核苷酸RNA的过程中，核糖体会以三个核苷酸作为密码子来读取信使核糖核酸mRNA上的信息，在编码同一密码子的DNA同时发生两个以上的核苷酸变异时，其总体影响可能与单个变体产生的功能后果不同，如密码子AGG发生相邻多核苷酸变异，从AGG突变为TGA，如果按照以往的检测方法，会各单独检测出AGG转变为TGG、AGG转变为AGA两种类型突变，而这两种类型突变分别为精氨酸转为色氨酸的错义突变以及无氨基酸改变的同义突变，但按照实际情况应该将两种突变结合，编码精氨酸的密码子转变为翻译终止的无义突变。

目前，检测核苷酸变异通常会被分为三种类型：1.单核苷酸变异，个体中基因组DNA单个碱基发生突变，出现替代、缺失、插入异常；2.小片段插入缺失，个体中基因组DNA某个位置发生小片段碱基片段的插入或者缺失；3.结构变异，长度在50个碱基以上的长片段重复、缺失或者易位和倒位。上述三种类型并未考虑到相邻多核苷酸变异的实际特殊情况，最终可能会导致有误的诊断结果，对有害变异评级、有害基因诊断产生误导等影响。

发明内容

根据第一方面，在一实施例中，提供一种检测相邻多核苷酸变异的方法，包括：

可疑相邻变异集获取步骤，包括从比对到参考基因组的待测样本测序数据中获取单核苷酸变异信号，从所述单核苷酸变异信号中扫描得到可疑相邻变异集；

疑似有害相邻核苷酸变异检测步骤，包括从所述可疑相邻变异集中筛选得到疑似有害相邻多核苷酸变异。

根据第二方面，在一实施例中，提供一种检测相邻多核苷酸变异的装置，包括：

可疑相邻变异集获取模块，用于从比对到参考基因组的待测样本测序数据中获取单核苷酸变异信号，从所述单核苷酸变异信号中扫描得到可疑相邻变异集；

疑似有害相邻核苷酸变异检测模块，用于从所述可疑相邻变异集中筛选得到疑似有害相邻多核苷酸变异。

根据第三方面，在一实施例中，提供一种装置，包括：

存储器，用于存储程序；

处理器，用于通过执行所述存储器存储的程序以实现如第一方面所述的方法。

根据第四方面，在一实施例中，提供一种计算机可读存储介质，所述介质上存储有程序，所述程序能够被处理器执行以实现如第一方面所述的方法。

依据上述实施例的检测相邻多核苷酸变异的方法及装置，本发明针对相邻多核苷酸变异进行特异性的筛查，保留疑似有害变异，筛除假阳性结果和干扰信号，有效提高对有害变异评级、有害基因诊断的准确性。

附图说明

图1为一种实施例中DNA双链上相邻核苷酸突变的特殊情况示意图；

图2为一种实施例中疑似有害相邻核苷酸变异主流程计算检测流程示意图；

图3为一种实施例中的低复杂度区域计算流程示意图；

图4为一种实施例中的人群频率计算流程示意图。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。在以下的实施方式中，很多细节描述是为了使得本申请能被更好的理解。然而，本领域技术人员可以毫不费力的认识到，其中部分特征在不同情况下是可以省略的，或者可以由其他材料、方法所替代。在某些情况下，本申请相关的一些操作并没有在说明书中显示或者描述，这是为了避免本申请的核心部分被过多的描述所淹没，而对于本领域技术人员而言，详细描述这些相关操作并不是必要的，他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。

另外，说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时，方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此，说明书和附图中的各种顺序只是为了清楚描述某一个实施例，并不意味着是必须的顺序，除非另有说明其中某个顺序是必须遵循的。

本文中为部件所编序号本身，例如“第一”、“第二”等，仅用于区分所描述的对象，不具有任何顺序或技术含义。

本文中，“变异”、“突变”可互换使用。

本文中，如无特别说明，“低于”、“少于”相当于“＜”。

在一实施例中，所述可疑相邻变异集获取步骤包括：

校准步骤，包括对比对到参考基因组的待测样本测序数据中的扩增重复序列进行标记，然后对序列进行再校准，消除错位干扰，获取单核苷酸变异信号。

在一实施例中，所述可疑相邻变异集获取步骤还包括：

扫描步骤，包括对所有单核苷酸变异进行局域相邻扫描，扫描出相邻2个或3个碱基的变异，得到可疑相邻变异集。

在一实施例中，所述疑似有害相邻核苷酸变异检测步骤包括：

编码区变异筛选步骤，包括对所述可疑相邻变异进行转录本预测，筛选得到位于编码区的变异。

在一实施例中，所述疑似有害相邻核苷酸变异检测步骤还包括：

低复杂度区域变异筛除步骤，包括根据低复杂度区域计算结果，从所述位于编码区的变异中筛除位于所述低复杂度区域的变异，获得剩余变异。

质控步骤，包括对所述低复杂度区域变异筛除步骤获得的剩余变异进行质量控制，过滤去除不符合质量控制条件的变异，获得符合质量控制条件的剩余变异。

在一实施例中，所述不符合质量控制条件的变异包括满足如下至少一种条件的变异：

1)检测深度＜10×的杂合突变；

2)杂合率＜20％的杂合突变；

3)基因型质量值＜20的变异。

一致性核对步骤，包括对符合质量控制条件的剩余变异进行一致性核对计算，筛除非真实变异，得到单个样本的相邻多核苷酸变异结果。

非有害变异筛除步骤，包括在得到所述单个样本的相邻多核苷酸变异结果后，对高频非有害变异进行筛除，得到疑似有害相邻多核苷酸变异结果。

在一实施例中，所述高频非有害变异包括人群频率＞频率阈值的非有害变异。

在一实施例中，所述频率阈值可以为1％。

在一实施例中，所述低复杂度区域计算包括：

以复杂度D值作为阈值，对输入的人体基因组序列进行筛选，转坐标，得到复杂度D值＜阈值的序列和坐标集，即为低复杂区域具体的序列和坐标集。

在一实施例中，所述阈值可以为30。

在一实施例中，复杂度D值的计算包括：

基因编码区序列和坐标获取步骤，包括挑选人类基因组序列外显子区域，得到基因编码区序列和坐标；

密码子转化步骤，包括将编码区碱基序列每三个归类转化为密码子序列；

分窗步骤，包括按照64单位对序列进行分窗；

计算步骤，包括对每个分窗序列进行复杂度计算，对氨基酸、碱基序列组成复杂的序列累积计算复杂度D值。

在一实施例中，还包括人群频率计算步骤，包括根据前述方法，对每个待测样本的相邻核苷酸变异进行计算，获得每个待测样本的疑似有害相邻多核苷酸变异。

在一实施例中，还包括合并步骤，包括对所有待测样本的计算结果进行横向合并，统计每个变异的人群频率，计算过程中区分杂合、纯合变异。

在一实施例中，还包括有害突变标记步骤，包括根据合并步骤的计算结果，结合数据库，对有害突变、疑似有害突变进行标记，得到相邻核苷酸变异人群频率库结果。

在一实施例中，所述数据库包括人类遗传病变异数据库。

在一实施例中，所述待测样本测序数据包括二代测序数据。

在一实施例中，所述待测样本测序数据包括但不限于全基因组测序数据、全外显子组测序数据、靶向捕获测序数据。

在一实施例中，所述待测样本可以来自于生物体的组织样本、体液样本。

在一实施例中，体液样本包括但不限于血液、尿液、脑脊液等等。

在一实施例中，所述生物体包括人或其他动物，优选为人。

在一实施例中，所述待测样本测序数据来源于基因组DNA、游离DNA(Cell-freeDNA，cfDNA)。

在一实施例中，所述可疑相邻变异集获取模块包括：

校准模块，用于对比对到参考基因组的待测样本测序数据中的扩增重复序列进行标记，然后对序列进行再校准，消除错位干扰，获取单核苷酸变异信号。

在一实施例中，所述可疑相邻变异集获取模块还包括：

扫描模块，用于对所有单核苷酸变异进行局域相邻扫描，扫描出相邻2个或3个碱基的变异，得到可疑相邻变异集。

在一实施例中，所述疑似有害相邻核苷酸变异检测模块包括：

编码区变异筛选模块，包括对所述可疑相邻变异进行转录本预测，筛选得到位于编码区的变异。

在一实施例中，所述疑似有害相邻核苷酸变异检测模块还包括：

低复杂度区域变异筛除模块，用于根据低复杂度区域模块的计算结果，从所述位于编码区的变异中筛除位于所述低复杂度区域的变异，获得剩余变异。

质控模块，用于对所述低复杂度区域变异筛除步骤获得的剩余变异进行质量控制，过滤去除不符合质量控制条件的变异，获得符合质量控制条件的剩余变异。

1)检测深度＜10×的杂合突变；

2)杂合率＜20％的杂合突变；

3)基因型质量值＜20的变异。

一致性核对模块，用于对符合质量控制条件的剩余变异进行一致性核对计算，筛除非真实变异，得到单个样本的相邻多核苷酸变异结果。

非有害变异筛除模块，用于在得到所述单个样本的相邻多核苷酸变异结果后，对高频非有害变异进行筛除，得到疑似有害相邻多核苷酸变异结果。

在一实施例中，所述频率阈值可以为1％。

在一实施例中，所述低复杂度区域计算模块用于：

在一实施例中，所述阈值可以为30。

在一实施例中，复杂度D值的计算模块包括：

基因编码区序列和坐标获取模块，用于挑选人类基因组序列外显子区域，得到基因编码区序列和坐标；

密码子转化模块，用于将编码区碱基序列每三个归类转化为密码子序列；

分窗模块，用于按照64单位对序列进行分窗；

计算模块，用于对每个分窗序列进行复杂度计算，对氨基酸、碱基序列组成复杂的序列累积计算复杂度D值。

在一实施例中，还包括人群频率计算模块，用于根据前述模块，对每个待测样本的相邻核苷酸变异进行计算，获得每个待测样本的疑似有害相邻多核苷酸变异。

在一实施例中，还包括合并模块，用于对所有待测样本的计算结果进行横向合并，统计每个变异的人群频率，计算过程中区分杂合、纯合变异。

在一实施例中，还包括有害突变标记模块，用于根据合并模块的计算结果，结合数据库，对有害突变、疑似有害突变进行标记，得到相邻核苷酸变异人群频率库结果。

在一实施例中，所述数据库包括人类遗传病变异数据库。

在一实施例中，所述待测样本测序数据包括但不限于二代测序数据。

在一实施例中，所述待测样本可以来自于生物体的组织样本。

在一实施例中，所述生物体包括人或其他动物，优选为人。

在一实施例中，所述待测样本测序数据来源于基因组DNA。

在一实施例中，参考基因组包括人类参考基因组。

在一实施例中，人类参考基因组包括但不限于hg19、hg38。

根据第三方面，在一实施例中，提供一种装置，包括：

存储器，用于存储程序；

在一实施例中，本发明基于二代测序，提出了一种可对相邻多核苷酸变异的检测方法，对编码同一密码子的疑似有害相邻核苷酸变异进行挖掘、辨别和筛选，提升遗传病检测性能。

实施例1

本实施例分为基因组有效区域构建、单体核苷酸变异信号捕捉、局域相邻多核苷酸扫描、转录本预测筛选、质量控制、测序序列一致性核对以及人群频率计算筛选。

在基因组筛查区域构建模块中，由于二代测序测出的序列长度有限(通常为100个碱基或150个碱基)，对于碱基组成高度相似的片段以及碱基组成单一重复的低复杂区域无法有效定位，容易得到错误的定位结果，故先对人类基因组的整体序列进行分段扫描以及计算，以计算值D 30作为阈值，筛出低复杂区具体序列和坐标集。

在单体核苷酸变异信号捕捉模块中，首先将测序数据进行去接头、去低质量处理，随后将序列文件比对人类参考基因组，对单核苷酸变异信号进行捕捉。由于在从细胞提取扩增DNA的过程中会使用聚合酶链式反应PCR，某些序列会因此扩增过多而产生许多重复序列，比对后对该类序列进行标记，校正计算比例。

在局域相邻多核苷酸扫描模块中，对上个模块计算得出的单体核苷酸信号进行两重扫描，分别对相同染色体上坐标位置相邻2个碱基或相邻3个碱基的单体核苷酸进行扫描和集合，形成可疑相邻突变集合。

在转录本预测筛选模块中，上述可疑相邻突变集合将会结合坐标、突变前后的碱基和所有人体基因的所有转录本位置信息进行预测，由于不位于编码区的相邻多核苷酸突变位于内含子或基因间区域，不会对密码子的转录翻译产生直接影响，故在此筛走该类变异，同时将位于低复杂区序列坐标集的突变过滤。

在质量控制模块中，对上述所得变异进行可靠性分类。由于测序质量较低或者比对质量较低的突变可靠性较低，需要对检测深度低于10×、杂合率少于20％的杂合突变以及对于基因型的质量值(Genotype Quality)低于20这类低质量变异分类为低可靠性变异并进行过滤。

测序序列一致性核对模块，多个核苷酸的变异有可能出现相邻变异分别发生于DNA双链上的特殊情况(图1)，该种特殊情况不属于相邻多核苷酸变异，故在测序序列一致性核对模块中，对二代测序的正链和负链进行定性和统计，将特殊情况如实记录并进行筛除。

人群频率计算模块，相邻多核苷酸变异在人体中普遍存在，其变异作用并不全都对人体有害，例如在编码人类白细胞抗原HLA的6号染色体短臂(6p21.31)上，相邻多核苷酸变异非常普遍，而这类变异大多为人类抗原多态化的正常变异，故需要对相邻多核苷酸变异的人群频率进行计算，并结合人类遗传病变异数据库(如clinvar、omim、hgmd等)，将人群频率高于1％的高频非有害变异进行筛除。

本实施例的检测方法分主要为三个部分，分别为主流程计算、低复杂度区域计算、人群频率计算。

主流程计算检测模块的主要功能为对人的疑似有害相邻核苷酸变异进行挖掘和辨别。

如图2所示，具体步骤如下：

Step1、提取人体样品(包含人体基因组的样本均可，例如血液、尿液、脑脊液等)。

Step2、对样品中的细胞进行提取、裂解，提取基因组DNA。

Step3、将基因组DNA进行片段化。

Step4、构建测序文库，加测序引物，进行PCR扩增等。

Step5、二代测序仪进行测序，得到测序数据(全外显子组测序数据或全基因组测序数据)。

Step6、对测序数据进行清洗，去接头、去低质量序列。

Step7、将清洗后的数据比对人类参考基因组，本实施例选择的人类参考基因组为hg19。

Step8、对扩增重复序列进行标记。

Step9、对序列进行再校准，消除错位干扰。

Step10、对单核苷酸变异信号进行挖掘。

Step11、开始对所有单核苷酸变异进行局域相邻扫描，扫描出相邻2个或3个碱基的变异，得到可疑相邻变异突变集。

Step12、对上述变异集进行转录本预测计算，筛出位于编码区的变异。

Step13、根据低复杂度区域计算结果，筛走位于该区域的变异。

Step14、对剩余变异进行变异质量控制，对检测深度低于(相当于＜)10×、杂合率少于(相当于＜)20％的杂合突变以及对于基因型的质量值(Genotype Quality)低于(相当于＜)20这类低质量变异进行过滤。只要满足检测深度＜10×、杂合率＜20％这两种条件中任意一种条件的杂合突变均被过滤去除。满足基因型的质量值(Genotype Quality)＜20的变异也被过滤去除。

Step15、对剩余变异进行测序序列一致性核对计算，筛除非真实变异，得到单个样本的相邻多核苷酸变异结果。

Step16、对人群频率高于(相当于＞)1％的高频非有害变异进行筛除，得到疑似有害相邻多核苷酸变异结果。

低复杂度区域计算，主要功能为计算编码区复杂度，并得出低复杂区具体序列和坐标集。

如图3所示，具体步骤如下：

Step1、挑选人类基因组序列外显子区域，得到基因编码区序列和坐标。

Step2、将编码区碱基序列每三个归类转化为密码子序列。

Step3、按照64单位对序列进行分窗。

Step4、对每个分窗序列进行复杂度计算，对氨基酸、碱基序列组成复杂的序列累积计算复杂度D值。

Step5、以复杂度D值30作为阈值，对输入的人体基因组序列进行筛选，转坐标，得到复杂度D值＜30的序列和坐标集，即为低复杂区具体的序列和坐标集。

人群频率计算，主要功能为计算多个样本相邻核苷酸变异，并得出人群频率数据库结果。

如图4所示，具体步骤如下：

Step1、筛选百人以上的样本，样本数具体为1785例，具体为血液样本。

Step2、采用相同的实验规范，对样本的DNA进行提取。

Step3、采用相同的实验规范，对样本的DNA进行建库。

Step4、采用相同的测序仪和测序试剂，对DNA进行测序。

Step5、对每个样本的相邻核苷酸变异进行如图2所示的计算，同时保持比对软件、数据处理软件版本一致。

Step6、对所有样本的计算结果进行横向合并，统计每个变异的人群频率，计算过程中区分杂合、纯合情况。“横向合并”是指对每一个突变探查所有样本集内样本的情况，并计算频率。

Step7、结合人类遗传病变异数据库，对有害、疑似有害突变进行标记，得到相邻核苷酸变异人群频率库结果。

在一实施例中，本发明实现对相邻多核苷酸变异进行检测，有效提高对有害变异评级、有害基因诊断的准确性。

在一实施例中，本发明针对性的对相邻多核苷酸变异特殊情况进行变异发掘，功能较为新颖。

在一实施例中，本发明会对信号进行质控、一致性核对、人群频率构建及筛选等处理，针对相邻多核苷酸变异进行特异性的筛查，保留疑似有害变异，筛除假阳性结果和干扰信号。

在一实施例中，本发明针对相邻多核苷酸变异的特殊情况，对基因编码区进行全局搜索，经过质控、测序序列一致性核对、人群频率构建及筛选等处理，对低频疑似有害相邻多核苷酸变异进行挖掘、辨别。

本领域技术人员可以理解，上述实施方式中各种方法的全部或部分功能可以通过硬件的方式实现，也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器、随机存储器、磁盘、光盘、硬盘等，通过计算机执行该程序以实现上述功能。例如，将程序存储在设备的存储器中，当通过处理器执行存储器中程序，即可实现上述全部或部分功能。另外，当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中，通过下载或复制保存到本地设备的存储器中，或对本地设备的系统进行版本更新，当通过处理器执行存储器中的程序时，即可实现上述实施方式中全部或部分功能。

以上应用了具体个例对本发明进行阐述，只是用于帮助理解本发明，并不用以限制本发明。对于本发明所属技术领域的技术人员，依据本发明的思想，还可以做出若干简单推演、变形或替换。

Claims

1.一种检测相邻多核苷酸变异的方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述可疑相邻变异集获取步骤包括：

3.如权利要求2所述的方法，其特征在于，所述可疑相邻变异集获取步骤还包括：

4.如权利要求3所述的方法，其特征在于，所述疑似有害相邻核苷酸变异检测步骤包括：

5.如权利要求4所述的方法，其特征在于，所述疑似有害相邻核苷酸变异检测步骤还包括：

低复杂度区域变异筛除步骤，包括根据低复杂度区域计算结果，从所述位于编码区的变异中筛除位于所述低复杂度区域的变异，获得剩余变异；

优选地，所述疑似有害相邻核苷酸变异检测步骤还包括：

质控步骤，包括对所述低复杂度区域变异筛除步骤获得的剩余变异进行质量控制，过滤去除不符合质量控制条件的变异，获得符合质量控制条件的剩余变异；

优选地，所述不符合质量控制条件的变异包括满足如下至少一种条件的变异：

1)检测深度＜10×的杂合突变；

2)杂合率＜20％的杂合突变；

3)基因型质量值＜20的变异；

优选地，所述疑似有害相邻核苷酸变异检测步骤还包括：

一致性核对步骤，包括对符合质量控制条件的剩余变异进行一致性核对计算，筛除非真实变异，得到单个样本的相邻多核苷酸变异结果；

优选地，所述疑似有害相邻核苷酸变异检测步骤还包括：

非有害变异筛除步骤，包括在得到所述单个样本的相邻多核苷酸变异结果后，对高频非有害变异进行筛除，得到疑似有害相邻多核苷酸变异结果；

优选地，所述高频非有害变异包括人群频率＞频率阈值的非有害变异；

优选地，所述频率阈值为1％。

6.如权利要求5所述的方法，其特征在于，所述低复杂度区域计算包括：

以复杂度D值作为阈值，对输入的人体基因组序列进行筛选，转坐标，得到复杂度D值＜阈值的序列和坐标集，即为低复杂区域具体的序列和坐标集；

优选地，所述阈值为30；

优选地，复杂度D值的计算包括：

分窗步骤，包括按照64单位对序列进行分窗；

7.如权利要求1所述的方法，其特征在于，还包括人群频率计算步骤，包括根据权利要求1～6任意一项所述方法，对每个待测样本的相邻核苷酸变异进行计算，获得每个待测样本的疑似有害相邻多核苷酸变异；

优选地，还包括合并步骤，包括对所有待测样本的计算结果进行横向合并，统计每个变异的人群频率，计算过程中区分杂合、纯合变异；

优选地，还包括有害突变标记步骤，包括根据合并步骤的计算结果，结合数据库，对有害突变、疑似有害突变进行标记，得到相邻核苷酸变异人群频率库结果；

优选地，所述数据库包括人类遗传病变异数据库；

优选地，所述待测样本测序数据包括二代测序数据；

优选地，所述待测样本测序数据包括全基因组测序数据、全外显子组测序数据、靶向捕获测序数据；

优选地，所述待测样本来自于生物体的组织样本或体液样本；

优选地，所述生物体包括人或其他动物，优选为人；

优选地，所述待测样本测序数据来源于基因组DNA或游离DNA。

8.一种检测相邻多核苷酸变异的装置，其特征在于，包括：

9.一种装置，其特征在于，包括：

存储器，用于存储程序；

处理器，用于通过执行所述存储器存储的程序以实现如权利要求1～7任意一项所述的方法。

10.一种计算机可读存储介质，所述介质上存储有程序，所述程序能够被处理器执行以实现如权利要求1～7任意一项所述的方法。