CN109411016A

CN109411016A - 基因变异位点检测方法、装置、设备及存储介质

Info

Publication number: CN109411016A
Application number: CN201811351600.7A
Authority: CN
Inventors: 张跃进; 李光辉; 展爱云
Original assignee: Zhongxiang Bo Qian Mdt Infotech Ltd
Current assignee: Zhongxiang Bo Qian Mdt Infotech Ltd
Priority date: 2018-11-14
Filing date: 2018-11-14
Publication date: 2019-03-01
Anticipated expiration: 2038-11-14
Also published as: CN109411016B

Abstract

本发明涉及一种基因变异位点检测方法、装置、设备及存储介质，应用于基因检测技术领域，其中，基因变异位点检测方法包括根据待检测基因生成数据映射矩阵；采用预先训练的神经网络模型对数据映射矩阵进行预处理，获取待检测基因的序列特异性结果；将序列特异性结果与预先建立的特异性曲线进行比较；根据比较结果确定待检测基因的变异位点。

Description

基因变异位点检测方法、装置、设备及存储介质

技术领域

本发明涉及基因检测领域，具体涉及基因变异位点检测方法、装置、设备及存储介质。

背景技术

基因是携带有遗传信息的遗传基本单元，通过指导蛋白质的合成来表达自己所携带的遗传信息，从而控制生物个体的性状表达。基因检测是通过血液、其他体液、或细胞对DNA进行检测的技术。通过特定设备对被检测者细胞中的DNA分子信息作检测，分析它所含有的基因类型和基因缺陷及其表达功能是否正常。

相关技术中，以贝叶斯统计与专家实践经验为基础，进行基因数据分析，由于监测物种具有差异性，测序平台也不同，分析的结果存在差异，从而导致基因变异检测误差较高。

发明内容

有鉴于此，本发明为了在至少一定程度上克服相关技术中存在的问题，提供一种基因变异位点检测方法、装置、设备及存储介质。

为解决上述技术问题，本发明采用如下技术方案：

第一方面，一种基因变异位点检测方法，包括：

根据待检测基因生成数据映射矩阵；

采用预先训练的神经网络模型对所述数据映射矩阵进行预处理，获取所述待检测基因的序列特异性结果；

将所述序列特异性结果与预先建立的特异性曲线进行比较；

根据比较结果确定所述待检测基因的变异位点。

可选的，所述根据待检测基因生成数据映射矩阵，包括：

提取所述待检测基因中的碱基序列；

确定所述碱基序列的类型；

构建与所述碱基序列类型对应的数据映射矩阵。

可选的，所述获取所述待检测基因的序列特异性结果之后，还包括：

将所述序列特异性结果进行分类；

根据分类参数计算特异性曲线参数；

根据所述特异性曲线参数建立特异性曲线。

可选的，所述分类参数包括：真阳性、假阳性、真阴性、假阴性。

可选的，采用预先训练的神经网络模型将所述数据映射矩阵进行预处理，之前还包括：

对所述神经网络模型的校准参数进行初始化设定。

可选的，所述校准参数包括卷积核尺寸、卷积核数量、初始化权重、学习率、学习势、处理规模。

可选的，所述预先训练的神经网络模型，包括：卷积层；

池化层；

全连接层；

Softmax函数层；

独热编码层；

反向传播层。

第二方面，一种基因变异位点检测装置，包括：

数据映射矩阵生成模块，用于根据待检测基因生成数据映射矩阵；

预处理模块，用于采用预先训练的神经网络模型对所述数据映射矩阵进行预处理；

获取模块，用于获取所述待检测基因的序列特异性结果；

比较模块，用于将所述序列特异性结果与预先建立的特异性曲线进行比较；

确定模块，用于根据比较结果确定所述待检测基因的变异位点。

第三方面，一种基因变异位点检测设备，包括：

处理器，以及与所述处理器相连接的存储器；

所述存储器用于存储计算机程序；

所述处理器用于调用并执行所述存储器中的所述计算机程序，以执行如第一方面所述的方法。

第四方面，一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时，实现如第一方面所述基因变异位点检测方法中各个步骤。

本发明采用以上技术方案，可以实现如下技术效果：

本发明中，根据待检测基因生成数据映射矩阵，并采用预先训练的神经网络模型对数据映射矩阵进行预处理，以获取待检测基因的序列特异性结果，基于神经网络和待检测基因的序列特异性，对待检测基因进行检测，并将序列特异性结果与预先建立的特异性曲线进行比较，根据比较结果确定待检测基因的变异位点，如此，通过训练的神经网络模型便可以检测出待检测基因的变异位点，不必通过人工进行分析及判断，降低了基因变异检测的误差。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的基因变异位点检测方法的流程示意图；

图2是本发明实施例二提供的基因变异位点检测方法的流程示意图；

图3是本发明实施例二提供的预先建立的特异性曲线图；

图4是本发明实施例三提供的基因变异位点检测装置；

图5是本发明实施例四提供的基因变异位点检测装置。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。

实施例一

图1是本发明实施例一提供的基因变异位点检测方法。如图1所示，本实施例提供一种基因变异位点检测方法，包括：

步骤101、根据待检测基因生成数据映射矩阵；

步骤102、采用预先训练的神经网络模型对数据映射矩阵进行预处理，获取待检测基因的序列特异性结果；

步骤103、将序列特异性结果与预先建立的特异性曲线进行比较；

步骤104、根据比较结果确定待检测基因的变异位点。

本实施例中，根据待检测基因生成数据映射矩阵，并采用预先训练的神经网络模型对数据映射矩阵进行预处理，以获取待检测基因的序列特异性结果，基于神经网络和待检测基因的序列特异性，对待检测基因进行检测，并将序列特异性结果与预先建立的特异性曲线进行比较，根据比较结果确定待检测基因的变异位点，如此，通过训练的神经网络模型便可以检测出待检测基因的变异位点，不必通过人工进行分析及判断，降低了基因变异检测的误差。

实施例二

图2是本发明实施例二提供的基因变异位点检测方法。如图2所示，本实施例提供一种基因变异位点检测方法，包括：

步骤201、根据待检测基因生成数据映射矩阵，具体包括：

1)提取待检测基因中的碱基序列；

2)确定碱基序列的类型；

3)构建与碱基序列类型对应的数据映射矩阵。

需要说明的是，DNA是一种由两两互补的四类不同的碱基(即A、T、G、C)组合而成的长分子，DNA，即脱氧核糖核酸，是一个含有糖(有机化合物的一种常见类型)、磷酸集团(含有磷元素)以及四种含氮碱基中的一个(A、T、G、C)组成的简单的分子。DNA中链接核苷酸的化学键总是相同的，因此DNA分子骨架是非常有规则的。正是A、T、C、G碱基的不同才赋予了每个DNA分子不同的“个性”。

由于DNA碱基序列只包含A、T、G、C，因此，将A、T、G、C进行简单的二进制映射，构成一个序列矩阵，其中不同的列对应不同的碱基种类，当该位置出现对应碱基时则为1，否则为0，最后得到一个只包含0和1的简单矩阵，即完成了DNA序列的数据映射。例如，我们输入的DNA序列为S＝{GACTAG}，则可以将它数据化映射为一个6*4的二进制矩阵如下：

从左至右，矩阵的四列分别对应的碱基依次为A、T、G、C。

总结上述映射，可归纳为：

假设卷积核的最大长度为m，则需要构造一个(n+2m-2)*4阶的矩阵S，S满足：

即，当序列中某个碱基属于A、T、G、C的某一类时，矩阵中对应位置的元素为1，否则为0，当碱基不确定时，补标为0.25。

需要说明的是，也可以进行更加细致的划分，此处不再举例。

步骤202、对神经网络模型的校准参数进行初始化设定。

其中，校准参数包括卷积核尺寸、卷积核数量、初始化权重、学习率、学习势、处理规模。

其中，卷积核尺寸与数量具体包括：

卷积核的尺寸是由DNA序列的特异性模式的长度来决定的。

假定我们认为一个碱基序列的特异性模式长为4，又碱基模式种类也为4，因此卷积核尺寸应为4*4＝16。再结合我们过去的实际经验可以得知，选用1.5倍于此的尺寸更为合适。

我们一般设定卷积核数量为16，这样能得到最好的训练效果。

卷积层的参数设定尽量采取小尺寸，一是可以增加网络容量和模型的复杂程度，二是可以尽量减少卷积参数的个数，再配合padding填充，充分利用输入数据的边缘信息。

初始化权重与处理规模具体包括：

神经网络模型一般依靠随机梯度下降进行训练和参数更新，网络性能与收敛的最优解有关，收敛效果则取决于参数初始化。常见的初始化手段有以下几种：全零初始化、随机初始化等等。

全零初始化的思路来源于我们的模型训练目的，即当模型收敛时，理想状况下的权值基本上保持正负相同的状态，即期望值为0，因此全零初始化很直接粗暴地将初始化参数全部置零。然后，全零初始化情况下，由于不同卷积核的输出完全一样，那么梯度更新也将完全趋同，下轮更新参数也仍将保持相同的状态，无法做出任何改变，即训练失败。

随机初始化则是将参数设定为趋近于0的很小的随机数，且正负大体对半。我们的模型一般采取服从标准正态分布的随机初始化。

处理规模大小的选择决定了卷积神经网络每次更新参数时参与计算的训练样本数量。我们的模型采取64(batch_size＝64)的处理规模。

学习率与学习势具体包括：

学习率(learning rate)作为模型训练中的一个重要参数，若选取适当，可以加快模型的收敛，提高收敛效率，但如果选取失当，则存在目标函数损失值发生“爆炸”从而导致训练失败的危险。基于数学上的推导和估计，适合我们的模型的学习率取值应位于[0.0005，0.5]区间范围内，一般采取0.001或0.1。

学习势(learning momentum)则是基于学习率的一种快速梯度方法。当某个参数在训练过程中以稳定的速度朝着相同的趋势发生变化，那么我们认为它仍将继续以此种速度朝着此种趋势发生变化，因此我们可以按照比例增大其学习步幅。学习势和学习率在大小的选择上有相似的问题，因此选取适当的学习势也有助于加快模型训练。我们采取Nesterov型动量随机下降法，系数取值区间位于[0.95，0.99]之间。

步骤203、采用预先训练的神经网络模型对数据映射矩阵进行预处理，获取待检测基因的序列特异性结果；

其中，预先训练的神经网络模型，包括：卷积层、池化层、全连接层、Softmax函数层、独热编码层、反向传播层。

设输入DNA序列为S，S＝{S₁,...S_n}，输出为一个数值即分数score(S),是关于S的复合函数，score(S)＝neural_network(pool(filter(conv(s))))。

其中，卷积层具体设定为：

给定一张输入矩阵S，通过若干个模体探测器(即卷积核)卷积操作之后可以得到相应个数的特征图。

假定卷积核个数为d，则该层的输出矩阵X的尺寸为(n+m-1)*d，设该层的所有卷积核组成的矩阵为M，M的阶数为d*m*4，则由加权求和可得到：

其中，M_k,j,l表示第k个卷积核在j处的参数。

池化层具体设定为：

过滤的目的是为了按照由大到小的顺序为矩阵每一列的数据进行排序，以保留较大的那一半的元素，并利用激励函数ReLU对其进行线性修正，得到中间表达式Y关于X的函数。

Y是一个与X同阶的矩阵，经过最大值池化后，降维成向量Z。

Z_k＝max{Y_1，K,LY_n，k},

其中，k∈{1,2,…,d}

全连接层具体设定为：

全连接层可以将上一层输出的压缩向量Z转化为作为标量的分数，若向量Z的维数为d，又已知我们的全连接层中共含有32个神经元，即d＝32，则可得到输出的分数函数为：

Softmax函数层具体设定为：

Softmax函数是这样一种函数，它可以将前层的训练分数数组中的每一个元素转化为其指数与所有元素的指数的和的比值，以大大简化后续的运算。因为指数化相当于增强一个元素的大小特征，即使本来就大的数值更大，使本来就小的数值更小，因此能更快地逼近端点0和1。于是，我们利用softmax将所得分数映射为概率值，使之落在区间[0.0，1.0)之间，表达式为：

独热编码层具体设定为：

对于具有特定数值个取值的特征，那么在经过独热编码处理后，输出特征也将会转改特定数值个二元特征，每次只有一个激活。例如，我们已知的DNA序列特征种类数量为m，那么每一次输出都是一个长度为m的一维向量，且对应位置上的元素取值为1，其他位置上的元素取值为0。

反向传播层具体设定为：

前向传播之后的输出值要与目标值进行比较，得到预测误差之后，将误差反向传递至前面各个参数，以更新参数，直到参数接近训练集目标，达到收敛。

对于softmax映射，我们通常采取的分类目标函数为交叉熵(cross entropy)损失函数，表示为：

其中，L_i是已知类别的目标值。

将误差层层迭代往前更新，则可以得到这样的传播路径：

这样就依靠梯度下降方法完成了一次后向传播运算。

其中，预训练采用RNAcompete数据集。

据研究，人类基因组和许多其他真核生物的基因组编码数百个含有经典序列特异性RNA结合结构域(RNA-binding domains，简称RBD)以及许多其他非常规RNA结合蛋白(unconventional RNA binding proteins，简称ucRBP)的RNA结合蛋白(RNA-bindingproteins，简称RBPs)。

RNAcompete的实验室和数据处理方法是以前用来分析来自不同真核生物的数百个含RBD的RBP的RNA结合偏好的一种方法，还确定了两种人类ucRBP(NUDT21和CNBP)的RNA结合偏好。

为了取得更好的训练效果，因此训练数据集采用RNAcompete数据集。上述数据集由三部分组成：1.含有213130种独特的29至38nt的RNA序列文件sequences.tsv；2.含有与每条序列相应的模体分数文件targets.tsv；3.通过RNAcompete方法找到的模体集合文件motif。

可选的，获取待检测基因的序列特异性结果之后，还包括：

步骤204、将序列特异性结果进行分类；

其中，分类参数包括：真阳性、假阳性、真阴性、假阴性。

当提取了序列特异性之后，需要采取以下几种分类方法对预测结果进行分类：

真阳性(true positive，简称TP)，即正确地命中特征；

假阳性(false positive，简称FP)，即错误地命中特征；

真阴性(true negative，简称TN)，即正确地未命中特征；

假阴性(false negative，简称FN)，即错误地未命中特征。

步骤205、根据分类参数计算特异性曲线参数；

根据上述四种分类参数，定义真阳性率即敏感度为：

假阳性率即特异性为：

精度为：

式中，P为阳性率，N阴性率。

步骤206、根据特异性曲线参数建立特异性曲线。

利用上述数据，以1-特异性即1-FPR为横轴、敏感度TPR为Y轴绘制ROC曲线。

步骤207、将序列特异性结果与预先建立的特异性曲线进行比较；

引入AUC(area under the curve of ROC)值的概念，作为一种预测性能好坏的评价指标，它用于对ROC曲线与横坐标所围成区域的面积大小进行描述。一般地，AUC数值位于[0,1]区间内，AUC值域分类器的性能呈正相关性。

在模型训练阶段，由RNAcompete的实验数据可知共存在291种模体特征，而在模体预测的测试阶段，输出的模体序列共有244种，识别率为

我们得到了6130组RNA与特异蛋白质结合概率的数据，并与真实值(1为正常，0为变异)进行对比，利用SPSS画出卷积神经网络分类器的ROC曲线，得到如图3所示的ROC曲线。

可以看到得到基于卷积神经网络的分类模型AUC值为0.795，分类准确性较为良好。

步骤208、根据比较结果确定待检测基因的变异位点。

利用上述模型来检测新的模体特征已知的测试集时，可以有效地检测出其对应位置的输出特征是否与已知特征一致，若不一致则可以推断出该位置上发生了变异，即为变异位点。

实施例三

图4是本发明实施例三提供的基因变异位点检测装置。如图4所示，本实施例提供一种基因变异位点检测装置，包括：

数据映射矩阵生成模块401，用于根据待检测基因生成数据映射矩阵；

预处理模块402，用于采用预先训练的神经网络模型对数据映射矩阵进行预处理；

获取模块403，用于获取待检测基因的序列特异性结果；

比较模块404，用于将序列特异性结果与预先建立的特异性曲线进行比较；

确定模块405，用于根据比较结果确定待检测基因的变异位点。

本实施例的具体实现方案可以参见前述实施例一和实施例二记载的基因变异位点检测方法及方法实施例中的相关说明，此处不再赘述。

实施例四

图5是本发明实施例四提供的基因变异位点检测装置。如图5所示，本实施例提供一种基因变异位点检测设备，包括：

处理器501，以及与处理器相连接的存储器502；

存储器用于存储计算机程序；

处理器用于调用并执行存储器中的计算机程序，以执行如实施例一和实施例二的方法。

实施例五

本发明实施例提供一种存储介质，存储介质存储有计算机程序，计算机程序被处理器执行时，实现如基因变异位点检测方法中各个步骤。

本实施例的具体实现方案可以参见上述基因变异位点检测方法实施例中的相关说明，此处不再赘述。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行装置执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基因变异位点检测方法，其特征在于，包括：

根据待检测基因生成数据映射矩阵；

将所述序列特异性结果与预先建立的特异性曲线进行比较；

根据比较结果确定所述待检测基因的变异位点。

2.根据权利要求1所述的方法，其特征在于，所述根据待检测基因生成数据映射矩阵，包括：

提取所述待检测基因中的碱基序列；

确定所述碱基序列的类型；

构建与所述碱基序列类型对应的数据映射矩阵。

3.根据权利要求1所述的方法，其特征在于，所述获取所述待检测基因的序列特异性结果之后，还包括：

将所述序列特异性结果进行分类；

根据分类参数计算特异性曲线参数；

根据所述特异性曲线参数建立特异性曲线。

4.根据权利要求3所述的方法，其特征在于，所述分类参数包括：真阳性、假阳性、真阴性、假阴性。

5.根据权利要求1所述的方法，其特征在于，采用预先训练的神经网络模型将所述数据映射矩阵进行预处理，之前还包括：

对所述神经网络模型的校准参数进行初始化设定。

6.根据权利要求5所述的方法，其特征在于，所述校准参数包括卷积核尺寸、卷积核数量、初始化权重、学习率、学习势、处理规模。

7.根据权利要求1所述的方法，其特征在于，所述预先训练的神经网络模型，包括：卷积层；

池化层；

全连接层；

Softmax函数层；

独热编码层；

反向传播层。

8.一种基因变异位点检测装置，其特征在于，包括：

获取模块，用于获取所述待检测基因的序列特异性结果；

9.一种基因变异位点检测设备，其特征在于，包括：

处理器，以及与所述处理器相连接的存储器；

所述存储器用于存储计算机程序；

所述处理器用于调用并执行所述存储器中的所述计算机程序，以执行如权利要求1-7任一项所述的方法。

10.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时，实现如权利要求1-7任一项所述基因变异位点检测方法中各个步骤。