CN106021990B

CN106021990B - 一种将生物基因以特定的性状进行分类与自我识别的方法

Info

Publication number: CN106021990B
Application number: CN201610399253.XA
Authority: CN
Inventors: 闫磊; 谢清禄; 余孟春
Original assignee: Guangzhou Shizhen Information Technology Co Ltd
Current assignee: Guangzhou Shizhen Information Technology Co Ltd
Priority date: 2016-06-07
Filing date: 2016-06-07
Publication date: 2019-06-25
Anticipated expiration: 2036-06-07
Also published as: CN106021990A

Abstract

本发明涉及生物信息技术领域，具体涉及一种将生物基因以特定的性状进行分类与自我识别的方法，它采用如下的方法步骤；步骤一：Caffe深度学习框架运行环境的搭建；步骤二：生物基因信息数据的准备；步骤三：生物基因性状识别模型的建立；步骤四：生物基因性状识别模型的训练；步骤五：对未知性状基因信息进行识别；它采用深度学习算法，构建一个对生物基因信息识别并找出与对应性状之间联系的模型，然后使用这个模型对未知性状的基因信息进行识别，它具有能够更方便及智能的进行基因的对应性状分类，对未知性状的基因进行自我识别的优点。

Description

一种将生物基因以特定的性状进行分类与自我识别的方法

【技术领域】

本发明涉及生物信息技术领域，具体涉及一种将生物基因以特定的性状进行分类与自我识别的方法。

【背景技术】

人类基因组计划奠定了从基因切入研究疾病的基础，人们希望找到人类发病与基因之间的关系。全基因组关联研究(GWAS，Genome-Wide Association Study)的基本原理是在同层人群中选择满足一定统计学数量的病例组和对照组样本，比较全基因组范围内SNP位点在病例组与对照组中的频率差异，若某个SNP位点在病例组中出现的频率明显高于或低于对照组，则认为该SNP位点与复杂疾病存在某种关联。虽然，GWAS已经发现了很多与复杂疾病相关的SNP位点，但是GWAS仍然存在很多问题，其成果与人们的预期差距甚远。

在基因的间接识别法(Extrinsic Approach)中，人们利用已知的mRNA或蛋白质序列为线索在DNA序列中搜寻所对应的片段。由给定的mRNA序列确定唯一的作为转录源的DNA序列；而由给定的蛋白质序列，也可以由密码子反转确定一组可能的DNA序列。因此，在线索的提示下搜寻工作相对较为容易，搜寻算法的关键在于提高效率，并能够容忍由于测序不完整或者不精确所带来的误差。BLAST是目前以此为目的最广泛使用的软件之一。

BLAST(Basic Local Alignment Search Tool)是一套在DNA数据库或蛋白质数据库中进行相似性比较的分析工具。BLAST程序能迅速使目标基因序列与公开数据库进行相似性序列比较。BLAST采用一种局部的算法获得两个序列中具有相似性的序列，并且对一条或多条序列(可以是任何形式的序列)在一个或多个核酸或蛋白序列库中进行比对。然而，BLAST却也存在一定的局限性，并不能进行深度学下的依照对应性状进行基因分类和自我识别，而且对于大数据量的基因数据集进行智能化的对应性状分类和自我识别显得无能为力。

Caffe是一个清晰而高效的深度学习框架。它是纯粹的C++/CUDA架构，支持命令行、Python和MATLAB接口；可以在CPU和GPU直接无缝切换，用于研究机器视觉的开源卷积神经网络框架，并且主要应用于图像领域处理。它的特点是：快速搭建网络结构，代码可扩展，计算速度快等。利用Caffe开源深度学习框架，构建卷积神经网络学习模型，以生物基因数据信息进行推算，从而获得识别基因及其对应性状的模型，有助于更加高效的进行基因性状识别和自我分类。

【发明内容】

本发明的目的在于针对现有技术的缺陷和不足，提供一种结构简单，设计合理、使用方便的一种将生物基因以特定的性状进行分类与自我识别的方法，它采用深度学习算法，构建一个对生物基因信息识别并找出与对应性状之间联系的模型，然后使用这个模型对未知性状的基因信息进行识别，它具有能够更方便及智能的进行基因的对应性状分类，对未知性状的基因进行自我识别的优点。

本发明所述的一种将生物基因以特定的性状进行分类与自我识别的方法，它采用如下的技术方案：

步骤一：搭建一个适合Caffe深度学习运行的软硬件环境；

步骤二：生物基因信息数据的准备，使其适用于Caffe的训练数据，对原始基因信息进行预处理，预处理包括更改原始数据维数，统一到固定大小，并归一化；

步骤三：根据识别任务目标，采用深度学习算法构建一个适用于生物基因性状识别的模型；

步骤四：在Caffe运行环境上，使用准备的生物基因数据，按照基因性状识别模型描述文件和求解描述文件对所建立的识别模型进行训练，求解模型中各层的参数，达到预期性能停止训练并保存各层参数；

步骤五：利用建立的识别模型结合训练得到的模型参数对未知性状的基因信息进行识别。

进一步地，步骤一中搭建一个适合Caffe深度学习运行的软硬件环境如下：硬件为一台内存32GB，带一个内存为12GB的NVIDIA GeForce GTX Titan X独立显卡的服务器或更高配置；软件的操作系统为Ubuntu15.10，64位系统，以及Caffe依赖的其它第三方库。

进一步地，步骤二中准备的生物基因信息数据是经过二进制字节流表示和可视化图像转换后的基因信息，其基因信息数据以图像的格式表现；其次使用Caffe提供的convert_imageset工具将基因数据集转化为数据库文件，数据库文件为lmdb格式。

进一步地，使用Caffe提供的compute_image_mean命令对上面的数据库文件计算基因信息的均值，并将生成的数据拆分成训练数据集和测试数据集。

进一步地，步骤三中构建一个适用于生物基因性状识别的模型，该生物基因性状识别的模型是基于Caffe深度学习框架构建的卷积神经网络模型，主要包括卷积层、池化层、非线性层、全连接层和用于构建模型损失函数的softmax层，具体如下：

(3)卷积层：每一个卷积层由若干个权值共享的卷积核对整个图像进行卷积操作来提取特征，并将特征作为输出，卷积核表示为k_m×n,大小为m×n；卷积核移动步幅表示为s,填充大小表示为p，卷积操作用数学公式描述为：

其中，是l-1层网络第i个卷积核的输出，作为l层网络的输入，是l层第j个卷积核的输出，是l层第j个卷积核的参数，为l层对应卷积核的偏置参数；

(2)池化层：池化层是利用一个池化核对前一层卷积层的输出进行降采样，降采样是减小卷积层输出的维数，以降低模型参数规模，池化层用数学公式描述为：

其中，f_nonlinear是对池化层输出做非线性操作，是该池化层的核参数，是池化层对应的偏置参数。down(x)代表对输入进行降采样。

(3)非线性层：非线性层是对输入的数据逐元素进行非线性操作，以增加网络的复杂性；

(4)全连接层：全连接层是前一层网络与下一层网络每个神经元都进行连接，最后一个全连接层的输出个数与数据中类别个数相同，输出对应的是每一个类别标签；

(5)softmax层：softmax层是用来构建一个用于训练网络模型的目标函数，这个函数是一种评估模型输出类别与真实类别之间差别的度量。

进一步地，步骤四中：生物基因性状识别模型的训练，其特征是在Caffe运行环境上，使用准备的生物基因数据，按照基因性状识别模型描述文件和求解描述文件对所建立的识别模型进行训练，求解模型中各层的参数；在训练过程中，利用训练数据集采用梯度下降算法在每一个迭代过程中更新各层参数，并使用测试集对训练完的模型进行性能评估，达到预期性能停止训练并保存各层参数。

进一步地，步骤五中：利用建立的识别模型结合训练得到的模型参数对未知性状的基因信息进行识别，输入的未知性状的基因信息需要按照步骤B进行数据准备，将原始基因信息转化为适用于Caffe的输入数据。识别模型对输入数据的输出是一个归属于某一对应性状的概率数值，并认为概率最大的性状标签作为待识别基因对应的性状。

采用上述结构后，本发明有益效果为：本发明所述的一种将生物基因以特定的性状进行分类与自我识别的方法，它采用深度学习算法，构建一个对生物基因信息识别并找出与对应性状之间联系的模型，然后使用这个模型对未知性状的基因信息进行识别，它具有能够更方便及智能的进行基因的对应性状分类，对未知性状的基因进行自我识别的优点。

【附图说明】

此处所说明的附图是用来提供对本发明的进一步理解，构成本申请的一部分，但并不构成对本发明的不当限定，在附图中：

图1是本发明技术方案的实施流程图。

图2是本发明实施中生物基因信息数据的准备流程图。

图3是本发明实施中生物基因性状识别模型的网络结构；

图4是本发明实施中生物基因性状识别模型的各层网络参数表；

图5是本发明实施中生物基因性状识别模型训练流程图。

图6是本发明实施中生物基因性状识别模型对未知性状基因信息识别流程图；

【具体实施方式】

下面将结合附图以及具体实施例来详细说明本发明，其中的示意性实施例以及说明仅用来解释本发明，但并不作为对本发明的限定。

如图1-图6所示，本具体实施方式所述的一种将生物基因以特定的性状进行分类与自我识别的方法，它采用如下的技术方案：

步骤一：Caffe深度学习框架运行环境的搭建；

步骤二：生物基因信息数据的准备；

步骤三：生物基因性状识别模型的建立；

步骤四：生物基因性状识别模型的训练；

步骤五：对未知性状基因信息进行识别；

步骤一中：在于搭建一个适合Caffe深度学习运行的软硬件环境，硬件为一台内存32GB，带一个内存为12GB的NVIDIA GeForce GTX Titan X独立显卡的服务器或更高配置。软件的操作系统为Ubuntu15.10，64位系统，以及Caffe依赖的其它第三方库。

步骤二中：生物基因信息数据，是经过二进制字节流表示和可视化图像转换后的基因信息，其基因信息数据以图像的格式表现。

较佳地，步骤二的生物基因信息数据的准备是要使其适用于Caffe的训练数据。对原始基因信息进行预处理，预处理包括更改原始数据维数，统一到固定大小，并归一化。

使用Caffe提供的convert_imageset工具将基因数据集转化为数据库文件，数据库文件可以是leveldb或者lmdb，优选lmdb。

步骤三中：生物基因性状识别模型建立是根据识别任务目标，采用深度学习算法构建一个适用于生物基因性状识别的模型。

第一步，根据基因性状识别任务，确定基因性状识别模型的结构以及模型中每一层的超参数；第二步，编写适用于Caffe的模型描述文件和模型求解描述文件。

模型描述文件是一种适用于Caffe框架的用于描述基因性状识别模型结构以及网络参数的描述文件；模型求解描述文件是一种适用于Caffe框架的用于描述基因性状识别模型关于求解的描述文件。

步骤四中：是在Caffe运行环境上，使用准备的生物基因数据，按照基因性状识别模型描述文件和求解描述文件对所建立的识别模型进行训练，求解模型中各层的参数；在训练过程中，利用训练数据集采用梯度下降算法在每一个迭代过程中更新各层参数，并使用测试集对训练完的模型进行性能评估，达到预期性能停止训练并保存各层参数。

步骤五中：是利用建立的识别模型结合训练得到的模型参数对未知性状的基因信息进行识别；

输入的未知性状的基因信息需要按照步骤二进行数据准备，将原始基因信息转化为适用于Caffe的输入数据。识别模型对输入数据的输出是一个归属于某一对应性状的概率数值，并认为概率最大的性状标签作为待识别基因对应的性状。

本具体实施方式是基于Caffe深度学习框架，构建一个卷积神经网络的基因性状识别模型。在实施方式中，生物基因信息数据准备是将已知对应性状的基因信息处理成用于训练模型的样本数据。这里定义(X,Y)为样本数据,其中X代表样本数据中的基因信息，Y代表样本数据中的性状标签。

X＝(x₁,x₂,...,x_n),Y＝(y₁,y₂,...,y_n)

进一步地，x_i是用来描述基因信息的一种类似图像的二维矩阵，即x_i∈R^r×s；y_i是用来描述基因不同性状的标签的向量y_i∈R^n×1。同时定义识别模型为：

y＝f(x；θ)

这里，x是某一性状对应的基因信息，y是该基因对应的性状，θ是识别模型的参数。

卷积神经网络模型主要包括卷积层、池化层(下采样层)、非线性层以及用于构造监督学习模型的全连接层和用于构建模型损失函数的softmax识别器。基于卷积神经网络的识别的一般网络结构为若干个交替出现的卷积层、池化层，然后连接若干个全连接层，最后是一个用于识别的softmax层。每一层都有若干参数。

卷积层：每一个卷积层由若干个权值共享的卷积核对整个图像进行卷积操作来提取特征，并将特征作为输出。卷积层最主要的参数是卷积核的大小以及卷积核的个数。另外，卷积核参数还有卷积核移动的步幅和填充大小。卷积层输出与卷积核个数相同的特征图，这些特征图的大小由卷积核的大小和卷积核移动的步幅以及填充大小有关。

卷积核表示为k_m×n,大小为m×n。卷积核移动步幅表示为s,填充大小表示为p。卷积操作用数学公式描述为：

这里，是l-1层网络第i个卷积核的输出，作为l层网络的输入，是l层第j个卷积核的输出，是l层第j个卷积核的参数，为l层对应卷积核的偏置参数。f_nonlinear是对卷积数据进行非线性操作，这个函数一般为sigmoid，tanh或者ReLU。

池化层：池化层是利用一个池化核对前一层卷积层的输出进行降采样。所谓降采样就是减小卷积层输出的维数，以降低模型参数规模。池化层的主要参数是池化核的大小，池化核移动步幅以及池化方式。池化方式一般为最大池化和均值池化。最大池化是将池化核范围内最大的数值作为输出；均值池化是将池化核范围内所有数值的均值作为输出。池化层用数学公式描述为：

同样地，这里的f_nonlinear是对池化层输出做非线性操作，是该池化层的核参数，是池化层对应的偏置参数。down(x)代表对输入进行降采样。降采样方式一般有均值采样和最大化采样。

池化层的核表示为k_m×n,大小为m×n，移动步幅表示为s，填充大小表示为p。用MAX表示使用最大池化方式,AVE表示使用均值池化方式。

非线性层：非线性层是对输入的数据逐元素进行非线性操作，以增加网络的复杂性。常见的非线性操作有sigmoid、tanh、ReLU等。

sigmoid函数：

tanh函数：

ReLU函数：f(x)＝max(0,x)

全连接层：全连接层是前一层网络与下一层网路每个神经元都进行连接。最后一个全连接层的输出个数与数据中类别个数相同，也就是最后一个全连接层的输出对应的是每一个类别标签。这个全连接层用于构建一个有监督的识别。

softmax层：softmax层是用来构建一个用于训练网络模型的目标函数，这个函数是一种评估模型输出类别与真实类别之间差别的度量。

编写适用于Caffe的模型结构描述文件即是将上面确定的各层超参数依照Caffe描述文件的格式保存在描述文件里。

卷积神经网络模型分为前向过程和后向过程。前向过程是从输入数据，经过若干个卷积操作，池化操作，非线性操作，全连接，到输出一个类别标签，并与真实类别标签做比较得到一个误差，作为loss。后向过程是误差向后传播的过程，从得到的误差开始，反向逐层计算误差相对于全连接层，非线性层，池化层，卷积层各层参数的梯度。

卷积神经网络模型的训练就是根据误差后向传播，采用梯度下降算法，对各层的误差求梯度，沿着能使梯度下降最快的方向更新各层的参数，最终达到收敛。训练过程中，以多大的权重来调整权重更新就是所谓的学习速率。

以卷积操作为例，第l层第j个特征图的残差为：

其中，up(·)表示上述采样过程。

那么对应卷积层的偏置参数的梯度为：

对应卷积层的卷积核的梯度为：

这里的∑是后面一层网络传递过来的误差。

得到各层误差相对于参数的梯度之后，可以根据学习规则，对各层参数进行更新操作。

更新规则为：

这里，θ是包含该层权值和偏置的参数；η为学习速率；为误差相对于参数的梯度；J(θ)是关于参数的误差函数。

在每一次迭代训练中，对于每一个样本输入，首先按照前向过程，计算每一层网络的输出以及误差，并向后一层网络传递；在后向过程中，计算误差对每一层每一个参数的梯度，并向前一层网络传播，然后根据参数更新规则更新参数值，直到训练结束。

根据确定的卷积神经网络识别模型的网络结构以及各层网络的参数，编写适用于Caffe的网络结构描述文件。网络结构见图基于卷积神经网络的生物基因性状识别模型网络结构。各层参数见基于卷积神经网络的生物基因性状识别模型各层网络参数表。

对未知性状的基因信息进行数据预处理，并输入到已训练好的识别模型，模型输出该基因信息归属于某一性状的概率值，认为概率最大的性状标签作为待识别基因的对应性状，即为模型识别的结果。

本发明所述的一种将生物基因以特定的性状进行分类与自我识别的方法，它采用深度学习算法，构建一个对生物基因信息识别并找出与对应性状之间联系的模型，然后使用这个模型对未知性状的基因信息进行识别，它具有能够更方便及智能的进行基因的对应性状分类，对未知性状的基因进行自我识别的优点。

以上所述仅是本发明的较佳实施方式，故凡依本发明专利申请范围所述的构造、特征及原理所做的等效变化或修饰，均包括于本发明专利申请范围内。

Claims

1.一种将生物基因以特定的性状进行分类与自我识别的方法，其特征在于：它采用如下的技术方案：

步骤一：搭建一个适合Caffe深度学习运行的软硬件环境；

步骤二：生物基因信息数据的准备,使其适用于Caffe的训练数据,对原始基因信息进行预处理，预处理包括更改原始数据维数，统一到固定大小，并归一化；

2.根据权利要求1所述的一种将生物基因以特定的性状进行分类与自我识别的方法，其特征在于：步骤一中搭建一个适合Caffe深度学习运行的软硬件环境如下：硬件为一台内存32GB，带一个内存为12GB的NVIDIA GeForce GTX Titan X独立显卡的服务器或更高配置；软件的操作系统为Ubuntu15.10，64位系统，以及Caffe依赖的其它第三方库。

3.根据权利要求1所述的一种将生物基因以特定的性状进行分类与自我识别的方法，其特征在于：步骤二中准备的生物基因信息数据是经过二进制字节流表示和可视化图像转换后的基因信息，其基因信息数据以图像的格式表现；其次使用Caffe提供的convert_imageset工具将基因数据集转化为数据库文件，数据库文件为lmdb格式。

4.根据权利要求3所述的一种将生物基因以特定的性状进行分类与自我识别的方法，其特征在于：使用Caffe提供的compute_image_mean命令对上面的数据库文件计算基因信息的均值，并将生成的数据拆分成训练数据集和测试数据集。

5.根据权利要求1所述的一种将生物基因以特定的性状进行分类与自我识别的方法，其特征在于：步骤三中构建一个适用于生物基因性状识别的模型，该生物基因性状识别的模型是基于Caffe深度学习框架构建的卷积神经网络模型，主要包括卷积层、池化层、非线性层、全连接层和用于构建模型损失函数的softmax层，具体如下：

(1)卷积层：每一个卷积层由若干个权值共享的卷积核对整个图像进行卷积操作来提取特征，并将特征作为输出，卷积核表示为k_m×n,大小为m×n；卷积核移动步幅表示为s,填充大小表示为p，卷积操作用数学公式描述为：

其中，f_nonlinear是对池化层输出做非线性操作，是该池化层的核参数，是池化层对应的偏置参数。down(x)代表对输入进行降采样；

6.根据权利要求1所述的一种将生物基因以特定的性状进行分类与自我识别的方法，其特征在于：步骤四中：生物基因性状识别模型的训练，其特征是在Caffe运行环境上，使用准备的生物基因数据，按照基因性状识别模型描述文件和求解描述文件对所建立的识别模型进行训练，求解模型中各层的参数；在训练过程中，利用训练数据集采用梯度下降算法在每一个迭代过程中更新各层参数，并使用测试集对训练完的模型进行性能评估，达到预期性能停止训练并保存各层参数。

7.根据权利要求1所述的一种将生物基因以特定的性状进行分类与自我识别的方法，其特征在于：步骤五中：利用建立的识别模型结合训练得到的模型参数对未知性状的基因信息进行识别，输入的未知性状的基因信息需要按照步骤二进行数据准备，将原始基因信息转化为适用于Caffe的输入数据，识别模型对输入数据的输出是一个归属于某一对应性状的概率数值，并认为概率最大的性状标签作为待识别基因对应的性状。