CN106021990B - 一种将生物基因以特定的性状进行分类与自我识别的方法 - Google Patents

一种将生物基因以特定的性状进行分类与自我识别的方法 Download PDF

Info

Publication number
CN106021990B
CN106021990B CN201610399253.XA CN201610399253A CN106021990B CN 106021990 B CN106021990 B CN 106021990B CN 201610399253 A CN201610399253 A CN 201610399253A CN 106021990 B CN106021990 B CN 106021990B
Authority
CN
China
Prior art keywords
layer
gene
model
character
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610399253.XA
Other languages
English (en)
Other versions
CN106021990A (zh
Inventor
闫磊
谢清禄
余孟春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Shizhen Information Technology Co Ltd
Original Assignee
Guangzhou Shizhen Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Shizhen Information Technology Co Ltd filed Critical Guangzhou Shizhen Information Technology Co Ltd
Priority to CN201610399253.XA priority Critical patent/CN106021990B/zh
Publication of CN106021990A publication Critical patent/CN106021990A/zh
Application granted granted Critical
Publication of CN106021990B publication Critical patent/CN106021990B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及生物信息技术领域,具体涉及一种将生物基因以特定的性状进行分类与自我识别的方法,它采用如下的方法步骤;步骤一:Caffe深度学习框架运行环境的搭建;步骤二:生物基因信息数据的准备;步骤三:生物基因性状识别模型的建立;步骤四:生物基因性状识别模型的训练;步骤五:对未知性状基因信息进行识别;它采用深度学习算法,构建一个对生物基因信息识别并找出与对应性状之间联系的模型,然后使用这个模型对未知性状的基因信息进行识别,它具有能够更方便及智能的进行基因的对应性状分类,对未知性状的基因进行自我识别的优点。

Description

一种将生物基因以特定的性状进行分类与自我识别的方法
【技术领域】
本发明涉及生物信息技术领域,具体涉及一种将生物基因以特定的性状进行分类与自我识别的方法。
【背景技术】
人类基因组计划奠定了从基因切入研究疾病的基础,人们希望找到人类发病与基因之间的关系。全基因组关联研究(GWAS,Genome-Wide Association Study)的基本原理是在同层人群中选择满足一定统计学数量的病例组和对照组样本,比较全基因组范围内SNP位点在病例组与对照组中的频率差异,若某个SNP位点在病例组中出现的频率明显高于或低于对照组,则认为该SNP位点与复杂疾病存在某种关联。虽然,GWAS已经发现了很多与复杂疾病相关的SNP位点,但是GWAS仍然存在很多问题,其成果与人们的预期差距甚远。
在基因的间接识别法(Extrinsic Approach)中,人们利用已知的mRNA或蛋白质序列为线索在DNA序列中搜寻所对应的片段。由给定的mRNA序列确定唯一的作为转录源的DNA序列;而由给定的蛋白质序列,也可以由密码子反转确定一组可能的DNA序列。因此,在线索的提示下搜寻工作相对较为容易,搜寻算法的关键在于提高效率,并能够容忍由于测序不完整或者不精确所带来的误差。BLAST是目前以此为目的最广泛使用的软件之一。
BLAST(Basic Local Alignment Search Tool)是一套在DNA数据库或蛋白质数据库中进行相似性比较的分析工具。BLAST程序能迅速使目标基因序列与公开数据库进行相似性序列比较。BLAST采用一种局部的算法获得两个序列中具有相似性的序列,并且对一条或多条序列(可以是任何形式的序列)在一个或多个核酸或蛋白序列库中进行比对。然而,BLAST却也存在一定的局限性,并不能进行深度学下的依照对应性状进行基因分类和自我识别,而且对于大数据量的基因数据集进行智能化的对应性状分类和自我识别显得无能为力。
Caffe是一个清晰而高效的深度学习框架。它是纯粹的C++/CUDA架构,支持命令行、Python和MATLAB接口;可以在CPU和GPU直接无缝切换,用于研究机器视觉的开源卷积神经网络框架,并且主要应用于图像领域处理。它的特点是:快速搭建网络结构,代码可扩展,计算速度快等。利用Caffe开源深度学习框架,构建卷积神经网络学习模型,以生物基因数据信息进行推算,从而获得识别基因及其对应性状的模型,有助于更加高效的进行基因性状识别和自我分类。
【发明内容】
本发明的目的在于针对现有技术的缺陷和不足,提供一种结构简单,设计合理、使用方便的一种将生物基因以特定的性状进行分类与自我识别的方法,它采用深度学习算法,构建一个对生物基因信息识别并找出与对应性状之间联系的模型,然后使用这个模型对未知性状的基因信息进行识别,它具有能够更方便及智能的进行基因的对应性状分类,对未知性状的基因进行自我识别的优点。
本发明所述的一种将生物基因以特定的性状进行分类与自我识别的方法,它采用如下的技术方案:
步骤一:搭建一个适合Caffe深度学习运行的软硬件环境;
步骤二:生物基因信息数据的准备,使其适用于Caffe的训练数据,对原始基因信息进行预处理,预处理包括更改原始数据维数,统一到固定大小,并归一化;
步骤三:根据识别任务目标,采用深度学习算法构建一个适用于生物基因性状识别的模型;
步骤四:在Caffe运行环境上,使用准备的生物基因数据,按照基因性状识别模型描述文件和求解描述文件对所建立的识别模型进行训练,求解模型中各层的参数,达到预期性能停止训练并保存各层参数;
步骤五:利用建立的识别模型结合训练得到的模型参数对未知性状的基因信息进行识别。
进一步地,步骤一中搭建一个适合Caffe深度学习运行的软硬件环境如下:硬件为一台内存32GB,带一个内存为12GB的NVIDIA GeForce GTX Titan X独立显卡的服务器或更高配置;软件的操作系统为Ubuntu15.10,64位系统,以及Caffe依赖的其它第三方库。
进一步地,步骤二中准备的生物基因信息数据是经过二进制字节流表示和可视化图像转换后的基因信息,其基因信息数据以图像的格式表现;其次使用Caffe提供的convert_imageset工具将基因数据集转化为数据库文件,数据库文件为lmdb格式。
进一步地,使用Caffe提供的compute_image_mean命令对上面的数据库文件计算基因信息的均值,并将生成的数据拆分成训练数据集和测试数据集。
进一步地,步骤三中构建一个适用于生物基因性状识别的模型,该生物基因性状识别的模型是基于Caffe深度学习框架构建的卷积神经网络模型,主要包括卷积层、池化层、非线性层、全连接层和用于构建模型损失函数的softmax层,具体如下:
(3)卷积层:每一个卷积层由若干个权值共享的卷积核对整个图像进行卷积操作来提取特征,并将特征作为输出,卷积核表示为km×n,大小为m×n;卷积核移动步幅表示为s,填充大小表示为p,卷积操作用数学公式描述为:
其中,是l-1层网络第i个卷积核的输出,作为l层网络的输入,是l层第j个卷积核的输出,是l层第j个卷积核的参数,为l层对应卷积核的偏置参数;
(2)池化层:池化层是利用一个池化核对前一层卷积层的输出进行降采样,降采样是减小卷积层输出的维数,以降低模型参数规模,池化层用数学公式描述为:
其中,fnonlinear是对池化层输出做非线性操作,是该池化层的核参数,是池化层对应的偏置参数。down(x)代表对输入进行降采样。
(3)非线性层:非线性层是对输入的数据逐元素进行非线性操作,以增加网络的复杂性;
(4)全连接层:全连接层是前一层网络与下一层网络每个神经元都进行连接,最后一个全连接层的输出个数与数据中类别个数相同,输出对应的是每一个类别标签;
(5)softmax层:softmax层是用来构建一个用于训练网络模型的目标函数,这个函数是一种评估模型输出类别与真实类别之间差别的度量。
进一步地,步骤四中:生物基因性状识别模型的训练,其特征是在Caffe运行环境上,使用准备的生物基因数据,按照基因性状识别模型描述文件和求解描述文件对所建立的识别模型进行训练,求解模型中各层的参数;在训练过程中,利用训练数据集采用梯度下降算法在每一个迭代过程中更新各层参数,并使用测试集对训练完的模型进行性能评估,达到预期性能停止训练并保存各层参数。
进一步地,步骤五中:利用建立的识别模型结合训练得到的模型参数对未知性状的基因信息进行识别,输入的未知性状的基因信息需要按照步骤B进行数据准备,将原始基因信息转化为适用于Caffe的输入数据。识别模型对输入数据的输出是一个归属于某一对应性状的概率数值,并认为概率最大的性状标签作为待识别基因对应的性状。
采用上述结构后,本发明有益效果为:本发明所述的一种将生物基因以特定的性状进行分类与自我识别的方法,它采用深度学习算法,构建一个对生物基因信息识别并找出与对应性状之间联系的模型,然后使用这个模型对未知性状的基因信息进行识别,它具有能够更方便及智能的进行基因的对应性状分类,对未知性状的基因进行自我识别的优点。
【附图说明】
此处所说明的附图是用来提供对本发明的进一步理解,构成本申请的一部分,但并不构成对本发明的不当限定,在附图中:
图1是本发明技术方案的实施流程图。
图2是本发明实施中生物基因信息数据的准备流程图。
图3是本发明实施中生物基因性状识别模型的网络结构;
图4是本发明实施中生物基因性状识别模型的各层网络参数表;
图5是本发明实施中生物基因性状识别模型训练流程图。
图6是本发明实施中生物基因性状识别模型对未知性状基因信息识别流程图;
【具体实施方式】
下面将结合附图以及具体实施例来详细说明本发明,其中的示意性实施例以及说明仅用来解释本发明,但并不作为对本发明的限定。
如图1-图6所示,本具体实施方式所述的一种将生物基因以特定的性状进行分类与自我识别的方法,它采用如下的技术方案:
步骤一:Caffe深度学习框架运行环境的搭建;
步骤二:生物基因信息数据的准备;
步骤三:生物基因性状识别模型的建立;
步骤四:生物基因性状识别模型的训练;
步骤五:对未知性状基因信息进行识别;
步骤一中:在于搭建一个适合Caffe深度学习运行的软硬件环境,硬件为一台内存32GB,带一个内存为12GB的NVIDIA GeForce GTX Titan X独立显卡的服务器或更高配置。软件的操作系统为Ubuntu15.10,64位系统,以及Caffe依赖的其它第三方库。
步骤二中:生物基因信息数据,是经过二进制字节流表示和可视化图像转换后的基因信息,其基因信息数据以图像的格式表现。
较佳地,步骤二的生物基因信息数据的准备是要使其适用于Caffe的训练数据。对原始基因信息进行预处理,预处理包括更改原始数据维数,统一到固定大小,并归一化。
使用Caffe提供的convert_imageset工具将基因数据集转化为数据库文件,数据库文件可以是leveldb或者lmdb,优选lmdb。
进一步地,使用Caffe提供的compute_image_mean命令对上面的数据库文件计算基因信息的均值,并将生成的数据拆分成训练数据集和测试数据集。
步骤三中:生物基因性状识别模型建立是根据识别任务目标,采用深度学习算法构建一个适用于生物基因性状识别的模型。
第一步,根据基因性状识别任务,确定基因性状识别模型的结构以及模型中每一层的超参数;第二步,编写适用于Caffe的模型描述文件和模型求解描述文件。
模型描述文件是一种适用于Caffe框架的用于描述基因性状识别模型结构以及网络参数的描述文件;模型求解描述文件是一种适用于Caffe框架的用于描述基因性状识别模型关于求解的描述文件。
步骤四中:是在Caffe运行环境上,使用准备的生物基因数据,按照基因性状识别模型描述文件和求解描述文件对所建立的识别模型进行训练,求解模型中各层的参数;在训练过程中,利用训练数据集采用梯度下降算法在每一个迭代过程中更新各层参数,并使用测试集对训练完的模型进行性能评估,达到预期性能停止训练并保存各层参数。
步骤五中:是利用建立的识别模型结合训练得到的模型参数对未知性状的基因信息进行识别;
输入的未知性状的基因信息需要按照步骤二进行数据准备,将原始基因信息转化为适用于Caffe的输入数据。识别模型对输入数据的输出是一个归属于某一对应性状的概率数值,并认为概率最大的性状标签作为待识别基因对应的性状。
本具体实施方式是基于Caffe深度学习框架,构建一个卷积神经网络的基因性状识别模型。在实施方式中,生物基因信息数据准备是将已知对应性状的基因信息处理成用于训练模型的样本数据。这里定义(X,Y)为样本数据,其中X代表样本数据中的基因信息,Y代表样本数据中的性状标签。
X=(x1,x2,...,xn),Y=(y1,y2,...,yn)
进一步地,xi是用来描述基因信息的一种类似图像的二维矩阵,即xi∈Rr×s;yi是用来描述基因不同性状的标签的向量yi∈Rn×1。同时定义识别模型为:
y=f(x;θ)
这里,x是某一性状对应的基因信息,y是该基因对应的性状,θ是识别模型的参数。
卷积神经网络模型主要包括卷积层、池化层(下采样层)、非线性层以及用于构造监督学习模型的全连接层和用于构建模型损失函数的softmax识别器。基于卷积神经网络的识别的一般网络结构为若干个交替出现的卷积层、池化层,然后连接若干个全连接层,最后是一个用于识别的softmax层。每一层都有若干参数。
卷积层:每一个卷积层由若干个权值共享的卷积核对整个图像进行卷积操作来提取特征,并将特征作为输出。卷积层最主要的参数是卷积核的大小以及卷积核的个数。另外,卷积核参数还有卷积核移动的步幅和填充大小。卷积层输出与卷积核个数相同的特征图,这些特征图的大小由卷积核的大小和卷积核移动的步幅以及填充大小有关。
卷积核表示为km×n,大小为m×n。卷积核移动步幅表示为s,填充大小表示为p。卷积操作用数学公式描述为:
这里,是l-1层网络第i个卷积核的输出,作为l层网络的输入,是l层第j个卷积核的输出,是l层第j个卷积核的参数,为l层对应卷积核的偏置参数。fnonlinear是对卷积数据进行非线性操作,这个函数一般为sigmoid,tanh或者ReLU。
池化层:池化层是利用一个池化核对前一层卷积层的输出进行降采样。所谓降采样就是减小卷积层输出的维数,以降低模型参数规模。池化层的主要参数是池化核的大小,池化核移动步幅以及池化方式。池化方式一般为最大池化和均值池化。最大池化是将池化核范围内最大的数值作为输出;均值池化是将池化核范围内所有数值的均值作为输出。池化层用数学公式描述为:
同样地,这里的fnonlinear是对池化层输出做非线性操作,是该池化层的核参数,是池化层对应的偏置参数。down(x)代表对输入进行降采样。降采样方式一般有均值采样和最大化采样。
池化层的核表示为km×n,大小为m×n,移动步幅表示为s,填充大小表示为p。用MAX表示使用最大池化方式,AVE表示使用均值池化方式。
非线性层:非线性层是对输入的数据逐元素进行非线性操作,以增加网络的复杂性。常见的非线性操作有sigmoid、tanh、ReLU等。
sigmoid函数:
tanh函数:
ReLU函数:f(x)=max(0,x)
全连接层:全连接层是前一层网络与下一层网路每个神经元都进行连接。最后一个全连接层的输出个数与数据中类别个数相同,也就是最后一个全连接层的输出对应的是每一个类别标签。这个全连接层用于构建一个有监督的识别。
softmax层:softmax层是用来构建一个用于训练网络模型的目标函数,这个函数是一种评估模型输出类别与真实类别之间差别的度量。
编写适用于Caffe的模型结构描述文件即是将上面确定的各层超参数依照Caffe描述文件的格式保存在描述文件里。
卷积神经网络模型分为前向过程和后向过程。前向过程是从输入数据,经过若干个卷积操作,池化操作,非线性操作,全连接,到输出一个类别标签,并与真实类别标签做比较得到一个误差,作为loss。后向过程是误差向后传播的过程,从得到的误差开始,反向逐层计算误差相对于全连接层,非线性层,池化层,卷积层各层参数的梯度。
卷积神经网络模型的训练就是根据误差后向传播,采用梯度下降算法,对各层的误差求梯度,沿着能使梯度下降最快的方向更新各层的参数,最终达到收敛。训练过程中,以多大的权重来调整权重更新就是所谓的学习速率。
以卷积操作为例,第l层第j个特征图的残差为:
其中,up(·)表示上述采样过程。
那么对应卷积层的偏置参数的梯度为:
对应卷积层的卷积核的梯度为:
这里的∑是后面一层网络传递过来的误差。
得到各层误差相对于参数的梯度之后,可以根据学习规则,对各层参数进行更新操作。
更新规则为:
这里,θ是包含该层权值和偏置的参数;η为学习速率;为误差相对于参数的梯度;J(θ)是关于参数的误差函数。
在每一次迭代训练中,对于每一个样本输入,首先按照前向过程,计算每一层网络的输出以及误差,并向后一层网络传递;在后向过程中,计算误差对每一层每一个参数的梯度,并向前一层网络传播,然后根据参数更新规则更新参数值,直到训练结束。
根据确定的卷积神经网络识别模型的网络结构以及各层网络的参数,编写适用于Caffe的网络结构描述文件。网络结构见图基于卷积神经网络的生物基因性状识别模型网络结构。各层参数见基于卷积神经网络的生物基因性状识别模型各层网络参数表。
对未知性状的基因信息进行数据预处理,并输入到已训练好的识别模型,模型输出该基因信息归属于某一性状的概率值,认为概率最大的性状标签作为待识别基因的对应性状,即为模型识别的结果。
本发明所述的一种将生物基因以特定的性状进行分类与自我识别的方法,它采用深度学习算法,构建一个对生物基因信息识别并找出与对应性状之间联系的模型,然后使用这个模型对未知性状的基因信息进行识别,它具有能够更方便及智能的进行基因的对应性状分类,对未知性状的基因进行自我识别的优点。
以上所述仅是本发明的较佳实施方式,故凡依本发明专利申请范围所述的构造、特征及原理所做的等效变化或修饰,均包括于本发明专利申请范围内。

Claims (7)

1.一种将生物基因以特定的性状进行分类与自我识别的方法,其特征在于:它采用如下的技术方案:
步骤一:搭建一个适合Caffe深度学习运行的软硬件环境;
步骤二:生物基因信息数据的准备,使其适用于Caffe的训练数据,对原始基因信息进行预处理,预处理包括更改原始数据维数,统一到固定大小,并归一化;
步骤三:根据识别任务目标,采用深度学习算法构建一个适用于生物基因性状识别的模型;
步骤四:在Caffe运行环境上,使用准备的生物基因数据,按照基因性状识别模型描述文件和求解描述文件对所建立的识别模型进行训练,求解模型中各层的参数,达到预期性能停止训练并保存各层参数;
步骤五:利用建立的识别模型结合训练得到的模型参数对未知性状的基因信息进行识别。
2.根据权利要求1所述的一种将生物基因以特定的性状进行分类与自我识别的方法,其特征在于:步骤一中搭建一个适合Caffe深度学习运行的软硬件环境如下:硬件为一台内存32GB,带一个内存为12GB的NVIDIA GeForce GTX Titan X独立显卡的服务器或更高配置;软件的操作系统为Ubuntu15.10,64位系统,以及Caffe依赖的其它第三方库。
3.根据权利要求1所述的一种将生物基因以特定的性状进行分类与自我识别的方法,其特征在于:步骤二中准备的生物基因信息数据是经过二进制字节流表示和可视化图像转换后的基因信息,其基因信息数据以图像的格式表现;其次使用Caffe提供的convert_imageset工具将基因数据集转化为数据库文件,数据库文件为lmdb格式。
4.根据权利要求3所述的一种将生物基因以特定的性状进行分类与自我识别的方法,其特征在于:使用Caffe提供的compute_image_mean命令对上面的数据库文件计算基因信息的均值,并将生成的数据拆分成训练数据集和测试数据集。
5.根据权利要求1所述的一种将生物基因以特定的性状进行分类与自我识别的方法,其特征在于:步骤三中构建一个适用于生物基因性状识别的模型,该生物基因性状识别的模型是基于Caffe深度学习框架构建的卷积神经网络模型,主要包括卷积层、池化层、非线性层、全连接层和用于构建模型损失函数的softmax层,具体如下:
(1)卷积层:每一个卷积层由若干个权值共享的卷积核对整个图像进行卷积操作来提取特征,并将特征作为输出,卷积核表示为km×n,大小为m×n;卷积核移动步幅表示为s,填充大小表示为p,卷积操作用数学公式描述为:
其中,是l-1层网络第i个卷积核的输出,作为l层网络的输入,是l层第j个卷积核的输出,是l层第j个卷积核的参数,为l层对应卷积核的偏置参数;
(2)池化层:池化层是利用一个池化核对前一层卷积层的输出进行降采样,降采样是减小卷积层输出的维数,以降低模型参数规模,池化层用数学公式描述为:
其中,fnonlinear是对池化层输出做非线性操作,是该池化层的核参数,是池化层对应的偏置参数。down(x)代表对输入进行降采样;
(3)非线性层:非线性层是对输入的数据逐元素进行非线性操作,以增加网络的复杂性;
(4)全连接层:全连接层是前一层网络与下一层网络每个神经元都进行连接,最后一个全连接层的输出个数与数据中类别个数相同,输出对应的是每一个类别标签;
(5)softmax层:softmax层是用来构建一个用于训练网络模型的目标函数,这个函数是一种评估模型输出类别与真实类别之间差别的度量。
6.根据权利要求1所述的一种将生物基因以特定的性状进行分类与自我识别的方法,其特征在于:步骤四中:生物基因性状识别模型的训练,其特征是在Caffe运行环境上,使用准备的生物基因数据,按照基因性状识别模型描述文件和求解描述文件对所建立的识别模型进行训练,求解模型中各层的参数;在训练过程中,利用训练数据集采用梯度下降算法在每一个迭代过程中更新各层参数,并使用测试集对训练完的模型进行性能评估,达到预期性能停止训练并保存各层参数。
7.根据权利要求1所述的一种将生物基因以特定的性状进行分类与自我识别的方法,其特征在于:步骤五中:利用建立的识别模型结合训练得到的模型参数对未知性状的基因信息进行识别,输入的未知性状的基因信息需要按照步骤二进行数据准备,将原始基因信息转化为适用于Caffe的输入数据,识别模型对输入数据的输出是一个归属于某一对应性状的概率数值,并认为概率最大的性状标签作为待识别基因对应的性状。
CN201610399253.XA 2016-06-07 2016-06-07 一种将生物基因以特定的性状进行分类与自我识别的方法 Active CN106021990B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610399253.XA CN106021990B (zh) 2016-06-07 2016-06-07 一种将生物基因以特定的性状进行分类与自我识别的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610399253.XA CN106021990B (zh) 2016-06-07 2016-06-07 一种将生物基因以特定的性状进行分类与自我识别的方法

Publications (2)

Publication Number Publication Date
CN106021990A CN106021990A (zh) 2016-10-12
CN106021990B true CN106021990B (zh) 2019-06-25

Family

ID=57090722

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610399253.XA Active CN106021990B (zh) 2016-06-07 2016-06-07 一种将生物基因以特定的性状进行分类与自我识别的方法

Country Status (1)

Country Link
CN (1) CN106021990B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874898B (zh) * 2017-04-08 2021-03-30 复旦大学 基于深度卷积神经网络模型的大规模人脸识别方法
CN107506370A (zh) * 2017-07-07 2017-12-22 大圣科技股份有限公司 多媒体数据深度挖掘方法、存储介质及电子设备
CN107491736A (zh) * 2017-07-20 2017-12-19 重庆邮电大学 一种基于卷积神经网络的路面附着系数辨识方法
CN108171769A (zh) * 2018-01-15 2018-06-15 成都睿码科技有限责任公司 一种基于dna的序列的人脸模型生成方法及人脸生成方法
CN108416190A (zh) * 2018-02-11 2018-08-17 广州市碳码科技有限责任公司 基于深度学习的肿瘤早期筛查方法、装置、设备及介质
CN110400597A (zh) * 2018-04-23 2019-11-01 成都二十三魔方生物科技有限公司 一种基于深度学习的基因型预测方法
CN109781732A (zh) * 2019-03-08 2019-05-21 江西憶源多媒体科技有限公司 一种微小物检测并分类计数的方法
CN110070914B (zh) * 2019-03-15 2020-07-03 崔大超 一种基因序列识别方法、系统和计算机可读存储介质
CN111243658B (zh) * 2020-01-07 2022-07-22 西南大学 一种基于深度学习的生物分子网络构建与优化方法
CN112229989A (zh) * 2020-10-19 2021-01-15 广州吉源生物科技有限公司 一种gpu技术的生物样本识别设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103824054A (zh) * 2014-02-17 2014-05-28 北京旷视科技有限公司 一种基于级联深度神经网络的人脸属性识别方法
CN104293892A (zh) * 2013-07-16 2015-01-21 北京林业大学 检测核基因组中与表型形状相关基因的方法
US20150036889A1 (en) * 2013-08-02 2015-02-05 CRIXlabs, Inc. Method and System for Predicting Spatial and Temporal Distributions of Therapeutic Substance Carriers
CN104573731A (zh) * 2015-02-06 2015-04-29 厦门大学 基于卷积神经网络的快速目标检测方法
CN104850836A (zh) * 2015-05-15 2015-08-19 浙江大学 基于深度卷积神经网络的害虫图像自动识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104293892A (zh) * 2013-07-16 2015-01-21 北京林业大学 检测核基因组中与表型形状相关基因的方法
US20150036889A1 (en) * 2013-08-02 2015-02-05 CRIXlabs, Inc. Method and System for Predicting Spatial and Temporal Distributions of Therapeutic Substance Carriers
CN103824054A (zh) * 2014-02-17 2014-05-28 北京旷视科技有限公司 一种基于级联深度神经网络的人脸属性识别方法
CN104573731A (zh) * 2015-02-06 2015-04-29 厦门大学 基于卷积神经网络的快速目标检测方法
CN104850836A (zh) * 2015-05-15 2015-08-19 浙江大学 基于深度卷积神经网络的害虫图像自动识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
《DeepSentiBank:Visual Sentiment Concept Classification with Deep Convolutional Neural Networks》;Tao Chen,et al.;《Computer Vision and Pattern Recognition》;20141031;第1-7页 *
《TensorFlow:Biology"s Gateway to Deep Learning?》;Ladislav Rampasek,et al.;《Cell Systems 2》;20160127;第2卷(第1期);第12-14页 *
《基于卷积神经网络的深度学习算法与应用研究》;陈先昌;《中国优秀硕士学位论文全文数据库 信息科技辑》;20140915(第9期);第I140-127页 *
《生物医学数据分析中的深度学习方法应用》;李渊,等;《生物化学与生物物理进展》;20160531;第43卷(第5期);第472-483页 *

Also Published As

Publication number Publication date
CN106021990A (zh) 2016-10-12

Similar Documents

Publication Publication Date Title
CN106021990B (zh) 一种将生物基因以特定的性状进行分类与自我识别的方法
Baymurzina et al. A review of neural architecture search
CN110689920B (zh) 一种基于深度学习的蛋白质-配体结合位点预测方法
Yang et al. Self-paced balance learning for clinical skin disease recognition
CN105320961A (zh) 基于卷积神经网络和支持向量机的手写数字识别方法
CN113590799B (zh) 一种基于多视角推理的弱监督知识图谱问答方法
CN106096327B (zh) 基于Torch监督式深度学习的基因性状识别方法
CN109727637B (zh) 基于混合蛙跳算法识别关键蛋白质的方法
CN115270007B (zh) 一种基于混合图神经网络的poi推荐方法及系统
CN116386899A (zh) 基于图学习的药物疾病关联关系预测方法及相关设备
CN117611974B (zh) 基于多种群交替进化神经结构搜索的图像识别方法及系统
Khorashadizade et al. An intelligent feature selection method using binary teaching-learning based optimization algorithm and ANN
Babu et al. A simplex method-based bacterial colony optimization algorithm for data clustering analysis
CN115985503B (zh) 基于集成学习的癌症预测系统
CN112508183A (zh) 用于图像分类的单纯形神经网络的构建方法及装置
CN116978464A (zh) 数据处理方法、装置、设备以及介质
Yan et al. ASMEvoNAS: Adaptive segmented multi-objective evolutionary network architecture search
CN115206423A (zh) 基于标签指导的蛋白质作用关系预测方法
CN115472291A (zh) 基于改进樽海鞘优化bp神经网络的食管鳞癌生存预测方法
CN108595910A (zh) 一种基于多样性指标的群体蛋白质构象空间优化方法
CN115019878A (zh) 一种基于图表示和深度学习的药物发现方法
CN110348323A (zh) 一种基于神经网络优化的穿戴式设备手势识别方法
Shi et al. Semi-supervised learning protein complexes from protein interaction networks
CN117976047B (zh) 基于深度学习的关键蛋白质预测方法
Sarwar et al. Innovative Computational Moulding Approach for Genomics

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: 510670 17 / F, building 3, Yunsheng Science Park, No. 11, puyuzhong Road, Huangpu District, Guangzhou City, Guangdong Province

Patentee after: GUANGZHOU MELUX INFORMATION TECHNOLOGY Co.,Ltd.

Address before: No.205-7, 79 Ruihe Road, Guangzhou Economic and Technological Development Zone, Guangdong 510665

Patentee before: GUANGZHOU MELUX INFORMATION TECHNOLOGY Co.,Ltd.

PP01 Preservation of patent right
PP01 Preservation of patent right

Effective date of registration: 20231120

Granted publication date: 20190625

PD01 Discharge of preservation of patent
PD01 Discharge of preservation of patent

Date of cancellation: 20231219

Granted publication date: 20190625