CN110033041B - 一种基于深度学习的基因表达谱距离度量方法 - Google Patents
一种基于深度学习的基因表达谱距离度量方法 Download PDFInfo
- Publication number
- CN110033041B CN110033041B CN201910296276.1A CN201910296276A CN110033041B CN 110033041 B CN110033041 B CN 110033041B CN 201910296276 A CN201910296276 A CN 201910296276A CN 110033041 B CN110033041 B CN 110033041B
- Authority
- CN
- China
- Prior art keywords
- data
- network
- distance
- training
- gene expression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Image Analysis (AREA)
Abstract
本发明属于基因表达谱分类领域,公开了一种基于深度学习的基因表达谱距离度量方法,属于深度学习在生物大数据上的挖掘和应用。首先,设计了一种适用于基因特征度量学习的卷积神经网络模型来提取数据的特征,然后运用改进的余弦距离来计算数据之间的距离,最后通过分类算法的分类效果来衡量该方法的优良。该方法能够快速高效地度量出不同的基因表达谱之间的相似度,为后续的基因分类、聚类、差异性表达分析、化合物筛查等研究提供数据。相比较传统的基因富集方法,这种方法显著提高了数据之间的距离度量效果,并且可以有效的减少基因表达谱分析时候的人工干预,避免了常规深度网络易产生的过拟合现象,该方法有较强的可迁移性。
Description
技术领域:
本发明属于基因表达谱分类领域,更具体的,涉及深度学习在基因表达谱数据上的挖掘和应用,特别涉及一种基于深度学习的基因表达谱距离度量方法。
背景技术:
目前,随着生物技术的飞速发展,生物医药领域的实验手段和研究方法均发生了巨大的变革,呈现出“大数据”的趋势。其中,表达谱数据相似度比较可应用于比较正常和异常细胞中基因的表达量水平,帮助识别疾病相关基因和药物作用靶标,分析复杂疾病的致病机制,因此,对于基因表达谱的相似度研究逐渐成为研究热点,目前业界比较认可基因表达谱相似度计算方式是GSEA(Gene Set Enrichment Analysis,基因探针富集分析)。但GSEA是一种先验方法,前期需要大量的生物学实验来获得先期数据,而且受限于其本身复杂的计算过程,目前GSEA方法难以达到需求的计算速度和计算准确度,无法满足海量表达谱分析的目标,所以急需新的方法来计算表达谱之间的相似度。度量学习能够通过学习样本数据来自动产生合适的度量空间进而进行相似度计算,而与深度学习相结合的度量学习方法能够通过组合大量简单的、非线性的模型将原始数据逐层转变成更高层次的、更加抽象的表达,从而发现表达谱数据之间的复杂结构和隐含信息,是一种理想的表达谱数据相似度计算方法。卷积神经网络是深度学习理论的一种方法,它的权值共享网络结构降低了网络模型的复杂度,减少了权值的数量,使之更类似于生物神经网络,近年来,深度度量学习尤其是卷积度量学习在模式识别方面取得较大进展,对比文件1(Gao H,Zhuang L,Maaten L V D,et al,IEEE Conference on Computer Vision&Pattern Recognition,2017,Densely Connected Convolutional Networks)采用了不同于以往网络中残差结构的稠密连接结构,并通过实验证明其性能超过了其他网络模型,有更好的特征提取能力,但是网络的输入需要严格按照正方形矩阵进行,而且网络的效果和输入数据密切相关。对比文件2(Wen Y,Zhang K,Li Z,et al,Computer Vision,2016,A Discriminative FeatureLearning Approach for Deep Face Recognition)提出了CenterLoss损失函数,保证了类内特征距离尽可能的小,但类间的距离却没有考虑到。现有用于基因表达谱相似度计算的距离度量方法研究很不充分,而与深度学习相结合应用于基因表达谱数据测距的方法尚缺少研究。
发明内容:
本发明需要解决的技术问题是,充分发挥深度度量学习能准确获取数据的特征并能快速而有效地计算数据之间距离的优势,以解决传统方法在计算基因表达谱距离性能不好、时间开销大的问题。通过该方法能实现将深度度量方法应用于基因表达谱,来计算表达谱数据之间距离的目的。为了实现本发明的目的,通过以下技术方案来实现:
一种基于深度学习的基因表达谱距离度量方法,包括以下步骤:
步骤一:数据转换处理,包括以下步骤,
1.2.对正方形矩阵进行归一化和减均值数据预处理操作。
1.3.将不同类别的表达谱矩阵分别赋予不同的类别标签,并划分训练、验证和测试样本集。
步骤二:提取训练样本数据的高层次特征,包括以下步骤,
2.1.将训练样本集传入特征提取网络进行特征提取,其中,特征提取网络采用DenseNet基本结构搭建,并使用三个Dense block,每个Dense block里面包含16层卷积,压缩系数为0.5,模型增长率为12。
2.2.进行网络训练,网络训练是特征提取的关键步骤,网络训练过程中采用隐式度量学习的思路和随机梯度下降方式训练整个网络,网络训练过程中的参数是:
其中,J是损失,θ是网络参数,η是学习率,循环训练网络以拉大特征的类间距离减小类内距离,用以减少迭代次数而达到收敛状态。
2.4.通过特征提取网络获得样本数据的高层次特征。
步骤三:计算数据之间的距离,包括以下步骤,
3.1.接受步骤二中获得的高层次特征作为参数进行距离计算,距离计算网络基于Siamese网络构架组成,其中,Siamese结构有两个分支,两个分支结构相同且共享权值,并且两个分支结构中的卷积神经网络部分由DenseNet网络构成。
3.2.将测试数据传入网络,得到他们CenterLoss中已经定义好长度的高级特征表达,然后再用改进的余弦距离计算数据之间的距离,用以解决cosine相似度仅考虑向量维度方向上的相似而没考虑到各个维度具体表达值的缺点,改进的余弦距离计算方式为:
步骤四:检验所得距离的性能,将步骤三得到的距离和GSEA在同样本数据下得到的距离传入分类器中进行分类,得到两种方法的分类准确度,比较分类准确度高低,判定分类准确度高的方法获得的距离性能较好。
与现有的发明相比,本发明公开的方法结合了深度学习和度量学习的优势,网络模型能够快速训练达到收敛状态,在高效地提取基因表达谱数据的特征后,可以准确而迅速地计算出基因表达谱数据之间的距离。本方法能够克服传统方法GSEA的一些缺点:需要进行生物学实验进行验证、距离计算准确率低、时间开销太大。
附图说明:
图1为整个基因表达谱距离度量方法的技术流程图;
图2为特征提取网络:高层特征表达提取网络结构图;
图3为距离计算网络:表达谱距离度量网络结构图。
具体实施方式:
按照图1所示的流程,实施方式包含以下四个步骤:
步骤一:数据转换处理,包括以下步骤,
1.2.对正方形矩阵进行归一化和减均值数据预处理操作。
1.3.将不同类别的表达谱矩阵分别赋予不同的类别标签,并划分训练、验证和测试样本集。
步骤二:提取训练样本数据的高层次特征,包括以下步骤,
2.1.将训练样本集传入特征提取网络进行特征提取,其中,特征提取网络采用DenseNet基本结构搭建,并使用三个Dense block,每个Dense block里面包含16层卷积,压缩系数为0.5,模型增长率为12,特征提取网络结构如图2所示。
2.2.进行网络训练,网络训练是特征提取的关键步骤,网络训练过程中采用隐式度量学习的思路和随机梯度下降方式训练整个网络,网络训练过程中的参数是:
其中,J是损失,θ是网络参数,η是学习率,循环训练网络以拉大特征的类间距离减小类内距离,用以减少迭代次数而达到收敛状态。
2.4.通过特征提取网络获得样本数据的高层次特征。
步骤三:计算数据之间的距离,包括以下步骤
3.1.接受步骤二中获得的高层次特征作为参数进行距离计算,距离计算网络基于Siamese网络构架组成,其中,Siamese结构有两个分支,两个分支结构相同且共享权值,并且两个分支结构中的卷积神经网络部分由DenseNet网络构,距离度量网络结构如图3所示。
3.2.将测试数据传入网络,得到他们CenterLoss中已经定义好长度的高级特征表达,然后再用改进的余弦距离计算数据之间的距离,用以解决cosine相似度仅考虑向量维度方向上的相似而没考虑到各个维度具体表达值的缺点,改进的余弦距离计算方式为:
步骤四:检验所得距离的性能,将步骤三得到的距离和GSEA在同样本数据下得到的距离传入分类器中进行分类,得到两种方法的分类准确度,比较分类准确度高低,判定分类准确度高的方法获得的距离性能较好。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (1)
1.一种基于深度学习的基因表达谱距离度量方法,其特征在于,包括以下步骤:
步骤一:数据转换处理,包括以下步骤,
1.2.对正方形矩阵进行归一化和减均值数据预处理操作;
1.3.将不同类别的表达谱矩阵分别赋予不同的类别标签,并划分训练、验证和测试样本集;
步骤二:提取训练样本数据的高层次特征,包括以下步骤,
2.1.将训练样本集传入特征提取网络进行特征提取,其中,特征提取网络采用DenseNet基本结构搭建,并使用三个Dense block,每个Dense block里面包含16层卷积,压缩系数为0.5,模型增长率为12;
2.2.进行网络训练,网络训练是特征提取的关键步骤,网络训练过程中采用隐式度量学习的思路和随机梯度下降方式训练整个网络,网络训练过程中的参数是:
其中,J是损失,θ是网络参数,η是学习率,循环训练网络以拉大特征的类间距离减小类内距离,用以减少迭代次数而达到收敛状态;
2.4.通过特征提取网络获得样本数据的高层次特征;
步骤三:计算数据之间的距离,包括以下步骤,
3.1.接受步骤二中获得的高层次特征作为参数进行距离计算,距离计算网络基于Siamese网络构架组成,其中,Siamese结构有两个分支,两个分支结构相同且共享权值,并且两个分支结构中的卷积神经网络部分由DenseNet网络构成;
3.2.将测试数据传入网络,得到他们CenterLoss中已经定义好长度的高级特征表达,然后再用改进的余弦距离计算数据之间的距离,用以解决cosine相似度仅考虑向量维度方向上的相似而没考虑到各个维度具体表达值的缺点,改进的余弦距离计算方式为:
步骤四:检验所得距离的性能,将步骤三得到的距离和GSEA基因探针富集分析在同样本数据下得到的距离传入分类器中进行分类,得到两种方法的分类准确度,比较分类准确度高低,判定分类准确度高的方法获得的距离性能较好。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910296276.1A CN110033041B (zh) | 2019-04-13 | 2019-04-13 | 一种基于深度学习的基因表达谱距离度量方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910296276.1A CN110033041B (zh) | 2019-04-13 | 2019-04-13 | 一种基于深度学习的基因表达谱距离度量方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110033041A CN110033041A (zh) | 2019-07-19 |
CN110033041B true CN110033041B (zh) | 2022-05-03 |
Family
ID=67238179
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910296276.1A Active CN110033041B (zh) | 2019-04-13 | 2019-04-13 | 一种基于深度学习的基因表达谱距离度量方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110033041B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110533107B (zh) * | 2019-08-30 | 2020-11-13 | 中国科学院半导体研究所 | 梯度增强型Softmax分类器系统、训练信号产生方法及其应用 |
CN111027542A (zh) * | 2019-11-20 | 2020-04-17 | 天津大学 | 一种基于Faster RCNN算法改进的目标检测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003004739A (ja) * | 2001-06-26 | 2003-01-08 | Takara Bio Inc | 遺伝子発現プロファイル解析方法及び装置 |
CN101105841A (zh) * | 2007-02-12 | 2008-01-16 | 浙江大学 | 由大规模基因芯片表达谱数据构建基因调控亚网络的方法 |
KR20080086332A (ko) * | 2007-03-21 | 2008-09-25 | 한국전자통신연구원 | 유전자 어휘 분류체계를 이용한 유전자 발현 프로파일군집화 방법 및 그 장치 |
CN104463251A (zh) * | 2014-12-15 | 2015-03-25 | 江苏科技大学 | 基于集成极端学习机的肿瘤基因表达谱数据识别方法 |
CN108920900A (zh) * | 2018-06-21 | 2018-11-30 | 福州大学 | 基因表达谱数据的无监督极限学习机特征提取系统及方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7664328B2 (en) * | 2005-06-24 | 2010-02-16 | Siemens Corporation | Joint classification and subtype discovery in tumor diagnosis by gene expression profiling |
-
2019
- 2019-04-13 CN CN201910296276.1A patent/CN110033041B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003004739A (ja) * | 2001-06-26 | 2003-01-08 | Takara Bio Inc | 遺伝子発現プロファイル解析方法及び装置 |
CN101105841A (zh) * | 2007-02-12 | 2008-01-16 | 浙江大学 | 由大规模基因芯片表达谱数据构建基因调控亚网络的方法 |
KR20080086332A (ko) * | 2007-03-21 | 2008-09-25 | 한국전자통신연구원 | 유전자 어휘 분류체계를 이용한 유전자 발현 프로파일군집화 방법 및 그 장치 |
CN104463251A (zh) * | 2014-12-15 | 2015-03-25 | 江苏科技大学 | 基于集成极端学习机的肿瘤基因表达谱数据识别方法 |
CN108920900A (zh) * | 2018-06-21 | 2018-11-30 | 福州大学 | 基因表达谱数据的无监督极限学习机特征提取系统及方法 |
Non-Patent Citations (4)
Title |
---|
Densely Connected Convolutional Networks;Gao Huang et al.;《IEEE 》;20171231;第4700-4708页 * |
Lithology identification using an optimized KNN clustering method based on entropy-weighed cosine distance in Mesozoic strata of Gaoqing field,Jiyang depression;Xidong Wang et al.;《Journal of Petroleum Science and Engineering》;20180308;第157-174页 * |
paraGSEA: a scalable approach for large-scale gene expression profiling;Shaoliang Peng et al.;《Nucleic Acids Research》;20170731;第45卷(第17期);第1-11页 * |
基因表达谱数据分析方法研究及应用;李正军;《中国优秀硕士学位论文全文数据库 基础科学辑》;20170315(第03期);第1-55页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110033041A (zh) | 2019-07-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110533631B (zh) | 基于金字塔池化孪生网络的sar图像变化检测方法 | |
CN108388927B (zh) | 基于深度卷积孪生网络的小样本极化sar地物分类方法 | |
CN108171209A (zh) | 一种基于卷积神经网络进行度量学习的人脸年龄估计方法 | |
CN110334580A (zh) | 基于集成增量的动态权重组合的设备故障分类方法 | |
CN106934418B (zh) | 一种基于卷积递归网络的绝缘子红外诊断方法 | |
CN110033041B (zh) | 一种基于深度学习的基因表达谱距离度量方法 | |
CN110751644B (zh) | 道路表面裂纹检测方法 | |
CN112686093A (zh) | 一种基于ds证据理论的融合局部放电类型识别方法 | |
CN114612715A (zh) | 基于本地差分隐私的边缘联邦图像分类方法 | |
CN111126332A (zh) | 基于轮廓特征的跳频信号分类方法 | |
CN115580445A (zh) | 一种未知攻击入侵检测方法、装置和计算机可读存储介质 | |
CN111833310B (zh) | 一种基于神经网络架构搜索的表面缺陷分类方法 | |
CN113901448A (zh) | 基于卷积神经网络和轻量级梯度提升机的入侵检测方法 | |
CN114330516A (zh) | 基于多图引导神经网络模型的小样本徽景图像分类 | |
CN113225346A (zh) | 一种基于机器学习的网络运维态势评估方法 | |
CN110443303B (zh) | 基于图像分割和分类的煤岩显微组分智能识别方法 | |
CN112947080B (zh) | 一种基于场景参数变换的智能决策模型性能评估系统 | |
CN111222545A (zh) | 基于线性规划增量学习的图像分类方法 | |
CN114980122A (zh) | 一种小样本射频指纹智能识别系统与方法 | |
CN111061151B (zh) | 一种基于多元卷积神经网络的分布式能源状态监测方法 | |
CN112785479A (zh) | 一种基于少样本学习的图像隐形水印通用检测方法 | |
CN111222576A (zh) | 一种高分辨率遥感图像分类方法 | |
CN114124437B (zh) | 基于原型卷积网络的加密流量识别方法 | |
Hu et al. | Investigation of wind pressures on tall building under interference effects using machine learning techniques | |
CN113723482B (zh) | 基于多示例孪生网络的高光谱目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |