CN110033041B - 一种基于深度学习的基因表达谱距离度量方法 - Google Patents

一种基于深度学习的基因表达谱距离度量方法 Download PDF

Info

Publication number
CN110033041B
CN110033041B CN201910296276.1A CN201910296276A CN110033041B CN 110033041 B CN110033041 B CN 110033041B CN 201910296276 A CN201910296276 A CN 201910296276A CN 110033041 B CN110033041 B CN 110033041B
Authority
CN
China
Prior art keywords
data
network
distance
training
gene expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910296276.1A
Other languages
English (en)
Other versions
CN110033041A (zh
Inventor
彭绍亮
刘伟
李非
杨亚宁
李肯立
卢新国
张磊
毕夏安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN201910296276.1A priority Critical patent/CN110033041B/zh
Publication of CN110033041A publication Critical patent/CN110033041A/zh
Application granted granted Critical
Publication of CN110033041B publication Critical patent/CN110033041B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于基因表达谱分类领域,公开了一种基于深度学习的基因表达谱距离度量方法,属于深度学习在生物大数据上的挖掘和应用。首先,设计了一种适用于基因特征度量学习的卷积神经网络模型来提取数据的特征,然后运用改进的余弦距离来计算数据之间的距离,最后通过分类算法的分类效果来衡量该方法的优良。该方法能够快速高效地度量出不同的基因表达谱之间的相似度,为后续的基因分类、聚类、差异性表达分析、化合物筛查等研究提供数据。相比较传统的基因富集方法,这种方法显著提高了数据之间的距离度量效果,并且可以有效的减少基因表达谱分析时候的人工干预,避免了常规深度网络易产生的过拟合现象,该方法有较强的可迁移性。

Description

一种基于深度学习的基因表达谱距离度量方法
技术领域:
本发明属于基因表达谱分类领域,更具体的,涉及深度学习在基因表达谱数据上的挖掘和应用,特别涉及一种基于深度学习的基因表达谱距离度量方法。
背景技术:
目前,随着生物技术的飞速发展,生物医药领域的实验手段和研究方法均发生了巨大的变革,呈现出“大数据”的趋势。其中,表达谱数据相似度比较可应用于比较正常和异常细胞中基因的表达量水平,帮助识别疾病相关基因和药物作用靶标,分析复杂疾病的致病机制,因此,对于基因表达谱的相似度研究逐渐成为研究热点,目前业界比较认可基因表达谱相似度计算方式是GSEA(Gene Set Enrichment Analysis,基因探针富集分析)。但GSEA是一种先验方法,前期需要大量的生物学实验来获得先期数据,而且受限于其本身复杂的计算过程,目前GSEA方法难以达到需求的计算速度和计算准确度,无法满足海量表达谱分析的目标,所以急需新的方法来计算表达谱之间的相似度。度量学习能够通过学习样本数据来自动产生合适的度量空间进而进行相似度计算,而与深度学习相结合的度量学习方法能够通过组合大量简单的、非线性的模型将原始数据逐层转变成更高层次的、更加抽象的表达,从而发现表达谱数据之间的复杂结构和隐含信息,是一种理想的表达谱数据相似度计算方法。卷积神经网络是深度学习理论的一种方法,它的权值共享网络结构降低了网络模型的复杂度,减少了权值的数量,使之更类似于生物神经网络,近年来,深度度量学习尤其是卷积度量学习在模式识别方面取得较大进展,对比文件1(Gao H,Zhuang L,Maaten L V D,et al,IEEE Conference on Computer Vision&Pattern Recognition,2017,Densely Connected Convolutional Networks)采用了不同于以往网络中残差结构的稠密连接结构,并通过实验证明其性能超过了其他网络模型,有更好的特征提取能力,但是网络的输入需要严格按照正方形矩阵进行,而且网络的效果和输入数据密切相关。对比文件2(Wen Y,Zhang K,Li Z,et al,Computer Vision,2016,A Discriminative FeatureLearning Approach for Deep Face Recognition)提出了CenterLoss损失函数,保证了类内特征距离尽可能的小,但类间的距离却没有考虑到。现有用于基因表达谱相似度计算的距离度量方法研究很不充分,而与深度学习相结合应用于基因表达谱数据测距的方法尚缺少研究。
发明内容:
本发明需要解决的技术问题是,充分发挥深度度量学习能准确获取数据的特征并能快速而有效地计算数据之间距离的优势,以解决传统方法在计算基因表达谱距离性能不好、时间开销大的问题。通过该方法能实现将深度度量方法应用于基因表达谱,来计算表达谱数据之间距离的目的。为了实现本发明的目的,通过以下技术方案来实现:
一种基于深度学习的基因表达谱距离度量方法,包括以下步骤:
步骤一:数据转换处理,包括以下步骤,
1.1.将基因表达谱数据转换成正方形数据矩阵,正方形矩阵长度根据表达谱数据的维度来计算。具体计算方式是:将数据维度为N的样本,转换为x*x的正方形矩阵,其中x通过公式
Figure BDA0002026612740000021
获得,多出来的像素位置补齐为0。
1.2.对正方形矩阵进行归一化和减均值数据预处理操作。
1.3.将不同类别的表达谱矩阵分别赋予不同的类别标签,并划分训练、验证和测试样本集。
步骤二:提取训练样本数据的高层次特征,包括以下步骤,
2.1.将训练样本集传入特征提取网络进行特征提取,其中,特征提取网络采用DenseNet基本结构搭建,并使用三个Dense block,每个Dense block里面包含16层卷积,压缩系数为0.5,模型增长率为12。
2.2.进行网络训练,网络训练是特征提取的关键步骤,网络训练过程中采用隐式度量学习的思路和随机梯度下降方式训练整个网络,网络训练过程中的参数是:
Figure BDA0002026612740000031
其中,J是损失,θ是网络参数,η是学习率,循环训练网络以拉大特征的类间距离减小类内距离,用以减少迭代次数而达到收敛状态。
2.3.训练完成后获得最小损失函数,最小损失函数
Figure BDA0002026612740000032
由CenterLoss和SoftmaxLoss结合而成:
Figure BDA0002026612740000033
其中,m是类别数量,n是训练的批次大小,yi是单个类别,
Figure BDA0002026612740000034
Figure BDA0002026612740000035
是权重值,
Figure BDA0002026612740000036
和bj是偏差值,xi是传入的训练值,
Figure BDA0002026612740000037
是每个类别的聚类中心,λ是训练中学习到的参数。
2.4.通过特征提取网络获得样本数据的高层次特征。
步骤三:计算数据之间的距离,包括以下步骤,
3.1.接受步骤二中获得的高层次特征作为参数进行距离计算,距离计算网络基于Siamese网络构架组成,其中,Siamese结构有两个分支,两个分支结构相同且共享权值,并且两个分支结构中的卷积神经网络部分由DenseNet网络构成。
3.2.将测试数据传入网络,得到他们CenterLoss中已经定义好长度的高级特征表达,然后再用改进的余弦距离计算数据之间的距离,用以解决cosine相似度仅考虑向量维度方向上的相似而没考虑到各个维度具体表达值的缺点,改进的余弦距离计算方式为:
Figure BDA0002026612740000038
其中,
Figure BDA0002026612740000039
A和B是样本集,Sim(A,B)是样本之间的距离,
Figure BDA00020266127400000310
是A*中的单个样本,
Figure BDA00020266127400000311
是B*中的单个样本,max是样本数据的最大值,min是样本数据的最小值,mean是所有样本的均值。
步骤四:检验所得距离的性能,将步骤三得到的距离和GSEA在同样本数据下得到的距离传入分类器中进行分类,得到两种方法的分类准确度,比较分类准确度高低,判定分类准确度高的方法获得的距离性能较好。
与现有的发明相比,本发明公开的方法结合了深度学习和度量学习的优势,网络模型能够快速训练达到收敛状态,在高效地提取基因表达谱数据的特征后,可以准确而迅速地计算出基因表达谱数据之间的距离。本方法能够克服传统方法GSEA的一些缺点:需要进行生物学实验进行验证、距离计算准确率低、时间开销太大。
附图说明:
图1为整个基因表达谱距离度量方法的技术流程图;
图2为特征提取网络:高层特征表达提取网络结构图;
图3为距离计算网络:表达谱距离度量网络结构图。
具体实施方式:
按照图1所示的流程,实施方式包含以下四个步骤:
步骤一:数据转换处理,包括以下步骤,
1.1.将基因表达谱数据转换成正方形数据矩阵,正方形矩阵长度根据表达谱数据的维度来计算。具体计算方式是:将数据维度为N的样本,转换为x*x的正方形矩阵,其中x通过公式
Figure BDA0002026612740000041
获得,多出来的像素位置补齐为0。
1.2.对正方形矩阵进行归一化和减均值数据预处理操作。
1.3.将不同类别的表达谱矩阵分别赋予不同的类别标签,并划分训练、验证和测试样本集。
步骤二:提取训练样本数据的高层次特征,包括以下步骤,
2.1.将训练样本集传入特征提取网络进行特征提取,其中,特征提取网络采用DenseNet基本结构搭建,并使用三个Dense block,每个Dense block里面包含16层卷积,压缩系数为0.5,模型增长率为12,特征提取网络结构如图2所示。
2.2.进行网络训练,网络训练是特征提取的关键步骤,网络训练过程中采用隐式度量学习的思路和随机梯度下降方式训练整个网络,网络训练过程中的参数是:
Figure BDA0002026612740000051
其中,J是损失,θ是网络参数,η是学习率,循环训练网络以拉大特征的类间距离减小类内距离,用以减少迭代次数而达到收敛状态。
2.3.训练完成后获得最小损失函数,最小损失函数
Figure BDA0002026612740000052
由CenterLoss和SoftmaxLoss结合而成:
Figure BDA0002026612740000053
其中,m是类别数量,n是训练的批次大小,yi是单个类别,
Figure BDA0002026612740000054
Figure BDA0002026612740000055
是权重值,
Figure BDA0002026612740000058
和bj是偏差值,xi是传入的训练值,
Figure BDA0002026612740000059
是每个类别的聚类中心,λ是训练中学习到的参数。
2.4.通过特征提取网络获得样本数据的高层次特征。
步骤三:计算数据之间的距离,包括以下步骤
3.1.接受步骤二中获得的高层次特征作为参数进行距离计算,距离计算网络基于Siamese网络构架组成,其中,Siamese结构有两个分支,两个分支结构相同且共享权值,并且两个分支结构中的卷积神经网络部分由DenseNet网络构,距离度量网络结构如图3所示。
3.2.将测试数据传入网络,得到他们CenterLoss中已经定义好长度的高级特征表达,然后再用改进的余弦距离计算数据之间的距离,用以解决cosine相似度仅考虑向量维度方向上的相似而没考虑到各个维度具体表达值的缺点,改进的余弦距离计算方式为:
Figure BDA0002026612740000056
其中,
Figure BDA0002026612740000057
A和B是样本集,Sim(A,B)是样本之间的距离,
Figure BDA0002026612740000061
是A*中的单个样本,
Figure BDA0002026612740000062
是B*中的单个样本,max是样本数据的最大值,min是样本数据的最小值,mean是所有样本的均值。
步骤四:检验所得距离的性能,将步骤三得到的距离和GSEA在同样本数据下得到的距离传入分类器中进行分类,得到两种方法的分类准确度,比较分类准确度高低,判定分类准确度高的方法获得的距离性能较好。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (1)

1.一种基于深度学习的基因表达谱距离度量方法,其特征在于,包括以下步骤:
步骤一:数据转换处理,包括以下步骤,
1.1.将基因表达谱数据转换成正方形数据矩阵,正方形矩阵长度根据表达谱数据的维度来计算,具体计算方式是:将数据维度为N的样本,转换为x*x的正方形矩阵,其中x通过公式
Figure FDA0003529555790000011
获得,多出来的像素位置补齐为0;
1.2.对正方形矩阵进行归一化和减均值数据预处理操作;
1.3.将不同类别的表达谱矩阵分别赋予不同的类别标签,并划分训练、验证和测试样本集;
步骤二:提取训练样本数据的高层次特征,包括以下步骤,
2.1.将训练样本集传入特征提取网络进行特征提取,其中,特征提取网络采用DenseNet基本结构搭建,并使用三个Dense block,每个Dense block里面包含16层卷积,压缩系数为0.5,模型增长率为12;
2.2.进行网络训练,网络训练是特征提取的关键步骤,网络训练过程中采用隐式度量学习的思路和随机梯度下降方式训练整个网络,网络训练过程中的参数是:
Figure FDA0003529555790000012
其中,J是损失,θ是网络参数,η是学习率,循环训练网络以拉大特征的类间距离减小类内距离,用以减少迭代次数而达到收敛状态;
2.3.训练完成后获得最小损失函数,最小损失函数
Figure FDA0003529555790000013
由CenterLoss和SoftmaxLoss结合而成:
Figure FDA0003529555790000014
其中,m是类别数量,n是训练的批次大小,yi是单个类别,
Figure FDA0003529555790000015
Figure FDA0003529555790000016
是权重值,
Figure FDA0003529555790000017
和bj是偏差值,xi是传入的训练值,
Figure FDA0003529555790000018
是每个类别的聚类中心,λ是训练中学习到的参数;
2.4.通过特征提取网络获得样本数据的高层次特征;
步骤三:计算数据之间的距离,包括以下步骤,
3.1.接受步骤二中获得的高层次特征作为参数进行距离计算,距离计算网络基于Siamese网络构架组成,其中,Siamese结构有两个分支,两个分支结构相同且共享权值,并且两个分支结构中的卷积神经网络部分由DenseNet网络构成;
3.2.将测试数据传入网络,得到他们CenterLoss中已经定义好长度的高级特征表达,然后再用改进的余弦距离计算数据之间的距离,用以解决cosine相似度仅考虑向量维度方向上的相似而没考虑到各个维度具体表达值的缺点,改进的余弦距离计算方式为:
Figure FDA0003529555790000021
其中,
Figure FDA0003529555790000022
A和B是样本集,Sim(A,B)是样本之间的距离,
Figure FDA0003529555790000023
是A*中的单个样本,
Figure FDA0003529555790000024
是B*中的单个样本,max是样本数据的最大值,min是样本数据的最小值,mean是所有样本的均值;
步骤四:检验所得距离的性能,将步骤三得到的距离和GSEA基因探针富集分析在同样本数据下得到的距离传入分类器中进行分类,得到两种方法的分类准确度,比较分类准确度高低,判定分类准确度高的方法获得的距离性能较好。
CN201910296276.1A 2019-04-13 2019-04-13 一种基于深度学习的基因表达谱距离度量方法 Active CN110033041B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910296276.1A CN110033041B (zh) 2019-04-13 2019-04-13 一种基于深度学习的基因表达谱距离度量方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910296276.1A CN110033041B (zh) 2019-04-13 2019-04-13 一种基于深度学习的基因表达谱距离度量方法

Publications (2)

Publication Number Publication Date
CN110033041A CN110033041A (zh) 2019-07-19
CN110033041B true CN110033041B (zh) 2022-05-03

Family

ID=67238179

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910296276.1A Active CN110033041B (zh) 2019-04-13 2019-04-13 一种基于深度学习的基因表达谱距离度量方法

Country Status (1)

Country Link
CN (1) CN110033041B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110533107B (zh) * 2019-08-30 2020-11-13 中国科学院半导体研究所 梯度增强型Softmax分类器系统、训练信号产生方法及其应用
CN111027542A (zh) * 2019-11-20 2020-04-17 天津大学 一种基于Faster RCNN算法改进的目标检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003004739A (ja) * 2001-06-26 2003-01-08 Takara Bio Inc 遺伝子発現プロファイル解析方法及び装置
CN101105841A (zh) * 2007-02-12 2008-01-16 浙江大学 由大规模基因芯片表达谱数据构建基因调控亚网络的方法
KR20080086332A (ko) * 2007-03-21 2008-09-25 한국전자통신연구원 유전자 어휘 분류체계를 이용한 유전자 발현 프로파일군집화 방법 및 그 장치
CN104463251A (zh) * 2014-12-15 2015-03-25 江苏科技大学 基于集成极端学习机的肿瘤基因表达谱数据识别方法
CN108920900A (zh) * 2018-06-21 2018-11-30 福州大学 基因表达谱数据的无监督极限学习机特征提取系统及方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7664328B2 (en) * 2005-06-24 2010-02-16 Siemens Corporation Joint classification and subtype discovery in tumor diagnosis by gene expression profiling

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003004739A (ja) * 2001-06-26 2003-01-08 Takara Bio Inc 遺伝子発現プロファイル解析方法及び装置
CN101105841A (zh) * 2007-02-12 2008-01-16 浙江大学 由大规模基因芯片表达谱数据构建基因调控亚网络的方法
KR20080086332A (ko) * 2007-03-21 2008-09-25 한국전자통신연구원 유전자 어휘 분류체계를 이용한 유전자 발현 프로파일군집화 방법 및 그 장치
CN104463251A (zh) * 2014-12-15 2015-03-25 江苏科技大学 基于集成极端学习机的肿瘤基因表达谱数据识别方法
CN108920900A (zh) * 2018-06-21 2018-11-30 福州大学 基因表达谱数据的无监督极限学习机特征提取系统及方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Densely Connected Convolutional Networks;Gao Huang et al.;《IEEE 》;20171231;第4700-4708页 *
Lithology identification using an optimized KNN clustering method based on entropy-weighed cosine distance in Mesozoic strata of Gaoqing field,Jiyang depression;Xidong Wang et al.;《Journal of Petroleum Science and Engineering》;20180308;第157-174页 *
paraGSEA: a scalable approach for large-scale gene expression profiling;Shaoliang Peng et al.;《Nucleic Acids Research》;20170731;第45卷(第17期);第1-11页 *
基因表达谱数据分析方法研究及应用;李正军;《中国优秀硕士学位论文全文数据库 基础科学辑》;20170315(第03期);第1-55页 *

Also Published As

Publication number Publication date
CN110033041A (zh) 2019-07-19

Similar Documents

Publication Publication Date Title
CN110533631B (zh) 基于金字塔池化孪生网络的sar图像变化检测方法
CN108388927B (zh) 基于深度卷积孪生网络的小样本极化sar地物分类方法
CN108171209A (zh) 一种基于卷积神经网络进行度量学习的人脸年龄估计方法
CN110334580A (zh) 基于集成增量的动态权重组合的设备故障分类方法
CN106934418B (zh) 一种基于卷积递归网络的绝缘子红外诊断方法
CN110033041B (zh) 一种基于深度学习的基因表达谱距离度量方法
CN110751644B (zh) 道路表面裂纹检测方法
CN112686093A (zh) 一种基于ds证据理论的融合局部放电类型识别方法
CN114612715A (zh) 基于本地差分隐私的边缘联邦图像分类方法
CN111126332A (zh) 基于轮廓特征的跳频信号分类方法
CN115580445A (zh) 一种未知攻击入侵检测方法、装置和计算机可读存储介质
CN111833310B (zh) 一种基于神经网络架构搜索的表面缺陷分类方法
CN113901448A (zh) 基于卷积神经网络和轻量级梯度提升机的入侵检测方法
CN114330516A (zh) 基于多图引导神经网络模型的小样本徽景图像分类
CN113225346A (zh) 一种基于机器学习的网络运维态势评估方法
CN110443303B (zh) 基于图像分割和分类的煤岩显微组分智能识别方法
CN112947080B (zh) 一种基于场景参数变换的智能决策模型性能评估系统
CN111222545A (zh) 基于线性规划增量学习的图像分类方法
CN114980122A (zh) 一种小样本射频指纹智能识别系统与方法
CN111061151B (zh) 一种基于多元卷积神经网络的分布式能源状态监测方法
CN112785479A (zh) 一种基于少样本学习的图像隐形水印通用检测方法
CN111222576A (zh) 一种高分辨率遥感图像分类方法
CN114124437B (zh) 基于原型卷积网络的加密流量识别方法
Hu et al. Investigation of wind pressures on tall building under interference effects using machine learning techniques
CN113723482B (zh) 基于多示例孪生网络的高光谱目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant