CN110033041A - 一种基于深度学习的基因表达谱距离度量方法 - Google Patents

一种基于深度学习的基因表达谱距离度量方法 Download PDF

Info

Publication number
CN110033041A
CN110033041A CN201910296276.1A CN201910296276A CN110033041A CN 110033041 A CN110033041 A CN 110033041A CN 201910296276 A CN201910296276 A CN 201910296276A CN 110033041 A CN110033041 A CN 110033041A
Authority
CN
China
Prior art keywords
distance
data
network
training
gene expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910296276.1A
Other languages
English (en)
Other versions
CN110033041B (zh
Inventor
彭绍亮
刘伟
李非
杨亚宁
李肯立
卢新国
张磊
毕夏安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN201910296276.1A priority Critical patent/CN110033041B/zh
Publication of CN110033041A publication Critical patent/CN110033041A/zh
Application granted granted Critical
Publication of CN110033041B publication Critical patent/CN110033041B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于基因表达谱分类领域,公开了一种基于深度学习的基因表达谱距离度量方法,属于深度学习在生物大数据上的挖掘和应用。首先,设计了一种适用于基因特征度量学习的卷积神经网络模型来提取数据的特征,然后运用改进的余弦距离来计算数据之间的距离,最后通过分类算法的分类效果来衡量该方法的优良。该方法能够快速高效地度量出不同的基因表达谱之间的相似度,为后续的基因分类、聚类、差异性表达分析、化合物筛查等研究提供数据。相比较传统的基因富集方法,这种方法显著提高了数据之间的距离度量效果,并且可以有效的减少基因表达谱分析时候的人工干预,避免了常规深度网络易产生的过拟合现象,该方法有较强的可迁移性。

Description

一种基于深度学习的基因表达谱距离度量方法
技术领域:
本发明属于基因表达谱分类领域,更具体的,涉及深度学习在基因表达谱数据上的挖掘和应用,特别涉及一种基于深度学习的基因表达谱距离度量方法。
背景技术:
目前,随着生物技术的飞速发展,生物医药领域的实验手段和研究方法均发生了巨大的变革,呈现出“大数据”的趋势。其中,表达谱数据相似度比较可应用于比较正常和异常细胞中基因的表达量水平,帮助识别疾病相关基因和药物作用靶标,分析复杂疾病的致病机制,因此,对于基因表达谱的相似度研究逐渐成为研究热点,目前业界比较认可基因表达谱相似度计算方式是GSEA(Gene Set Enrichment Analysis,基因探针富集分析)。但GSEA是一种先验方法,前期需要大量的生物学实验来获得先期数据,而且受限于其本身复杂的计算过程,目前GSEA方法难以达到需求的计算速度和计算准确度,无法满足海量表达谱分析的目标,所以急需新的方法来计算表达谱之间的相似度。度量学习能够通过学习样本数据来自动产生合适的度量空间进而进行相似度计算,而与深度学习相结合的度量学习方法能够通过组合大量简单的、非线性的模型将原始数据逐层转变成更高层次的、更加抽象的表达,从而发现表达谱数据之间的复杂结构和隐含信息,是一种理想的表达谱数据相似度计算方法。卷积神经网络是深度学习理论的一种方法,它的权值共享网络结构降低了网络模型的复杂度,减少了权值的数量,使之更类似于生物神经网络,近年来,深度度量学习尤其是卷积度量学习在模式识别方面取得较大进展,对比文件1(Gao H,Zhuang L,Maaten L V D,et al,IEEE Conference on Computer Vision&Pattern Recognition,2017,Densely Connected Convolutional Networks)采用了不同于以往网络中残差结构的稠密连接结构,并通过实验证明其性能超过了其他网络模型,有更好的特征提取能力,但是网络的输入需要严格按照正方形矩阵进行,而且网络的效果和输入数据密切相关。对比文件2(Wen Y,Zhang K,Li Z,et al,Computer Vision,2016,A Discriminative FeatureLearning Approach for Deep Face Recognition) 提出了CenterLoss损失函数,保证了类内特征距离尽可能的小,但类间的距离却没有考虑到。现有用于基因表达谱相似度计算的距离度量方法研究很不充分,而与深度学习相结合应用于基因表达谱数据测距的方法尚缺少研究。
发明内容:
本发明需要解决的技术问题是,充分发挥深度度量学习能准确获取数据的特征并能快速而有效地计算数据之间距离的优势,以解决传统方法在计算基因表达谱距离性能不好、时间开销大的问题。通过该方法能实现将深度度量方法应用于基因表达谱,来计算表达谱数据之间距离的目的。为了实现本发明的目的,通过以下技术方案来实现:
一种基于深度学习的基因表达谱距离度量方法,包括以下步骤:
步骤一:数据转换处理,包括以下步骤,
1.1.将基因表达谱数据转换成正方形数据矩阵,正方形矩阵长度根据表达谱数据的维度来计算。具体计算方式是:将数据维度为N的样本,转换为x*x的正方形矩阵,其中x通过公式获得,多出来的像素位置补齐为0。
1.2.对正方形矩阵进行归一化和减均值数据预处理操作。
1.3.将不同类别的表达谱矩阵分别赋予不同的类别标签,并划分训练、验证和测试样本集。
步骤二:提取训练样本数据的高层次特征,包括以下步骤,
2.1.将训练样本集传入特征提取网络进行特征提取,其中,特征提取网络采用DenseNet 基本结构搭建,并使用三个Dense block,每个Dense block里面包含16层卷积,压缩系数为0.5,模型增长率为12。
2.2.进行网络训练,网络训练是特征提取的关键步骤,网络训练过程中采用隐式度量学习的思路和随机梯度下降方式训练整个网络,网络训练过程中的参数是:
其中,J是损失,θ是网络参数,η是学习率,循环训练网络以拉大特征的类间距离减小类内距离,用以减少迭代次数而达到收敛状态。
2.3.训练完成后获得最小损失函数,最小损失函数由CenterLoss和SoftmaxLoss结合而成:
其中,m是类别数量,n是训练的批次大小,yi是单个类别,是权重值,和bj是偏差值,xi是传入的训练值,是每个类别的聚类中心,λ是训练中学习到的参数。
2.4.通过特征提取网络获得样本数据的高层次特征。
步骤三:计算数据之间的距离,包括以下步骤,
3.1.接受步骤二中获得的高层次特征作为参数进行距离计算,距离计算网络基于Siamese 网络构架组成,其中,Siamese结构有两个分支,两个分支结构相同且共享权值,并且两个分支结构中的卷积神经网络部分由DenseNet网络构成。
3.2.将测试数据传入网络,得到他们CenterLoss中已经定义好长度的高级特征表达,然后再用改进的余弦距离计算数据之间的距离,用以解决cosine相似度仅考虑向量维度方向上的相似而没考虑到各个维度具体表达值的缺点,改进的余弦距离计算方式为:
其中,A和B是样本集,Sim(A,B)是样本之间的距离,是A*中的单个样本,是B*中的单个样本,max是样本数据的最大值,min是样本数据的最小值,mean是所有样本的均值。
步骤四:检验所得距离的性能,将步骤三得到的距离和GSEA在同样本数据下得到的距离传入分类器中进行分类,得到两种方法的分类准确度,比较分类准确度高低,判定分类准确度高的方法获得的距离性能较好。
与现有的发明相比,本发明公开的方法结合了深度学习和度量学习的优势,网络模型能够快速训练达到收敛状态,在高效地提取基因表达谱数据的特征后,可以准确而迅速地计算出基因表达谱数据之间的距离。本方法能够克服传统方法GSEA的一些缺点:需要进行生物学实验进行验证、距离计算准确率低、时间开销太大。
附图说明:
图1为整个基因表达谱距离度量方法的技术流程图;
图2为特征提取网络:高层特征表达提取网络结构图;
图3为距离计算网络:表达谱距离度量网络结构图。
具体实施方式:
按照图1所示的流程,实施方式包含以下四个步骤:
步骤一:数据转换处理,包括以下步骤,
1.1.将基因表达谱数据转换成正方形数据矩阵,正方形矩阵长度根据表达谱数据的维度来计算。具体计算方式是:将数据维度为N的样本,转换为x*x的正方形矩阵,其中x通过公式获得,多出来的像素位置补齐为0。
1.2.对正方形矩阵进行归一化和减均值数据预处理操作。
1.3.将不同类别的表达谱矩阵分别赋予不同的类别标签,并划分训练、验证和测试样本集。
步骤二:提取训练样本数据的高层次特征,包括以下步骤,
2.1.将训练样本集传入特征提取网络进行特征提取,其中,特征提取网络采用DenseNet 基本结构搭建,并使用三个Dense block,每个Dense block里面包含16层卷积,压缩系数为0.5,模型增长率为12,特征提取网络结构如图2所示。
2.2.进行网络训练,网络训练是特征提取的关键步骤,网络训练过程中采用隐式度量学习的思路和随机梯度下降方式训练整个网络,网络训练过程中的参数是:
其中,J是损失,θ是网络参数,η是学习率,循环训练网络以拉大特征的类间距离减小类内距离,用以减少迭代次数而达到收敛状态。
2.3.训练完成后获得最小损失函数,最小损失函数由CenterLoss和SoftmaxLoss结合而成:
其中,m是类别数量,n是训练的批次大小,yi是单个类别,是权重值,和bj是偏差值,xi是传入的训练值,是每个类别的聚类中心,λ是训练中学习到的参数。
2.4.通过特征提取网络获得样本数据的高层次特征。
步骤三:计算数据之间的距离,包括以下步骤
3.1.接受步骤二中获得的高层次特征作为参数进行距离计算,距离计算网络基于Siamese 网络构架组成,其中,Siamese结构有两个分支,两个分支结构相同且共享权值,并且两个分支结构中的卷积神经网络部分由DenseNet网络构,距离度量网络结构如图3所示。
3.2.将测试数据传入网络,得到他们CenterLoss中已经定义好长度的高级特征表达,然后再用改进的余弦距离计算数据之间的距离,用以解决cosine相似度仅考虑向量维度方向上的相似而没考虑到各个维度具体表达值的缺点,改进的余弦距离计算方式为:
其中,A和B是样本集,Sim(A,B)是样本之间的距离,是A*中的单个样本,是B*中的单个样本,max是样本数据的最大值,min是样本数据的最小值,mean是所有样本的均值。
步骤四:检验所得距离的性能,将步骤三得到的距离和GSEA在同样本数据下得到的距离传入分类器中进行分类,得到两种方法的分类准确度,比较分类准确度高低,判定分类准确度高的方法获得的距离性能较好。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (1)

1.一种基于深度学习的基因表达谱距离度量方法,其特征在于,包括以下步骤:
步骤一:数据转换处理,包括以下步骤,
1.1.将基因表达谱数据转换成正方形数据矩阵,正方形矩阵长度根据表达谱数据的维度来计算,具体计算方式是:将数据维度为N的样本,转换为x*x的正方形矩阵,其中x通过公式获得,多出来的像素位置补齐为0;
1.2.对正方形矩阵进行归一化和减均值数据预处理操作;
1.3.将不同类别的表达谱矩阵分别赋予不同的类别标签,并划分训练、验证和测试样本集;
步骤二:提取训练样本数据的高层次特征,包括以下步骤,
2.1.将训练样本集传入特征提取网络进行特征提取,其中,特征提取网络采用DenseNet基本结构搭建,并使用三个Dense block,每个Dense block里面包含16层卷积,压缩系数为0.5,模型增长率为12;
2.2.进行网络训练,网络训练是特征提取的关键步骤,网络训练过程中采用隐式度量学习的思路和随机梯度下降方式训练整个网络,网络训练过程中的参数是:
其中,J是损失,θ是网络参数,η是学习率,循环训练网络以拉大特征的类间距离减小类内距离,用以减少迭代次数而达到收敛状态;
2.3.训练完成后获得最小损失函数,最小损失函数由CenterLoss和SoftmaxLoss结合而成:
其中,m是类别数量,n是训练的批次大小,yi是单个类别,是权重值,和bj是偏差值,xi是传入的训练值,是每个类别的聚类中心,λ是训练中学习到的参数;
2.4.通过特征提取网络获得样本数据的高层次特征;
步骤三:计算数据之间的距离,包括以下步骤,
3.1.接受步骤二中获得的高层次特征作为参数进行距离计算,距离计算网络基于Siamese网络构架组成,其中,Siamese结构有两个分支,两个分支结构相同且共享权值,并且两个分支结构中的卷积神经网络部分由DenseNet网络构成;
3.2.将测试数据传入网络,得到他们CenterLoss中已经定义好长度的高级特征表达,然后再用改进的余弦距离计算数据之间的距离,用以解决cosine相似度仅考虑向量维度方向上的相似而没考虑到各个维度具体表达值的缺点,改进的余弦距离计算方式为:
其中,A和B是样本集,Sim(A,B)是样本之间的距离,是A*中的单个样本,是B*中的单个样本,max是样本数据的最大值,min是样本数据的最小值,mean是所有样本的均值;
步骤四:检验所得距离的性能,将步骤三得到的距离和GSEA在同样本数据下得到的距离传入分类器中进行分类,得到两种方法的分类准确度,比较分类准确度高低,判定分类准确度高的方法获得的距离性能较好。
CN201910296276.1A 2019-04-13 2019-04-13 一种基于深度学习的基因表达谱距离度量方法 Active CN110033041B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910296276.1A CN110033041B (zh) 2019-04-13 2019-04-13 一种基于深度学习的基因表达谱距离度量方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910296276.1A CN110033041B (zh) 2019-04-13 2019-04-13 一种基于深度学习的基因表达谱距离度量方法

Publications (2)

Publication Number Publication Date
CN110033041A true CN110033041A (zh) 2019-07-19
CN110033041B CN110033041B (zh) 2022-05-03

Family

ID=67238179

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910296276.1A Active CN110033041B (zh) 2019-04-13 2019-04-13 一种基于深度学习的基因表达谱距离度量方法

Country Status (1)

Country Link
CN (1) CN110033041B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110533107A (zh) * 2019-08-30 2019-12-03 中国科学院半导体研究所 梯度增强型Softmax分类器、训练信号产生方法及其应用
CN111027542A (zh) * 2019-11-20 2020-04-17 天津大学 一种基于Faster RCNN算法改进的目标检测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003004739A (ja) * 2001-06-26 2003-01-08 Takara Bio Inc 遺伝子発現プロファイル解析方法及び装置
US20070133857A1 (en) * 2005-06-24 2007-06-14 Siemens Corporate Research Inc Joint classification and subtype discovery in tumor diagnosis by gene expression profiling
CN101105841A (zh) * 2007-02-12 2008-01-16 浙江大学 由大规模基因芯片表达谱数据构建基因调控亚网络的方法
KR20080086332A (ko) * 2007-03-21 2008-09-25 한국전자통신연구원 유전자 어휘 분류체계를 이용한 유전자 발현 프로파일군집화 방법 및 그 장치
CN104463251A (zh) * 2014-12-15 2015-03-25 江苏科技大学 基于集成极端学习机的肿瘤基因表达谱数据识别方法
CN108920900A (zh) * 2018-06-21 2018-11-30 福州大学 基因表达谱数据的无监督极限学习机特征提取系统及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003004739A (ja) * 2001-06-26 2003-01-08 Takara Bio Inc 遺伝子発現プロファイル解析方法及び装置
US20070133857A1 (en) * 2005-06-24 2007-06-14 Siemens Corporate Research Inc Joint classification and subtype discovery in tumor diagnosis by gene expression profiling
CN101105841A (zh) * 2007-02-12 2008-01-16 浙江大学 由大规模基因芯片表达谱数据构建基因调控亚网络的方法
KR20080086332A (ko) * 2007-03-21 2008-09-25 한국전자통신연구원 유전자 어휘 분류체계를 이용한 유전자 발현 프로파일군집화 방법 및 그 장치
CN104463251A (zh) * 2014-12-15 2015-03-25 江苏科技大学 基于集成极端学习机的肿瘤基因表达谱数据识别方法
CN108920900A (zh) * 2018-06-21 2018-11-30 福州大学 基因表达谱数据的无监督极限学习机特征提取系统及方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
GAO HUANG ET AL.: "Densely Connected Convolutional Networks", 《IEEE 》 *
SHAOLIANG PENG ET AL.: "paraGSEA: a scalable approach for large-scale gene expression profiling", 《NUCLEIC ACIDS RESEARCH》 *
XIDONG WANG ET AL.: "Lithology identification using an optimized KNN clustering method based on entropy-weighed cosine distance in Mesozoic strata of Gaoqing field,Jiyang depression", 《JOURNAL OF PETROLEUM SCIENCE AND ENGINEERING》 *
李正军: "基因表达谱数据分析方法研究及应用", 《中国优秀硕士学位论文全文数据库 基础科学辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110533107A (zh) * 2019-08-30 2019-12-03 中国科学院半导体研究所 梯度增强型Softmax分类器、训练信号产生方法及其应用
CN111027542A (zh) * 2019-11-20 2020-04-17 天津大学 一种基于Faster RCNN算法改进的目标检测方法

Also Published As

Publication number Publication date
CN110033041B (zh) 2022-05-03

Similar Documents

Publication Publication Date Title
Hu et al. Deep learning-based investigation of wind pressures on tall building under interference effects
CN110533631B (zh) 基于金字塔池化孪生网络的sar图像变化检测方法
CN108388927B (zh) 基于深度卷积孪生网络的小样本极化sar地物分类方法
CN108985236B (zh) 一种基于深度化可分离卷积模型的人脸识别方法
CN108573225A (zh) 一种局部放电信号模式识别方法及系统
CN105975931A (zh) 一种基于多尺度池化的卷积神经网络人脸识别方法
CN114842264B (zh) 一种基于多尺度空谱特征联合学习的高光谱图像分类方法
CN110751644B (zh) 道路表面裂纹检测方法
CN110033041B (zh) 一种基于深度学习的基因表达谱距离度量方法
CN112766283B (zh) 一种基于多尺度卷积网络的两相流流型识别方法
CN112686093A (zh) 一种基于ds证据理论的融合局部放电类型识别方法
CN105046272A (zh) 一种基于简洁非监督式卷积网络的图像分类方法
CN105095865A (zh) 基于有向加权复杂网络的宫颈细胞识别方法及宫颈细胞识别装置
CN111275165A (zh) 一种基于改进卷积神经网络的网络入侵检测方法
CN111222545A (zh) 基于线性规划增量学习的图像分类方法
CN115580445A (zh) 一种未知攻击入侵检测方法、装置和计算机可读存储介质
CN113901448A (zh) 基于卷积神经网络和轻量级梯度提升机的入侵检测方法
CN114330516A (zh) 基于多图引导神经网络模型的小样本徽景图像分类
CN116977723A (zh) 基于空间-光谱混合自注意力机制的高光谱图像分类方法
CN114980122A (zh) 一种小样本射频指纹智能识别系统与方法
CN113241117B (zh) 一种基于残差图卷积神经网络rna-蛋白质结合位点判别方法
CN112947080B (zh) 一种基于场景参数变换的智能决策模型性能评估系统
CN117516939A (zh) 基于改进EfficientNetV2的轴承跨工况故障检测方法及系统
CN111061151B (zh) 一种基于多元卷积神经网络的分布式能源状态监测方法
CN106444706B (zh) 基于数据邻域特征保持的工业过程故障检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant