CN110942805A - 一种基于半监督深度学习的绝缘子元件预测系统 - Google Patents

一种基于半监督深度学习的绝缘子元件预测系统 Download PDF

Info

Publication number
CN110942805A
CN110942805A CN201911265727.1A CN201911265727A CN110942805A CN 110942805 A CN110942805 A CN 110942805A CN 201911265727 A CN201911265727 A CN 201911265727A CN 110942805 A CN110942805 A CN 110942805A
Authority
CN
China
Prior art keywords
sequence
module
semi
insulator element
element prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911265727.1A
Other languages
English (en)
Inventor
周维
阿丽玛
刘朝锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yunnan University YNU
Original Assignee
Yunnan University YNU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yunnan University YNU filed Critical Yunnan University YNU
Priority to CN201911265727.1A priority Critical patent/CN110942805A/zh
Publication of CN110942805A publication Critical patent/CN110942805A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

本发明公开了一种基于半监督深度学习的绝缘子元件预测系统,包括提取模块、编码模块、训练模块和分析模块;提取模块、编码模块、训练模块和分析模块依次连接;所述提取模块用于取出DNA中的染色体号序列;编码模块用于截取序列并对截取序列编码;训练模块用于训练并生成绝缘子元件预测模型;分析模块用于通过训练后的绝缘子元件预测模型识别分析DNA染色体序列中的绝缘子序列;本发明通过半监督阶梯网络和卷积神经网络结合,建立了绝缘子元件预测模型,可以有效且精准的识别出DNA序列中的绝缘子序列;同时也有效减小了绝缘子元件识别的成本和工序。

Description

一种基于半监督深度学习的绝缘子元件预测系统
技术领域
本发明涉及生物绝缘子预测领域,尤其是一种基于半监督深度学习的绝缘子元件预测系统。
背景技术
染色质绝缘子是DNA-蛋白质复合物,在核生物学中具有广泛的功能,概括的来说,绝缘子位于增强子或启动子和基因之间,用于减少或者阻断基因表达,或者作为异染色质屏障,绝缘子元件在基因治疗中有十分重要的意义,目前在基因治疗领域有一个很大的障碍就是由于插入操作引起的基因毒性和基因突变,有效的寻找到短片段的绝缘子元件,能够阻碍或者调控致病基因的表达,提高基因治疗的安全性。
传统的方式是通过细胞实验来验证绝缘子片段,这种方式不仅低效而且价格昂贵。已知的生物信息学方法也不能有效提取绝缘子元件内部的特征(序列模序motif)。
发明内容
本发明的发明目的在于:针对上述存在的问题,提供一种基于半监督深度学习的绝缘子元件预测系统和方法;本发明解决了绝缘子片段验证效率低,成本高的问题;解决了不能有效提取绝缘子元件内部的特征的问题。
本发明采用的技术方案如下:
一种基于半监督深度学习的绝缘子元件预测系统,包括提取模块、编码模块、训练模块和分析模块;提取模块、编码模块、训练模块和分析模块依次连接;所述提取模块用于取出DNA中的染色体号序列;编码模块用于截取序列并对截取序列编码;训练模块用于训练并生成绝缘子元件预测模型;分析模块用于通过训练后的绝缘子元件预测模型识别分析DNA染色体序列中的绝缘子序列。
进一步的,所述取出DNA中的染色体号序列是由染色体号的开始位置和结束位置之间取出序列。
进一步的,所述编码模块通过热一编码对序列进行编码,将序列转换为矩阵。
进一步的,所述绝缘子元件预测模型是由阶梯网络进行卷积神经网络训练建立而成。
进一步的,所述阶梯网络为半监督阶梯网络,包括。
进一步的,所述卷积神经网络算法为:
Figure BDA0002312779140000011
进一步的,所述训练包括:在将截取出的染色体序列进行编码得到矩阵后;将矩阵输入神经网络算法中进行训练。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
1、本发明通过半监督阶梯网络和卷积神经网络结合,建立了绝缘子元件预测模型,可以有效且精准的识别出DNA序列中的绝缘子序列。
2、本发明也有效减小了绝缘子元件识别的成本和工序。
附图说明
本发明将通过例子并参照附图的方式说明,其中:
图1是绝缘子元件预测系统结构图。
图2是热一编码图。
其中,1-提取模块;2-编码模块;3-训练模块;4-分析模块。
具体实施方式
本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。
本说明书(包括任何附加权利要求、摘要)中公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。
实施例1
一种基于半监督深度学习的绝缘子元件预测系统,如图1所示,包括提取模块1、编码模块2、训练模块3和分析模块4;提取模块1、编码模块2、训练模块3和分析模块4依次连接。
所述提取模块1用于取出DNA中的染色体号序列,所述取出DNA中的染色体号序列是由染色体号的开始位置和结束位置之间取出序列。
编码模块2用于截取序列并对截取序列编码;所述截取序列是截取染色体序列长度,本实施例中,优选的截取序列长度为800bp;所述序列编码是通过热一编码对序列进行编码,热一编码可以对空间进行扩展,将原来一维空间中的离散特征扩展成欧氏空间中的一个点,这种方法能够从空间的角度提取数据的特征,计算样本间的相似度;序列数据的热一编码如图2所示;通过热一编码可以将长度为n的序列编码得到4*n的矩阵。
训练模块3用于训练并生成绝缘子元件预测模型;所述绝缘子元件预测模型由阶梯网络进行卷积神经网络训练建立而成;阶梯网络为半监督阶梯网络,所述半监督阶梯网络是由监督学习和非监督学习结合而成。
在监督学习中,通过网络对特征进行抽象,抽象出的特征记作x=(x1,x2,......xn),最后通过一个全连接层对这些特征进行映射:f(x)→y,y代表各个类别的得分,最后通过构建y和真实类别label的损失,进行训练,由于整个训练过程在label的指导下进行,所以监督学习特征提取层次越高,留下的特征就越趋于只和label相关,换言之,就是监督学习是一个数据压缩和降噪的过程,会删除大量的特征。
非监督学习则相反,非监督学习通过压缩,解压缩的过程,将原始数据x使用另一种表征
Figure BDA0002312779140000038
表示出来,同时要保证非监督学习提取的新的特征,尽可能的能够保留原始数据信息,从损失函数可以看出,非监督学习是要尽最大的可能保留特征,使得重构的
Figure BDA0002312779140000039
和x最大程度的相似。
半监督阶梯网络由若干个编码器和若干个解码器构成,其中,2个编码器和1个解码器呈纵向连接为一组,同时半监督阶梯网络横向连接若干组;编码器和解码器可表示为:
Figure BDA0002312779140000031
Figure BDA0002312779140000032
Figure BDA0002312779140000033
半监督阶梯网络的损失函数由两部分构成,真实的网络结果
Figure BDA0002312779140000034
构成的监督学习损失函数,用交叉熵损失表示;使用原始x输入和重构输入构成的非监督学习的损失函数。最后将两部分损失函数相加构成半监督学习的损失函数:
Figure BDA0002312779140000035
本实施例中,半监督阶梯网络有两个输出,带噪声
Figure BDA0002312779140000036
的标签和真实标签,其中带噪声
Figure BDA0002312779140000037
的用于损失函数,无噪声的输出y用于分类任务。半监督阶梯网络包含若干层分类器,每一层通过skip-connection连接到解码阶段,来分担顶层的信息压力。在数据分类的过程中,很多特征或者信息决定了数据边界,但是在监督学习中,越靠近顶层分类器,留下的特征越少,只和顶层的分类任务相关,但是这样映射出来的特征无法通过解码阶段还原出重构,此时横向连接就开始发挥作用,决定解码阶段的特征信号通过横向连接传到解码层,使模型能够正常训练,同时梯度反向传播的时候,能够沿着横向连接回传,解决了梯度消失的问题。除此之外,半监督阶梯网络的编码阶段的每一层都加入了噪声,为了防止过拟合问题而对输入的数据(网络的输入层)加入噪音,使学习得到的编码器具有较强的鲁棒性,从而增强模型的泛化能力。
而将编码器的值和解码器的值有效结合是以vanilla组合器为基础,组合器公式为:
Figure BDA0002312779140000041
编码器第l层的输出
Figure BDA0002312779140000042
的表达公式为:
Figure BDA0002312779140000043
解码器第l层的输入u(l+1)公式为:
Figure BDA0002312779140000044
将横向连接的数据和本来的数据组合到一起,得到第l层解码器输出
Figure BDA0002312779140000045
其公式为:
Figure BDA0002312779140000046
将监督学习与非监督学习组合到一起,解决了监督学习保留特征少的问题,也解决了非监督学习无差别保留特征的问题,使得分类效果有较大的提升。除此之外,还解决了现实中大量无标签数据的问题,特别对于生物序列数据,通常验证成本较大,同时细胞实验的周期较长,这就意味这大量的序列数据没有标签,这就与深度学习需要大量数据不符合,半监督阶梯网络使得深度学习可以在生物信息领域得以运用,但该半监督阶梯网络还不宜应用于DNA序列分类中。
为了使半监督阶梯网络可以有效的应用于DNA序列分类中,引入了卷积神经网络,通过卷积神经网络可以有效的提取出DNA序列中的各个特征,,在加入了,卷积神经网络后,会将半监督阶梯网络中的编码器阶段替换为卷积操作,将解码器阶段替换为解卷积操作,且均又卷积核完成;本实施例中,每层的卷积核采用14长度大小,网络使用了三种尺寸的卷积核,14*4的卷积核目的是提取序列模序(motif),3*1的卷积核是提取局部的特征,20*1的卷积核是提取整体的的特征,所述三种卷积核一次纵向排列;具体为:
DNA序列经过热一编码之后,序列从一维空间的一个字符扩展到了欧式空间中的一个点,卷积神经网络能够更好的提取空间上的相关特征,同时卷积神经网络能够表示数据中的特征,主要是通过训练完成之后使用第一层卷积核来表示数据的特征。
卷积神经网络的计算用公式表示如下:
Figure BDA0002312779140000051
其中卷积核为的矩阵,其中M为窗口的大小,N为通道的大小;通过卷积神经网络的公式可以将DNA序列中的各项特征序列提取出,再在提取的各类特征序列中找到绝缘子模序。
分析模块4用于通过训练后的绝缘子元件预测模型识别分析DNA染色体序列中的绝缘子序列,即将输入训练后的绝缘子元件预测模型中,在绝缘子元件预测模型找到的各类型序列中,识别出绝缘子模序,并对识别出的绝缘子模序进行标注,本实施例中,可以将识别出的绝缘子模序分为较高活性,中等活性,不激活三种类型。
本发明通过半监督阶梯网络和卷积神经网络结合,建立了绝缘子元件预测模型,可以有效且精准的识别出DNA序列中的绝缘子序列;同时也有效减小了绝缘子元件识别的成本和工序。
本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合,以及披露的任一新的方法或过程的步骤或任何新的组合。

Claims (7)

1.一种基于半监督深度学习的绝缘子元件预测系统,其特征在于,包括提取模块(1)、编码模块(2)、训练模块(3)和分析模块(4);提取模块(1)、编码模块(2)、训练模块(3)和分析模块(4)依次连接;所述提取模块(1)用于取出DNA中的染色体号序列;编码模块(2)用于截取序列并对截取序列编码;训练模块(3)用于训练并生成绝缘子元件预测模型;分析模块(4)用于通过训练后的绝缘子元件预测模型识别分析DNA染色体序列中的绝缘子序列。
2.如权利要求1所述的基于半监督深度学习的绝缘子元件预测系统,其特征在于,所述取出DNA中的染色体号序列是由染色体号的开始位置和结束位置之间取出序列。
3.如权利要求1所述的基于半监督深度学习的绝缘子元件预测系统,其特征在于,所述编码模块(2)通过热一编码对序列进行编码,将序列转换为矩阵。
4.如权利要求1所述的基于半监督深度学习的绝缘子元件预测系统,其特征在于,所述绝缘子元件预测模型是由阶梯网络进行卷积神经网络训练建立而成。
5.如权利要求3所述的基于半监督深度学习的绝缘子元件预测系统,其特征在于,所述阶梯网络为半监督阶梯网络。
6.如权利要求3所述的基于半监督深度学习的绝缘子元件预测系统,其特征在于,所述卷积神经网络算法为:
Figure FDA0002312779130000011
7.如权利要求3所述的基于半监督深度学习的绝缘子元件预测系统,其特征在于,所述训练包括:在将截取出的染色体序列进行编码得到矩阵后;将矩阵输入神经网络算法中进行训练。
CN201911265727.1A 2019-12-11 2019-12-11 一种基于半监督深度学习的绝缘子元件预测系统 Pending CN110942805A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911265727.1A CN110942805A (zh) 2019-12-11 2019-12-11 一种基于半监督深度学习的绝缘子元件预测系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911265727.1A CN110942805A (zh) 2019-12-11 2019-12-11 一种基于半监督深度学习的绝缘子元件预测系统

Publications (1)

Publication Number Publication Date
CN110942805A true CN110942805A (zh) 2020-03-31

Family

ID=69910482

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911265727.1A Pending CN110942805A (zh) 2019-12-11 2019-12-11 一种基于半监督深度学习的绝缘子元件预测系统

Country Status (1)

Country Link
CN (1) CN110942805A (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105528595A (zh) * 2016-02-01 2016-04-27 成都通甲优博科技有限责任公司 在无人机航拍图像中对输电线路绝缘子的识别定位方法
US20160371431A1 (en) * 2015-06-22 2016-12-22 Counsyl, Inc. Methods of predicting pathogenicity of genetic sequence variants
CN108138231A (zh) * 2015-09-29 2018-06-08 路德维格癌症研究有限公司 分型和组装不连续基因组元件
CN108171010A (zh) * 2017-12-01 2018-06-15 华南师范大学 基于半监督网络嵌入模型的蛋白质复合体检测方法与装置
CN108549895A (zh) * 2018-04-17 2018-09-18 深圳市唯特视科技有限公司 一种基于对抗网络的半监督语义分割方法
CN108595913A (zh) * 2018-05-11 2018-09-28 武汉理工大学 鉴别mRNA和lncRNA的有监督学习方法
US20180365372A1 (en) * 2017-06-19 2018-12-20 Jungla Inc. Systems and Methods for the Interpretation of Genetic and Genomic Variants via an Integrated Computational and Experimental Deep Mutational Learning Framework
CN109492691A (zh) * 2018-11-07 2019-03-19 南京信息工程大学 一种超图卷积网络模型及其半监督分类方法
CN109906276A (zh) * 2016-11-07 2019-06-18 格里尔公司 用于检测早期癌症中体细胞突变特征的识别方法
CN110008323A (zh) * 2019-03-27 2019-07-12 北京百分点信息科技有限公司 一种半监督学习结合集成学习的问题等价性判别的方法
CN110175571A (zh) * 2019-05-28 2019-08-27 华翔翔能电气股份有限公司 变电站设备状态的智能监测与识别方法
WO2019191319A1 (en) * 2018-03-30 2019-10-03 Juno Diagnostics, Inc. Deep learning-based methods, devices, and systems for prenatal testing
CN110348014A (zh) * 2019-07-10 2019-10-18 电子科技大学 一种基于深度学习的语义相似度计算方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160371431A1 (en) * 2015-06-22 2016-12-22 Counsyl, Inc. Methods of predicting pathogenicity of genetic sequence variants
CN108138231A (zh) * 2015-09-29 2018-06-08 路德维格癌症研究有限公司 分型和组装不连续基因组元件
CN105528595A (zh) * 2016-02-01 2016-04-27 成都通甲优博科技有限责任公司 在无人机航拍图像中对输电线路绝缘子的识别定位方法
CN109906276A (zh) * 2016-11-07 2019-06-18 格里尔公司 用于检测早期癌症中体细胞突变特征的识别方法
US20180365372A1 (en) * 2017-06-19 2018-12-20 Jungla Inc. Systems and Methods for the Interpretation of Genetic and Genomic Variants via an Integrated Computational and Experimental Deep Mutational Learning Framework
CN108171010A (zh) * 2017-12-01 2018-06-15 华南师范大学 基于半监督网络嵌入模型的蛋白质复合体检测方法与装置
WO2019191319A1 (en) * 2018-03-30 2019-10-03 Juno Diagnostics, Inc. Deep learning-based methods, devices, and systems for prenatal testing
CN108549895A (zh) * 2018-04-17 2018-09-18 深圳市唯特视科技有限公司 一种基于对抗网络的半监督语义分割方法
CN108595913A (zh) * 2018-05-11 2018-09-28 武汉理工大学 鉴别mRNA和lncRNA的有监督学习方法
CN109492691A (zh) * 2018-11-07 2019-03-19 南京信息工程大学 一种超图卷积网络模型及其半监督分类方法
CN110008323A (zh) * 2019-03-27 2019-07-12 北京百分点信息科技有限公司 一种半监督学习结合集成学习的问题等价性判别的方法
CN110175571A (zh) * 2019-05-28 2019-08-27 华翔翔能电气股份有限公司 变电站设备状态的智能监测与识别方法
CN110348014A (zh) * 2019-07-10 2019-10-18 电子科技大学 一种基于深度学习的语义相似度计算方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
MOHAMMAD PEZESHKI,ET AL: "Deconstructing the Ladder Network Architecture", 《INTERNATIONAL CONFERENCE ON MACHINE LEARNING》 *
周强: "转录调控序列数据挖掘研究与实现", 《中国优秀硕士学位论文全文数据库》 *
符春晓: "基于阶梯网络的半监督深度学习方法及其应用研究", 《中国优秀硕士学位论文全文数据库》 *
赵宪佳: "基于半监督聚类的真核启动子识别", 《青岛大学学报(自然科学版)》 *

Similar Documents

Publication Publication Date Title
CN110348487B (zh) 一种基于深度学习的高光谱图像压缩方法及装置
CN106295245B (zh) 基于Caffe的堆栈降噪自编码基因信息特征提取的方法
CN110021369B (zh) 基因测序数据压缩解压方法、系统及计算机可读介质
US12080384B2 (en) Method for compressing genomic data
CN111401375A (zh) 文本识别模型训练方法、文本识别方法、装置及设备
CN103902964B (zh) 一种人脸识别方法
CN106650650B (zh) 一种跨年龄人脸识别方法
CN111243674B (zh) 一种碱基序列的识别方法、装置和存储介质
US9462152B2 (en) System and method for hiding reversible information
CN111091839B (zh) 语音唤醒方法、装置、存储介质及智能设备
CN117278056B (zh) 一种社保信息处理方法及系统
CN109977950A (zh) 一种基于混合cnn-lstm网络的文字识别方法
WO2019205963A1 (zh) 基因测序质量行数据压缩预处理、解压还原方法及系统
CN116258989A (zh) 基于文本与视觉的时空关联型多模态情感识别方法、系统
CN116665053B (zh) 顾及阴影信息的高分辨遥感影像建筑物识别方法及系统
CN102300095A (zh) 一种超谱信号的快速压缩编码方法及图像压缩方法
CN111967358B (zh) 一种基于注意力机制的神经网络步态识别方法
CN115037805A (zh) 一种基于深度聚类的未知网络协议识别方法、系统、装置及存储介质
Hanoon Contrast fingerprint enhancement based on histogram equalization followed by bit reduction of vector quantization
JP5913748B2 (ja) セキュアで損失のないデータ圧縮
CN117177100B (zh) 一种智能ar偏振数据传输方法
CN110021368B (zh) 比对型基因测序数据压缩方法、系统及计算机可读介质
CN113160885A (zh) 基于胶囊网络的rna与蛋白质绑定偏好预测方法和系统
CN110310709B (zh) 一种基于参考序列的基因压缩方法
CN105469601B (zh) 一种基于lzw编码的道路交通空间数据压缩方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200331