CN114283888A - 基于分层自注意力机制的差异表达基因预测系统 - Google Patents
基于分层自注意力机制的差异表达基因预测系统 Download PDFInfo
- Publication number
- CN114283888A CN114283888A CN202111581852.0A CN202111581852A CN114283888A CN 114283888 A CN114283888 A CN 114283888A CN 202111581852 A CN202111581852 A CN 202111581852A CN 114283888 A CN114283888 A CN 114283888A
- Authority
- CN
- China
- Prior art keywords
- self
- matrix
- epigenetic
- attention mechanism
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 97
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 61
- 230000001973 epigenetic effect Effects 0.000 claims abstract description 124
- 239000011159 matrix material Substances 0.000 claims abstract description 112
- 239000013598 vector Substances 0.000 claims abstract description 102
- 238000000605 extraction Methods 0.000 claims abstract description 4
- 230000007067 DNA methylation Effects 0.000 claims description 27
- 108010033040 Histones Proteins 0.000 claims description 26
- 238000000034 method Methods 0.000 claims description 24
- 230000004048 modification Effects 0.000 claims description 24
- 238000012986 modification Methods 0.000 claims description 24
- 230000009466 transformation Effects 0.000 claims description 12
- 238000012163 sequencing technique Methods 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 6
- 230000015654 memory Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 230000009467 reduction Effects 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 2
- 238000013518 transcription Methods 0.000 claims description 2
- 230000035897 transcription Effects 0.000 claims description 2
- 238000012360 testing method Methods 0.000 claims 1
- 210000004027 cell Anatomy 0.000 description 17
- 201000010099 disease Diseases 0.000 description 7
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 7
- 230000001717 pathogenic effect Effects 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 230000011987 methylation Effects 0.000 description 5
- 238000007069 methylation reaction Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000008844 regulatory mechanism Effects 0.000 description 3
- 102000006947 Histones Human genes 0.000 description 2
- 108700009124 Transcription Initiation Site Proteins 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 238000002487 chromatin immunoprecipitation Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000001225 therapeutic effect Effects 0.000 description 2
- 108020004414 DNA Proteins 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 238000001369 bisulfite sequencing Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000013604 expression vector Substances 0.000 description 1
- 108010051779 histone H3 trimethyl Lys4 Proteins 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000009703 regulation of cell differentiation Effects 0.000 description 1
Images
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了基于分层自注意力机制的差异表达基因预测系统,包括:获取模块,获取待测细胞对对应基因的表观遗传学数据;根据表观遗传学数据,构建不同表观遗传因素的输入矩阵;编码模块,将每种表观遗传因素的输入矩阵,输入到第一自注意力机制层对应的自注意力机制模块中,得到每种表观遗传因素的编码向量;特征提取模块,将每种表观因素的编码向量,输入到第二自注意力机制层的自注意力机制模块中,得到最终的特征嵌入向量;预测模块,将最终的特征嵌入向量输入到训练后的分类器中,得到差异表达基因预测结果。利用表观遗传学数据自动构建特征,同时识别重要的特征位点和表观遗传因素来进行可解释的基因差异表达预测。
Description
技术领域
本发明涉及生物信息学技术领域,特别是涉及基于分层自注意力机制的差异表达基因预测系统。
背景技术
本部分的陈述仅仅是提到了与本发明相关的背景技术,并不必然构成现有技术。
表观遗传学是研究在基因的核苷酸序列不发生改变的情况下,基因表达产生可遗传变化的一门遗传学分支学科,表观遗传学因素在细胞分化和细胞的特异性表达过程中起着重要的调控作用,许多复杂疾病与表观遗传因素有关。表观遗传学变异存在潜在可逆性,了解表观遗传因素如何调控基因差异表达,找到表观遗传疾病的致病原因是当前创新的难点。
通过表观遗传数据预测差异表达基因可以更加深入的理解表观遗传因素是如何调控基因的表达,发现表观遗传因素作用效果,同时,可以帮助医生发现表观遗传疾病的致病位点和治疗靶点。但是,目前利用表观遗传数据预测差异表达基因方法存在一定的局限性,基于传统机器学习的方法需要大量生物医学先验知识来构建特征,方法效果强依赖于特征质量,依赖已有知识,难以发现新的调控机制;现有基于深度学习的方法有着缺乏可解释性,训练速度慢等缺陷,难以进行实际应用来协助发现新的调控机制,以及寻找表观遗传疾病的致病位点和治疗靶点。
发明内容
为了解决现有技术的不足,本发明提供了基于分层自注意力机制的差异表达基因预测系统;利用表观遗传学数据自动构建特征,同时识别重要的特征位点和表观遗传因素来进行可解释的基因差异表达预测。
第一方面,本发明提供了基于分层自注意力机制的差异表达基因预测系统;
基于分层自注意力机制的差异表达基因预测系统,包括:
获取模块,其被配置为:获取待测细胞对对应基因的表观遗传学数据;根据表观遗传学数据,构建不同表观遗传因素的输入矩阵;
编码模块,其被配置为:将每种表观遗传因素的输入矩阵,输入到第一自注意力机制层对应的自注意力机制模块中,得到每种表观遗传因素的编码向量;
特征提取模块,其被配置为:将每种表观因素的编码向量,输入到第二自注意力机制层的自注意力机制模块中,得到最终的特征嵌入向量;
预测模块,其被配置为:将最终的特征嵌入向量输入到训练后的分类器中,得到差异表达基因预测结果。
第二方面,本发明还提供了一种电子设备,包括:
存储器,用于非暂时性存储计算机可读指令;以及
处理器,用于运行所述计算机可读指令,
其中,所述计算机可读指令被所述处理器运行时,执行以下步骤:
获取待测细胞对对应基因的表观遗传学数据;根据表观遗传学数据,构建不同表观遗传因素的输入矩阵;
将每种表观遗传因素的输入矩阵,输入到第一自注意力机制层对应的自注意力机制模块中,得到每种表观遗传因素的编码向量;
将每种表观因素的编码向量,输入到第二自注意力机制层的自注意力机制模块中,得到最终的特征嵌入向量;
将最终的特征嵌入向量输入到训练后的分类器中,得到差异表达基因预测结果。
第三方面,本发明还提供了一种存储介质,非暂时性地存储计算机可读指令,其中,当所述非暂时性计算机可读指令由计算机执行时,执行以下步骤:
获取待测细胞对对应基因的表观遗传学数据;根据表观遗传学数据,构建不同表观遗传因素的输入矩阵;
将每种表观遗传因素的输入矩阵,输入到第一自注意力机制层对应的自注意力机制模块中,得到每种表观遗传因素的编码向量;
将每种表观因素的编码向量,输入到第二自注意力机制层的自注意力机制模块中,得到最终的特征嵌入向量;
将最终的特征嵌入向量输入到训练后的分类器中,得到差异表达基因预测结果。
第四方面,本发明还提供了一种计算机程序产品,包括计算机程序,所述计算机程序当在一个或多个处理器上运行的时候执行以下步骤:
获取待测细胞对对应基因的表观遗传学数据;根据表观遗传学数据,构建不同表观遗传因素的输入矩阵;
将每种表观遗传因素的输入矩阵,输入到第一自注意力机制层对应的自注意力机制模块中,得到每种表观遗传因素的编码向量;
将每种表观因素的编码向量,输入到第二自注意力机制层的自注意力机制模块中,得到最终的特征嵌入向量;
将最终的特征嵌入向量输入到训练后的分类器中,得到差异表达基因预测结果。
与现有技术相比,本发明的有益效果是:
本公开利用表观遗传学数据预测差异表达基因,不依赖人工构造特征;利用两层自注意力机制层的自注意力机制模块编码输入数据,自动构建特征,节省人力资源,还能够发现新的调控机制;同时,深度学习模型的使用使得模型在处理生物大数据时能取得较好的效果;此外,能够根据自注意力机制理解不同位点和不同因素的重要程度,这对于确定表观遗传疾病的致病原因和治疗靶点有重要的指导意义。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是实施例一基于分层自注意力机制的差异表达基因预测系统的结构图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
本实施例所有数据的获取都在符合法律法规和用户同意的基础上,对数据的合法应用。
实施例一
本实施例提供了基于分层自注意力机制的差异表达基因预测系统;
如图1所示,基于分层自注意力机制的差异表达基因预测系统,包括:
获取模块,其被配置为:获取待测细胞对对应基因的表观遗传学数据;根据表观遗传学数据,构建不同表观遗传因素的输入矩阵;
编码模块,其被配置为:将每种表观遗传因素的输入矩阵,输入到第一自注意力机制层对应的自注意力机制模块中,得到每种表观遗传因素的编码向量;
特征提取模块,其被配置为:将所有表观因素的编码向量融合后,输入到第二自注意力机制层的自注意力机制模块中,得到最终的特征嵌入向量;
预测模块,其被配置为:将融合后的特征输入到训练后的分类器中,得到差异表达基因预测结果。
进一步地,所述获取待测细胞对对应基因的表观遗传学数据;具体包括:
获取测序数据;所述测序数据,包括:DNA甲基化数据和组蛋白修饰数据。
DNA甲基化数据,通过全基因组重亚硫酸盐测序(Whole Genome BisulfiteSequencing,WGBS)方法获得;
组蛋白修饰数据,通过染色质免疫共沉淀(Chromatin Immunoprecipitation,ChIP)技术获得。
其中,所需测序组蛋白修饰为H3K4me1、H3K4me3、H3K9me3、H3K27me3及H3K36me3。
进一步地,所述根据表观遗传学数据,构建不同表观遗传因素的输入矩阵;具体包括:
筛选测序数据中,细胞对对应基因转录起始点附近设定范围的DNA甲基化数据和组蛋白修饰数据;
根据筛选出来的DNA甲基化数据,构建DNA甲基化特征矩阵;
根据筛选出来的各种组蛋白修饰数据,分别构建组蛋白修饰特征矩阵;
计算细胞对之间的DNA甲基化特征矩阵的差异,得到DNA甲基化差异矩阵;
计算细胞对之间每种组蛋白修饰特征矩阵的差异,分别得到每种组蛋白修饰差异矩阵;
对DNA甲基化特征矩阵与DNA甲基化差异矩阵进行拼接,得到DNA甲基化输入矩阵;
对每种组蛋白修饰特征矩阵与对应的组蛋白差异矩阵进行拼接,分别得到若干种组蛋白修饰输入矩阵。
示例性地,由获得的原始表观遗传测序数据,根据查询获得的待测基因的转录起始位点,选取待测基因转录起始位点周围一万碱基对(前后五千碱基对)范围内的表观遗传测序数据。
对筛选出的待测基因表观遗传数据进行预处理,将一万碱基均分至100bin,统计每个bin中碱基位点的甲基化水平(非甲基化位点设置为-1),以及各种组蛋白修饰计数,作为每个bin特征,此外,综合统计每个bin的平均甲基化水平(非甲基化位点不参与计算,若bin中无甲基化位点,设置值为-1)以及各种组蛋白修饰总计数,构建细胞表观遗传特征矩阵。
重复上述步骤,分别构建两个不同细胞的特征矩阵,然后计算两个矩阵的差异值,生成差异矩阵。按照不同表观遗传因素,拼接不同细胞的特征矩阵和差异矩阵,构成最终的输入矩阵。
进一步地,所述将每种表观遗传因素的输入矩阵,输入到第一层自注意力机制层对应的自注意力机制模块中,得到每种表观遗传因素的编码向量;具体包括:
对DNA甲基化输入矩阵,通过线性变换的形式得到第一Query(查询)矩阵、第一Key(键)矩阵和第一Value(值)矩阵;
对DNA甲基化输入矩阵的第i个位点,将第i个位点对应的第一Query矩阵的Query向量,与所有非第i个位点对应的第一Key矩阵中的Key向量进行相似度计算,得到所有的相似度值;其中,i为正整数;i表示位点的编号;
将得到的所有的相似度值,通过softmax函数进行处理,得到第i个位点的注意力权重;进而得到所有位点的注意力权重矩阵;
利用所有位点的注意力权重矩阵,对所有位点的Value矩阵进行加权求和,得到编码矩阵;
对编码矩阵,进行线性变换降维处理,得到DNA甲基化的编码向量。
应理解地,采用与DNA甲基化的编码向量同样的获取方式,分别得到每种组蛋白修饰的编码向量。
应理解地,所述注意力权重矩阵,说明对于当前表观遗传因素来说,重要的作用位点。
具体地,通过位置编码对不同bin嵌入位置信息,然后利用线性变换得到特征矩阵的Query、Key、Value矩阵,利用Query、Key矩阵计算注意力权重,然后根据得到的注意力权重和Value矩阵得到最终的编码向量。
具体地,所述将每种表观遗传因素的输入矩阵,输入到第一自注意力机制层对应的自注意力机制模块中,得到每种表观遗传因素的编码向量的具体实现方式如下:
S1021:位置编码嵌入。利用特征的位置对序列中每个位点进行二次表示,利用正余弦交替的编码方式嵌入位置信息,使得出现在不同位置的特征有不同的编码结果,位置编码公式为:
其中,PE为二维矩阵,维度与输入矩阵相同;pos表示特征的位置;d表示特征维度;i表示特征第i维。
S1022:对经过S1021获得的具有位置编码的输入矩阵通过线性变换获得Query、Key及Value矩阵。变换公式为:
Query=XWQ,
Key=XWK,
Value=XWV
其中,X为输入特征矩阵,WQ、WK和WV为变换矩阵。
S1023:利用自注意力机制模块获取注意力权重矩阵。对于某一位点,将其Query矩阵中对应的位置的Query向量与所有位点对应的Key向量通过缩放点积(Scaled Dot-Product)方式计算相似度,通过softmax函数获得当前位点注意力权重向量,重复计算所有位点获得的注意力权重矩阵,整体计算公式为:
其中,Q为Query矩阵,K为Key矩阵,d为Key(Query)矩阵维度。通过可视化Attention矩阵,可以找到重要的影响位点。
S1024:自注意力机制模块编码。利用S1023获得的自注意力权重矩阵,对所有位点的Value矩阵进行加权求和得到最终的编码矩阵,计算公式为:
E=Attention·V
其中,Attention为计算的注意力权重矩阵,V为Value矩阵。
S1025:利用线性变换降维编码矩阵,将S1024得到的编码矩阵降维成一维编码向量。
进一步地,将所有表观因素的编码向量融合后,输入到第二自注意力机制层的自注意力机制模块中,得到最终的特征嵌入向量;具体包括:
将获得的DNA甲基化的编码向量与各种组蛋白修饰编码向量拼接,获得第二自注意力机制层的自注意力机制模块的输入矩阵,通过线性变换的形式得到第二Query(查询)矩阵、第二Key(键)矩阵和第二Value(值)矩阵;
对每种表观遗传因素,将其第二Query矩阵中对应的Query向量与所有第二Key矩阵中的Key向量通过缩放点积(Scaled Dot-Product)的方式计算相似度,采用softmax函数对相似度进行处理得到当前因素注意力权重向量;进而得到所有因素的注意力权重向量,构建表观遗传因素注意力权重矩阵;
根据表观遗传因素注意力权重矩阵,对第二Value矩阵进行加权求和,得到最终的特征嵌入向量。
其中,所述第一自注意力机制层包括若干个并列的自注意力机制模块,每个自注意力机制模块与对应种类的表观遗传因素的输入矩阵存在一一对应关系。
其中,所述第二自注意力机制层中,只包括一个自注意力机制模块。
示例性地,利用第二自注意力机制层的自注意力机制模块获得最终的特征嵌入矩阵,同时预测对于差异表达影响重要的表观遗传因素。
具体地,根据多个自注意力机制模块编码的不同表观遗传因素的编码向量,利用第二自注意力机制层的自注意力机制模块计算不同因素对于差异表达的影响权重,从而可以找到重要的影响因素,同时通过加权求和的方式嵌入表示所有表观遗传因素,获取最终特征表示向量。
具体地,所述将每种表观因素的编码向量,输入到第二自注意力机制层的自注意力机制模块中,得到每种表观遗传因素的特征向量;将所有种类的表观遗传因素的特征向量进行特征融合,得到最终的特征嵌入向量;具体实现方式如下:
S1031:将S102获得的多个编码向量拼接得到第二层嵌入输入矩阵,然后通过线性变换获得Query、Key及Value矩阵。
S1032:利用自注意力机制获取不同表观遗传因素的权重向量。对于某一因素,将其对应的Query向量与所有因素对应的Key向量通过缩放点积(Scaled Dot-Product)的方式计算相似度,通过softmax函数获得当前因素注意力权重向量,重复计算所有因素获得的注意力权重矩阵。
S1033:利用自注意力权重矩阵获得嵌入矩阵。根据S1032得到的表观遗传因素的权重向量,对所有表观遗传因素的Value矩阵进行加权求和得到最终的特征嵌入向量。
进一步地,所述将融合后的特征输入到训练后的分类器中,得到差异表达基因预测结果;具体包括:
将融合后的特征输入到训练后的多层感知机中,得到差异表达基因预测结果。
利用多层感知机分类器预测差异表达分类结果,将获得最终特征嵌入向量传入多层感知机分类器中,最终通过softmax层分别给出表达有差异和无差异的概率,得到最终预测结果。
进一步地,训练后的多层感知机,训练步骤包括:
构建训练集;其中,训练集,包括:已知有差异与无差异分类标签的细胞对对应基因的特征嵌入向量;
将训练集输入到多层感知机中,对多层感知机进行训练,得到训练后的多层感知机。
为了能够自动识别重要的特征位点和表观遗传因素来进行可解释的基因差异表达预测,本实施例通过注意力模块识别重要的特征位点和表观遗传因素,从而解释造成表达差异的原因,指导发现疾病的致病原因及治疗靶点。
本实施例提出的基于分层自注意力机制的差异表达基因预测系统,采用生物大数据处理技术手段,构建表观遗传测序数据(DNA甲基化及多种组蛋白修饰)输入特征矩阵;利用自注意力编码技术,对经过预处理的表观遗传数据编码,同时能够得到对于每种表观遗传因素,导致基因差异表达的重要位点;利用第二层自注意力嵌入,融合表示多个自注意力机制模块得到的表观遗传编码向量,同时得到每种表观遗传因素的影响权重,可以确定对于基因差异表达的重要影响因素;利用神经网络分类器能够自动预测最终表达是否具有差异。
本发明获取待测细胞对对应基因的表观遗传学数据,构建特征输入矩阵;将获取到的不同表观遗传因素的输入矩阵,分别传入不同的自注意力机制模块,输出编码向量和注意力权重矩阵,注意力权重矩阵说明了当前表观遗传因素对基因差异表达具有较大影响的位点;将通过不同自注意力机制模块获得的编码向量利用第二层自注意力机制,获得最终的特征嵌入向量,同时计算不同表观遗传因素的权重,确定重要的影响因素;将特征嵌入向量输入多层感知机分类器,输出最终的差异表达基因预测结果。本发明通过注意力模块识别重要的特征位点和表观遗传因素,从而解释造成表达差异的原因,指导发现疾病的致病原因及治疗靶点。
实施例二
本实施例还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行以下步骤:
获取待测细胞对对应基因的表观遗传学数据;根据表观遗传学数据,构建不同表观遗传因素的输入矩阵;
将每种表观遗传因素的输入矩阵,输入到第一自注意力机制层对应的自注意力机制模块中,得到每种表观遗传因素的编码向量;
将每种表观因素的编码向量,输入到第二自注意力机制层的自注意力机制模块中,得到每种表观遗传因素的特征向量;将所有种类的表观遗传因素的特征向量进行特征融合,得到最终的特征嵌入向量;
将融合后的特征输入到训练后的分类器中,得到差异表达基因预测结果。
实施例三
本实施例还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,执行以下步骤:
获取待测细胞对对应基因的表观遗传学数据;根据表观遗传学数据,构建不同表观遗传因素的输入矩阵;
将每种表观遗传因素的输入矩阵,输入到第一自注意力机制层对应的自注意力机制模块中,得到每种表观遗传因素的编码向量;
将每种表观因素的编码向量,输入到第二自注意力机制层的自注意力机制模块中,得到每种表观遗传因素的特征向量;将所有种类的表观遗传因素的特征向量进行特征融合,得到最终的特征嵌入向量;
将融合后的特征输入到训练后的分类器中,得到差异表达基因预测结果。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.基于分层自注意力机制的差异表达基因预测系统,其特征是,包括:
获取模块,其被配置为:获取待测细胞对对应基因的表观遗传学数据;根据表观遗传学数据,构建不同表观遗传因素的输入矩阵;
编码模块,其被配置为:将每种表观遗传因素的输入矩阵,输入到第一自注意力机制层对应的自注意力机制模块中,得到每种表观遗传因素的编码向量;
特征提取模块,其被配置为:将每种表观因素的编码向量,输入到第二自注意力机制层的自注意力机制模块中,得到最终的特征嵌入向量;
预测模块,其被配置为:将最终的特征嵌入向量输入到训练后的分类器中,得到差异表达基因预测结果。
2.如权利要求1所述的基于分层自注意力机制的差异表达基因预测系统,其特征是,所述获取待测细胞对对应基因的表观遗传学数据;具体包括:
获取测序数据;所述测序数据,包括:DNA甲基化数据和组蛋白修饰数据。
3.如权利要求1所述的基于分层自注意力机制的差异表达基因预测系统,其特征是,所述根据表观遗传学数据,构建不同表观遗传因素的输入矩阵;具体包括:
筛选测序数据中,细胞对对应基因转录起始点附近设定范围的DNA甲基化数据和组蛋白修饰数据;
根据筛选出来的DNA甲基化数据,构建DNA甲基化特征矩阵;
根据筛选出来的各种组蛋白修饰数据,分别构建组蛋白修饰特征矩阵;
计算细胞对之间的DNA甲基化特征矩阵的差异,得到DNA甲基化差异矩阵;
计算细胞对之间每种组蛋白修饰特征矩阵的差异,分别得到每种组蛋白修饰差异矩阵;
对DNA甲基化特征矩阵与DNA甲基化差异矩阵进行拼接,得到DNA甲基化输入矩阵;
对每种组蛋白修饰特征矩阵与对应的组蛋白差异矩阵进行拼接,分别得到若干种组蛋白修饰输入矩阵。
4.如权利要求1所述的基于分层自注意力机制的差异表达基因预测系统,其特征是,所述将每种表观遗传因素的输入矩阵,输入到第一自注意力机制层对应的自注意力机制模块中,得到每种表观遗传因素的编码向量;具体包括:
对DNA甲基化输入矩阵,通过线性变换的形式得到第一查询Query矩阵、第一键Key矩阵和第一值Value矩阵;
对DNA甲基化输入矩阵的第i个位点,将第i个位点对应的第一Query矩阵的Query向量,与所有非第i个位点对应的第一Key矩阵中的Key向量进行相似度计算,得到所有的相似度值;其中,i为正整数;i表示位点的编号;
将得到的所有的相似度值,通过softmax函数进行处理,得到第i个位点的注意力权重;进而得到所有位点的注意力权重矩阵;
利用所有位点的注意力权重矩阵,对所有位点的Value矩阵进行加权求和,得到编码矩阵;
对编码矩阵,进行线性变换降维处理,得到DNA甲基化的编码向量。
5.如权利要求1所述的基于分层自注意力机制的差异表达基因预测系统,其特征是,将每种表观因素的编码向量,输入到第二自注意力机制层的自注意力机制模块中,得到最终的特征嵌入向量;具体包括:
将获得的DNA甲基化的编码向量与各种组蛋白修饰编码向量拼接,获得第二自注意力机制层的自注意力机制模块的输入矩阵,通过线性变换的形式得到第二查询Query矩阵、第二键Key矩阵和第二值Value矩阵;
对每种表观遗传因素,将其第二Query矩阵中对应的Query向量与所有第二Key矩阵中的Key向量通过缩放点积的方式计算相似度,采用softmax函数对相似度进行处理得到当前因素注意力权重向量;进而得到所有因素的注意力权重向量,构建表观遗传因素注意力权重矩阵;
根据表观遗传因素注意力权重矩阵,对第二Value矩阵进行加权求和,得到最终的特征嵌入向量。
6.如权利要求1所述的基于分层自注意力机制的差异表达基因预测系统,其特征是,所述第一自注意力机制层包括若干个并列的自注意力机制模块,每个自注意力机制模块与对应种类的表观遗传因素的输入矩阵存在一一对应关系;所述第二自注意力机制层中,只包括一个自注意力机制模块。
7.如权利要求1所述的基于分层自注意力机制的差异表达基因预测系统,其特征是,所述将最终的特征嵌入向量输入到训练后的分类器中,得到差异表达基因预测结果;具体包括:
将融合后的特征输入到训练后的多层感知机中,得到差异表达基因预测结果。
8.如权利要求7所述的基于分层自注意力机制的差异表达基因预测系统,其特征是,训练后的多层感知机,训练步骤包括:
构建训练集;其中,训练集,包括:已知有差异与无差异分类标签的细胞对对应基因的特征嵌入向量;
将训练集输入到多层感知机中,对多层感知机进行训练,得到训练后的多层感知机。
9.一种电子设备,其特征是,包括:
存储器,用于非暂时性存储计算机可读指令;以及
处理器,用于运行所述计算机可读指令,
其中,所述计算机可读指令被所述处理器运行时,执行以下步骤:
获取待测细胞对对应基因的表观遗传学数据;根据表观遗传学数据,构建不同表观遗传因素的输入矩阵;
将每种表观遗传因素的输入矩阵,输入到第一自注意力机制层对应的自注意力机制模块中,得到每种表观遗传因素的编码向量;
将每种表观因素的编码向量,输入到第二自注意力机制层的自注意力机制模块中,得到最终的特征嵌入向量;
将最终的特征嵌入向量输入到训练后的分类器中,得到差异表达基因预测结果。
10.一种存储介质,其特征是,非暂时性地存储计算机可读指令,其中,当所述非暂时性计算机可读指令由计算机执行时,执行以下步骤:
获取待测细胞对对应基因的表观遗传学数据;根据表观遗传学数据,构建不同表观遗传因素的输入矩阵;
将每种表观遗传因素的输入矩阵,输入到第一自注意力机制层对应的自注意力机制模块中,得到每种表观遗传因素的编码向量;
将每种表观因素的编码向量,输入到第二自注意力机制层的自注意力机制模块中,得到最终的特征嵌入向量;
将最终的特征嵌入向量输入到训练后的分类器中,得到差异表达基因预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111581852.0A CN114283888B (zh) | 2021-12-22 | 2021-12-22 | 基于分层自注意力机制的差异表达基因预测系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111581852.0A CN114283888B (zh) | 2021-12-22 | 2021-12-22 | 基于分层自注意力机制的差异表达基因预测系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114283888A true CN114283888A (zh) | 2022-04-05 |
CN114283888B CN114283888B (zh) | 2024-07-26 |
Family
ID=80873846
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111581852.0A Active CN114283888B (zh) | 2021-12-22 | 2021-12-22 | 基于分层自注意力机制的差异表达基因预测系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114283888B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114864002A (zh) * | 2022-04-28 | 2022-08-05 | 广西科学院 | 一种基于深度学习的转录因子结合位点识别方法 |
CN114863992A (zh) * | 2022-06-27 | 2022-08-05 | 山东大学 | 基于组织特异性的玉米可变剪接异构体功能预测系统 |
CN116580767A (zh) * | 2023-04-26 | 2023-08-11 | 之江实验室 | 一种基于自监督与Transformer的基因表型预测方法和系统 |
CN116705150A (zh) * | 2023-06-05 | 2023-09-05 | 国家超级计算天津中心 | 基因表达效率的确定方法、装置、设备及介质 |
WO2023207686A1 (zh) * | 2022-04-29 | 2023-11-02 | 京东方科技集团股份有限公司 | 基因编辑结果的预测方法、装置、电子设备、程序及介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004109540A2 (en) * | 2003-05-30 | 2004-12-16 | Case Western Reserve University | A stochastic variable selection method for model selection |
CN104063459A (zh) * | 2014-06-26 | 2014-09-24 | 中国科学院微生物研究所 | 一种基于流感病毒刺激的细胞差异基因数据分类系统 |
US20170132362A1 (en) * | 2015-11-09 | 2017-05-11 | Washington State University | Novel machine learning approach for the identification of genomic features associated with epigenetic control regions and transgenerational inheritance of epimutations |
CN109934845A (zh) * | 2019-03-15 | 2019-06-25 | 腾讯科技(深圳)有限公司 | 基于自注意力网络的时序行为捕捉框生成方法及装置 |
CN110427493A (zh) * | 2019-07-11 | 2019-11-08 | 新华三大数据技术有限公司 | 电子病历处理方法、模型训练方法及相关装置 |
CN111341386A (zh) * | 2020-02-17 | 2020-06-26 | 大连理工大学 | 引入注意力的多尺度CNN-BiLSTM非编码RNA互作关系预测方法 |
CN111696624A (zh) * | 2020-06-08 | 2020-09-22 | 天津大学 | 基于自注意力机制的dna结合蛋白鉴定和功能注释的深度学习方法 |
CN112765352A (zh) * | 2021-01-21 | 2021-05-07 | 东北大学秦皇岛分校 | 基于具有自注意力机制的图卷积神经网络文本分类方法 |
CN113053462A (zh) * | 2021-03-11 | 2021-06-29 | 同济大学 | 基于双向注意力机制的rna与蛋白质绑定偏好预测方法和系统 |
CN113516232A (zh) * | 2021-08-10 | 2021-10-19 | 中国科学院空天信息创新研究院 | 一种基于自注意力机制的神经网络模型的训练方法 |
CN113744805A (zh) * | 2021-09-30 | 2021-12-03 | 山东大学 | 基于bert框架的dna甲基化预测方法及系统 |
-
2021
- 2021-12-22 CN CN202111581852.0A patent/CN114283888B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004109540A2 (en) * | 2003-05-30 | 2004-12-16 | Case Western Reserve University | A stochastic variable selection method for model selection |
CN104063459A (zh) * | 2014-06-26 | 2014-09-24 | 中国科学院微生物研究所 | 一种基于流感病毒刺激的细胞差异基因数据分类系统 |
US20170132362A1 (en) * | 2015-11-09 | 2017-05-11 | Washington State University | Novel machine learning approach for the identification of genomic features associated with epigenetic control regions and transgenerational inheritance of epimutations |
CN109934845A (zh) * | 2019-03-15 | 2019-06-25 | 腾讯科技(深圳)有限公司 | 基于自注意力网络的时序行为捕捉框生成方法及装置 |
CN110427493A (zh) * | 2019-07-11 | 2019-11-08 | 新华三大数据技术有限公司 | 电子病历处理方法、模型训练方法及相关装置 |
CN111341386A (zh) * | 2020-02-17 | 2020-06-26 | 大连理工大学 | 引入注意力的多尺度CNN-BiLSTM非编码RNA互作关系预测方法 |
CN111696624A (zh) * | 2020-06-08 | 2020-09-22 | 天津大学 | 基于自注意力机制的dna结合蛋白鉴定和功能注释的深度学习方法 |
CN112765352A (zh) * | 2021-01-21 | 2021-05-07 | 东北大学秦皇岛分校 | 基于具有自注意力机制的图卷积神经网络文本分类方法 |
CN113053462A (zh) * | 2021-03-11 | 2021-06-29 | 同济大学 | 基于双向注意力机制的rna与蛋白质绑定偏好预测方法和系统 |
CN113516232A (zh) * | 2021-08-10 | 2021-10-19 | 中国科学院空天信息创新研究院 | 一种基于自注意力机制的神经网络模型的训练方法 |
CN113744805A (zh) * | 2021-09-30 | 2021-12-03 | 山东大学 | 基于bert框架的dna甲基化预测方法及系统 |
Non-Patent Citations (1)
Title |
---|
ARSHDEEP SEKHON ET AL.: "DeepDiff: DEEP-learning for predicting DIFFerential gene expression from histone modifications", BIOINFORMATICS, 10 July 2018 (2018-07-10), pages 891 - 900 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114864002A (zh) * | 2022-04-28 | 2022-08-05 | 广西科学院 | 一种基于深度学习的转录因子结合位点识别方法 |
CN114864002B (zh) * | 2022-04-28 | 2023-03-10 | 广西科学院 | 一种基于深度学习的转录因子结合位点识别方法 |
WO2023207686A1 (zh) * | 2022-04-29 | 2023-11-02 | 京东方科技集团股份有限公司 | 基因编辑结果的预测方法、装置、电子设备、程序及介质 |
CN114863992A (zh) * | 2022-06-27 | 2022-08-05 | 山东大学 | 基于组织特异性的玉米可变剪接异构体功能预测系统 |
CN114863992B (zh) * | 2022-06-27 | 2024-04-05 | 山东大学 | 基于组织特异性的玉米可变剪接异构体功能预测系统 |
CN116580767A (zh) * | 2023-04-26 | 2023-08-11 | 之江实验室 | 一种基于自监督与Transformer的基因表型预测方法和系统 |
CN116580767B (zh) * | 2023-04-26 | 2024-03-12 | 之江实验室 | 一种基于自监督与Transformer的基因表型预测方法和系统 |
CN116705150A (zh) * | 2023-06-05 | 2023-09-05 | 国家超级计算天津中心 | 基因表达效率的确定方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114283888B (zh) | 2024-07-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114283888B (zh) | 基于分层自注意力机制的差异表达基因预测系统 | |
CN111798921B (zh) | 一种基于多尺度注意力卷积神经网络的rna结合蛋白预测方法及装置 | |
Lanchantin et al. | Deep motif dashboard: visualizing and understanding genomic sequences using deep neural networks | |
CN111312329B (zh) | 基于深度卷积自动编码器的转录因子结合位点预测的方法 | |
Lee et al. | deepTarget: end-to-end learning framework for microRNA target prediction using deep recurrent neural networks | |
CN107798235A (zh) | 基于one‑hot编码机制的无监督异常访问检测方法及装置 | |
WO2020023650A1 (en) | Retrosynthesis prediction using deep highway networks and multiscale reaction classification | |
Vu et al. | Convolutional neural networks improve fungal classification | |
Kaur et al. | Prediction of enhancers in DNA sequence data using a hybrid CNN-DLSTM model | |
CN114743600B (zh) | 基于门控注意力机制的靶标-配体结合亲和力的深度学习预测方法 | |
CN113764034A (zh) | 基因组序列中潜在bgc的预测方法、装置、设备及介质 | |
US20230245305A1 (en) | Image-based variant pathogenicity determination | |
CN114420201A (zh) | 一种多源数据高效融合的药物靶标相互作用的预测方法 | |
Wang et al. | A novel matrix of sequence descriptors for predicting protein-protein interactions from amino acid sequences | |
Mesa et al. | Hidden Markov models for gene sequence classification: Classifying the VSG gene in the Trypanosoma brucei genome | |
Soliman et al. | Hybrid Approach for Taxonomic Classification Based on Deep Learning | |
CN116386733A (zh) | 基于多视角多尺度多注意力机制的蛋白质功能预测方法 | |
US20220336057A1 (en) | Efficient voxelization for deep learning | |
KR20230171930A (ko) | 3차원(3d) 단백질 구조들을 사용하여 변이체 병원성을 예측하기 위한 심층 콘볼루션 신경망들 | |
KR20230170680A (ko) | 심층 콘볼루션 신경망들을 사용하여 변이체 병원성을 예측하기 위한 다중 채널 단백질 복셀화 | |
CN114625886A (zh) | 基于知识图谱小样本关系学习模型的实体查询方法及系统 | |
Taju et al. | Using deep learning with position specific scoring matrices to identify efflux proteins in membrane and transport proteins | |
Shiri et al. | Highly Scalable Task Grouping for Deep Multi-Task Learning in Prediction of Epigenetic Events | |
KR20210050362A (ko) | 앙상블 모델 프루닝 방법, 유전자 가위를 검출하는 앙상블 모델 생성 방법 및 장치 | |
Dsouza et al. | Latent representation of the human pan-celltype epigenome through a deep recurrent neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |