CN114283888A

CN114283888A - 基于分层自注意力机制的差异表达基因预测系统

Info

Publication number: CN114283888A
Application number: CN202111581852.0A
Authority: CN
Inventors: 王峻; 黄子墨; 余国先; 闫中敏; 崔立真
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2021-12-22
Filing date: 2021-12-22
Publication date: 2022-04-05
Anticipated expiration: 2041-12-22
Also published as: CN114283888B

Abstract

本发明公开了基于分层自注意力机制的差异表达基因预测系统，包括：获取模块，获取待测细胞对对应基因的表观遗传学数据；根据表观遗传学数据，构建不同表观遗传因素的输入矩阵；编码模块，将每种表观遗传因素的输入矩阵，输入到第一自注意力机制层对应的自注意力机制模块中，得到每种表观遗传因素的编码向量；特征提取模块，将每种表观因素的编码向量，输入到第二自注意力机制层的自注意力机制模块中，得到最终的特征嵌入向量；预测模块，将最终的特征嵌入向量输入到训练后的分类器中，得到差异表达基因预测结果。利用表观遗传学数据自动构建特征，同时识别重要的特征位点和表观遗传因素来进行可解释的基因差异表达预测。

Description

基于分层自注意力机制的差异表达基因预测系统

技术领域

本发明涉及生物信息学技术领域，特别是涉及基于分层自注意力机制的差异表达基因预测系统。

背景技术

本部分的陈述仅仅是提到了与本发明相关的背景技术，并不必然构成现有技术。

表观遗传学是研究在基因的核苷酸序列不发生改变的情况下，基因表达产生可遗传变化的一门遗传学分支学科，表观遗传学因素在细胞分化和细胞的特异性表达过程中起着重要的调控作用，许多复杂疾病与表观遗传因素有关。表观遗传学变异存在潜在可逆性，了解表观遗传因素如何调控基因差异表达，找到表观遗传疾病的致病原因是当前创新的难点。

通过表观遗传数据预测差异表达基因可以更加深入的理解表观遗传因素是如何调控基因的表达，发现表观遗传因素作用效果，同时，可以帮助医生发现表观遗传疾病的致病位点和治疗靶点。但是，目前利用表观遗传数据预测差异表达基因方法存在一定的局限性，基于传统机器学习的方法需要大量生物医学先验知识来构建特征，方法效果强依赖于特征质量，依赖已有知识，难以发现新的调控机制；现有基于深度学习的方法有着缺乏可解释性，训练速度慢等缺陷，难以进行实际应用来协助发现新的调控机制，以及寻找表观遗传疾病的致病位点和治疗靶点。

发明内容

为了解决现有技术的不足，本发明提供了基于分层自注意力机制的差异表达基因预测系统；利用表观遗传学数据自动构建特征，同时识别重要的特征位点和表观遗传因素来进行可解释的基因差异表达预测。

第一方面，本发明提供了基于分层自注意力机制的差异表达基因预测系统；

基于分层自注意力机制的差异表达基因预测系统，包括：

获取模块，其被配置为：获取待测细胞对对应基因的表观遗传学数据；根据表观遗传学数据，构建不同表观遗传因素的输入矩阵；

编码模块，其被配置为：将每种表观遗传因素的输入矩阵，输入到第一自注意力机制层对应的自注意力机制模块中，得到每种表观遗传因素的编码向量；

特征提取模块，其被配置为：将每种表观因素的编码向量，输入到第二自注意力机制层的自注意力机制模块中，得到最终的特征嵌入向量；

预测模块，其被配置为：将最终的特征嵌入向量输入到训练后的分类器中，得到差异表达基因预测结果。

第二方面，本发明还提供了一种电子设备，包括：

存储器，用于非暂时性存储计算机可读指令；以及

处理器，用于运行所述计算机可读指令，

其中，所述计算机可读指令被所述处理器运行时，执行以下步骤：

获取待测细胞对对应基因的表观遗传学数据；根据表观遗传学数据，构建不同表观遗传因素的输入矩阵；

将每种表观遗传因素的输入矩阵，输入到第一自注意力机制层对应的自注意力机制模块中，得到每种表观遗传因素的编码向量；

将每种表观因素的编码向量，输入到第二自注意力机制层的自注意力机制模块中，得到最终的特征嵌入向量；

将最终的特征嵌入向量输入到训练后的分类器中，得到差异表达基因预测结果。

第三方面，本发明还提供了一种存储介质，非暂时性地存储计算机可读指令，其中，当所述非暂时性计算机可读指令由计算机执行时，执行以下步骤：

第四方面，本发明还提供了一种计算机程序产品，包括计算机程序，所述计算机程序当在一个或多个处理器上运行的时候执行以下步骤：

与现有技术相比，本发明的有益效果是：

本公开利用表观遗传学数据预测差异表达基因，不依赖人工构造特征；利用两层自注意力机制层的自注意力机制模块编码输入数据，自动构建特征，节省人力资源，还能够发现新的调控机制；同时，深度学习模型的使用使得模型在处理生物大数据时能取得较好的效果；此外，能够根据自注意力机制理解不同位点和不同因素的重要程度，这对于确定表观遗传疾病的致病原因和治疗靶点有重要的指导意义。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是实施例一基于分层自注意力机制的差异表达基因预测系统的结构图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

本实施例所有数据的获取都在符合法律法规和用户同意的基础上，对数据的合法应用。

实施例一

本实施例提供了基于分层自注意力机制的差异表达基因预测系统；

如图1所示，基于分层自注意力机制的差异表达基因预测系统，包括：

特征提取模块，其被配置为：将所有表观因素的编码向量融合后，输入到第二自注意力机制层的自注意力机制模块中，得到最终的特征嵌入向量；

预测模块，其被配置为：将融合后的特征输入到训练后的分类器中，得到差异表达基因预测结果。

进一步地，所述获取待测细胞对对应基因的表观遗传学数据；具体包括：

获取测序数据；所述测序数据，包括：DNA甲基化数据和组蛋白修饰数据。

DNA甲基化数据，通过全基因组重亚硫酸盐测序(Whole Genome BisulfiteSequencing，WGBS)方法获得；

组蛋白修饰数据，通过染色质免疫共沉淀(Chromatin Immunoprecipitation，ChIP)技术获得。

其中，所需测序组蛋白修饰为H3K4me1、H3K4me3、H3K9me3、H3K27me3及H3K36me3。

进一步地，所述根据表观遗传学数据，构建不同表观遗传因素的输入矩阵；具体包括：

筛选测序数据中，细胞对对应基因转录起始点附近设定范围的DNA甲基化数据和组蛋白修饰数据；

根据筛选出来的DNA甲基化数据，构建DNA甲基化特征矩阵；

根据筛选出来的各种组蛋白修饰数据，分别构建组蛋白修饰特征矩阵；

计算细胞对之间的DNA甲基化特征矩阵的差异，得到DNA甲基化差异矩阵；

计算细胞对之间每种组蛋白修饰特征矩阵的差异，分别得到每种组蛋白修饰差异矩阵；

对DNA甲基化特征矩阵与DNA甲基化差异矩阵进行拼接，得到DNA甲基化输入矩阵；

对每种组蛋白修饰特征矩阵与对应的组蛋白差异矩阵进行拼接，分别得到若干种组蛋白修饰输入矩阵。

示例性地，由获得的原始表观遗传测序数据，根据查询获得的待测基因的转录起始位点，选取待测基因转录起始位点周围一万碱基对(前后五千碱基对)范围内的表观遗传测序数据。

对筛选出的待测基因表观遗传数据进行预处理，将一万碱基均分至100bin，统计每个bin中碱基位点的甲基化水平(非甲基化位点设置为-1)，以及各种组蛋白修饰计数，作为每个bin特征，此外，综合统计每个bin的平均甲基化水平(非甲基化位点不参与计算,若bin中无甲基化位点,设置值为-1)以及各种组蛋白修饰总计数，构建细胞表观遗传特征矩阵。

重复上述步骤，分别构建两个不同细胞的特征矩阵，然后计算两个矩阵的差异值，生成差异矩阵。按照不同表观遗传因素，拼接不同细胞的特征矩阵和差异矩阵，构成最终的输入矩阵。

进一步地，所述将每种表观遗传因素的输入矩阵，输入到第一层自注意力机制层对应的自注意力机制模块中，得到每种表观遗传因素的编码向量；具体包括：

对DNA甲基化输入矩阵，通过线性变换的形式得到第一Query(查询)矩阵、第一Key(键)矩阵和第一Value(值)矩阵；

对DNA甲基化输入矩阵的第i个位点，将第i个位点对应的第一Query矩阵的Query向量，与所有非第i个位点对应的第一Key矩阵中的Key向量进行相似度计算，得到所有的相似度值；其中，i为正整数；i表示位点的编号；

将得到的所有的相似度值，通过softmax函数进行处理，得到第i个位点的注意力权重；进而得到所有位点的注意力权重矩阵；

利用所有位点的注意力权重矩阵，对所有位点的Value矩阵进行加权求和，得到编码矩阵；

对编码矩阵，进行线性变换降维处理，得到DNA甲基化的编码向量。

应理解地，采用与DNA甲基化的编码向量同样的获取方式，分别得到每种组蛋白修饰的编码向量。

应理解地，所述注意力权重矩阵，说明对于当前表观遗传因素来说，重要的作用位点。

具体地，通过位置编码对不同bin嵌入位置信息，然后利用线性变换得到特征矩阵的Query、Key、Value矩阵，利用Query、Key矩阵计算注意力权重，然后根据得到的注意力权重和Value矩阵得到最终的编码向量。

具体地，所述将每种表观遗传因素的输入矩阵，输入到第一自注意力机制层对应的自注意力机制模块中，得到每种表观遗传因素的编码向量的具体实现方式如下：

S1021：位置编码嵌入。利用特征的位置对序列中每个位点进行二次表示，利用正余弦交替的编码方式嵌入位置信息，使得出现在不同位置的特征有不同的编码结果，位置编码公式为：

其中，PE为二维矩阵，维度与输入矩阵相同；pos表示特征的位置；d表示特征维度；i表示特征第i维。

S1022：对经过S1021获得的具有位置编码的输入矩阵通过线性变换获得Query、Key及Value矩阵。变换公式为：

Query＝XW^Q,

Key＝XW^K,

Value＝XW^V

其中，X为输入特征矩阵，W^Q、W^K和W^V为变换矩阵。

S1023：利用自注意力机制模块获取注意力权重矩阵。对于某一位点，将其Query矩阵中对应的位置的Query向量与所有位点对应的Key向量通过缩放点积(Scaled Dot-Product)方式计算相似度，通过softmax函数获得当前位点注意力权重向量，重复计算所有位点获得的注意力权重矩阵，整体计算公式为：

其中，Q为Query矩阵，K为Key矩阵，d为Key(Query)矩阵维度。通过可视化Attention矩阵，可以找到重要的影响位点。

S1024：自注意力机制模块编码。利用S1023获得的自注意力权重矩阵，对所有位点的Value矩阵进行加权求和得到最终的编码矩阵，计算公式为：

E＝Attention·V

其中，Attention为计算的注意力权重矩阵，V为Value矩阵。

S1025：利用线性变换降维编码矩阵，将S1024得到的编码矩阵降维成一维编码向量。

进一步地，将所有表观因素的编码向量融合后，输入到第二自注意力机制层的自注意力机制模块中，得到最终的特征嵌入向量；具体包括：

将获得的DNA甲基化的编码向量与各种组蛋白修饰编码向量拼接，获得第二自注意力机制层的自注意力机制模块的输入矩阵，通过线性变换的形式得到第二Query(查询)矩阵、第二Key(键)矩阵和第二Value(值)矩阵；

对每种表观遗传因素，将其第二Query矩阵中对应的Query向量与所有第二Key矩阵中的Key向量通过缩放点积(Scaled Dot-Product)的方式计算相似度，采用softmax函数对相似度进行处理得到当前因素注意力权重向量；进而得到所有因素的注意力权重向量，构建表观遗传因素注意力权重矩阵；

根据表观遗传因素注意力权重矩阵，对第二Value矩阵进行加权求和，得到最终的特征嵌入向量。

其中，所述第一自注意力机制层包括若干个并列的自注意力机制模块，每个自注意力机制模块与对应种类的表观遗传因素的输入矩阵存在一一对应关系。

其中，所述第二自注意力机制层中，只包括一个自注意力机制模块。

示例性地，利用第二自注意力机制层的自注意力机制模块获得最终的特征嵌入矩阵,同时预测对于差异表达影响重要的表观遗传因素。

具体地，根据多个自注意力机制模块编码的不同表观遗传因素的编码向量，利用第二自注意力机制层的自注意力机制模块计算不同因素对于差异表达的影响权重，从而可以找到重要的影响因素，同时通过加权求和的方式嵌入表示所有表观遗传因素，获取最终特征表示向量。

具体地，所述将每种表观因素的编码向量，输入到第二自注意力机制层的自注意力机制模块中，得到每种表观遗传因素的特征向量；将所有种类的表观遗传因素的特征向量进行特征融合，得到最终的特征嵌入向量；具体实现方式如下：

S1031：将S102获得的多个编码向量拼接得到第二层嵌入输入矩阵，然后通过线性变换获得Query、Key及Value矩阵。

S1032：利用自注意力机制获取不同表观遗传因素的权重向量。对于某一因素，将其对应的Query向量与所有因素对应的Key向量通过缩放点积(Scaled Dot-Product)的方式计算相似度，通过softmax函数获得当前因素注意力权重向量，重复计算所有因素获得的注意力权重矩阵。

S1033：利用自注意力权重矩阵获得嵌入矩阵。根据S1032得到的表观遗传因素的权重向量，对所有表观遗传因素的Value矩阵进行加权求和得到最终的特征嵌入向量。

进一步地，所述将融合后的特征输入到训练后的分类器中，得到差异表达基因预测结果；具体包括：

将融合后的特征输入到训练后的多层感知机中，得到差异表达基因预测结果。

利用多层感知机分类器预测差异表达分类结果，将获得最终特征嵌入向量传入多层感知机分类器中，最终通过softmax层分别给出表达有差异和无差异的概率，得到最终预测结果。

进一步地，训练后的多层感知机，训练步骤包括：

构建训练集；其中，训练集，包括：已知有差异与无差异分类标签的细胞对对应基因的特征嵌入向量；

将训练集输入到多层感知机中，对多层感知机进行训练，得到训练后的多层感知机。

为了能够自动识别重要的特征位点和表观遗传因素来进行可解释的基因差异表达预测，本实施例通过注意力模块识别重要的特征位点和表观遗传因素，从而解释造成表达差异的原因，指导发现疾病的致病原因及治疗靶点。

本实施例提出的基于分层自注意力机制的差异表达基因预测系统，采用生物大数据处理技术手段，构建表观遗传测序数据(DNA甲基化及多种组蛋白修饰)输入特征矩阵；利用自注意力编码技术，对经过预处理的表观遗传数据编码，同时能够得到对于每种表观遗传因素，导致基因差异表达的重要位点；利用第二层自注意力嵌入，融合表示多个自注意力机制模块得到的表观遗传编码向量，同时得到每种表观遗传因素的影响权重，可以确定对于基因差异表达的重要影响因素；利用神经网络分类器能够自动预测最终表达是否具有差异。

本发明获取待测细胞对对应基因的表观遗传学数据，构建特征输入矩阵；将获取到的不同表观遗传因素的输入矩阵，分别传入不同的自注意力机制模块，输出编码向量和注意力权重矩阵，注意力权重矩阵说明了当前表观遗传因素对基因差异表达具有较大影响的位点；将通过不同自注意力机制模块获得的编码向量利用第二层自注意力机制，获得最终的特征嵌入向量，同时计算不同表观遗传因素的权重，确定重要的影响因素；将特征嵌入向量输入多层感知机分类器，输出最终的差异表达基因预测结果。本发明通过注意力模块识别重要的特征位点和表观遗传因素，从而解释造成表达差异的原因，指导发现疾病的致病原因及治疗靶点。

实施例二

本实施例还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行以下步骤：

将每种表观因素的编码向量，输入到第二自注意力机制层的自注意力机制模块中，得到每种表观遗传因素的特征向量；将所有种类的表观遗传因素的特征向量进行特征融合，得到最终的特征嵌入向量；

将融合后的特征输入到训练后的分类器中，得到差异表达基因预测结果。

实施例三

本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，执行以下步骤：

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于分层自注意力机制的差异表达基因预测系统，其特征是，包括：

2.如权利要求1所述的基于分层自注意力机制的差异表达基因预测系统，其特征是，所述获取待测细胞对对应基因的表观遗传学数据；具体包括：

3.如权利要求1所述的基于分层自注意力机制的差异表达基因预测系统，其特征是，所述根据表观遗传学数据，构建不同表观遗传因素的输入矩阵；具体包括：

根据筛选出来的DNA甲基化数据，构建DNA甲基化特征矩阵；

4.如权利要求1所述的基于分层自注意力机制的差异表达基因预测系统，其特征是，所述将每种表观遗传因素的输入矩阵，输入到第一自注意力机制层对应的自注意力机制模块中，得到每种表观遗传因素的编码向量；具体包括：

对DNA甲基化输入矩阵，通过线性变换的形式得到第一查询Query矩阵、第一键Key矩阵和第一值Value矩阵；

5.如权利要求1所述的基于分层自注意力机制的差异表达基因预测系统，其特征是，将每种表观因素的编码向量，输入到第二自注意力机制层的自注意力机制模块中，得到最终的特征嵌入向量；具体包括：

将获得的DNA甲基化的编码向量与各种组蛋白修饰编码向量拼接，获得第二自注意力机制层的自注意力机制模块的输入矩阵，通过线性变换的形式得到第二查询Query矩阵、第二键Key矩阵和第二值Value矩阵；

对每种表观遗传因素，将其第二Query矩阵中对应的Query向量与所有第二Key矩阵中的Key向量通过缩放点积的方式计算相似度，采用softmax函数对相似度进行处理得到当前因素注意力权重向量；进而得到所有因素的注意力权重向量，构建表观遗传因素注意力权重矩阵；

6.如权利要求1所述的基于分层自注意力机制的差异表达基因预测系统，其特征是，所述第一自注意力机制层包括若干个并列的自注意力机制模块，每个自注意力机制模块与对应种类的表观遗传因素的输入矩阵存在一一对应关系；所述第二自注意力机制层中，只包括一个自注意力机制模块。

7.如权利要求1所述的基于分层自注意力机制的差异表达基因预测系统，其特征是，所述将最终的特征嵌入向量输入到训练后的分类器中，得到差异表达基因预测结果；具体包括：

8.如权利要求7所述的基于分层自注意力机制的差异表达基因预测系统，其特征是，训练后的多层感知机，训练步骤包括：

9.一种电子设备，其特征是，包括：

存储器，用于非暂时性存储计算机可读指令；以及

处理器，用于运行所述计算机可读指令，

10.一种存储介质，其特征是，非暂时性地存储计算机可读指令，其中，当所述非暂时性计算机可读指令由计算机执行时，执行以下步骤：