CN114388064A

CN114388064A - 用于蛋白质表征学习的多模态信息融合方法、系统、终端及存储介质

Info

Publication number: CN114388064A
Application number: CN202111536668.4A
Authority: CN
Inventors: 胡奕绅; 殷鹏; 胡帆
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2021-12-15
Filing date: 2021-12-15
Publication date: 2022-04-22
Also published as: WO2023109714A1

Abstract

本申请提供的用于蛋白质表征学习的多模态信息融合方法、系统、终端及存储介质，利用早期提取、中期融合、后期预测的策略，让各个单模态的模型能够充分提取各自模态的高级语义信息之后再进行融合，后期再通过前馈神经网络去做任务的预测；同时，提出一个多模态融合的模块，能够在中期融合的时候，对每一层网络的不同模态信息进行细粒度的交互，更好地将多模态进行融合并传递下去；在后期预测阶段特征提取器的最后一层，将融合的多模态embedding和之前的单模态embedding拼接在一起作为蛋白质本身的表示，这样做可以最大程度保留单模态原有的信息。

Description

用于蛋白质表征学习的多模态信息融合方法、系统、终端及存储介质

技术领域

本申请属于医学数据处理技术领域，具体涉及一种用于蛋白质表征学习的多模态信息融合方法、系统、终端及存储介质。

背景技术

蛋白质的表征学习是生物信息领域一个非常重要的研究课题，它对于预测蛋白与蛋白的互作、蛋白与药物的互作、蛋白与基因的互作等都起到十分关键的作用。一个好的数据表征应该能多方位覆盖物体本身的信息，使下游任务的推理过程有更多可用的特征支撑。

在蛋白质的计算研究中，需要将蛋白质转化为计算机能够处理的数据，而原始数据在输入模型之前，需要进行特征的提取，这个过程称为表征学习，一个好的表征学习对于下游任务的性能提升具有重大帮助。对于蛋白质的表征学习可以分为单模态的表征和多模态的表征。

在单模态上，主要是分别针对序列和结构的特征进行学习。蛋白质的序列类似于文本序列，可以借鉴NLP领域的技术去建模。在过去，有研究利用CNN对蛋白质序列进行一维卷积，提取蛋白质的序列特征后做后续的任务；也有研究用到了在时序的数据上见长的RNN模型，同样取得了不错的效果。最近，不少人尝试了在NLP和CV领域取得突破性进展的Transformer，对大规模的蛋白质序列做预训练，在下游任务中取得了更好的结果。与序列的模态相对，蛋白质的结构模态同样对理解蛋白质本身至关重要。针对蛋白质结构的建模研究相比于序列要少一些，有研究将3D蛋白质结构转为图像，然后利用CNN提取特征对蛋白质进行表示，还有研究将3D结构平铺为氨基酸节点的邻接矩阵，然后利用图神经网络的算法进行建模。

在多模态上，关键是如何将单模态的信息进行融合，大多数的研究利用不同的特征提取器提取单模态的信息，然后将不同模态的embedding进行拼接或加和，得到新的embedding作为多模态的表征，也有人在拼接或加和之后将embedding输入到一个新的交互网络中，比如Transformer，去得到一个交互的embedding。

当前很多多模态融合的方法只是简单地将单模态的表征进行拼接或加和，这种方法并不能细粒度地学习模态之间的交互信息，得到的表征向量会丢失很多信息。有些研究考虑到要学习模态间的交互，它们在原始数据的初始嵌入层将两个模态的数据进行拼接，然后传入Transformer的编码层去学习token间的关系，尽管如此，该方法在早期对模态进行融合，会导致每个模态并没有充分提取高级的语义信息就与其它模态融合，在后续任务中表现的不尽人意。此外，基本所有的研究都是提取出多模态的表征之后直接用于下游，但是无论多模态的特征学得多好，总会有单模态的信息在传递过程中丢失。

发明内容

鉴于此，有必要针对现有技术存在的缺陷提供一种可以最大程度保留单模态原有的信息的用于蛋白质表征学习的多模态信息融合方法。

为解决上述问题，本申请采用下述技术方案：

本申请目的之一在于，提供一种用于蛋白质表征学习的多模态信息融合方法，包括下述步骤：

对开源蛋白质数据进行预处理；

将所述蛋白质数据集划分成训练集、验证集和测试集；

构建单模态特征提取器，所述单模态特征提取器作为蛋白质序列的特征提取器；

构建多模态融合模块，所述多模态融合模块对所述单模态特征提取器的氨基酸token embedding进行更新，以使单模态带有多模型的信息，并作为所述单模态特征提取器的输入；

基于所述多模态融合模块构建学习模型；

所述训练集训练所述学习模型，所述验证集衡量所述学习模型的效果，并选出性能表现最好的参数作为所述学习模型的参数，利用所述测试集独立测试所述学习模型的泛化能力。

在其中一些实施例中，在对开源蛋白质数据进行预处理的步骤中，具体包括下述步骤：

从所述开源蛋白质数据集中提取蛋白质的序列数据，序列由20个英文字母组成，所述20个英文字母代表20种氨基酸，并将蛋白质的3D结构转化为邻接矩阵图。

在其中一些实施例中，在构建单模态特征提取器的步骤中，具体包括：

单模态特征提取器为经过预训练的Transformer模型。

在其中一些实施例中，在构建多模态融合模块的步骤中，具体包括下述步骤：

对序列特征矩阵和结构特征矩阵进行平均池化，每个氨基酸的特征向量得到一个代表值，公式如下，其中

分别表示输入多模态模块前的序列特征矩阵和结构特征矩阵，其中D_seq表示序列上每个氨基酸的特征维度，D_struc表示结构上每个氨基酸的特征维度，L_seq和L_struc分别表示在序列和结构的氨基酸长度，但是两者其实是相等的，即L_seq＝L_struc＝L；

将序列和结构的池化向量拼接，再经过一个全连接网络转化为含有多模态信息的向量，公式如下：

M_comp＝W[M_seq,M_struc]+b

其中，

令D_comp＝(L_seq+L_struc)/5；

将多模态信息压缩向量M_comp重新分流到各个模态中去校准单模态信息，分流的过程是分别引入各自模态的全连接转化层，公式如下：

T_seq＝W_seqM_comp+b_seq,

T_struc＝W_strucM_comp+b_struc,

将分流转化的模态向量通过激活函数进行激活，作为门控开关去限制每个氨基酸对整体任务的贡献程度，具体公式如下：

其中σ是指sigmoid函数，⊙是指哈达玛积；

经过与激活后的门控向量相乘之后，得到重构的单模态向量作为下一层单模态特征提取器的输入。

在其中一些实施例中，在基于所述多模态融合模块构建学习模型的步骤中，具体包括下述步骤：

给蛋白质序列和结构的原始输入加上一个特殊token，命名为[cls]，序列的[cls]放在整个序列的最前面，结构的[cls]与所有氨基酸建立一个虚拟的全连通；

原始蛋白质数据经过N_e层的早期单模态特征提取器，序列经过所述Transformer模型的编码层，结构经过图注意力网络层，输出的结果代表已经提取高层语义的单模态向量表示；

插入所述的多模态融合模块进行中期融合；

在经过中期融合之后，单模态被多模态信息校准，继续经过N_l层特征提取器，进一步作校准后的特征挖掘；

将校准后的特征挖掘的两个模态的[cls]向量进行拼接，然后经过前馈神经网络，再和早期单模态特征提取器得到的[cls]向量进行拼接；

再经过第二个前馈神经网络，得到学习模型。

在其中一些实施例中，在完成基于所述多模态融合模块构建学习模型的步骤之后，还包括下述步骤：

增加辅助损失对所述学习模型进行参数更新。

本申请目的之二，在于提供一种用于蛋白质表征学习的多模态信息融合系统，包括：

数据处理单元：用于对开源蛋白质数据进行预处理；

分类单元：用于将所述蛋白质数据集划分成训练集、验证集和测试集；

单模态特征提取器构建单元：用于构建单模态特征提取器，所述单模态特征提取器作为蛋白质序列的特征提取器；

多模态融合模块构建单元：用于构建多模态融合模块，所述多模态融合模块对所述单模态特征提取器的氨基酸token embedding进行更新，以使单模态带有多模型的信息，并作为所述单模态特征提取器的输入；

学习模型构建单元：用于基于所述多模态融合模块构建学习模型；

训练单元：所述训练集训练所述学习模型，所述验证集衡量所述学习模型的效果，并选出性能表现最好的参数作为所述学习模型的参数，利用所述测试集独立测试所述学习模型的泛化能力。

本申请目的之三，在于提供一种终端，包括：所述终端包括处理器、与所述处理器耦接的存储器，其中，

所述存储器存储有用于实现所述的用于蛋白质表征学习的多模态信息融合方法的程序指令；

所述处理器用于执行所述存储器存储的所述程序指令以控制多模态信息融合。

本申请目的之四，在于提供一种存储介质，存储有处理器可运行的程序指令，所述程序指令用于执行所述用于蛋白质表征学习的多模态信息融合方法。

本申请采用上述技术方案具备下述效果：

此外，本申请提供的用于蛋白质表征学习的多模态信息融合方法、系统、终端及存储介质，在设计损失函数时，对后期预测阶段不同层的特征提取网络都预测一个结果，作为最后损失的辅助损失，辅助损失的引入可以帮助模型更快收敛并且达到一个更好的性能。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面所描述的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的用于蛋白质表征学习的多模态信息融合方法的步骤流程图。

图2为本申请实施例提供的蛋白质的邻接矩阵图。

图3为本申请实施例提供的多模态融合模块示意图。

图4为本申请实施例提供的学习模块示意图。

图5是本申请实施例提供的用于蛋白质表征学习的多模态信息融合方法的结构示意图。

图6为本申请实施例提供的终端结构示意图。

图7为本申请实施例提供的存储介质的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

在本申请的描述中，需要理解的是，术语“上”、“下”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

请参阅图1，为本申请提供的用于蛋白质表征学习的多模态信息融合方法的步骤流程图，包括下述步骤：

步骤S110：对开源蛋白质数据进行预处理。

在本实施例中，在所述开源蛋白质数据中，这些数据集有各种任务，包括预测蛋白质的荧光性、蛋白质的次级结构，蛋白质的远程同源性和蛋白质的稳定性。从这些数据集中提取蛋白质的序列数据，序列由20个英文字母(代表20种氨基酸)组成，并将蛋白质的3D结构转化为邻接矩阵图，又称为contact map。

如图2，它表示的是氨基酸之间是否在空间中接触，白色的部分表示有接触，黑色表示没有。

步骤120：将所述蛋白质数据集划分成训练集、验证集和测试集。

可以理解，将处理后的数据集划分为训练、验证和测试集，训练集用来调整模型参数来拟合目标，验证集用来选择最优的参数，测试集用来评价模型最后的效果。

步骤S130：构建单模态特征提取器，所述单模态特征提取器作为蛋白质序列的特征提取器。

在本实施例中，本申请选用经过预训练的Transformer模型TAPE作为蛋白质序列的特征提取器，预训练的策略能让模型在训练之前就带有先验信息，对模型的推理能起到正向作用，可以捕获全序列的氨基酸关联关系，而且支持并行化。对于蛋白质结构，其拓扑结构的性质，适合用图算法去解决，本申请选用了有效的图神经网络，具体是图注意力网络GAT，该网络也是利用注意力机制去捕获邻居节点与目标节点的关系。

步骤S140：构建多模态融合模块，所述多模态融合模块对所述单模态特征提取器的氨基酸token embedding进行更新，以使单模态带有多模型的信息，并作为所述单模态特征提取器的输入。

请参阅图3，在构建多模态融合模块的步骤中，主要有池化、压缩、分流、重构四个步骤，具体包括下述步骤：

第一步：对序列特征矩阵和结构特征矩阵进行平均池化，每个氨基酸的特征向量得到一个代表值，公式如下，其中

假设

分别表示输入多模态模块前的序列特征矩阵和结构特征矩阵，其中D_seq表示序列上每个氨基酸的特征维度，D_struc表示结构上每个氨基酸的特征维度，L_seq和L_struc分别表示在序列和结构的氨基酸长度，但是两者其实是相等的，即，L_seq＝L_struc＝L。

第二步：将序列和结构的池化向量拼接，再经过一个全连接网络转化为含有多模态信息的向量，公式如下：

M_comp＝W[M_seq,M_struc]+b

其中，

令D_comp＝(L_seq+L_struc)/5。

可以理解，通过上述步骤可以限制模型的大小，提高它的泛化能力，这一步是多模态信息交互并压缩的过程。

第三步：将多模态信息压缩向量M_comp重新分流到各个模态中去校准单模态信息，分流的过程是分别引入各自模态的全连接转化层，公式如下：

T_seq＝W_seqM_comp+b_seq,

T_struc＝W_strucM_comp+b_struc,

第四步：将分流转化的模态向量通过激活函数进行激活，作为门控开关去限制每个氨基酸对整体任务的贡献程度，具体公式如下：

其中σ是指sigmoid函数，⊙是指哈达玛积。

第五步：经过与激活后的门控向量相乘之后，得到重构的单模态向量作为下一层单模态特征提取器的输入。

可以理解，本申请在构建多模态融合模块的步骤一种校准重构的方法，具体来讲就是利用多模态的信息交互对每个单模态的氨基酸tokenembedding进行更新，从而使原本可能信息模糊的单模态带有多模型的信息指导，在模式识别时更加清晰。

步骤S150：基于所述多模态融合模块构建学习模型。

请参阅图4，为基于所述多模态融合模块构建学习模型的原理示意图，具体包括下述步骤：

步骤S151：给蛋白质序列和结构的原始输入加上一个特殊token，命名为[cls]，序列的[cls]放在整个序列的最前面，结构的[cls]与所有氨基酸建立一个虚拟的全连通。

可以理解，引入[cls]的目的是让[cls]能代表整个模态参与后续预测。

步骤S152：原始蛋白质数据经过N_e层的早期单模态特征提取器，序列经过所述Transformer模型的编码层，结构经过图注意力网络层，输出的结果代表已经提取高层语义的单模态向量表示。

步骤S153：插入所述的多模态融合模块进行中期融合。

可以理解，进入多模态融合阶段，也就是中期融合阶段，在前面早期提取的基础上，每一层加入了模态间的交互，插入了图3描述的多模态融合网络，一共经过了N_m层。

步骤S154：在经过中期融合之后，单模态被多模态信息校准，继续经过N_l层特征提取器，进一步作校准后的特征挖掘。

步骤S155：将校准后的特征挖掘的两个模态的[cls]向量进行拼接，然后经过前馈神经网络，再和早期单模态特征提取器得到的[cls]向量进行拼接。

可以理解，由于拼接后的向量相对来说比较割裂，拼接后的特征向量经过一个可学习的前馈神经网络可以得到一个更为整体的特征向量，预测结果更为准确。

可以理解，由于多模态在信息传递的过程中可能会丢失单模态的一些信息，因此与单模态向量拼接之后可以做信息的补全。

步骤S156：再经过第二个前馈神经网络，得到学习模型。

可以理解，本申请实施例提供的多模态融合的策略，通过早期提取、中期融合、后期预测的策略，能够让模型对单模态和多模态的信息学习更充分；后期得到的多模态表征并没有直接用于预测，而是加入了早期的单模态表征，让网络传递过程中损失的单模态信息在最后能得到补充。

步骤S157：增加辅助损失对所述学习模型进行参数更新。

可以理解，由于主网络的参数较大，模型较复杂，在训练的时候会比较难收敛，因此，本申请在后期预测阶段的每个特征提取层，都将结果输出，去预测最终的目标，由此得到的损失作为辅助损失，与主损失相加，对模型进行参数更新。

步骤S160：所述训练集训练所述学习模型，所述验证集衡量所述学习模型的效果，并选出性能表现最好的参数作为所述学习模型的参数，利用所述测试集独立测试所述学习模型的泛化能力。

请参阅图5，为本申请提供的用于蛋白质表征学习的多模态信息融合系统的结构示意图，包括：数据处理单元110：用于对开源蛋白质数据进行预处理；分类单元120：用于将所述蛋白质数据集划分成训练集、验证集和测试集；单模态特征提取器构建单元130：用于构建单模态特征提取器，所述单模态特征提取器作为蛋白质序列的特征提取器；多模态融合模块构建单元140：用于构建多模态融合模块，所述多模态融合模块对所述单模态特征提取器的氨基酸token embedding进行更新，以使单模态带有多模型的信息，并作为所述单模态特征提取器的输入；学习模型构建单元150：用于基于所述多模态融合模块构建学习模型；训练单元160：所述训练集训练所述学习模型，所述验证集衡量所述学习模型的效果，并选出性能表现最好的参数作为所述学习模型的参数，利用所述测试集独立测试所述学习模型的泛化能力。其详细的实现方式在本申请上述方法描述中已经说明，这里不再赘述。

请参阅图6，为本申请实施例的终端结构示意图。该终端50包括处理器51、与处理器51耦接的存储器52。

存储器52存储有用于实现所述的用于蛋白质表征学习的多模态信息融合方法的程序指令。

处理器51用于执行存储器52存储的程序指令以控制所述多模态信息融合。

其中，处理器51还可以称为CPU(Central Processing Unit，中央处理单元)。处理器51可能是一种集成电路芯片，具有信号的处理能力。处理器51还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

请参阅图7，为本申请实施例的存储介质的结构示意图。本申请实施例的存储介质存储有能够实现上述所有方法的程序文件61，其中，该程序文件61可以以软件产品的形式存储在上述存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等终端设备。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。