CN113537409B

CN113537409B - 一种豌豆蛋白数据特征提取方法

Info

Publication number: CN113537409B
Application number: CN202111065658.7A
Authority: CN
Inventors: 张树成; 杨进洁; 臧庆佳; 武世敏
Original assignee: YANTAI SHUANGTA FOOD CO Ltd
Current assignee: YANTAI SHUANGTA FOOD CO Ltd
Priority date: 2021-09-13
Filing date: 2021-09-13
Publication date: 2022-01-25
Anticipated expiration: 2041-09-13
Also published as: CN113537409A; CN115527613A

Abstract

本发明公开了一种豌豆蛋白数据特征提取方法，包括以下步骤：根据豌豆蛋白序列数据中每个元素的前后顺序以及不同氨基酸出现的频次，将数据编码成维数一致的频次分布矩阵；通过将豌豆蛋白三维模型映射到体素网格模型，实现基于三维立体结构的豌豆蛋白特征提取；将豌豆蛋白氨基酸频次矩阵与多层组合特征提取神经网络提取的特征组合在一起，通过融合特征提取神经网络对豌豆蛋白数据进行特征提取，经过蛋白序列数据的特征提取和编码方面的探讨，将维数不一致的序列数据编码成维数一致的向量，解决了不能直接把氨基酸序列数据输入机器学习算法中进行识别的问题，并且通过在特征提取中引入频次矩阵，增强特征提取的准确性和全面性。

Description

一种豌豆蛋白数据特征提取方法

技术领域

本申请涉及蛋白数据处理领域，特别是涉及一种豌豆蛋白数据特征提取方法。

背景技术

豌豆是世界第二大豆类作物，豌豆蛋白具有较高的溶解度、吸水性和乳化性，具有较高的营养价值，是一种较好的必需氨基酸源，而数据特征的提取直接影响蛋白质序列结构和功能预测的构建。

蛋白氨基酸序列数据不仅规模庞大，而且结构复杂，传统的数据特征提取方式已经不再适合，现有的豌豆蛋白序列数据特征提取方法主要采用氨基酸组成、氨基酸残基物理化学性质、频率谱等，不能保证提取所有的特征信息，并且在提取的时候计算量大、提取信息难和提取精度不足。

发明内容

本申请所要解决的技术问题是：由于现有的豌豆蛋白序列数据特征提取方法不能保证提取所有的特征信息，并且在提取的时候计算量大、提取信息难和提取精度不足，因此，提供一种豌豆蛋白数据特征提取方法。

具体技术方案如下：

一种豌豆蛋白数据特征提取方法，所述方法包括以下步骤：

S1. 根据豌豆蛋白序列数据中每个元素的前后顺序以及不同氨基酸出现的频次，将数据编码成维数一致的频次分布矩阵；

S2. 通过将豌豆蛋白三维模型映射到体素网格模型，实现基于三维立体结构的豌豆蛋白特征提取；

S3. 将豌豆蛋白氨基酸频次矩阵与多层组合特征提取神经网络提取的特征组合在一起，通过融合特征提取神经网络对豌豆蛋白数据进行特征提取。

优选的，所述步骤S1包括：氨基酸频次分布矩阵的计算方法，所述计算方法为：

设立豌豆蛋白中含有的氨基酸元素集合为

，

为第N种氨基酸，N为豌豆蛋白中含有的氨基酸种类数，将一条有着P个氨基酸残基的豌豆蛋白氨基酸序列映射到20维欧氏空间的一个点，用向量表示为

，P为给定氨基酸序列中元素的数量，

为氨基酸

在序列S中出现的频次，则豌豆蛋白中氨基酸频次矩阵为：

其中，

，则序列中所有元素的和为

，对序列中的元素进行归一化：

从而得到归一化处理后的豌豆蛋白氨基酸频次矩阵。

优选的，所述步骤S2包括：构建直接从体素网格模型提取豌豆蛋白特征的多层组合特征提取神经网络，通过多层组合特征提取神经网络对上述豌豆蛋白体素网格进行特征提取；

其中，所述采用结构特征提取神经网络算法进行特征提取的详细步骤为：

S221.所述多层组合特征提取神经网络用于提取豌豆蛋白三维体素数据的深层特征，网络输入是分辨率大小为

的体素数据

，其中，

三个维度表示体素的空间位置坐标点，O为原点坐标，

为映射因子，

为分辨率，网络输出为体素模型的深层特征，多层组合特征提取神经网络共包含三层子神经网络：

第一层特征提取神经网络采用一组卷积核数分别为3,5,7,9,11 的一维卷积网对蛋白质中的氨基酸序列进行卷积运算提取特征，输入通道数为5；

输入一组体素数据X后，卷积核依次对每个氨基酸及其相邻的氨基酸做卷积运算，即对矩阵元素与卷积核相乘后求和，然后根据得到的特征数据进行加权求和并叠加偏置量：

其中，

表示卷积的输出，

，

表示输出通道数，

表示卷积的输入，

是偏置量，

表示输入数据的权值，

表示输入X中的第k个氨基酸残基的权值，

表示输入X中的第k个氨基酸残基，

是输入通道数，

，

是卷积核大小，

表示任意一个卷积核的大小；

然后将卷积网的输出进行激活：

其中，

表示卷积网的所有卷积核输出，

表示除了第k个氨基酸残基以外的其他氨基酸的激活因子；

最后用批量归一化函数防止模型过拟合：

，该公式为对

进行批量归一化，BN表示批量归一化的意思，为现有公式；

最后，分别将G的值设为3,5,7,9,11，从而得到第一层特征提取神经网络提取的特征为

；

S222.第二层特征提取神经网络比第一层特征提取神经网络多了一次卷积、激活和归一化运算；

S223.第三层特征提取神经网络比第二层特征提取神经网络多了一次卷积、激活和归一化运算；对于输入X依次进行三次卷积、激活和归一化运算，第三层特征提取神经网络提取的特征为

。

优选的，所述步骤S3包括：将步骤S1中得到的豌豆蛋白氨基酸频次矩阵M与步骤221、步骤222、步骤223提取的特征组合在一起，形成融合特征提取神经网络的输入

；共有m个输入向量；融合特征提取神经网络包括输入层、隐含一层、隐含二层、融合层和输出层；输入层将输入向量e传送给隐含一层，隐含一层对输入向量进行激活，所述激活公式为：

；其中，

表示融合特征提取神经网络基于前t-1个数据特征在第t个位置提取到的特征表示，

表示上一时刻的输出，

是输入向量的权重值，

，

是当前时刻的输入，

是偏置量；输入层将输入向量e传送给隐含二层，隐含二层对输入向量进行激活，所述激活公式为：

；其中，

表示融合特征提取神经网络基于后m-t个数据特征在第t个位置提取到的特征表示；所述隐含一层和隐含二层将计算结果输出给融合层，则融合特征提取神经网络的融合层公式为：

其中，

表示融合数据，

为哈达玛积。本发明设立隐含层神经单元的数量为q，则通过融合后网络输出的特征个数为2q；融合层将融合结果发送给输出层进行输出，从而得到数据特征f。

有益效果：

（1）经过蛋白序列数据的特征提取和编码方面的探讨，将维数不一致的序列数据编码成维数一致的向量，解决了不能直接把氨基酸序列数据输入机器学习算法中进行识别的问题，并且通过在特征提取中引入频次矩阵，增强特征提取的准确性和全面性；

（2）在多层组合特征提取神经网络中，利用多个不同长度的一维卷积核来提取氨基酸序列特征，使系统能够同时提取氨基酸序列间和序列内的特征，进一步提升了深层架构的特征提取能力；

（3）通过对豌豆蛋白氨基酸频次矩阵与多层组合特征提取神经网络提取的特征融合提取，在序列和结构方面共同作用提取特征，增强了豌豆蛋白数据特征提取的深度；

（4）对豌豆蛋白氨基酸序列特征的提取，不仅直接决定预测方法的质量，而且有助于我们理解豌豆蛋白序列和结构、功能之间的关系。

附图说明

图1 本发明所述的一种豌豆蛋白数据特征提取方法流程图；

图2 本发明所述的豌豆蛋白序列信息编码示意图；

图3 本发明所述的多层组合特征提取神经网络与融合特征提取神经网络结构图。

具体实施方式

以下将结合本实施例中的附图来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成技术效果的实现过程能充分理解并据以实施。需要说明的是，只要不构成冲突，本发明中的各个实施例中的各个特征可以相互结合，所形成的技术方案均在本发明的保护范围之内。

如图1所示，本发明所述一种豌豆蛋白数据特征提取方法包括：

S11.对于任意豌豆蛋白序列，均包含以下三层信息：蛋白序列包含20种常见氨基酸中的全部或部分氨基酸；氨基酸在豌豆蛋白序列中会重复出现，具有各自的频数；氨基酸在豌豆蛋白序列中处于不同的位置。氨基酸的频数为零，表示蛋白序列不包含该氨基酸，且氨基酸的频数对应着其位置的个数。

对于任意豌豆蛋白序列，均由其氨基酸单元的线性序列组成，将豌豆蛋白序列从第一个氨基酸的位置开始进行划分，得到前部氨基酸和后部氨基酸两个子序列，根据氨基酸序列与后部氨基酸子序列的一一对应关系，得到氨基酸频次分布向量，遍历出豌豆蛋白序列中所有氨基酸对应的子序列氨基酸频次分布向量，对氨基酸位置进行编码，所述氨基酸频次分布向量为豌豆蛋白氨基酸序列中所有氨基酸出现的频次组成的向量，如下表所示：

序列“ELTRALSC”的子序列“LTRALSC”中氨基酸频次分布向量为（0,2,1,1,1,1,1），序列“ELTRALSC”的子序列“TRALSC”中氨基酸频次分布向量为（0,1,1,1,1,1,1）。通过将相邻子序列对应的氨基酸频次分布向量相减，便得到差值向量，所述差值向量即为所述相邻子序列含有的不同的氨基酸，并得到该氨基酸在蛋白序列中的位置信息。遍历完成后，对编码后的氨基酸位置信息通过向量求和的方式，合并不同位置上相同氨基酸的编码，如图2所示，从而得到豌豆蛋白序列所有氨基酸频数的分布向量，记录了氨基酸在豌豆蛋白序列中的位置信息，从而将豌豆蛋白序列中氨基酸的位置列表转换成向量编码。

S12.所述氨基酸频次分布矩阵的计算方法为：

设立豌豆蛋白中含有的氨基酸元素集合为

，

，P为给定氨基酸序列中元素的数量，

为氨基酸

在序列S中出现的频次，则豌豆蛋白中氨基酸频次矩阵为：

其中，i，j∈[1,N] 。则序列中所有元素的和为

。对序列中的元素进行归一化迭代：

从而得到归一化处理后的豌豆蛋白氨基酸频次矩阵。

步骤S1所述的氨基酸频次向量编码方法的有益效果为：经过蛋白序列数据的特征提取和编码方面的探讨，将维数不一致的序列数据编码成维数一致的向量，解决了不能直接把氨基酸序列数据输入机器学习算法中进行识别的问题。并且通过在特征提取中引入频次矩阵，增强特征提取的准确性和全面性。

S21.采集豌豆蛋白数据，构建豌豆蛋白三维模型，所述三维模型构建方法为现有技术，本发明在此不做过多阐述。

在豌豆蛋白三维模型表示中，构成蛋白质的每个点

被映射到离散的体素坐标。所述映射方法为均匀离散化，映射过程取决于体素网格中的原点、方向和分辨率等参数。根据实际情况确定好原点、方向、分辨率这些初始参数后，构建蛋白质体素网格模型。

S22.对豌豆蛋白体素网格模型进行特征提取，得到豌豆蛋白的三维结构特征矩阵。

构建直接从体素网格模型提取豌豆蛋白特征的多层组合特征提取神经网络，如图3所示，通过多层组合特征提取神经网络对上述豌豆蛋白体素网格进行特征提取。

所述采用结构特征提取神经网络算法进行特征提取的详细步骤为：

的体素数据

，其中，

三个维度表示体素的空间位置坐标点，O为原点坐标，

为映射因子，

为分辨率。网络输出为体素模型的深层特征。多层组合特征提取神经网络共包含三层子神经网络：

第一层特征提取神经网络采用一组卷积核数分别为3,5,7,9,11 的一维卷积网对蛋白质中的氨基酸序列进行卷积运算提取特征，输入通道数为5。

以卷积核数为3的一维卷积网为例，对输入数据进行特征提取。组成卷积核的每个元素都对应3个权重系数和一个偏差量。输入一组体素数据X后，卷积核依次对每个氨基酸及其相邻的氨基酸做卷积运算，即对矩阵元素与卷积核相乘后求和，然后根据得到的特征数据进行加权求和并叠加偏置量：

其中，

表示卷积的输出，

，

表示输出通道数，

表示卷积的输入，

是偏置量，

表示输入数据的权值，

表示输入X中的第k个氨基酸残基的权值，

表示输入X中的第k个氨基酸残基，

是输入通道数，

，

是卷积核大小，

表示任意一个卷积核的大小。然后将卷积网的输出进行激活：

其中，

表示除了第k个氨基酸残基以外的其他氨基酸的激活因子。最后用批量归一化函数防止模型过拟合：

，其中，

表示批量归一化。最后，分别将G的值设为3,5,7,9,11，从而得到第一层特征提取神经网络提取的特征为

。

S222.第二层特征提取神经网络比第一层特征提取神经网络多了一次卷积、激活和归一化运算。以卷积核数为3的一维卷积网为例，对输入X依次进行两次卷积、激活和归一化运算：

其中，

表示第二次卷积的输出，

是第二次卷积中的偏置量，

是第二次卷积中输入的权值，

是第二次卷积的输入通道数，在第二次卷积中，

，

表示第二次卷积的输出通道数，

的第二次激活的输出，

是第二次归一化的输出。

最后，分别将G的值设为3,5,7,9,11，从而得到第二层特征提取神经网络提取的特征为

。

S223.第三层特征提取神经网络比第二层特征提取神经网络多了一次卷积、激活和归一化运算。对于输入X依次进行三次卷积、激活和归一化运算，根据上述计算过程，最后，第三层特征提取神经网络提取的特征为

。

步骤S2所述的多层组合特征提取神经网络的有益效果为：在多层组合特征提取神经网络中，利用多个不同长度的一维卷积核来提取氨基酸序列特征，使系统能够同时提取氨基酸序列间和序列内的特征，进一步提升了深层架构的特征提取能力。

S3.将豌豆蛋白氨基酸频次矩阵与多层组合特征提取神经网络提取的特征组合在一起，通过融合特征提取神经网络对豌豆蛋白数据进行特征提取。

S31.将步骤S1中得到的豌豆蛋白氨基酸频次矩阵M与步骤221、步骤222、步骤223提取的特征组合在一起，形成融合特征提取神经网络的输入

，共有m个输入向量。融合特征提取神经网络包括输入层、隐含一层、隐含二层、融合层和输出层。

输入层将输入向量e传送给隐含一层，隐含一层对输入向量进行激活，所述激活公式为：

其中，

表示上一时刻的输出，

是输入向量的权重值，

，

是当前时刻的输入，

是偏置量。

输入层将输入向量e传送给隐含二层，隐含二层对输入向量进行激活，所述激活公式为：

其中，

表示融合特征提取神经网络基于后m-t个数据特征在第t个位置提取到的特征表示。

S32.所述隐含一层和隐含二层将计算结果输出给融合层，则融合特征提取神经网络的融合层公式为：

其中，

表示融合数据，

为哈达玛积。本发明设立隐含层神经单元的数量为q，则通过融合后网络输出的特征个数为2q。融合层将融合结果发送给输出层进行输出，从而得到数据特征f。

测试融合特征提取神经网络的训练效果，根据实际需求设置误差阈值

，计算网络误差

，所述网络误差计算已有较多方法，根据实际需求选择相应方法计算。若

，则认为满足实际需求，训练完毕；否则重新训练网络。

步骤S3所述的融合特征提取神经网络的有益效果为：通过对豌豆蛋白氨基酸频次矩阵与多层组合特征提取神经网络提取的特征融合提取，在序列和结构方面共同作用提取特征，增强了豌豆蛋白数据特征提取的深度。

以上所述仅为本发明的较佳实施例，并不用于限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。显然本发明具体实现并不受上述方式的限制，只要采用了本发明的方法构思和技术方案进行的各种非实质性的改进，或未经改进将本发明的构思和技术方案直接应用于其它场合的，均在本发明保护范围之内。

Claims

1.一种豌豆蛋白数据特征提取方法，其特征在于，所述方法包括以下步骤：

S2. 通过将豌豆蛋白三维模型映射到体素网格模型，构建直接从体素网格模型提取豌豆蛋白特征的多层组合特征提取神经网络，通过多层组合特征提取神经网络对上述豌豆蛋白体素网格进行特征提取，实现基于三维立体结构的豌豆蛋白特征提取；

S3. 将豌豆蛋白氨基酸频次分布矩阵与多层组合特征提取神经网络提取的特征组合在一起，通过融合特征提取神经网络对豌豆蛋白数据进行特征提取。

2.根据权利要求1所述的豌豆蛋白数据特征提取方法，其特征在于，所述步骤S1包括：氨基酸频次分布矩阵的计算方法，所述计算方法为：

设立豌豆蛋白中含有的氨基酸元素集合为

，

，P为给定氨基酸序列中元素的数量，

为氨基酸

在序列S中出现的频次，则豌豆蛋白中氨基酸频次分布矩阵为：

其中，

，则序列中所有元素的和为

，对序列中的元素进行归一化：

从而得到归一化处理后的豌豆蛋白氨基酸频次分布矩阵。

3.根据权利要求1所述的豌豆蛋白数据特征提取方法，其特征在于，所述步骤S2包括：构建直接从体素网格模型提取豌豆蛋白特征的多层组合特征提取神经网络，通过多层组合特征提取神经网络对上述豌豆蛋白体素网格进行特征提取；

特征提取的详细步骤为：

的体素数据

，其中，

三个维度表示体素的空间位置坐标点，O为原点坐标，

为映射因子，

为分辨率，网络输出为体素模型的深层特征，多层组合特征提取神经网络共包含三层子神经网络:第一层特征提取神经网络采用一组卷积核数分别为3,5,7,9,11 的一维卷积网对蛋白质中的氨基酸序列进行卷积运算提取特征，输入通道数为5；输入一组体素数据X后，卷积核依次对每个氨基酸及其相邻的氨基酸做卷积运算，即对矩阵元素与卷积核相乘后求和，然后根据得到的特征数据进行加权求和并叠加偏置量：