CN113537409B - 一种豌豆蛋白数据特征提取方法 - Google Patents

一种豌豆蛋白数据特征提取方法 Download PDF

Info

Publication number
CN113537409B
CN113537409B CN202111065658.7A CN202111065658A CN113537409B CN 113537409 B CN113537409 B CN 113537409B CN 202111065658 A CN202111065658 A CN 202111065658A CN 113537409 B CN113537409 B CN 113537409B
Authority
CN
China
Prior art keywords
feature extraction
pea protein
amino acid
neural network
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111065658.7A
Other languages
English (en)
Other versions
CN113537409A (zh
Inventor
张树成
杨进洁
臧庆佳
武世敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
YANTAI SHUANGTA FOOD CO Ltd
Original Assignee
YANTAI SHUANGTA FOOD CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by YANTAI SHUANGTA FOOD CO Ltd filed Critical YANTAI SHUANGTA FOOD CO Ltd
Priority to CN202111065658.7A priority Critical patent/CN113537409B/zh
Priority to CN202210109616.7A priority patent/CN115527613A/zh
Publication of CN113537409A publication Critical patent/CN113537409A/zh
Application granted granted Critical
Publication of CN113537409B publication Critical patent/CN113537409B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physiology (AREA)
  • Databases & Information Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Bioethics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种豌豆蛋白数据特征提取方法,包括以下步骤:根据豌豆蛋白序列数据中每个元素的前后顺序以及不同氨基酸出现的频次,将数据编码成维数一致的频次分布矩阵;通过将豌豆蛋白三维模型映射到体素网格模型,实现基于三维立体结构的豌豆蛋白特征提取;将豌豆蛋白氨基酸频次矩阵与多层组合特征提取神经网络提取的特征组合在一起,通过融合特征提取神经网络对豌豆蛋白数据进行特征提取,经过蛋白序列数据的特征提取和编码方面的探讨,将维数不一致的序列数据编码成维数一致的向量,解决了不能直接把氨基酸序列数据输入机器学习算法中进行识别的问题,并且通过在特征提取中引入频次矩阵,增强特征提取的准确性和全面性。

Description

一种豌豆蛋白数据特征提取方法
技术领域
本申请涉及蛋白数据处理领域,特别是涉及一种豌豆蛋白数据特征提取方法。
背景技术
豌豆是世界第二大豆类作物,豌豆蛋白具有较高的溶解度、吸水性和乳化性,具有较高的营养价值,是一种较好的必需氨基酸源,而数据特征的提取直接影响蛋白质序列结构和功能预测的构建。
蛋白氨基酸序列数据不仅规模庞大,而且结构复杂,传统的数据特征提取方式已经不再适合,现有的豌豆蛋白序列数据特征提取方法主要采用氨基酸组成、氨基酸残基物理化学性质、频率谱等,不能保证提取所有的特征信息,并且在提取的时候计算量大、提取信息难和提取精度不足。
发明内容
本申请所要解决的技术问题是:由于现有的豌豆蛋白序列数据特征提取方法不能保证提取所有的特征信息,并且在提取的时候计算量大、提取信息难和提取精度不足,因此,提供一种豌豆蛋白数据特征提取方法。
具体技术方案如下:
一种豌豆蛋白数据特征提取方法,所述方法包括以下步骤:
S1. 根据豌豆蛋白序列数据中每个元素的前后顺序以及不同氨基酸出现的频次,将数据编码成维数一致的频次分布矩阵;
S2. 通过将豌豆蛋白三维模型映射到体素网格模型,实现基于三维立体结构的豌豆蛋白特征提取;
S3. 将豌豆蛋白氨基酸频次矩阵与多层组合特征提取神经网络提取的特征组合在一起,通过融合特征提取神经网络对豌豆蛋白数据进行特征提取。
优选的,所述步骤S1包括:氨基酸频次分布矩阵的计算方法,所述计算方法为:
设立豌豆蛋白中含有的氨基酸元素集合为
Figure 827378DEST_PATH_IMAGE001
Figure 584987DEST_PATH_IMAGE002
为第N种氨基酸,N为豌豆蛋白中含有的氨基酸种类数,将一条有着P个氨基酸残基的豌豆蛋白氨基酸序列映射到20维欧氏空间的一个点,用向量表示为
Figure 512492DEST_PATH_IMAGE003
,P为给定氨基酸序列中元素的数量,
Figure 198819DEST_PATH_IMAGE004
为氨基酸
Figure 313406DEST_PATH_IMAGE002
在序列S中出现的频次,则豌豆蛋白中氨基酸频次矩阵为:
Figure 359859DEST_PATH_IMAGE005
Figure 394067DEST_PATH_IMAGE006
其中,
Figure 234985DEST_PATH_IMAGE007
,则序列中所有元素的和为
Figure 102446DEST_PATH_IMAGE008
,对序列中的元素进行归一化:
Figure 703323DEST_PATH_IMAGE009
从而得到归一化处理后的豌豆蛋白氨基酸频次矩阵。
优选的,所述步骤S2包括:构建直接从体素网格模型提取豌豆蛋白特征的多层组合特征提取神经网络,通过多层组合特征提取神经网络对上述豌豆蛋白体素网格进行特征提取;
其中,所述采用结构特征提取神经网络算法进行特征提取的详细步骤为:
S221.所述多层组合特征提取神经网络用于提取豌豆蛋白三维体素数据的深层特征,网络输入是分辨率大小为
Figure 74262DEST_PATH_IMAGE010
的体素数据
Figure 351659DEST_PATH_IMAGE011
,其中,
Figure 690105DEST_PATH_IMAGE012
三个维度表示体素的空间位置坐标点,O为原点坐标,
Figure 609520DEST_PATH_IMAGE013
为映射因子,
Figure 834965DEST_PATH_IMAGE010
为分辨率,网络输出为体素模型的深层特征,多层组合特征提取神经网络共包含三层子神经网络:
第一层特征提取神经网络采用一组卷积核数分别为3,5,7,9,11 的一维卷积网对蛋白质中的氨基酸序列进行卷积运算提取特征,输入通道数为5;
输入一组体素数据X后,卷积核依次对每个氨基酸及其相邻的氨基酸做卷积运算,即对矩阵元素与卷积核相乘后求和,然后根据得到的特征数据进行加权求和并叠加偏置量:
Figure 33996DEST_PATH_IMAGE014
其中,
Figure 610471DEST_PATH_IMAGE015
表示卷积的输出,
Figure 536839DEST_PATH_IMAGE016
Figure 146285DEST_PATH_IMAGE017
表示输出通道数,
Figure 765486DEST_PATH_IMAGE018
表示卷积的输入,
Figure 829257DEST_PATH_IMAGE019
是偏置量,
Figure 310048DEST_PATH_IMAGE020
表示输入数据的权值,
Figure 775664DEST_PATH_IMAGE021
表示输入X中的第k个氨基酸残基的权值,
Figure 565766DEST_PATH_IMAGE022
表示输入X中的第k个氨基酸残基,
Figure 834942DEST_PATH_IMAGE023
是输入通道数,
Figure 368691DEST_PATH_IMAGE024
Figure 423235DEST_PATH_IMAGE025
是卷积核大小,
Figure 384238DEST_PATH_IMAGE026
表示任意一个卷积核的大小;
然后将卷积网的输出进行激活:
Figure 438912DEST_PATH_IMAGE027
其中,
Figure 41932DEST_PATH_IMAGE028
表示卷积网的所有卷积核输出,
Figure 203180DEST_PATH_IMAGE029
表示除了第k个氨基酸残基以外的其他氨基酸的激活因子;
最后用批量归一化函数防止模型过拟合:
Figure 600663DEST_PATH_IMAGE030
,该公式为对
Figure 860743DEST_PATH_IMAGE031
进行批量归一化,BN表示批量归一化的意思,为现有公式;
最后,分别将G的值设为3,5,7,9,11,从而得到第一层特征提取神经网络提取的特征为
Figure 487027DEST_PATH_IMAGE032
S222.第二层特征提取神经网络比第一层特征提取神经网络多了一次卷积、激活和归一化运算;
S223.第三层特征提取神经网络比第二层特征提取神经网络多了一次卷积、激活和归一化运算;对于输入X依次进行三次卷积、激活和归一化运算,第三层特征提取神经网络提取的特征为
Figure 781743DEST_PATH_IMAGE033
优选的,所述步骤S3包括:将步骤S1中得到的豌豆蛋白氨基酸频次矩阵M与步骤221、步骤222、步骤223提取的特征组合在一起,形成融合特征提取神经网络的输入
Figure 818969DEST_PATH_IMAGE034
;共有m个输入向量;融合特征提取神经网络包括输入层、隐含一层、隐含二层、融合层和输出层;输入层将输入向量e传送给隐含一层,隐含一层对输入向量进行激活,所述激活公式为:
Figure 81192DEST_PATH_IMAGE035
;其中,
Figure 494855DEST_PATH_IMAGE036
表示融合特征提取神经网络基于前t-1个数据特征在第t个位置提取到的特征表示,
Figure 644077DEST_PATH_IMAGE037
表示上一时刻的输出,
Figure 868516DEST_PATH_IMAGE038
是输入向量的权重值,
Figure 103188DEST_PATH_IMAGE039
Figure 320543DEST_PATH_IMAGE040
是当前时刻的输入,
Figure 310889DEST_PATH_IMAGE041
是偏置量;输入层将输入向量e传送给隐含二层,隐含二层对输入向量进行激活,所述激活公式为:
Figure 955497DEST_PATH_IMAGE042
;其中,
Figure 411886DEST_PATH_IMAGE043
表示融合特征提取神经网络基于后m-t个数据特征在第t个位置提取到的特征表示;所述隐含一层和隐含二层将计算结果输出给融合层,则融合特征提取神经网络的融合层公式为:
Figure 167353DEST_PATH_IMAGE044
其中,
Figure 776320DEST_PATH_IMAGE045
表示融合数据,
Figure 591829DEST_PATH_IMAGE046
为哈达玛积。本发明设立隐含层神经单元的数量为q,则通过融合后网络输出的特征个数为2q;融合层将融合结果发送给输出层进行输出,从而得到数据特征f。
有益效果:
(1)经过蛋白序列数据的特征提取和编码方面的探讨,将维数不一致的序列数据编码成维数一致的向量,解决了不能直接把氨基酸序列数据输入机器学习算法中进行识别的问题,并且通过在特征提取中引入频次矩阵,增强特征提取的准确性和全面性;
(2)在多层组合特征提取神经网络中,利用多个不同长度的一维卷积核来提取氨基酸序列特征,使系统能够同时提取氨基酸序列间和序列内的特征,进一步提升了深层架构的特征提取能力;
(3)通过对豌豆蛋白氨基酸频次矩阵与多层组合特征提取神经网络提取的特征融合提取,在序列和结构方面共同作用提取特征,增强了豌豆蛋白数据特征提取的深度;
(4)对豌豆蛋白氨基酸序列特征的提取,不仅直接决定预测方法的质量,而且有助于我们理解豌豆蛋白序列和结构、功能之间的关系。
附图说明
图1 本发明所述的一种豌豆蛋白数据特征提取方法流程图;
图2 本发明所述的豌豆蛋白序列信息编码示意图;
图3 本发明所述的多层组合特征提取神经网络与融合特征提取神经网络结构图。
具体实施方式
以下将结合本实施例中的附图来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明的是,只要不构成冲突,本发明中的各个实施例中的各个特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。
如图1所示,本发明所述一种豌豆蛋白数据特征提取方法包括:
S1. 根据豌豆蛋白序列数据中每个元素的前后顺序以及不同氨基酸出现的频次,将数据编码成维数一致的频次分布矩阵;
S11.对于任意豌豆蛋白序列,均包含以下三层信息:蛋白序列包含20种常见氨基酸中的全部或部分氨基酸;氨基酸在豌豆蛋白序列中会重复出现,具有各自的频数;氨基酸在豌豆蛋白序列中处于不同的位置。氨基酸的频数为零,表示蛋白序列不包含该氨基酸,且氨基酸的频数对应着其位置的个数。
对于任意豌豆蛋白序列,均由其氨基酸单元的线性序列组成,将豌豆蛋白序列从第一个氨基酸的位置开始进行划分,得到前部氨基酸和后部氨基酸两个子序列,根据氨基酸序列与后部氨基酸子序列的一一对应关系,得到氨基酸频次分布向量,遍历出豌豆蛋白序列中所有氨基酸对应的子序列氨基酸频次分布向量,对氨基酸位置进行编码,所述氨基酸频次分布向量为豌豆蛋白氨基酸序列中所有氨基酸出现的频次组成的向量,如下表所示:
Figure 269935DEST_PATH_IMAGE047
序列“ELTRALSC”的子序列“LTRALSC”中氨基酸频次分布向量为(0,2,1,1,1,1,1),序列“ELTRALSC”的子序列“TRALSC”中氨基酸频次分布向量为(0,1,1,1,1,1,1)。通过将相邻子序列对应的氨基酸频次分布向量相减,便得到差值向量,所述差值向量即为所述相邻子序列含有的不同的氨基酸,并得到该氨基酸在蛋白序列中的位置信息。遍历完成后,对编码后的氨基酸位置信息通过向量求和的方式,合并不同位置上相同氨基酸的编码,如图2所示,从而得到豌豆蛋白序列所有氨基酸频数的分布向量,记录了氨基酸在豌豆蛋白序列中的位置信息,从而将豌豆蛋白序列中氨基酸的位置列表转换成向量编码。
S12.所述氨基酸频次分布矩阵的计算方法为:
设立豌豆蛋白中含有的氨基酸元素集合为
Figure 829092DEST_PATH_IMAGE048
Figure 791101DEST_PATH_IMAGE049
为第N种氨基酸,N为豌豆蛋白中含有的氨基酸种类数,将一条有着P个氨基酸残基的豌豆蛋白氨基酸序列映射到20维欧氏空间的一个点,用向量表示为
Figure 777511DEST_PATH_IMAGE050
,P为给定氨基酸序列中元素的数量,
Figure 942914DEST_PATH_IMAGE004
为氨基酸
Figure 305762DEST_PATH_IMAGE049
在序列S中出现的频次,则豌豆蛋白中氨基酸频次矩阵为:
Figure 623742DEST_PATH_IMAGE005
Figure 781054DEST_PATH_IMAGE006
其中,i,j∈[1,N] 。则序列中所有元素的和为
Figure 433752DEST_PATH_IMAGE051
。对序列中的元素进行归一化迭代:
Figure 334712DEST_PATH_IMAGE009
从而得到归一化处理后的豌豆蛋白氨基酸频次矩阵。
步骤S1所述的氨基酸频次向量编码方法的有益效果为:经过蛋白序列数据的特征提取和编码方面的探讨,将维数不一致的序列数据编码成维数一致的向量,解决了不能直接把氨基酸序列数据输入机器学习算法中进行识别的问题。并且通过在特征提取中引入频次矩阵,增强特征提取的准确性和全面性。
S2. 通过将豌豆蛋白三维模型映射到体素网格模型,实现基于三维立体结构的豌豆蛋白特征提取;
S21.采集豌豆蛋白数据,构建豌豆蛋白三维模型,所述三维模型构建方法为现有技术,本发明在此不做过多阐述。
在豌豆蛋白三维模型表示中,构成蛋白质的每个点
Figure 274242DEST_PATH_IMAGE052
被映射到离散的体素坐标。所述映射方法为均匀离散化,映射过程取决于体素网格中的原点、方向和分辨率等参数。根据实际情况确定好原点、方向、分辨率这些初始参数后,构建蛋白质体素网格模型。
S22.对豌豆蛋白体素网格模型进行特征提取,得到豌豆蛋白的三维结构特征矩阵。
构建直接从体素网格模型提取豌豆蛋白特征的多层组合特征提取神经网络,如图3所示,通过多层组合特征提取神经网络对上述豌豆蛋白体素网格进行特征提取。
所述采用结构特征提取神经网络算法进行特征提取的详细步骤为:
S221.所述多层组合特征提取神经网络用于提取豌豆蛋白三维体素数据的深层特征,网络输入是分辨率大小为
Figure 602455DEST_PATH_IMAGE010
的体素数据
Figure 8029DEST_PATH_IMAGE053
,其中,
Figure 447101DEST_PATH_IMAGE054
三个维度表示体素的空间位置坐标点,O为原点坐标,
Figure 739673DEST_PATH_IMAGE013
为映射因子,
Figure 238787DEST_PATH_IMAGE010
为分辨率。网络输出为体素模型的深层特征。多层组合特征提取神经网络共包含三层子神经网络:
第一层特征提取神经网络采用一组卷积核数分别为3,5,7,9,11 的一维卷积网对蛋白质中的氨基酸序列进行卷积运算提取特征,输入通道数为5。
以卷积核数为3的一维卷积网为例,对输入数据进行特征提取。组成卷积核的每个元素都对应3个权重系数和一个偏差量。输入一组体素数据X后,卷积核依次对每个氨基酸及其相邻的氨基酸做卷积运算,即对矩阵元素与卷积核相乘后求和,然后根据得到的特征数据进行加权求和并叠加偏置量:
Figure 866078DEST_PATH_IMAGE055
其中,
Figure 108840DEST_PATH_IMAGE056
表示卷积的输出,
Figure 20033DEST_PATH_IMAGE057
Figure 690049DEST_PATH_IMAGE058
表示输出通道数,
Figure 539056DEST_PATH_IMAGE059
表示卷积的输入,
Figure 585510DEST_PATH_IMAGE060
是偏置量,
Figure 852674DEST_PATH_IMAGE061
表示输入数据的权值,
Figure 693591DEST_PATH_IMAGE062
表示输入X中的第k个氨基酸残基的权值,
Figure 29895DEST_PATH_IMAGE063
表示输入X中的第k个氨基酸残基,
Figure 614460DEST_PATH_IMAGE064
是输入通道数,
Figure 491456DEST_PATH_IMAGE065
Figure 503274DEST_PATH_IMAGE025
是卷积核大小,
Figure 592453DEST_PATH_IMAGE026
表示任意一个卷积核的大小。然后将卷积网的输出进行激活:
Figure 465862DEST_PATH_IMAGE066
其中,
Figure 956886DEST_PATH_IMAGE067
表示除了第k个氨基酸残基以外的其他氨基酸的激活因子。最后用批量归一化函数防止模型过拟合:
Figure 139606DEST_PATH_IMAGE068
,其中,
Figure 450502DEST_PATH_IMAGE069
表示批量归一化。最后,分别将G的值设为3,5,7,9,11,从而得到第一层特征提取神经网络提取的特征为
Figure 626137DEST_PATH_IMAGE070
S222.第二层特征提取神经网络比第一层特征提取神经网络多了一次卷积、激活和归一化运算。以卷积核数为3的一维卷积网为例,对输入X依次进行两次卷积、激活和归一化运算:
Figure 971668DEST_PATH_IMAGE071
Figure 325289DEST_PATH_IMAGE066
Figure 123480DEST_PATH_IMAGE072
Figure 604271DEST_PATH_IMAGE073
Figure 804309DEST_PATH_IMAGE074
Figure 328831DEST_PATH_IMAGE075
其中,
Figure 614319DEST_PATH_IMAGE076
表示第二次卷积的输出,
Figure 665845DEST_PATH_IMAGE077
是第二次卷积中的偏置量,
Figure 720388DEST_PATH_IMAGE078
是第二次卷积中输入的权值,
Figure 415812DEST_PATH_IMAGE079
是第二次卷积的输入通道数,在第二次卷积中,
Figure 188596DEST_PATH_IMAGE080
Figure 276769DEST_PATH_IMAGE081
表示第二次卷积的输出通道数,
Figure 185819DEST_PATH_IMAGE082
的第二次激活的输出,
Figure 52144DEST_PATH_IMAGE083
是第二次归一化的输出。
最后,分别将G的值设为3,5,7,9,11,从而得到第二层特征提取神经网络提取的特征为
Figure 46645DEST_PATH_IMAGE084
S223.第三层特征提取神经网络比第二层特征提取神经网络多了一次卷积、激活和归一化运算。对于输入X依次进行三次卷积、激活和归一化运算,根据上述计算过程,最后,第三层特征提取神经网络提取的特征为
Figure 171464DEST_PATH_IMAGE085
步骤S2所述的多层组合特征提取神经网络的有益效果为:在多层组合特征提取神经网络中,利用多个不同长度的一维卷积核来提取氨基酸序列特征,使系统能够同时提取氨基酸序列间和序列内的特征,进一步提升了深层架构的特征提取能力。
S3.将豌豆蛋白氨基酸频次矩阵与多层组合特征提取神经网络提取的特征组合在一起,通过融合特征提取神经网络对豌豆蛋白数据进行特征提取。
S31.将步骤S1中得到的豌豆蛋白氨基酸频次矩阵M与步骤221、步骤222、步骤223提取的特征组合在一起,形成融合特征提取神经网络的输入
Figure 935021DEST_PATH_IMAGE086
,共有m个输入向量。融合特征提取神经网络包括输入层、隐含一层、隐含二层、融合层和输出层。
输入层将输入向量e传送给隐含一层,隐含一层对输入向量进行激活,所述激活公式为:
Figure 237826DEST_PATH_IMAGE087
其中,
Figure 719623DEST_PATH_IMAGE036
表示融合特征提取神经网络基于前t-1个数据特征在第t个位置提取到的特征表示,
Figure 884019DEST_PATH_IMAGE088
表示上一时刻的输出,
Figure 767662DEST_PATH_IMAGE089
是输入向量的权重值,
Figure 241368DEST_PATH_IMAGE090
Figure 210461DEST_PATH_IMAGE040
是当前时刻的输入,
Figure 680013DEST_PATH_IMAGE091
是偏置量。
输入层将输入向量e传送给隐含二层,隐含二层对输入向量进行激活,所述激活公式为:
Figure 683742DEST_PATH_IMAGE092
其中,
Figure 62770DEST_PATH_IMAGE043
表示融合特征提取神经网络基于后m-t个数据特征在第t个位置提取到的特征表示。
S32.所述隐含一层和隐含二层将计算结果输出给融合层,则融合特征提取神经网络的融合层公式为:
Figure 535471DEST_PATH_IMAGE044
其中,
Figure 25358DEST_PATH_IMAGE045
表示融合数据,
Figure 883593DEST_PATH_IMAGE046
为哈达玛积。本发明设立隐含层神经单元的数量为q,则通过融合后网络输出的特征个数为2q。融合层将融合结果发送给输出层进行输出,从而得到数据特征f。
测试融合特征提取神经网络的训练效果,根据实际需求设置误差阈值
Figure 433523DEST_PATH_IMAGE093
,计算网络误差
Figure 377208DEST_PATH_IMAGE094
,所述网络误差计算已有较多方法,根据实际需求选择相应方法计算。若
Figure 185633DEST_PATH_IMAGE095
,则认为满足实际需求,训练完毕;否则重新训练网络。
步骤S3所述的融合特征提取神经网络的有益效果为:通过对豌豆蛋白氨基酸频次矩阵与多层组合特征提取神经网络提取的特征融合提取,在序列和结构方面共同作用提取特征,增强了豌豆蛋白数据特征提取的深度。
以上所述仅为本发明的较佳实施例,并不用于限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。显然本发明具体实现并不受上述方式的限制,只要采用了本发明的方法构思和技术方案进行的各种非实质性的改进,或未经改进将本发明的构思和技术方案直接应用于其它场合的,均在本发明保护范围之内。

Claims (4)

1.一种豌豆蛋白数据特征提取方法,其特征在于,所述方法包括以下步骤:
S1. 根据豌豆蛋白序列数据中每个元素的前后顺序以及不同氨基酸出现的频次,将数据编码成维数一致的频次分布矩阵;
S2. 通过将豌豆蛋白三维模型映射到体素网格模型,构建直接从体素网格模型提取豌豆蛋白特征的多层组合特征提取神经网络,通过多层组合特征提取神经网络对上述豌豆蛋白体素网格进行特征提取,实现基于三维立体结构的豌豆蛋白特征提取;
S3. 将豌豆蛋白氨基酸频次分布矩阵与多层组合特征提取神经网络提取的特征组合在一起,通过融合特征提取神经网络对豌豆蛋白数据进行特征提取。
2.根据权利要求1所述的豌豆蛋白数据特征提取方法,其特征在于,所述步骤S1包括:氨基酸频次分布矩阵的计算方法,所述计算方法为:
设立豌豆蛋白中含有的氨基酸元素集合为
Figure 851537DEST_PATH_IMAGE001
Figure 702818DEST_PATH_IMAGE002
为第N种氨基酸,N为豌豆蛋白中含有的氨基酸种类数,将一条有着P个氨基酸残基的豌豆蛋白氨基酸序列映射到20维欧氏空间的一个点,用向量表示为
Figure 467684DEST_PATH_IMAGE003
,P为给定氨基酸序列中元素的数量,
Figure 506047DEST_PATH_IMAGE004
为氨基酸
Figure 125379DEST_PATH_IMAGE002
在序列S中出现的频次,则豌豆蛋白中氨基酸频次分布矩阵为:
Figure 831166DEST_PATH_IMAGE005
Figure 369595DEST_PATH_IMAGE006
其中,
Figure 675680DEST_PATH_IMAGE007
,则序列中所有元素的和为
Figure 816812DEST_PATH_IMAGE008
,对序列中的元素进行归一化:
Figure 393418DEST_PATH_IMAGE009
从而得到归一化处理后的豌豆蛋白氨基酸频次分布矩阵。
3.根据权利要求1所述的豌豆蛋白数据特征提取方法,其特征在于,所述步骤S2包括:构建直接从体素网格模型提取豌豆蛋白特征的多层组合特征提取神经网络,通过多层组合特征提取神经网络对上述豌豆蛋白体素网格进行特征提取;
特征提取的详细步骤为:
S221.所述多层组合特征提取神经网络用于提取豌豆蛋白三维体素数据的深层特征,网络输入是分辨率大小为
Figure 227382DEST_PATH_IMAGE010
的体素数据
Figure 646862DEST_PATH_IMAGE011
,其中,
Figure 840951DEST_PATH_IMAGE012
三个维度表示体素的空间位置坐标点,O为原点坐标,
Figure 521331DEST_PATH_IMAGE013
为映射因子,
Figure 276929DEST_PATH_IMAGE010
为分辨率,网络输出为体素模型的深层特征,多层组合特征提取神经网络共包含三层子神经网络:第一层特征提取神经网络采用一组卷积核数分别为3,5,7,9,11 的一维卷积网对蛋白质中的氨基酸序列进行卷积运算提取特征,输入通道数为5;输入一组体素数据X后,卷积核依次对每个氨基酸及其相邻的氨基酸做卷积运算,即对矩阵元素与卷积核相乘后求和,然后根据得到的特征数据进行加权求和并叠加偏置量:
Figure 42760DEST_PATH_IMAGE014
其中,
Figure 40540DEST_PATH_IMAGE015
表示卷积的输出,
Figure 575427DEST_PATH_IMAGE016
Figure 626560DEST_PATH_IMAGE017
表示输出通道数,
Figure 630419DEST_PATH_IMAGE018
表示卷积的输入,
Figure 182623DEST_PATH_IMAGE019
是偏置量,
Figure 821284DEST_PATH_IMAGE020
表示输入数据的权值,
Figure 433530DEST_PATH_IMAGE021
表示输入X中的第k个氨基酸残基的权值,
Figure 659107DEST_PATH_IMAGE022
表示输入X中的第k个氨基酸残基,
Figure 624789DEST_PATH_IMAGE023
是输入通道数,
Figure 868688DEST_PATH_IMAGE024
Figure 901104DEST_PATH_IMAGE025
是卷积核大小,
Figure 128823DEST_PATH_IMAGE026
表示任意一个卷积核的大小;
然后将卷积网的输出进行激活:
Figure 773562DEST_PATH_IMAGE027
其中,
Figure 12913DEST_PATH_IMAGE028
表示卷积网的所有卷积核输出,
Figure 966963DEST_PATH_IMAGE029
表示除了第k个氨基酸残基以外的其他氨基酸的激活因子;最后用批量归一化函数防止模型过拟合:
Figure 665666DEST_PATH_IMAGE030
,该公式为对
Figure 97785DEST_PATH_IMAGE031
进行批量归一化,BN表示批量归一化的意思,为现有公式;最后,分别将G的值设为3,5,7,9,11,从而得到第一层特征提取神经网络提取的特征为
Figure 67009DEST_PATH_IMAGE032
S222.第二层特征提取神经网络比第一层特征提取神经网络多了一次卷积、激活和归一化运算;
S223.第三层特征提取神经网络比第二层特征提取神经网络多了一次卷积、激活和归一化运算;对于输入X依次进行三次卷积、激活和归一化运算,第三层特征提取神经网络提取的特征为
Figure 191960DEST_PATH_IMAGE033
4.根据权利要求2所述的豌豆蛋白数据特征提取方法,其特征在于,所述步骤S3包括:将豌豆蛋白氨基酸频次分布矩阵与多层组合特征提取神经网络提取的特征组合在一起,形成融合特征提取神经网络的输入
Figure 112380DEST_PATH_IMAGE034
Figure 489135DEST_PATH_IMAGE035
为豌豆蛋白氨基酸频次分布矩阵,
Figure 562133DEST_PATH_IMAGE036
为多层组合特征提取神经网络提取的特征;共有m个输入向量;
融合特征提取神经网络包括输入层、隐含一层、隐含二层、融合层和输出层;
输入层将输入向量e传送给隐含一层,隐含一层对输入向量进行激活,所述激活公式为:
Figure 608718DEST_PATH_IMAGE037
其中,
Figure 767166DEST_PATH_IMAGE038
表示融合特征提取神经网络基于前t-1个数据特征在第t个位置提取到的特征表示,
Figure 790355DEST_PATH_IMAGE039
表示上一时刻的输出,
Figure 983439DEST_PATH_IMAGE040
是输入向量的权重值,
Figure 200925DEST_PATH_IMAGE041
Figure 987615DEST_PATH_IMAGE042
是当前时刻的输入,
Figure 565227DEST_PATH_IMAGE043
是偏置量;
输入层将输入向量e传送给隐含二层,隐含二层对输入向量进行激活,所述激活公式为:
Figure 127664DEST_PATH_IMAGE044
其中,
Figure 499740DEST_PATH_IMAGE045
表示融合特征提取神经网络基于后m-t个数据特征在第t个位置提取到的特征表示;
所述隐含一层和隐含二层将计算结果输出给融合层,则融合特征提取神经网络的融合层公式为:
Figure 649092DEST_PATH_IMAGE047
其中,
Figure 905761DEST_PATH_IMAGE048
表示融合数据,
Figure 807858DEST_PATH_IMAGE049
为哈达玛积,设立隐含层神经单元的数量为q,则通过融合后网络输出的特征个数为2q;融合层将融合结果发送给输出层进行输出,从而得到数据特征f。
CN202111065658.7A 2021-09-13 2021-09-13 一种豌豆蛋白数据特征提取方法 Active CN113537409B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111065658.7A CN113537409B (zh) 2021-09-13 2021-09-13 一种豌豆蛋白数据特征提取方法
CN202210109616.7A CN115527613A (zh) 2021-09-13 2021-09-13 一种豌豆蛋白数据特征编码及提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111065658.7A CN113537409B (zh) 2021-09-13 2021-09-13 一种豌豆蛋白数据特征提取方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202210109616.7A Division CN115527613A (zh) 2021-09-13 2021-09-13 一种豌豆蛋白数据特征编码及提取方法

Publications (2)

Publication Number Publication Date
CN113537409A CN113537409A (zh) 2021-10-22
CN113537409B true CN113537409B (zh) 2022-01-25

Family

ID=78093172

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202111065658.7A Active CN113537409B (zh) 2021-09-13 2021-09-13 一种豌豆蛋白数据特征提取方法
CN202210109616.7A Pending CN115527613A (zh) 2021-09-13 2021-09-13 一种豌豆蛋白数据特征编码及提取方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202210109616.7A Pending CN115527613A (zh) 2021-09-13 2021-09-13 一种豌豆蛋白数据特征编码及提取方法

Country Status (1)

Country Link
CN (2) CN113537409B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115239999B (zh) * 2022-07-22 2023-04-21 水木未来(北京)科技有限公司 蛋白质电子密度图处理方法、装置、电子设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109817276A (zh) * 2019-01-29 2019-05-28 鲁东大学 一种基于深度神经网络的蛋白质二级结构预测方法
CN111414802A (zh) * 2020-02-21 2020-07-14 青岛海洋科学与技术国家实验室发展中心 蛋白质数据特征提取方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060025928A1 (en) * 2004-07-29 2006-02-02 International Business Machines Corporation Hydropathy plots and fourier analysis with an ellipsoidal distance metric
WO2018150260A1 (en) * 2017-02-16 2018-08-23 Institut Pasteur Method for the identification of mutated proteins having modified thermal stability
CN108229102B (zh) * 2017-12-19 2020-06-12 东软集团股份有限公司 氨基酸序列特征提取方法、装置、存储介质及电子设备
CN108830042B (zh) * 2018-06-13 2021-09-21 深圳大学 一种基于多模态蛋白质序列的特征提取与编码方法及系统
CN111081311A (zh) * 2019-12-26 2020-04-28 青岛科技大学 基于深度学习的蛋白质赖氨酸丙二酰化位点预测方法
CN113192559B (zh) * 2021-05-08 2023-09-26 中山大学 基于深层图卷积网络的蛋白质-蛋白质相互作用位点预测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109817276A (zh) * 2019-01-29 2019-05-28 鲁东大学 一种基于深度神经网络的蛋白质二级结构预测方法
CN111414802A (zh) * 2020-02-21 2020-07-14 青岛海洋科学与技术国家实验室发展中心 蛋白质数据特征提取方法

Also Published As

Publication number Publication date
CN113537409A (zh) 2021-10-22
CN115527613A (zh) 2022-12-27

Similar Documents

Publication Publication Date Title
CN110992351B (zh) 基于多输入卷积神经网络的sMRI图像分类方法和装置
CN110033440A (zh) 基于卷积神经网络与特征融合的生物细胞计数方法
CN109389171B (zh) 基于多粒度卷积降噪自动编码器技术的医疗图像分类方法
CN111652049A (zh) 人脸图像处理模型训练方法、装置、电子设备及存储介质
CN105139004A (zh) 基于视频序列的人脸表情识别方法
CN112686898B (zh) 一种基于自监督学习的放疗靶区自动分割方法
CN110929736A (zh) 多特征级联rgb-d显著性目标检测方法
CN109461177B (zh) 一种基于神经网络的单目图像深度预测方法
CN112905828B (zh) 一种结合显著特征的图像检索器、数据库及检索方法
CN112651360B (zh) 一种小样本下骨架动作识别方法
CN110930378A (zh) 基于低数据需求的肺气肿影像处理方法及系统
CN110096991A (zh) 一种基于卷积神经网络的手语识别方法
CN113537409B (zh) 一种豌豆蛋白数据特征提取方法
CN114445715A (zh) 一种基于卷积神经网络的农作物病害识别方法
CN114565594A (zh) 基于软掩膜对比损失的图像异常检测方法
CN117079098A (zh) 一种基于位置编码的空间小目标检测方法
CN112149662A (zh) 一种基于扩张卷积块的多模态融合显著性检测方法
CN115829942A (zh) 基于非负性约束稀疏自编码器的电子电路缺陷检测方法
CN114581789A (zh) 一种高光谱图像分类方法及系统
CN109934835A (zh) 基于深度强化网络邻接连接的轮廓检测方法
CN116665300A (zh) 基于时空自适应特征融合图卷积网络的骨架动作识别方法
CN113689548B (zh) 一种基于互注意力Transformer的医学影像三维重建方法
CN109886105A (zh) 基于多任务学习的价格牌识别方法、系统及存储介质
CN114820636A (zh) 一种三维医学图像分割模型及其训练方法和应用
CN113269702A (zh) 基于跨尺度特征融合的低曝光静脉图像增强方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant