CN111696621B

CN111696621B - 一种蛋白质磷酸化修饰位点-疾病关系识别方法、系统、装置及存储介质

Info

Publication number: CN111696621B
Application number: CN202010492316.2A
Authority: CN
Inventors: 李占潮
Original assignee: Guangdong Pharmaceutical University; Sun Yat Sen University
Current assignee: Guangdong Pharmaceutical University; Sun Yat Sen University
Priority date: 2020-06-03
Filing date: 2020-06-03
Publication date: 2023-03-31
Anticipated expiration: 2040-06-03
Also published as: CN111696621A

Abstract

本发明公开了一种蛋白质磷酸化修饰位点‑疾病关系识别方法、系统、装置及存储介质，该方法包括：获取信息；构建关系数据集和非关系数据集；构建关系特征向量和非关系特征向量；输入关系特征向量和非关系特征向量得到识别结果。该系统包括：获取模块，数据集模块、特征向量模块和输出模块。该装置包括存储器以及用于执行上述蛋白质磷酸化修饰位点‑疾病关系识别方法的处理器。通过使用本发明，可高效、准确的在蛋白质组识别大量蛋白质磷酸化修饰位点‑疾病的关系信息。本发明作为一种蛋白质磷酸化修饰位点‑疾病关系识别方法、系统、装置及存储介质，可广泛应用于蛋白质磷酸化修饰位点识别领域。

Description

一种蛋白质磷酸化修饰位点-疾病关系识别方法、系统、装置及存储介质

技术领域

本发明涉及蛋白质磷酸化修饰位点识别领域，尤其涉及一种蛋白质磷酸化修饰位点-疾病关系识别方法、系统、装置及存储介质。

背景技术

蛋白质磷酸化修饰是目前所有翻译后修饰类型中数据量最大、人体内分布最广泛的一种蛋白质翻译后修饰类型。据估计，在人体中，大约有70％的蛋白质可以发生磷酸化。蛋白质磷酸化修饰几乎参与了所有的生物学过程，如细胞的增殖、发育、分化和凋亡，信号转导，新陈代谢，以及转录调控等。由于蛋白质磷酸化在生物体细胞中扮演了至关重要的角色，所以通常和复杂或者重大疾病的发生、发展有着密切的关系。例如，研究表明α-synuclein蛋白、线粒体激酶蛋白PINK1和Parkin蛋白相关氨基酸位点的磷酸化对形成路易小体，激活、降解和转运帕金森病相关蛋白等具有至关重要的作用。因此，深入研究蛋白质磷酸化修饰位点与疾病之间的关系，不仅有助于阐明蛋白质的序列、结构与功能关系的，而且对于疾病的预防、诊断和治疗，以及药物研发等具有重要的研究意义和应用价值。但是，目前仅识别了非常少量的蛋白质磷酸化修饰位点与疾病关系信息，并且实验方法通常费时、费力，而且需要昂贵的花销，不能适用于蛋白质组学尺度研究。

发明内容

为了解决上述技术问题，本发明的目的是提供一种蛋白质磷酸化修饰位点-疾病关系识别方法、系统、装置及存储介质，可高效、准确的在蛋白质组识别大量蛋白质磷酸化修饰位点-疾病的关系信息。

本发明所采用的第一技术方案是：一种蛋白质磷酸化修饰位点-疾病关系识别方法，包括以下步骤：

获取疾病信息、蛋白质磷酸化修饰位点信息、氨基酸序列片段信息和临床症状信息，并标记得到关系信息；

基于蛋白质磷酸化修饰位点与疾病的关系信息，构建蛋白质磷酸化修饰位点与疾病的关系数据集和非关系数据集；

根据关系数据集和非关系数据集、蛋白质磷酸化修饰位点对应的氨基酸序列片段信息和临床症状信息，构建蛋白质磷酸化修饰位点与疾病的关系特征向量和非关系特征向量；

将关系特征向量和非关系特征向量输入到随机森林模型，得到蛋白质磷酸化修饰位点与疾病关系的结果。

进一步，所述蛋白质磷酸化修饰位点信息包括与何种疾病相关和与疾病关系属于何种类型，所述氨基酸序列片段信息包括发生磷酸化修饰的氨基酸类型和磷酸化修饰氨基酸在对应蛋白质序列中的位置，所述临床症状信息包括疾病临床症状、疾病名称、同义词和疾病在医学数据库中的ID号。

进一步，所述基于蛋白质磷酸化修饰位点与疾病的关系信息，构建蛋白质磷酸化修饰位点与疾病的关系数据集和非关系数据集这一步骤，其具体包括：

基于蛋白质磷酸化修饰位点与疾病的关系信息，生成蛋白质磷酸化修饰位点与疾病的关系对并构建蛋白质磷酸化修饰位点与疾病的关系数据集；

随机抽取蛋白质磷酸化修饰位点信息和疾病信息，得到随机关系并检查该随机关系是否存在于关系数据集；

判断到随机关系不存在于关系数据集，生成蛋白质磷酸化修饰位点与疾病的非关系对；

将蛋白质磷酸化修饰位点与疾病的非关系对收录到蛋白质磷酸化修饰位点与疾病的非关系数据集；

重复生成非关系对和收录的步骤直至生成的非关系数据集与关系数据集大小相等。

进一步，所述将关系特征向量和非关系特征向量输入到随机森林模型还包括构建随机森林模型，所述构建随机森林模型包括以下步骤：

根据蛋白质磷酸化修饰位点与疾病的关系对，得到关系对特征；

根据蛋白质磷酸化修饰位点与疾病的非关系对，得到非关系对特征；

选取部分关系对特征、非关系对特征、关系对信息和非关系对信息输入到随机森林模型进行训练；

根据剩余的关系对特征、非关系对特征、关系对信息和非关系对信息对随机森林模型进行测试，完成随机森林模型的构建。

进一步，所述根据蛋白质磷酸化修饰位点与疾病的关系对，得到关系对特征这一步骤，其具体包括：

根据蛋白质磷酸化修饰位点与疾病的关系对中的蛋白质磷酸化修饰位点信息，基于BLOSOUM62矩阵计算对应多肽序列的生物统计特征，得到第一生物统计特征；

根据蛋白质磷酸化修饰位点与疾病的关系对中的疾病信息，获取对应的临床症状信息并构建症状特征，得到第一症状特征；

根据蛋白质磷酸化修饰位点与疾病的关系对、第一生物统计特征和第一症状特征构建蛋白质磷酸化修饰位点与疾病信息关系对特征。

进一步，所述根据蛋白质磷酸化修饰位点与疾病的非关系对，得到非关系对特征这一步骤，其具体包括：

根据蛋白质磷酸化修饰位点与疾病的非关系对中的蛋白质磷酸化修饰位点信息，基于BLOSOUM62矩阵计算对应多肽序列的生物统计特征，得到第二生物统计特征；

根据蛋白质磷酸化修饰位点与疾病的非关系对中的疾病信息，获取对应的临床症状信息并构建症状特征，得到第二症状特征；

根据蛋白质磷酸化修饰位点与疾病的非关系对、第二生物统计特征和第二症状特征构建蛋白质磷酸化修饰位点与疾病信息非关系对特征。

进一步，所述完成随机森林模型的构建采用五折交叉验证法。

本发明所采用的第二技术方案是：一种蛋白质磷酸化修饰位点-疾病关系识别系统，包括：

获取模块，用于获取疾病信息、蛋白质磷酸化修饰位点信息、氨基酸序列片段信息和临床症状信息，标记得到关系信息；

数据集模块，用于基于蛋白质磷酸化修饰位点与疾病的关系信息，构建蛋白质磷酸化修饰位点与疾病的关系数据集和非关系数据集；

特征向量模块，用于根据关系数据集和非关系数据集并采用蛋白质磷酸化修饰位点对应的氨基酸序列片段信息和临床症状信息，构建蛋白质磷酸化修饰位点与疾病的关系特征向量和非关系特征向量；

输出模块，用于将关系特征向量和非关系特征向量输入到随机森林模型，得到蛋白质磷酸化修饰位点与疾病关系的结果。

本发明所采用的第三技术方案是：一种蛋白质磷酸化修饰位点-疾病关系识别装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如上所述一种蛋白质磷酸化修饰位点-疾病关系识别方法。

本发明所采用的第四技术方案是：一种存储介质，其中存储有处理器可执行的指令，其特征在于：所述处理器可执行的指令在由处理器执行时用于实现如上所述一种蛋白质磷酸化修饰位点-疾病关系识别方法。

本发明方法、系统、装置及存储介质的有益效果是：本发明分别将蛋白质磷酸化修饰位点-疾病关系对应的蛋白质氨基酸序列信息和疾病信息转化为特征向量，然后使用随机森林模型对关系特征向量进行处理，从而获得蛋白质磷酸化修饰位点-疾病关系识别结果，能够在蛋白质组尺度快速、高效、准确地识别海量蛋白质磷酸化修饰位点-疾病关系信息，成本低廉。

附图说明

图1是本发明一种蛋白质磷酸化修饰位点-疾病关系识别方法的步骤流程图；

图2是本发明一种蛋白质磷酸化修饰位点-疾病关系识别系统的结构框图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

本发明的识别方法基于机器学习和理论计算，能够在蛋白质组尺度快速、高效、准确地识别海量蛋白质磷酸化修饰位点-疾病关系信息，在一些研究蛋白质磷酸化修饰机理、探究疾病发生机制的应用中，具有重要的理论意义和应用价值，壳广泛应用于蛋白质磷酸化修饰位点识别、疾病的预防、诊断和治疗、以及药物研究等领域。

如图1所示，本发明提供了一种蛋白质磷酸化修饰位点-疾病关系识别方法，该方法包括以下步骤：

S101、获取疾病信息、蛋白质磷酸化修饰位点信息、氨基酸序列片段信息和临床症状信息，并标记得到关系信息。

S102、基于蛋白质磷酸化修饰位点与疾病的关系信息，构建蛋白质磷酸化修饰位点与疾病的关系数据集和非关系数据集；

S103、根据关系数据集和非关系数据集、蛋白质磷酸化修饰位点对应的氨基酸序列片段信息和临床症状信息，构建蛋白质磷酸化修饰位点与疾病的关系特征向量和非关系特征向量；

具体地，获得特征向量包括所述蛋白质磷酸化修饰位点对应的序列生物统计特征向量和所述疾病对应的临床症状特征向量；

其中，对所述蛋白质磷酸化修饰位点，以该磷酸化修饰位点为中心，获取包含9个氨基酸长度的氨基酸序列，对所述长度为9的氨基酸序列，基于BLOSOUM62矩阵，通过与其它磷酸化修饰位点对应的长度为9的氨基酸序列进行两两序列比对转化为多个数字向量；统计多个向量对应的最大、最小、平均、中位数和标准偏差值，将这些数值首位连接构成所述蛋白质磷酸化修饰位点对应的生物统计特征向量。

其中，对所述疾病，以该疾病的名字为准，通过手工搜索MalaCards数据库获取该疾病的同义名，以及该疾病在Disease ontology、Human phenotype ontology、KEGG、MeSH和OMIM数据库中的ID号；，对所述疾病对应的名字和同义名，以及各个数据库中的ID号，通过手工搜索NCBI等数据库和查找文献，获取疾病相关的临床症状信息，对所述疾病对应的临床症状信息，构建疾病症状特征向量，向量为二进制特征向量，“1”表示该疾病具有对应临床症状，“0”表示该疾病没有对应临床症状。

对蛋白质磷酸化修饰位点对应生物统计特征向量和疾病临床症状特征向量，首尾连接构成蛋白质磷酸化修饰位点-疾病关系特征向量；

同理非关系特征向量类似上述步骤获得。

S104、将关系特征向量和非关系特征向量输入到随机森林模型，得到蛋白质磷酸化修饰位点与疾病关系的结果。

进一步作为本方法的优选实施例，所述蛋白质磷酸化修饰位点信息包括与何种疾病相关和与疾病关系属于何种类型，所述氨基酸序列片段信息包括发生磷酸化修饰的氨基酸类型和磷酸化修饰氨基酸在对应蛋白质序列中的位置，所述临床症状信息包括疾病临床症状、疾病名称、同义词和疾病在医学数据库中的ID号。

进一步作为本方法的优选实施例，所述基于蛋白质磷酸化修饰位点与疾病的关系信息，构建蛋白质磷酸化修饰位点与疾病的关系数据集和非关系数据集这一步骤，其具体包括：

具体地，收集所有蛋白质磷酸化修饰位点与疾病关系信息，删除没有确定的残基注释信息的蛋白质磷酸化修饰位点-疾病关系对；删除没有确定的磷酸化残基注释信息的蛋白质磷酸化修饰位点-疾病关系对；删除没有确定残基位点注释信息的蛋白质磷酸化修饰位点-疾病关系对；删除包含非人类蛋白质磷酸化位点的蛋白质磷酸化修饰位点-疾病关系对。随机抽取蛋白质磷酸化修饰位点-疾病关系数据中的蛋白质磷酸化修饰位点；随机抽取蛋白质磷酸化修饰位点-疾病关系数据中的疾病；

针对所述随机抽取的蛋白质磷酸化修饰位点和疾病，构建随机蛋白质磷酸化修饰位点-疾病关系。如果该随机关系不存在于收集的蛋白质磷酸化修饰位点-疾病关系数据集中，则为蛋白质磷酸化修饰位点-疾病非关系对。

重复运行上一步骤，直至产生与收集的蛋白质磷酸化修饰位点-疾病关系数据集大小相等的蛋白质磷酸化修饰位点-疾病非关系数据集。

进一步作为本方法优选实施例，所述将关系特征向量和非关系特征向量输入到随机森林模型还包括构建随机森林模型，所述构建随机森林模型包括以下步骤：

具体地，根据蛋白质磷酸化修饰位点与疾病的关系对，获取所述蛋白质磷酸化修饰位点与疾病关系对的特征作为输入数据正样本，并将蛋白质磷酸化修饰位点与疾病关系对信息作为输出数据正样本；根据蛋白质磷酸化修饰位点与疾病非关系对，获取所述蛋白质磷酸化修饰位点与疾病非关系对的特征作为输入数据负样本，并将蛋白质磷酸化修饰位点与疾病非关系对信息作为输出数据负样本；

选取部分输入数据正样本、输入数据负样本、输出数据正样本和输出数据负样本，对所述随机森林模型进行训练；选取剩余的输入数据正样本、输入数据负样本、输出数据正样本和输出数据负样本，对所述随机森林模型进行测试。

根据蛋白质磷酸化修饰位点与疾病的关系对信息，将蛋白质磷酸化修饰位点与疾病的关系数据集分为以下三个子数据集：上调和下调关系子数据集；存在和缺失关系子数据集；产生和破坏关系子数据集；

根据蛋白质磷酸化修饰位点与疾病关系对上调和下调关系子数据集，获取所述蛋白质磷酸化修饰位点与疾病关系对的特征作为输入数据样本I1，并将蛋白质磷酸化修饰位点与疾病关系对信息作为输出数据样本O1；根据蛋白质磷酸化修饰位点与疾病关系对存在和缺失关系子数据集，获取所述蛋白质磷酸化修饰位点与疾病关系对的特征作为输入数据样本I2，并将蛋白质磷酸化修饰位点与疾病关系对信息作为输出数据样本O2；根据蛋白质磷酸化修饰位点与疾病关系对产生和破坏关系子数据集，获取所述蛋白质磷酸化修饰位点与疾病关系对的特征作为输入数据样本I3，并将蛋白质磷酸化修饰位点与疾病关系对信息作为输出数据样本O3；

同理可以再将子数据集划分，得到第二子数据集，并设置输入数据样本和输出数据样本对模型进行训练和测试，随机森林模型采用数据正样本和数据负样本进行训练和测试，使随机森林模型的预测结果更准确，与真实情况更接近。

选取部分输入数据样本I1、I2和I3，输出数据样本O1、O2和O3，对所述随机森林模型进行训练；选取剩余的输入数据样本I1、I2和I3，输出数据样本O1、O2和O3，对所述随机森林模型进行测试。

进一步作为本方法优选实施例，所述根据蛋白质磷酸化修饰位点与疾病的关系对，得到关系对特征这一步骤，其具体包括：

进一步作为本方法优选实施例，所述根据蛋白质磷酸化修饰位点与疾病的非关系对，得到非关系对特征这一步骤，其具体包括：

进一步作为本方法优选实施例，所述完成随机森林模型的构建采用五折交叉验证法。

具体地，将输入和输出数据的正样本和负样本随机平均分为五等份，随机选择一份输入和输出数据正样本与负样本作为测试集，余下的四份输入和输出数据正样本与负样本作为训练集；重复上述过程五次，保证每一份输入和输出正样本与负样本都作为测试集一次。采用精度、敏感性、特异性和马氏相关系数评估随机森林预测能力。

本发明的具体实施例如下：

获取待识别蛋白质磷酸化修饰位点-疾病关系对应的蛋白质氨基酸序列和疾病临床症状信息，对所述蛋白质磷酸化修饰位点对应的氨基酸序列片段进行操作，获得所述蛋白质磷酸化修饰位点对应的序列生物统计特征向量，对所述疾病对应的临床症状进程操作，获取所述疾病对应的临床症状特征向量，对所述蛋白质磷酸化修饰位点生物统计特征向量和疾病临床症状特征向量进行操作，获取蛋白质磷酸化修饰位点-疾病关系对特征向量，将所述蛋白质磷酸化修饰位点-疾病关系对特征向量输入随机森林模型，获得所述蛋白质磷酸化修饰位点-疾病关系对相关与否的识别结果，上述识别结果如果相关，则将所述蛋白质磷酸化修饰位点-疾病关系对特征向量输入随机森林模型，获得所述蛋白质磷酸化修饰位点-疾病关系对的识别结果，包括：是否属于上调和下调，存在和缺失，以及产生和破坏。

具体应用本发明实施例预测设置和结果如下：

一、随机森林模型预测给定的一个蛋白质磷酸化修饰位点-疾病对是否具有关系：随机森林中树的数目设置为100，树的每一个节点随机选择的特征数目为总的特征数目的平方根取整数，采用五折交叉验证方法构建随机森林模型，并用精度、敏感性、特异性和马氏相关系数评估随机森林模型预测能力，模型的预测精度为73.53％，敏感性为74.95％，特异性为72.11％，马氏相关系数为0.4708。

二、随机森林模型预测给定的一个蛋白质磷酸化修饰位点-疾病对是否为上调和下调关系、存在和缺失关系、产生和破坏关系：随机森林中树的数目设置为100，树的每一个节点随机选择的特征数目为总的特征数目的平方根取整数，采用五折交叉验证方法构建随机森林模型，并用每一类的精度评估随机森林模型预测能力，随机森林模型对上调和下调关系、存在和缺失关系、产生和破坏关系的预测精度分别为79.93％，41.25％和18.18％。

如图2所示，一种蛋白质磷酸化修饰位点-疾病关系识别系统，包括：

进一步作为本系统的优选实施例，所述数据集模块还包括：

关系对子模块，用于基于蛋白质磷酸化修饰位点与疾病的关系信息，生成蛋白质磷酸化修饰位点与疾病的关系对并构建蛋白质磷酸化修饰位点与疾病的关系数据集；

抽取子模块，用于随机抽取蛋白质磷酸化修饰位点信息和疾病信息，得到随机关系并检查该随机关系是否存在于关系数据集；

非关系对子模块，用于判断到随机关系不存在于关系数据集，生成蛋白质磷酸化修饰位点与疾病的非关系对；

收录子模块，用于将蛋白质磷酸化修饰位点与疾病的非关系对收录到蛋白质磷酸化修饰位点与疾病的非关系数据集；

循环子模块，用于重复生成非关系对和收录的步骤直至生成的非关系数据集与关系数据集大小相等。

上述方法实施例中的内容均适用于本系统实施例中，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

一种蛋白质磷酸化修饰位点-疾病关系识别装置：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

上述方法实施例中的内容均适用于本装置实施例中，本装置实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

一种存储介质，其中存储有处理器可执行的指令，其特征在于：所述处理器可执行的指令在由处理器执行时用于实现如上所述一种蛋白质磷酸化修饰位点-疾病关系识别方法。

上述方法实施例中的内容均适用于本存储介质实施例中，本存储介质实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种蛋白质磷酸化修饰位点-疾病关系识别方法，其特征在于，包括以下步骤：

所述蛋白质磷酸化修饰位点信息包括与何种疾病相关和与疾病关系属于何种类型，所述氨基酸序列片段信息包括发生磷酸化修饰的氨基酸类型和磷酸化修饰氨基酸在对应蛋白质序列中的位置，所述临床症状信息包括疾病临床症状、疾病名称、同义词和疾病在医学数据库中的ID号；

所述基于蛋白质磷酸化修饰位点与疾病的关系信息，构建蛋白质磷酸化修饰位点与疾病的关系数据集和非关系数据集这一步骤，其具体包括；

重复生成非关系对和收录的步骤直至生成的非关系数据集与关系数据集大小相等；

将关系特征向量和非关系特征向量输入到随机森林模型，得到蛋白质磷酸化修饰位点与疾病关系的结果；

所述将关系特征向量和非关系特征向量输入到随机森林模型还包括构建随机森林模型，所述构建随机森林模型包括以下步骤；

2.根据权利要求1所述一种蛋白质磷酸化修饰位点-疾病关系识别方法，其特征在于，所述根据蛋白质磷酸化修饰位点与疾病的关系对，得到关系对特征这一步骤，其具体包括：

3.根据权利要求2所述一种蛋白质磷酸化修饰位点-疾病关系识别方法，其特征在于，所述根据蛋白质磷酸化修饰位点与疾病的非关系对，得到非关系对特征这一步骤，其具体包括：

4.根据权利要求3所述一种蛋白质磷酸化修饰位点-疾病关系识别方法，其特征在于，所述完成随机森林模型的构建采用五折交叉验证法。

5.一种蛋白质磷酸化修饰位点-疾病关系识别系统，其特征在于，包括：

输出模块，用于将关系特征向量和非关系特征向量输入到随机森林模型，得到蛋白质磷酸化修饰位点与疾病关系的结果；

6.一种蛋白质磷酸化修饰位点-疾病关系识别装置，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1-4任一项所述一种蛋白质磷酸化修饰位点-疾病关系识别方法。

7.一种存储介质，其中存储有处理器可执行的指令，其特征在于：所述处理器可执行的指令在由处理器执行时用于实现如权利要求1-4任一项所述一种蛋白质磷酸化修饰位点-疾病关系识别方法。