CN111128300A

CN111128300A - 基于突变信息的蛋白相互作用影响判断方法

Info

Publication number: CN111128300A
Application number: CN201911365559.3A
Authority: CN
Inventors: 林关宁; 钱威
Original assignee: Shanghai Mental Health Center (shanghai Psychological Counseling Training Center)
Current assignee: Shanghai Mental Health Center (shanghai Psychological Counseling Training Center)
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2020-05-08
Anticipated expiration: 2039-12-26
Also published as: CN111128300B

Abstract

本发明公开了一种基于突变信息的蛋白相互作用影响判断方法，是一个对于蛋白质中发生的单点突变是否会对原有该基因的蛋白相互作用产生负面影响的判断工具(MIPPI)，包括数据收集筛选、特征选取提取和模型建立三部分。本发明技术方案可以为基因、蛋白突变的相关研究者提供直观的突变对于蛋白互作影响的辅助判断标准，主要基于蛋白序列突变信息来对突变造成的蛋白相互作用的影响进行判断，能够改善对于蛋白突变严重程度的判断。

Description

基于突变信息的蛋白相互作用影响判断方法

技术领域

本发明属于生物计算机技术领域，具体涉及一种基于突变信息的蛋白相互作用影响判断方法。

背景技术

人类基因组中普遍存在着基因突变，据文献报道每个人基因中平均包含了约175个突变点位，平均每个人会携带有3个以上的有害突变。基因突变点位大多数位于基因组的非编码区域，只有少数落在编码区域。落在编码区域的错义突变会导致蛋白质编码发生改变，从而改变蛋白质的结构和功能，并对相关的生物学过程和功能造成影响。目前已知大量的疾病与基因突变相关，典型的为精神疾病，如自闭症、强迫症、阿尔兹海默症、双向情感障碍等，其他相关疾病如高血压、糖尿病、色盲以及最受关注的癌症都和基因突变密切相关。所以，研究基因突变的致病机制成为了医学领域的重要研究领域。

错义突变会导致蛋白质序列编码发生变化，蛋白质在生物体内执行多种功能，包括催化代谢反应，DNA复制，应激反应等。大多数生物过程，包括细胞增殖，信号传导和蛋白质转运等，都是通过复杂的蛋白相互作用在生物体内进行内在协调。

所以，蛋白质复合物的形成在众多生物学过程的调节中起着至关重要的作用。蛋白质间相互作用的亲和力和特异性的合理设计或修饰是一个具有挑战性的问题，因为它提出了许多有希望的应用，特别是用于治疗目的。蛋白质界面的特征已经被普遍研究，但是蛋白质相互之间结合模式的多样性使得得出简单通用的识别规则受到了阻碍，仅一些全局性的理化特征，如疏水性等被研究所重视。目前已有大量研究关注于蛋白质相互作用界面的预测及研究，这些研究大多数依赖于机器学习方法来集成表征每个氨基酸残基及其环境的各种功能。这些特征通常包括有关序列保守性的信息，以及物理化学信息(如残基疏水性，静电荷)，结构信息(如溶剂可及性，二级结构)或者各类能量参数。尽管这些方法需要了解蛋白复合物的结构，但也已实现了从序列对于相互作用界面的预测。相比于蛋白质互作界面的研究，突变对于蛋白质相互作用影响的研究对突变直接造成的生物影响研究更具有直接意义。目前，在这方面的研究中主要集中于突变对于蛋白质结合自由能的影响，还没有通过序列信息直接对突变造成的蛋白质相互作用影响做出判断的研究。该方面研究主要存在的问题有：1)可使用的研究数据不足，没有足够的经过实验验证的标注数据作为支撑来进行相关研究的进行，目前大多数的蛋白互作相关数据集并未对突变产生的互作影响进行分类标注；2)多数关于突变对于蛋白质本身及蛋白相互作用的研究中，都使用到了较为复杂的各种蛋白结构信息作为特征依据，目前为止，已经具有全面结构信息，并且标注了相关点位突变后对于蛋白互作影响的数据不足，大量数据缺乏实验验证，对相关研究造成了阻碍。

发明内容

有鉴于此，本发明的目的是提供一种基于突变信息的蛋白相互作用影响判断方法，以解决现有技术中的不足。该方法集中了能够描述蛋白突变对于原有蛋白相互作用造成影响的特征，从蛋白序列突变信息中判断出突变影响程度，可普遍用于蛋白及非同义突变的影响预测。

为了达到上述目的，本发明的目的是通过下述技术方案实现的：

提供一种基于突变信息的蛋白相互作用影响判断方法，其中，包括数据收集筛选、特征选取提取和模型建立三部分，其中：

在数据收集筛选步骤，使用预设的数据集，将该数据集根据研究需要进行筛选，选取人类的蛋白序列单点突变条目并排除矛盾标注条目，获得符合条件的注释条目，这些条目中包含了三类蛋白点突变对于蛋白互作的影响种类，分别为破坏原有互作、减弱原有互作、对原有互作无影响；

在特征选取提取步骤中，特征选取为蛋白序列特征和序列保守性特征，通过深度学习模型训练将序列中的定量特征进行映射计算得到，序列保守性特征作为对于序列特征的补充，保守性数值通过NCBI Psiblast序列比对工具进行初步计算，得到蛋白序列特异性得分PSSM矩阵，其中包含了对应蛋白中氨基酸残基的进化保守性信息，提取突变残基前25位以及后25位氨基酸窗口长度的矩阵信息，经标准化处理得到保守性相关特征；

在模型建立步骤中，使用深度学习中的卷积神经网络模型，卷积神经网络模型包含卷积层、激活层和全连接层，卷积层通过设置多个卷积核对原有特征进行提取和计算，激活层将线性计算非线性化，全连接层在不同神经元节点中进行线性映射运算，最终给出突变对于互作影响的分类结果；深度学习网络模型使用卷积神经网络作为基础，并进行调整以适应具体任务，从不同尺度对于输入进行特征提取识别，并在训练网络模型的过程中针对不同类别样本数比例不平衡的问题，设置对应的类别损失惩罚权重进行平衡调整，在最后给出综合判断结果。

上述基于突变信息的蛋白相互作用影响判断方法，其中，在特征选取提取步骤，将经过数据清洗的注释条目进行特征提取工作，一类特征为蛋白序列信息，以突变点位为中心，选取前后邻近25位氨基酸作为参考，得到突变相关氨基酸滑动窗序列作为数据样例，将得到的滑动窗序列进行独热编码，将序列转化为数字矩阵，并添加一行指示列来提示该位点是否存在氨基酸序列；另一类特征为蛋白序列保守性特征，该类特征的提取依赖于NCBIPsiblast工具，输入发生突变的蛋白序列信息，通过序列对比参考库对比该蛋白序列的相似序列，得出该蛋白序列各点位的氨基酸特异性矩阵，其中包含蛋白序列各氨基酸残基位点的保守性信息，通过发生突变的氨基酸点位进行定位，取前后邻近25位氨基酸形成滑动窗序列作为数据样例，经过标准化处理，得到突变相关氨基酸保守性特征。

上述基于突变信息的蛋白相互作用影响判断方法，其中，在模型建立步骤，在模型训练过程中选取模型损失函数值最小的训练模型作为最优模型。

本发明技术方案的有益效果是：

可以为基因、蛋白突变的相关研究者提供直观的突变对于蛋白互作影响的辅助判断标准，主要基于蛋白序列突变信息来对突变造成的蛋白相互作用的影响进行判断，能够改善对于蛋白突变严重程度的判断。

附图说明

图1为本发明方法流程示意图。

图2为本发明方法在数据集内划分的独立测试集中的预测混淆矩阵示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。

参看图1所示，本发明基于突变信息的蛋白相互作用影响判断方法包括数据收集筛选、特征选取提取和模型建立三部分。本发明中将所输入的蛋白突变通过已训练的深度学习模型进行预测，将蛋白突变分为两类，一类为对蛋白互作会造成负面影响，另一类为无影响。

在数据收集筛选阶段，开发过程中使用了2019年1月份发表于Naturecommunications期刊IMEx组织的文章中给出的数据集(S1)。该数据集包含了IMEx联盟机构收集了14年以上的蛋白序列点突变数据，这些数据全部基于实验验证结果进行相关注释标注，并持续更新，于2019年7月已收录了超过43000条相关注释。数据集中的突变条目与UniprotKB中的基础蛋白序列相关联并持续更新。将该数据集根据研究需要进行筛选，选取人类的蛋白序列单点突变条目，并排除矛盾标注条目，获得12000余条符合条件的注释条目。这些条目中包含了三类蛋白点突变对于蛋白互作的影响种类，分别为破坏原有互作(disrupting)，减弱原有互作(decreasing)，对原有互作无影响(no effect)。开发过程中，使用IMEx的Mutations influencing interactions dataset(https://www.ebi.ac.uk/intact)作为训练及测试母数据集，对其中的注释条目进行筛选(S2)。该数据集中包含了超过297个不同物种的超过4万条蛋白突变相关注释条目，这些条目分别来自于历年来不同文献中的报道。本工具开发过程中，在该数据集中筛选出人类蛋白突变，并限定为单点蛋白突变以避免单个蛋白上出现多点突变造成的注释混淆。由于这些蛋白突变注释来自不同文献报道，而不同文献报道间可能存在矛盾，为了避免这类情况出现，在数据筛选过程中将出现矛盾标注的条目进行删除(S3)，最终得到基于母数据集的人类蛋白突变注释条目数据集。

在特征选取及提取阶段，开发过程中考虑了特征选取，为蛋白序列特征和序列保守性特征等。在蛋白序列特征中，蛋白序列的一切可计算特征在理论上均被包含在蛋白序列特征中，通过深度学习模型训练(S4)，可以将序列中的定量特征(如氨基酸疏水性等)进行映射计算得到。序列保守性特征作为对于序列特征的补充，保守性数值通过NCBI已有的Psiblast序列比对工具进行初步计算。通过Psiblast比对，即可得到蛋白序列特异性得分矩阵，通过进一步处理提取相关区段即得到保守性相关特征。将经过数据清洗的注释条目进行特征提取工作。一类特征为蛋白序列信息，以突变点位作为中心参位置，选取前后25位邻近氨基酸作为参考，得到突变相关氨基酸信息作为数据样例。将得到的滑动窗序列进行独热编码，即将序列转化为编码矩阵，并添加指示列来提示该位点是否存在相关的氨基酸信息。另一类特征为蛋白序列保守性特征，该类特征的提取依赖于NCBI Psiblast工具。输入发生突变的蛋白序列信息(fasta序列)，通过序列对比参考库(开发中使用UNIREF对比库)对比该蛋白序列的相似序列，得出该蛋白序列各点位的氨基酸特异性矩阵，其中包含着蛋白序列各氨基酸残基位点的保守性信息。通过发生突变的氨基酸点位进行定位，同样取前后25位邻近氨基酸形成滑动窗序列作为数据样例，经过标准化处理，得到突变相关氨基酸保守性特征。使用基于python环境的keras深度学习框架进行工具相关的深度学习模型开发，将每个蛋白突变注释条目经过特征提取后的相关数字化特征作为模型开发数据集，使用深度学习中的卷积神经网络(Convolutional Neural Network)作为模型基础进行开发，在NVIDIA GTX 1070 Ti GPU上进行训练运算，最终选取模型损失函数(loss)值最小的训练模型作为最优模型，用于后续验证及预测过程(S5)。

在模型建立阶段，开发中使用了深度学习中的卷积神经网络(CNN)模型。CNN模型中包含了卷积层，激活层，全连接层等。卷积层通过设置多个卷积核对原有特征进行提取和计算，激活层将线性计算非线性化，全连接层在不同神经元节点中进行线性映射运算，最终给出突变对于互作影响的分类结果。模型使用了卷积神经网络作为基础，并进行了调整以适应具体任务，从不同尺度对于输入进行特征提取识别，并且在最后给出综合判断结果，这与蛋白序列中，一定长度的残基序列能够达到一定的生物学功能作用相适应。在模型训练过程中，选取损失函数最小的模型作为最佳模型。

Mutation Impact on PPI(MIPPI)工具的主要效果为对于人类蛋白质单点突变对于该蛋白质原有蛋白相互作用的影响做出判断。目前的判断为二元分类，即突变对于原有蛋白互作有负面影响或者无影响。由于蛋白质对于人体细胞功能产生直接影响，蛋白相互作用的改变对于生物正常功能的意义重大。

MIPPI工具是基于python语言开发的一个脚本工具，其运行依赖于python语言环境以及NCBI psiblast工具。用户通过使用工具规定的输入格式，输入蛋白突变信息条目序列信息文件，即可使用工具进行相关蛋白突变对于原有蛋白互作影响的预测。在输入相关信息数据后，程序自动提取预测所需的各类特征参数，并在完成特征提取后加载模型参数，对所给数据做出预测，并输出预测结果相应文件报告。

IMEx的Mutations influencing interactions dataset中，MIPPI使用其中筛选后随机产生的90％条目用于训练及验证，另外10％作为测试集。由于IMEx数据集中的条目来自大量不同文献报道，所以具备作为有效测试集的资格。在该随机产生的独立测试集(1214个蛋白突变条目)中，MIPPI的预测准确率可达到89.37％，MCC指标达到78％，marcoF1 score达到0.89，具体预测情况如图2所示(图中0代表无影响类别，1代表负面影响类别)。

除了在测试集中达到较高准确率及相关分类指标，MIPPI还利用了已有的基因突变数据库进行预测。通过对公共数据库psymukb中的基因突变条例进行注释，获取了3600多条相关蛋白突变，利用MIPPI对其造成的蛋白互作影响进行预测，预测结果显示其中大多数蛋白突变会对原有蛋白互作产生负面影响。该数据库收集的基因突变条例为罕见新发突变，造成有害影响的概率偏高。将预测分类与已有的SIFT、CADD等突变有害得分进行对比，发现预测分类为无影响的条目中这些有害得分明显水平更低，并达到统计学显著水平(其中SIFT得分越高代表突变的有害可能性更低，其余得分分值与预测的有害程度正相关)。

以上仅为本发明较佳的实施例，并非因此限制本发明的实施方式及保护范围，对于本领域技术人员而言，应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案，均应当包含在本发明的保护范围内。

Claims

1.一种基于突变信息的蛋白相互作用影响判断方法，其特征在于，包括数据收集筛选、特征选取提取和模型建立三部分，其中：

在数据收集筛选步骤，使用预设的数据集，将该数据集根据研究需要进行筛选，选取人类的蛋白序列点突变条目并排除矛盾标注条目，获得符合条件的注释条目，这些条目中包含了三类基因点突变对于蛋白互作的影响种类，分别为破坏原有互作、减弱原有互作、对原有互作无影响；

在特征选取提取步骤，特征选取为蛋白序列特征和序列保守性特征，通过深度学习模型训练将序列中的定量特征进行映射计算得到，序列保守性特征作为对于序列特征的补充，保守性数值通过NCBIPsiblast序列比对工具进行初步计算，得到蛋白序列特异性得分矩阵，进一步处理提取相关区段得到保守性相关特征；

在模型建立步骤，使用深度学习中的卷积神经网络模型，卷积神经网络模型包含卷积层、激活层和全连接层，卷积层通过设置多个卷积核对原有特征进行提取和计算，激活层将线性计算非线性化，全连接层在不同神经元节点中进行线性映射运算，最终给出突变对于互作影响的分类结果；卷积神经网络模型使用卷积神经网络作为基础，并进行调整以适应具体任务，从不同尺度对于输入进行特征提取识别，在最后给出综合判断结果。

2.如权利要求1所述基于蛋白序列信息的蛋白相互作用影响判断方法，其特征在于，在特征选取提取步骤，将经过数据清洗的注释条目进行特征提取工作，具体步骤如下：

(1)蛋白序列特征，以突变发生位置作为中心参考位点，选取前几十个以及后几十个位氨基酸残基作为参考，得到突变相关氨基酸滑动窗序列作为数据样例，将得到的滑动窗序列进行独特编码，将序列按照分布转化为数字矩阵，并添加特定指示列提示该位点是否存在氨基酸信息；

(2)蛋白序列保守性特征，该类特征的提取依赖于NCBI Psiblast工具，输入发生突变的蛋白序列信息，在对比库中存在多物种参考蛋白序列集，通过序列对比参考库对比该蛋白序列的相似序列，得出该蛋白序列各点位的氨基酸特异性打分矩阵，其中包含蛋白序列各氨基酸残基位点的保守性信息，通过发生突变的氨基酸点位进行定位，取前几十位以及后几十位氨基酸作为参考，形成数据样例，并经过一系列标准化处理，得到突变相关氨基酸保守性特征。

3.如权利要求1或2所述基于突变信息的蛋白相互作用影响判断方法，其特征在于，在模型建立步骤，针对模型正负样本数量比例严重不平衡从而导致分类效果较差的问题，引入类别差异损失权重对该问题进行平衡，即对样本数量少的类别误判惩罚高于样本数量多的类别。在模型训练过程中选取模型损失函数值最小的训练模型作为最优模型。