CN108846255A

CN108846255A - 一种分析木聚糖酶热稳定性影响因素的方法

Info

Publication number: CN108846255A
Application number: CN201810629705.8A
Authority: CN
Inventors: 丁彦蕊; 陶斯涵
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2018-06-19
Filing date: 2018-06-19
Publication date: 2018-11-20

Abstract

本发明属于计算机应用技术领域，尤其涉及一种分析木聚糖酶热稳定性影响因素的方法，本发明利用引入蛋白质序列信息(残基匹配度)的残基相互作用网络比对算法，发现了两木聚糖酶结构上的保守和差异区域，分析影响两者结构稳定性和耐热性的因素，从而研究木聚糖酶的耐热机理，该方法为从网络的角度研究木聚糖酶的蛋白质结构与热稳定性的关系提供了一个新的途径。

Description

一种分析木聚糖酶热稳定性影响因素的方法

技术领域

本发明属于计算机应用技术领域，尤其涉及一种分析木聚糖酶热稳定性影响因素的方法。

背景技术

从人们发现耐热的木聚糖酶能够大大降低纸浆漂白过程中氯化物的使用量、增加漂白效果以来，就不断进行着阐明木聚糖酶耐热的分子机制的研究。多年来，人们通过序列比对、结构分析、定点突变、分子动力学模拟等方法研究了木聚糖酶序列、结构因素与热稳定性的关系。木聚糖酶是由氨基酸通过静电作用、疏水作用等构成的复杂系统，所有影响热稳定性的序列和结构因素都包含在这个系统中，它们之间相互影响、共同维系着酶结构的稳定。因此，将木聚糖酶看作一个由氨基酸及它们的相互作用共同构成的系统，利用复杂网络理论研究各因素之间的协同、制约关系，从系统水平上分析木聚糖酶的耐热机制是十分必要的。

目前，已有许多研究使用不同的方法探究木聚糖酶的耐热机制，例如：Ding YR(《Conformational dynamics of xylanase a from Streptomyces lividans:Implications for TIM-barrel enzyme thermostability》,Biopolymers,2013,99(9):594-604)等人采用MD模拟的方法分析模拟温度升高情况下木聚糖酶的全局结构稳定性、动力特征和盐桥的变化，并利用构象动力学特征确定木聚糖酶的热敏区域。Bai WQ(《Three-dimensional structure of an alkaline xylanase Xyn11A-LC from alkalophilicBacillus sp.SN5 and improvement of its thermal performance by introducingarginines substitutions》，Biotechnol Lett,2014,36(7):1495-1501)等人通过在蛋白质表面的不同侧引入精氨酸，构成三个盐桥结构，并表明此举能够提升木聚糖酶在高温下的活性。Zhang S(《Five mutations in N-terminus confer thermostability onmesophilic xylanase》，Biochem Biophys Res Commun,2010,395(2):200-206)等人通过热失活和DSC实验，证实N-端的重要残基及其周围的协同作用对木聚糖酶耐热性的影响，并提供了取代较少的关键残基以提高木聚糖酶热稳定性的方法。Xue H(《Amino acidsubstitutions in the N-terminus,cord and alpha-helix domains improved thethermostability of a family 11 xylanase XynR8》，J Ind Microbiol Biotechnol,2012,39(9):1279-1288)等人通过分析xynR8核心区域、酶活性分析三维结构建模和蛋白质设计等方法，发现紧密堆积密度和盐桥结构能够改善木聚糖酶的热稳定性。同时，N-端和α-螺旋结构域的稳定性对木聚糖酶的热稳定性具有至关重要的作用。

残基相互作用网络比对能够通过比较两个或多个相互作用网络，发现不同网络在拓扑和功能上相似和差异的区域，已经在研究生物分子的结构和功能，分析生物的进化和演变等领域有了重要应用。目前文献及专利中未见将残基相互作用网络比对方法用于研究影响木聚糖酶耐热性的因素。

发明内容

为解决上述技术问题，本发明的目的是提供一种分析木聚糖酶热稳定性影响因素的方法，利用引入蛋白质序列信息(残基匹配度)的残基相互作用网络比对算法，发现了两种木聚糖酶结构上的保守和差异区域，进而分析木聚糖酶的耐热机理。

本发明提出的一种分析木聚糖酶热稳定性影响因素的方法，将两种木聚糖酶编码为两个残基相互作用网络，使用残基相互作用网络比对算法进行网络比对，采用下列步骤：

(1)木聚糖酶残基相互作用网络构建

根据RCSB PDB数据库描述的氨基酸残基的Cα的位置，计算任意氨基酸残基X与氨基酸残基Y(X≠Y)之间的距离，当残基X与残基Y之间的距离小于时，认为残基X与Y之间存在相互作用，以氨基酸残基作为网络的节点，以氨基酸残基间的相互作用作为网络的边，构建残基相互作用网络，并将残基相互作用网络建模为无加权图，设木聚糖酶1和木聚糖酶2的残基相互作用网络分别为G₁和G₂，G₁＝(V₁，E₁)，G₂＝(V₂，E₂)，V₁和V₂表示节点的集合，E₁和E₂表示边的集合；

(2)网络比对的算法框架

残基相互作用网络比对算法基于遗传算法的框架，通过适应度函数和交叉函数评价并优化比对，迭代以获得最优比对，残基相互作用网络比对算法的步骤和参数设置如下：

步骤1：输入木聚糖酶1和木聚糖酶2的残基相互作用网络G₁和G₂及相关参数：代数N、精英率e、种群规模p；

步骤2：随机生成种群数量p的比对，作为初始种群P₀；

步骤3：以初始种群P₀作为父代种群P，即令P＝P₀；

步骤4：设置代数计数n＝1，并开始循环；

步骤5：通过适应度函数F，计算父代种群P中成员的适应度，并进行排序；

步骤6：判断并保留适应度高的父代种群成员，保留比例为精英率e，即P₁’＝P·e；

步骤7：通过Roulette选择算法和交叉函数产生适应度较高的比对成员，补足剩余的部分，即P₂’＝P·(1-e)；

步骤8：将步骤5和6产生的比对成员共同组成子代成员，即P’＝P₁’+P₂’；

步骤9：将子代种群作为新的父代种群，即令P＝P’；

步骤10：当n达到代数N时，终止循环；

步骤11：输出网络比对结果，即输出网络G₁的节点V₁与网络G₂的节点V₂的对应关系，使得节点集V₁中每一个节点到V₂中的节点都存在一对一的映射。

进一步的，交叉函数定义为：两父代比对成员通过交叉函数交叉产生子代中新的比对成员。设V₁＝{x₁，…，x_m},V₂＝{y₁，…，y_n}，[n]为1到n的自然数集合，如果m＝n，则给定节点标号，可以用节点标号对应节点标号的形式来表示任意比对f(即一个对应的排列σ)，令S_n为所有排列σ的集合。如果m≠n，则需要添加虚设的，度为0的节点z_i到V₁中，使m＝n，则有：

我们定义一个排列σ的一次换位(表示为ν)将得到一个新的排列，其中它固定原始排列的每个元素，除了两个元素之间的交换。如果排列σ通过一次换位与排列τ相同，则排列σ和τ是邻接的，表示为：建立图Γ_n，它具有节点集S_n和边集E_n，其中当且仅当排列σ和τ邻接时，E_n表示排列σ和τ之间的边的集合。定义排列σ和τ交叉，表示为：是图Γ_n中从σ到τ最短路径的近中点，也是一个排列。

设σ，τ∈S_n，ν＝στ^-1，使用Knuth规范周期分解使ν＝c₁…c_k。对于每一个i，通过一个随机索引周期性移动ν＝(c₁…c_k)，以获得一个周期(y₁…y_h)。我们通过刨去移动周期的后半部分获得新的周期最终，排列σ和τ的交叉定义为

通过交叉函数交叉产生的子比对被定义为两个父比对之间的中间比对，子比对预计将继承其每个父比对的大约二分之一。

进一步的，适应度函数F作为网络比对的优化条件在算法中起到至关重要的作用，考虑残基相互作用网络的特点，这里将适应度函数F定义为：

F＝α×TopoScore(f)+(1-α)×SeqScore(f)，α∈[0，1]，

其中TopoScore(f)表示拓扑信息，SeqScore(f)表示序列信息，权重α用来调整拓扑信息和序列信息对比对的影响作用。使用对称子结构得分(S³)作为拓扑信息TopoScore(f)，使用残基匹配度矩阵作为序列信息SeqScore(f)。

拓扑信息TopoScore(f)使用对称子结构得分(S³)。由网络G₁(V₁,E₁)和G₂(V₂,E₂)的比对f：v₁→v₂，设G₂[Y]为点集为Y的G₂的子网，f(V₁)＝{f(v)∈V₂：v∈V₁}，f(E₁)＝{(f(u)，f(v))∈E₂：(u，v)∈E₁}。并将保守边定义为由通过f比对的两个网络的两条边组成，即当G₁中的节点u，v通过f分别比对上G₂中的节点u’，v’时，那么边(u，v)和边(u’，v’)构成一条保守边。对称子结构得分(S³)表示保守边的数量占网络G₁和G₂[f(V₁)]叠加的复合图边的数量的比例，它既惩罚了比对从密集区域映射到稀疏区域，又惩罚了从稀疏区域映射到密集区域，表示为：

序列信息SeqScore(f)使用基于BLOSUM矩阵^[35]的残基匹配度矩阵进行评价。本文基于BLOSUM矩阵是因为该矩阵基于蛋白质进化的星状模型(即忽略物种近端和远端的关系)和区块中的保守位置与置换关系进行计分，这对于发现同源蛋白质中的保守区域有非常重要的作用。由于蛋白质的功能是由序列和特定的空间结构等因素共同决定，在残基相互作用网络比对中，只利用网络的拓扑信息无法获得在网络拓扑和一级结构方面更准确更合理的比对结果。因此，本文引入蛋白质的序列信息，并定义残基匹配度矩阵，加入到网络比对的适应度函数中。

残基匹配度矩阵是通过统计蛋白质序列的替换率而得到的氨基酸矩阵，由蛋白质序列块比对推导得出。其大致步骤如下：

首先消除相似度小于指定阈值的序列，计算数据中每个氨基酸组合发生的可能性和该组合预期发生的可能性比率Log-odds，表示为：

其中，P(O)表示观察的可能性，P(E)表示预期的可能性。

然后基于此计算残基匹配度矩阵，表示为：

其中，P_ij是氨基酸i与j在同源序列中相互替换的概率，q_i和q_j是氨基酸出现在任意蛋白质序列中的概率。λ是一个尺度参数，使每个得分更易取整。由于蛋白质结构的复杂性，氨基酸的替换矩阵很难将所有影响到替换频率的因子都考虑周全，该矩阵将具有较低可能配对在同源序列上的残基给出相对重的罚分。

将残基匹配度矩阵作为序列信息时，进一步计算网络G₁中的任意节点v_i与网络G₂中任意节点v_j相匹配时的替换率，并作为匹配度并用矩阵存储。同时为保证适应度函数的合理性，其数量级需要与拓扑信息一致。因此，我们使用min-max方法对残基匹配度矩阵进行标准化，具体表示为：

其中x表示某两个氨基酸残基的匹配度，x*表示标准化后某两个氨基酸残基的匹配度，max表示矩阵中的最大值，min表示矩阵中的最小值。此时，序列信息与拓扑信息处于同一数量级，适合进行综合比对评价。

进一步的，网络比对的比对质量评价标准采用边正确性(EC)，它通过计算比对结果中保守边在较小网络G₁中边的数量的占比来评价网络比对的拓扑质量，可表示为：

进一步的，拓扑信息-序列信息权重α值是影响比对结果的重要因子，它的取值范围是[0,1]，设定代数N为2000，α取值步长为0.1，进行10组重复实验。

进一步的，权重α＝0.7时，边正确性EC值稳定在较高值，在网络拓扑方面获得较好的比对结果。

借由上述方案，本发明至少具有以下优点：本发明通过残基相互作用网络比对，能够证实和发现影响蛋白质结构稳定性和木聚糖酶耐热性的因素。可以使用这些提示，通过定点诱变或蛋白质工程等方法改造木聚糖酶，从而有效的提高木聚糖酶的热稳定性。

附图说明

图1具体实施例方式中拓扑信息-序列信息权重α对木聚糖酶残基相互作用网络比对结果的影响。

图2具体实施例方式中拓扑信息-序列信息权重α取值为0.7时，木聚糖酶残基相互作用网络比对结果。

图3具体实施例方式中，耐热型木聚糖酶的蛋白质结构及标号图。

图4具体实施例方式中，常温型木聚糖酶的蛋白质结构及标号图。

具体实施方式

下面将结合实施例对本发明的实施方案进行详细描述，但是本领域技术人员将会理解，下列实施例仅用于说明本发明，而不应视为限定本发明的范围。

本文选取了来自嗜热子囊菌(Thermoascus aurantiacus)的耐热型木聚糖酶和来自变铅青链霉菌(Streptomyces lividans)的常温型木聚糖酶作为研究对象。从RCSB PDB数据库(http://www.rcsb.org/pdb/home/home.do)中下载2种木聚糖酶的三维结构信息和序列信息，耐热型木聚糖酶的PDB号为：1TUX，常温型木聚糖酶PDB号为：1E0W，计算残基-残基的相互作用，以此来构建残基相互作用网络，然后进行网络比对。

具体步骤为：

(1)木聚糖酶残基相互作用网络构建

(2)网络比对的算法框架

残基相互作用网络比对算法基于遗传算法的框架，通过适应度函数和交叉函数评价并优化比对，迭代以获得最优比对。残基相互作用网络比对算法的步骤和参数设置如下：

步骤2：随机生成种群数量p的比对，作为初始种群P₀；

步骤3：以初始种群P₀作为父代种群P，即令P＝P₀；

步骤4：设置代数计数n＝1，并开始循环；

步骤9：将子代种群作为新的父代种群，即令P＝P’；

步骤10：当n达到代数N时，终止循环；

(3)适应度函数F

适应度函数F作为网络比对的优化条件在算法中起到至关重要的作用，考虑残基相互作用网络的特点，这里将适应度函数F定义为：

F＝α×TopoScore(f)+(1-α)×SeqScore(f)，α∈[0，1]

其中，P(O)表示观察的可能性，P(E)表示预期的可能性。

然后基于此计算残基匹配度矩阵，表示为：

(4)交叉函数定义为：两父代比对成员通过交叉函数交叉产生子代中新的比对成员。设V₁＝{x₁，…，x_m},V₂＝{y₁，…，y_n}，[n]为1到n的自然数集合，如果m＝n，则给定节点标号，可以用节点标号对应节点标号的形式来表示任意比对f(即一个对应的排列σ)，令S_n为所有排列σ的集合。如果m≠n，则需要添加虚设的，度为0的节点z_i到V₁中，使m＝n，则有：

(5)网络比对的比对质量评价标准采用边正确性(EC)，它通过计算比对结果中保守边在较小网络G₁中边的数量的占比来评价网络比对的拓扑质量，可表示为：

其中，拓扑信息-序列信息权重α值是影响比对结果的重要因子，它的取值范围是[0,1]。在本实施例中，设定代数N为2000，α取值步长为0.1，进行10组重复实验。实验结果如附图说明中图1所示。

当权重α＝0.7时，边正确性EC值稳定在较高值，在网络拓扑方面获得较好的比对结果。因此，取权重α＝0.7，其他实验参数设置不变，进行20次重复比对实验，以保证网络比对结果的稳定性。实验结果如附图说明中图2所示。

选取上述20次重复比对实验中的边正确性EC最高(EC＝76.7％)的第15次比对，从两者结构和影响耐热性的因素两方面对比对结果进行分析。

本方法使用引入序列信息的残基相互作用网络比对算法对来自嗜热子囊菌的耐热型木聚糖酶和来自变铅青链霉菌的常温型木聚糖酶进行网络比对，以探究影响两者结构稳定性和耐热性的因素。参见图3和图4，通过网络比对结果分析：证实了(βα)₈-桶结构的低序列保守性及β-折叠对结构稳定性的作用；发现了1E0W的loop₁区域中独有一个3₁₀-螺旋结构影响了结构稳定性；1TUX中的α₁’短螺旋结构和相对较短的β₄α₄-loop区域有助于提升其结构稳定性和酶的热稳定性；推测1TUX的β₄α₄-loop区域中独有的氢键转折结构和1E0W的loop₆区域中独有的2个β-桥结构可能引起空间结构的细微差异，从而影响酶的热稳定性。

综上所述，通过残基相互作用网络比对，能够从二级结构稳定性和loop区域的角度上证实和发现影响蛋白质结构稳定性和木聚糖酶耐热性的因素。因此，可以使用这些提示，通过定点诱变或蛋白质工程等方法改造木聚糖酶，从而有效的提高木聚糖酶的热稳定性。

虽然本发明已以较佳实施例公开如上，但其并非用以限定本发明，任何熟悉此技术的人，在不脱离本发明的精神和范围内，都可做各种的改动与修饰，因此本发明的保护范围应该以权利要求书所界定的为准。

Claims

1.一种分析木聚糖酶热稳定性影响因素的方法，其特征在于：将来自嗜热子囊菌(Thermoascus aurantiacus)的耐热型木聚糖酶和来自变铅青链霉菌(Streptomyceslividans)的常温型木聚糖酶编码为两个残基相互作用网络，使用残基相互作用网络比对算法进行网络比对，采用下列步骤：

步骤1：木聚糖酶残基相互作用网络构建：

根据RCSBPDB数据库描述的氨基酸残基的Cα的位置，计算任意氨基酸残基X与氨基酸残基Y(X≠Y)之间的距离，当残基X与残基Y之间的距离小于时，认为残基X与Y之间存在相互作用，以氨基酸残基作为网络的节点，以氨基酸残基间的相互作用作为网络的边，构建残基相互作用网络，并将残基相互作用网络建模为无加权图，设耐热型木聚糖酶和常温型木聚糖酶的残基相互作用网络分别为G₁和G₂，G₁＝(V₁，E₁)，G₂＝(V₂，E₂)，V₁和V₂表示节点的集合，E₁和E₂表示边的集合；

步骤2：网络比对的算法框架：

残基相互作用网络比对算法基于遗传算法的框架，通过适应度函数和交叉函数评价并优化比对，迭代以获得最优比对；

所述适应度函数F定义为：

F＝α×TopoScore(f)+(1-α)×SeqScore(f)，α∈[0，1]，

其中TopoScore(f)表示拓扑信息，SeqScore(f)表示序列信息，权重α用来调整拓扑信息和序列信息对比对的影响作用，使用对称子结构得分(S³)作为拓扑信息TopoScore(f)，使用残基匹配度矩阵作为序列信息SeqScore(f)，权重α＝0.7。

2.根据权利要求1所述的方法，其特征在于：拓扑信息TopoScore(f)使用对称子结构得分(S³)，由网络G₁(V₁,E₁)和G₂(V₂,E₂)的比对f：v₁→v₂，设G₂[Y]为点集为Y的G₂的子网，f(V₁)＝{f(v)∈V₂：v∈V₁}，f(E₁)＝{(f(u)，f(v))∈E₂：(u，v)∈E₁}，并将保守边定义为由通过f比对的两个网络的两条边组成，即当G₁中的节点u，v通过f分别比对上G₂中的节点u’，v’时，那么边(u，v)和边(u’，v’)构成一条保守边；

对称子结构得分(S³)表示保守边的数量占网络G₁和G₂[f(V₁)]叠加的复合图边的数量的比例，它既惩罚了比对从密集区域映射到稀疏区域，又惩罚了从稀疏区域映射到密集区域，表示为：

序列信息SeqScore(f)使用基于BLOSUM矩阵的残基匹配度矩阵进行评价，步骤如下：

其中，P(O)表示观察的可能性，P(E)表示预期的可能性，

然后基于此计算残基匹配度矩阵，表示为：

其中，P_ij是氨基酸i与j在同源序列中相互替换的概率，q_i和q_j是氨基酸出现在任意蛋白质序列中的概率，λ是一个尺度参数，使每个得分更易取整，由于蛋白质结构的复杂性，氨基酸的替换矩阵很难将所有影响到替换频率的因子都考虑周全，该矩阵将具有较低可能配对在同源序列上的残基给出相对重的罚分；

将残基匹配度矩阵作为序列信息时，进一步计算网络G₁中的任意节点v_i与网络G₂中任意节点v_j相匹配时的替换率，并作为匹配度并用矩阵存储，同时为保证适应度函数的合理性，其数量级需要与拓扑信息一致，因此，我们使用min-max方法对残基匹配度矩阵进行标准化，具体表示为：

其中x表示某两个氨基酸残基的匹配度，x*表示标准化后某两个氨基酸残基的匹配度，max表示矩阵中的最大值，min表示矩阵中的最小值，此时，序列信息与拓扑信息处于同一数量级，适合进行综合比对评价。

3.根据权利要求1所述的方法，其特征在于：交叉函数定义为：两父代比对成员通过交叉函数交叉产生子代中新的比对成员，设V₁＝{x₁，…，x_m}，V₂＝{y₁，…，y_n}，[n]为1到n的自然数集合，如果m＝n，则给定节点标号，可以用节点标号对应节点标号的形式来表示任意比对f(即一个对应的排列σ)，令S_n为所有排列σ的集合，如果m≠n，则需要添加虚设的，度为0的节点z_i到V₁中，使m＝n，则有：

我们定义一个排列σ的一次换位，表示为ν，将得到一个新的排列，其中它固定原始排列的每个元素，除了两个元素之间的交换，如果排列σ通过一次换位与排列τ相同，则排列σ和τ是邻接的，表示为：σ＝v°τ，建立图Γ_n，它具有节点集S_n和边集E_n，其中当且仅当排列σ和τ邻接时，E_n表示排列σ和τ之间的边的集合，定义排列σ和τ交叉，表示为：是图Γ_n中从σ到τ最短路径的近中点，也是一个排列；

设σ，τ∈S_n，ν＝στ^-1，使用Knuth规范周期分解使ν＝c₁…c_k，对于每一个i，通过一个随机索引周期性移动ν＝(c₁…c_k)，以获得一个周期(y₁…y_h)，我们通过刨去移动周期的后半部分获得新的周期最终，排列σ和τ的交叉定义为

4.根据权利要求1所述的方法，其特征在于：残基相互作用网络比对算法的步骤和参数设置如下：

步骤2：随机生成种群数量p的比对，作为初始种群P₀；

步骤3：以初始种群P₀作为父代种群P，即令P＝P₀；

步骤4：设置代数计数n＝1，并开始循环；

步骤9：将子代种群作为新的父代种群，即令P＝P’；

步骤10：当n达到代数N时，终止循环；