CN108846255A - 一种分析木聚糖酶热稳定性影响因素的方法 - Google Patents
一种分析木聚糖酶热稳定性影响因素的方法 Download PDFInfo
- Publication number
- CN108846255A CN108846255A CN201810629705.8A CN201810629705A CN108846255A CN 108846255 A CN108846255 A CN 108846255A CN 201810629705 A CN201810629705 A CN 201810629705A CN 108846255 A CN108846255 A CN 108846255A
- Authority
- CN
- China
- Prior art keywords
- residue
- network
- comparison
- node
- zytase
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于计算机应用技术领域,尤其涉及一种分析木聚糖酶热稳定性影响因素的方法,本发明利用引入蛋白质序列信息(残基匹配度)的残基相互作用网络比对算法,发现了两木聚糖酶结构上的保守和差异区域,分析影响两者结构稳定性和耐热性的因素,从而研究木聚糖酶的耐热机理,该方法为从网络的角度研究木聚糖酶的蛋白质结构与热稳定性的关系提供了一个新的途径。
Description
技术领域
本发明属于计算机应用技术领域,尤其涉及一种分析木聚糖酶热稳定性影响因素的方法。
背景技术
从人们发现耐热的木聚糖酶能够大大降低纸浆漂白过程中氯化物的使用量、增加漂白效果以来,就不断进行着阐明木聚糖酶耐热的分子机制的研究。多年来,人们通过序列比对、结构分析、定点突变、分子动力学模拟等方法研究了木聚糖酶序列、结构因素与热稳定性的关系。木聚糖酶是由氨基酸通过静电作用、疏水作用等构成的复杂系统,所有影响热稳定性的序列和结构因素都包含在这个系统中,它们之间相互影响、共同维系着酶结构的稳定。因此,将木聚糖酶看作一个由氨基酸及它们的相互作用共同构成的系统,利用复杂网络理论研究各因素之间的协同、制约关系,从系统水平上分析木聚糖酶的耐热机制是十分必要的。
目前,已有许多研究使用不同的方法探究木聚糖酶的耐热机制,例如:Ding YR(《Conformational dynamics of xylanase a from Streptomyces lividans:Implications for TIM-barrel enzyme thermostability》,Biopolymers,2013,99(9):594-604)等人采用MD模拟的方法分析模拟温度升高情况下木聚糖酶的全局结构稳定性、动力特征和盐桥的变化,并利用构象动力学特征确定木聚糖酶的热敏区域。Bai WQ(《Three-dimensional structure of an alkaline xylanase Xyn11A-LC from alkalophilicBacillus sp.SN5 and improvement of its thermal performance by introducingarginines substitutions》,Biotechnol Lett,2014,36(7):1495-1501)等人通过在蛋白质表面的不同侧引入精氨酸,构成三个盐桥结构,并表明此举能够提升木聚糖酶在高温下的活性。Zhang S(《Five mutations in N-terminus confer thermostability onmesophilic xylanase》,Biochem Biophys Res Commun,2010,395(2):200-206)等人通过热失活和DSC实验,证实N-端的重要残基及其周围的协同作用对木聚糖酶耐热性的影响,并提供了取代较少的关键残基以提高木聚糖酶热稳定性的方法。Xue H(《Amino acidsubstitutions in the N-terminus,cord and alpha-helix domains improved thethermostability of a family 11 xylanase XynR8》,J Ind Microbiol Biotechnol,2012,39(9):1279-1288)等人通过分析xynR8核心区域、酶活性分析三维结构建模和蛋白质设计等方法,发现紧密堆积密度和盐桥结构能够改善木聚糖酶的热稳定性。同时,N-端和α-螺旋结构域的稳定性对木聚糖酶的热稳定性具有至关重要的作用。
残基相互作用网络比对能够通过比较两个或多个相互作用网络,发现不同网络在拓扑和功能上相似和差异的区域,已经在研究生物分子的结构和功能,分析生物的进化和演变等领域有了重要应用。目前文献及专利中未见将残基相互作用网络比对方法用于研究影响木聚糖酶耐热性的因素。
发明内容
为解决上述技术问题,本发明的目的是提供一种分析木聚糖酶热稳定性影响因素的方法,利用引入蛋白质序列信息(残基匹配度)的残基相互作用网络比对算法,发现了两种木聚糖酶结构上的保守和差异区域,进而分析木聚糖酶的耐热机理。
本发明提出的一种分析木聚糖酶热稳定性影响因素的方法,将两种木聚糖酶编码为两个残基相互作用网络,使用残基相互作用网络比对算法进行网络比对,采用下列步骤:
(1)木聚糖酶残基相互作用网络构建
根据RCSB PDB数据库描述的氨基酸残基的Cα的位置,计算任意氨基酸残基X与氨基酸残基Y(X≠Y)之间的距离,当残基X与残基Y之间的距离小于时,认为残基X与Y之间存在相互作用,以氨基酸残基作为网络的节点,以氨基酸残基间的相互作用作为网络的边,构建残基相互作用网络,并将残基相互作用网络建模为无加权图,设木聚糖酶1和木聚糖酶2的残基相互作用网络分别为G1和G2,G1=(V1,E1),G2=(V2,E2),V1和V2表示节点的集合,E1和E2表示边的集合;
(2)网络比对的算法框架
残基相互作用网络比对算法基于遗传算法的框架,通过适应度函数和交叉函数评价并优化比对,迭代以获得最优比对,残基相互作用网络比对算法的步骤和参数设置如下:
步骤1:输入木聚糖酶1和木聚糖酶2的残基相互作用网络G1和G2及相关参数:代数N、精英率e、种群规模p;
步骤2:随机生成种群数量p的比对,作为初始种群P0;
步骤3:以初始种群P0作为父代种群P,即令P=P0;
步骤4:设置代数计数n=1,并开始循环;
步骤5:通过适应度函数F,计算父代种群P中成员的适应度,并进行排序;
步骤6:判断并保留适应度高的父代种群成员,保留比例为精英率e,即P1’=P·e;
步骤7:通过Roulette选择算法和交叉函数产生适应度较高的比对成员,补足剩余的部分,即P2’=P·(1-e);
步骤8:将步骤5和6产生的比对成员共同组成子代成员,即P’=P1’+P2’;
步骤9:将子代种群作为新的父代种群,即令P=P’;
步骤10:当n达到代数N时,终止循环;
步骤11:输出网络比对结果,即输出网络G1的节点V1与网络G2的节点V2的对应关系,使得节点集V1中每一个节点到V2中的节点都存在一对一的映射。
进一步的,交叉函数定义为:两父代比对成员通过交叉函数交叉产生子代中新的比对成员。设V1={x1,…,xm},V2={y1,…,yn},[n]为1到n的自然数集合,如果m=n,则给定节点标号,可以用节点标号对应节点标号的形式来表示任意比对f(即一个对应的排列σ),令Sn为所有排列σ的集合。如果m≠n,则需要添加虚设的,度为0的节点zi到V1中,使m=n,则有:
我们定义一个排列σ的一次换位(表示为ν)将得到一个新的排列,其中它固定原始排列的每个元素,除了两个元素之间的交换。如果排列σ通过一次换位与排列τ相同,则排列σ和τ是邻接的,表示为:建立图Γn,它具有节点集Sn和边集En,其中当且仅当排列σ和τ邻接时,En表示排列σ和τ之间的边的集合。定义排列σ和τ交叉,表示为:是图Γn中从σ到τ最短路径的近中点,也是一个排列。
设σ,τ∈Sn,ν=στ-1,使用Knuth规范周期分解使ν=c1…ck。对于每一个i,通过一个随机索引周期性移动ν=(c1…ck),以获得一个周期(y1…yh)。我们通过刨去移动周期的后半部分获得新的周期最终,排列σ和τ的交叉定义为
通过交叉函数交叉产生的子比对被定义为两个父比对之间的中间比对,子比对预计将继承其每个父比对的大约二分之一。
进一步的,适应度函数F作为网络比对的优化条件在算法中起到至关重要的作用,考虑残基相互作用网络的特点,这里将适应度函数F定义为:
F=α×TopoScore(f)+(1-α)×SeqScore(f),α∈[0,1],
其中TopoScore(f)表示拓扑信息,SeqScore(f)表示序列信息,权重α用来调整拓扑信息和序列信息对比对的影响作用。使用对称子结构得分(S3)作为拓扑信息TopoScore(f),使用残基匹配度矩阵作为序列信息SeqScore(f)。
拓扑信息TopoScore(f)使用对称子结构得分(S3)。由网络G1(V1,E1)和G2(V2,E2)的比对f:v1→v2,设G2[Y]为点集为Y的G2的子网,f(V1)={f(v)∈V2:v∈V1},f(E1)={(f(u),f(v))∈E2:(u,v)∈E1}。并将保守边定义为由通过f比对的两个网络的两条边组成,即当G1中的节点u,v通过f分别比对上G2中的节点u’,v’时,那么边(u,v)和边(u’,v’)构成一条保守边。对称子结构得分(S3)表示保守边的数量占网络G1和G2[f(V1)]叠加的复合图边的数量的比例,它既惩罚了比对从密集区域映射到稀疏区域,又惩罚了从稀疏区域映射到密集区域,表示为:
序列信息SeqScore(f)使用基于BLOSUM矩阵[35]的残基匹配度矩阵进行评价。本文基于BLOSUM矩阵是因为该矩阵基于蛋白质进化的星状模型(即忽略物种近端和远端的关系)和区块中的保守位置与置换关系进行计分,这对于发现同源蛋白质中的保守区域有非常重要的作用。由于蛋白质的功能是由序列和特定的空间结构等因素共同决定,在残基相互作用网络比对中,只利用网络的拓扑信息无法获得在网络拓扑和一级结构方面更准确更合理的比对结果。因此,本文引入蛋白质的序列信息,并定义残基匹配度矩阵,加入到网络比对的适应度函数中。
残基匹配度矩阵是通过统计蛋白质序列的替换率而得到的氨基酸矩阵,由蛋白质序列块比对推导得出。其大致步骤如下:
首先消除相似度小于指定阈值的序列,计算数据中每个氨基酸组合发生的可能性和该组合预期发生的可能性比率Log-odds,表示为:
其中,P(O)表示观察的可能性,P(E)表示预期的可能性。
然后基于此计算残基匹配度矩阵,表示为:
其中,Pij是氨基酸i与j在同源序列中相互替换的概率,qi和qj是氨基酸出现在任意蛋白质序列中的概率。λ是一个尺度参数,使每个得分更易取整。由于蛋白质结构的复杂性,氨基酸的替换矩阵很难将所有影响到替换频率的因子都考虑周全,该矩阵将具有较低可能配对在同源序列上的残基给出相对重的罚分。
将残基匹配度矩阵作为序列信息时,进一步计算网络G1中的任意节点vi与网络G2中任意节点vj相匹配时的替换率,并作为匹配度并用矩阵存储。同时为保证适应度函数的合理性,其数量级需要与拓扑信息一致。因此,我们使用min-max方法对残基匹配度矩阵进行标准化,具体表示为:
其中x表示某两个氨基酸残基的匹配度,x*表示标准化后某两个氨基酸残基的匹配度,max表示矩阵中的最大值,min表示矩阵中的最小值。此时,序列信息与拓扑信息处于同一数量级,适合进行综合比对评价。
进一步的,网络比对的比对质量评价标准采用边正确性(EC),它通过计算比对结果中保守边在较小网络G1中边的数量的占比来评价网络比对的拓扑质量,可表示为:
进一步的,拓扑信息-序列信息权重α值是影响比对结果的重要因子,它的取值范围是[0,1],设定代数N为2000,α取值步长为0.1,进行10组重复实验。
进一步的,权重α=0.7时,边正确性EC值稳定在较高值,在网络拓扑方面获得较好的比对结果。
借由上述方案,本发明至少具有以下优点:本发明通过残基相互作用网络比对,能够证实和发现影响蛋白质结构稳定性和木聚糖酶耐热性的因素。可以使用这些提示,通过定点诱变或蛋白质工程等方法改造木聚糖酶,从而有效的提高木聚糖酶的热稳定性。
附图说明
图1具体实施例方式中拓扑信息-序列信息权重α对木聚糖酶残基相互作用网络比对结果的影响。
图2具体实施例方式中拓扑信息-序列信息权重α取值为0.7时,木聚糖酶残基相互作用网络比对结果。
图3具体实施例方式中,耐热型木聚糖酶的蛋白质结构及标号图。
图4具体实施例方式中,常温型木聚糖酶的蛋白质结构及标号图。
具体实施方式
下面将结合实施例对本发明的实施方案进行详细描述,但是本领域技术人员将会理解,下列实施例仅用于说明本发明,而不应视为限定本发明的范围。
本文选取了来自嗜热子囊菌(Thermoascus aurantiacus)的耐热型木聚糖酶和来自变铅青链霉菌(Streptomyces lividans)的常温型木聚糖酶作为研究对象。从RCSB PDB数据库(http://www.rcsb.org/pdb/home/home.do)中下载2种木聚糖酶的三维结构信息和序列信息,耐热型木聚糖酶的PDB号为:1TUX,常温型木聚糖酶PDB号为:1E0W,计算残基-残基的相互作用,以此来构建残基相互作用网络,然后进行网络比对。
具体步骤为:
(1)木聚糖酶残基相互作用网络构建
根据RCSB PDB数据库描述的氨基酸残基的Cα的位置,计算任意氨基酸残基X与氨基酸残基Y(X≠Y)之间的距离,当残基X与残基Y之间的距离小于时,认为残基X与Y之间存在相互作用,以氨基酸残基作为网络的节点,以氨基酸残基间的相互作用作为网络的边,构建残基相互作用网络,并将残基相互作用网络建模为无加权图,设木聚糖酶1和木聚糖酶2的残基相互作用网络分别为G1和G2,G1=(V1,E1),G2=(V2,E2),V1和V2表示节点的集合,E1和E2表示边的集合;
(2)网络比对的算法框架
残基相互作用网络比对算法基于遗传算法的框架,通过适应度函数和交叉函数评价并优化比对,迭代以获得最优比对。残基相互作用网络比对算法的步骤和参数设置如下:
步骤1:输入木聚糖酶1和木聚糖酶2的残基相互作用网络G1和G2及相关参数:代数N、精英率e、种群规模p;
步骤2:随机生成种群数量p的比对,作为初始种群P0;
步骤3:以初始种群P0作为父代种群P,即令P=P0;
步骤4:设置代数计数n=1,并开始循环;
步骤5:通过适应度函数F,计算父代种群P中成员的适应度,并进行排序;
步骤6:判断并保留适应度高的父代种群成员,保留比例为精英率e,即P1’=P·e;
步骤7:通过Roulette选择算法和交叉函数产生适应度较高的比对成员,补足剩余的部分,即P2’=P·(1-e);
步骤8:将步骤5和6产生的比对成员共同组成子代成员,即P’=P1’+P2’;
步骤9:将子代种群作为新的父代种群,即令P=P’;
步骤10:当n达到代数N时,终止循环;
步骤11:输出网络比对结果,即输出网络G1的节点V1与网络G2的节点V2的对应关系,使得节点集V1中每一个节点到V2中的节点都存在一对一的映射。
(3)适应度函数F
适应度函数F作为网络比对的优化条件在算法中起到至关重要的作用,考虑残基相互作用网络的特点,这里将适应度函数F定义为:
F=α×TopoScore(f)+(1-α)×SeqScore(f),α∈[0,1]
其中TopoScore(f)表示拓扑信息,SeqScore(f)表示序列信息,权重α用来调整拓扑信息和序列信息对比对的影响作用。使用对称子结构得分(S3)作为拓扑信息TopoScore(f),使用残基匹配度矩阵作为序列信息SeqScore(f)。
拓扑信息TopoScore(f)使用对称子结构得分(S3)。由网络G1(V1,E1)和G2(V2,E2)的比对f:v1→v2,设G2[Y]为点集为Y的G2的子网,f(V1)={f(v)∈V2:v∈V1},f(E1)={(f(u),f(v))∈E2:(u,v)∈E1}。并将保守边定义为由通过f比对的两个网络的两条边组成,即当G1中的节点u,v通过f分别比对上G2中的节点u’,v’时,那么边(u,v)和边(u’,v’)构成一条保守边。对称子结构得分(S3)表示保守边的数量占网络G1和G2[f(V1)]叠加的复合图边的数量的比例,它既惩罚了比对从密集区域映射到稀疏区域,又惩罚了从稀疏区域映射到密集区域,表示为:
序列信息SeqScore(f)使用基于BLOSUM矩阵[35]的残基匹配度矩阵进行评价。本文基于BLOSUM矩阵是因为该矩阵基于蛋白质进化的星状模型(即忽略物种近端和远端的关系)和区块中的保守位置与置换关系进行计分,这对于发现同源蛋白质中的保守区域有非常重要的作用。由于蛋白质的功能是由序列和特定的空间结构等因素共同决定,在残基相互作用网络比对中,只利用网络的拓扑信息无法获得在网络拓扑和一级结构方面更准确更合理的比对结果。因此,本文引入蛋白质的序列信息,并定义残基匹配度矩阵,加入到网络比对的适应度函数中。
残基匹配度矩阵是通过统计蛋白质序列的替换率而得到的氨基酸矩阵,由蛋白质序列块比对推导得出。其大致步骤如下:
首先消除相似度小于指定阈值的序列,计算数据中每个氨基酸组合发生的可能性和该组合预期发生的可能性比率Log-odds,表示为:
其中,P(O)表示观察的可能性,P(E)表示预期的可能性。
然后基于此计算残基匹配度矩阵,表示为:
其中,Pij是氨基酸i与j在同源序列中相互替换的概率,qi和qj是氨基酸出现在任意蛋白质序列中的概率。λ是一个尺度参数,使每个得分更易取整。由于蛋白质结构的复杂性,氨基酸的替换矩阵很难将所有影响到替换频率的因子都考虑周全,该矩阵将具有较低可能配对在同源序列上的残基给出相对重的罚分。
将残基匹配度矩阵作为序列信息时,进一步计算网络G1中的任意节点vi与网络G2中任意节点vj相匹配时的替换率,并作为匹配度并用矩阵存储。同时为保证适应度函数的合理性,其数量级需要与拓扑信息一致。因此,我们使用min-max方法对残基匹配度矩阵进行标准化,具体表示为:
其中x表示某两个氨基酸残基的匹配度,x*表示标准化后某两个氨基酸残基的匹配度,max表示矩阵中的最大值,min表示矩阵中的最小值。此时,序列信息与拓扑信息处于同一数量级,适合进行综合比对评价。
(4)交叉函数定义为:两父代比对成员通过交叉函数交叉产生子代中新的比对成员。设V1={x1,…,xm},V2={y1,…,yn},[n]为1到n的自然数集合,如果m=n,则给定节点标号,可以用节点标号对应节点标号的形式来表示任意比对f(即一个对应的排列σ),令Sn为所有排列σ的集合。如果m≠n,则需要添加虚设的,度为0的节点zi到V1中,使m=n,则有:
我们定义一个排列σ的一次换位(表示为ν)将得到一个新的排列,其中它固定原始排列的每个元素,除了两个元素之间的交换。如果排列σ通过一次换位与排列τ相同,则排列σ和τ是邻接的,表示为:建立图Γn,它具有节点集Sn和边集En,其中当且仅当排列σ和τ邻接时,En表示排列σ和τ之间的边的集合。定义排列σ和τ交叉,表示为:是图Γn中从σ到τ最短路径的近中点,也是一个排列。
设σ,τ∈Sn,ν=στ-1,使用Knuth规范周期分解使ν=c1…ck。对于每一个i,通过一个随机索引周期性移动ν=(c1…ck),以获得一个周期(y1…yh)。我们通过刨去移动周期的后半部分获得新的周期最终,排列σ和τ的交叉定义为
通过交叉函数交叉产生的子比对被定义为两个父比对之间的中间比对,子比对预计将继承其每个父比对的大约二分之一。
(5)网络比对的比对质量评价标准采用边正确性(EC),它通过计算比对结果中保守边在较小网络G1中边的数量的占比来评价网络比对的拓扑质量,可表示为:
其中,拓扑信息-序列信息权重α值是影响比对结果的重要因子,它的取值范围是[0,1]。在本实施例中,设定代数N为2000,α取值步长为0.1,进行10组重复实验。实验结果如附图说明中图1所示。
当权重α=0.7时,边正确性EC值稳定在较高值,在网络拓扑方面获得较好的比对结果。因此,取权重α=0.7,其他实验参数设置不变,进行20次重复比对实验,以保证网络比对结果的稳定性。实验结果如附图说明中图2所示。
选取上述20次重复比对实验中的边正确性EC最高(EC=76.7%)的第15次比对,从两者结构和影响耐热性的因素两方面对比对结果进行分析。
本方法使用引入序列信息的残基相互作用网络比对算法对来自嗜热子囊菌的耐热型木聚糖酶和来自变铅青链霉菌的常温型木聚糖酶进行网络比对,以探究影响两者结构稳定性和耐热性的因素。参见图3和图4,通过网络比对结果分析:证实了(βα)8-桶结构的低序列保守性及β-折叠对结构稳定性的作用;发现了1E0W的loop1区域中独有一个310-螺旋结构影响了结构稳定性;1TUX中的α1’短螺旋结构和相对较短的β4α4-loop区域有助于提升其结构稳定性和酶的热稳定性;推测1TUX的β4α4-loop区域中独有的氢键转折结构和1E0W的loop6区域中独有的2个β-桥结构可能引起空间结构的细微差异,从而影响酶的热稳定性。
综上所述,通过残基相互作用网络比对,能够从二级结构稳定性和loop区域的角度上证实和发现影响蛋白质结构稳定性和木聚糖酶耐热性的因素。因此,可以使用这些提示,通过定点诱变或蛋白质工程等方法改造木聚糖酶,从而有效的提高木聚糖酶的热稳定性。
虽然本发明已以较佳实施例公开如上,但其并非用以限定本发明,任何熟悉此技术的人,在不脱离本发明的精神和范围内,都可做各种的改动与修饰,因此本发明的保护范围应该以权利要求书所界定的为准。
Claims (4)
1.一种分析木聚糖酶热稳定性影响因素的方法,其特征在于:将来自嗜热子囊菌(Thermoascus aurantiacus)的耐热型木聚糖酶和来自变铅青链霉菌(Streptomyceslividans)的常温型木聚糖酶编码为两个残基相互作用网络,使用残基相互作用网络比对算法进行网络比对,采用下列步骤:
步骤1:木聚糖酶残基相互作用网络构建:
根据RCSBPDB数据库描述的氨基酸残基的Cα的位置,计算任意氨基酸残基X与氨基酸残基Y(X≠Y)之间的距离,当残基X与残基Y之间的距离小于时,认为残基X与Y之间存在相互作用,以氨基酸残基作为网络的节点,以氨基酸残基间的相互作用作为网络的边,构建残基相互作用网络,并将残基相互作用网络建模为无加权图,设耐热型木聚糖酶和常温型木聚糖酶的残基相互作用网络分别为G1和G2,G1=(V1,E1),G2=(V2,E2),V1和V2表示节点的集合,E1和E2表示边的集合;
步骤2:网络比对的算法框架:
残基相互作用网络比对算法基于遗传算法的框架,通过适应度函数和交叉函数评价并优化比对,迭代以获得最优比对;
所述适应度函数F定义为:
F=α×TopoScore(f)+(1-α)×SeqScore(f),α∈[0,1],
其中TopoScore(f)表示拓扑信息,SeqScore(f)表示序列信息,权重α用来调整拓扑信息和序列信息对比对的影响作用,使用对称子结构得分(S3)作为拓扑信息TopoScore(f),使用残基匹配度矩阵作为序列信息SeqScore(f),权重α=0.7。
2.根据权利要求1所述的方法,其特征在于:拓扑信息TopoScore(f)使用对称子结构得分(S3),由网络G1(V1,E1)和G2(V2,E2)的比对f:v1→v2,设G2[Y]为点集为Y的G2的子网,f(V1)={f(v)∈V2:v∈V1},f(E1)={(f(u),f(v))∈E2:(u,v)∈E1},并将保守边定义为由通过f比对的两个网络的两条边组成,即当G1中的节点u,v通过f分别比对上G2中的节点u’,v’时,那么边(u,v)和边(u’,v’)构成一条保守边;
对称子结构得分(S3)表示保守边的数量占网络G1和G2[f(V1)]叠加的复合图边的数量的比例,它既惩罚了比对从密集区域映射到稀疏区域,又惩罚了从稀疏区域映射到密集区域,表示为:
序列信息SeqScore(f)使用基于BLOSUM矩阵的残基匹配度矩阵进行评价,步骤如下:
首先消除相似度小于指定阈值的序列,计算数据中每个氨基酸组合发生的可能性和该组合预期发生的可能性比率Log-odds,表示为:
其中,P(O)表示观察的可能性,P(E)表示预期的可能性,
然后基于此计算残基匹配度矩阵,表示为:
其中,Pij是氨基酸i与j在同源序列中相互替换的概率,qi和qj是氨基酸出现在任意蛋白质序列中的概率,λ是一个尺度参数,使每个得分更易取整,由于蛋白质结构的复杂性,氨基酸的替换矩阵很难将所有影响到替换频率的因子都考虑周全,该矩阵将具有较低可能配对在同源序列上的残基给出相对重的罚分;
将残基匹配度矩阵作为序列信息时,进一步计算网络G1中的任意节点vi与网络G2中任意节点vj相匹配时的替换率,并作为匹配度并用矩阵存储,同时为保证适应度函数的合理性,其数量级需要与拓扑信息一致,因此,我们使用min-max方法对残基匹配度矩阵进行标准化,具体表示为:
其中x表示某两个氨基酸残基的匹配度,x*表示标准化后某两个氨基酸残基的匹配度,max表示矩阵中的最大值,min表示矩阵中的最小值,此时,序列信息与拓扑信息处于同一数量级,适合进行综合比对评价。
3.根据权利要求1所述的方法,其特征在于:交叉函数定义为:两父代比对成员通过交叉函数交叉产生子代中新的比对成员,设V1={x1,…,xm},V2={y1,…,yn},[n]为1到n的自然数集合,如果m=n,则给定节点标号,可以用节点标号对应节点标号的形式来表示任意比对f(即一个对应的排列σ),令Sn为所有排列σ的集合,如果m≠n,则需要添加虚设的,度为0的节点zi到V1中,使m=n,则有:
我们定义一个排列σ的一次换位,表示为ν,将得到一个新的排列,其中它固定原始排列的每个元素,除了两个元素之间的交换,如果排列σ通过一次换位与排列τ相同,则排列σ和τ是邻接的,表示为:σ=v°τ,建立图Γn,它具有节点集Sn和边集En,其中当且仅当排列σ和τ邻接时,En表示排列σ和τ之间的边的集合,定义排列σ和τ交叉,表示为: 是图Γn中从σ到τ最短路径的近中点,也是一个排列;
设σ,τ∈Sn,ν=στ-1,使用Knuth规范周期分解使ν=c1…ck,对于每一个i,通过一个随机索引周期性移动ν=(c1…ck),以获得一个周期(y1…yh),我们通过刨去移动周期的后半部分获得新的周期最终,排列σ和τ的交叉定义为
通过交叉函数交叉产生的子比对被定义为两个父比对之间的中间比对,子比对预计将继承其每个父比对的大约二分之一。
4.根据权利要求1所述的方法,其特征在于:残基相互作用网络比对算法的步骤和参数设置如下:
步骤1:输入木聚糖酶1和木聚糖酶2的残基相互作用网络G1和G2及相关参数:代数N、精英率e、种群规模p;
步骤2:随机生成种群数量p的比对,作为初始种群P0;
步骤3:以初始种群P0作为父代种群P,即令P=P0;
步骤4:设置代数计数n=1,并开始循环;
步骤5:通过适应度函数F,计算父代种群P中成员的适应度,并进行排序;
步骤6:判断并保留适应度高的父代种群成员,保留比例为精英率e,即P1’=P·e;
步骤7:通过Roulette选择算法和交叉函数产生适应度较高的比对成员,补足剩余的部分,即P2’=P·(1-e);
步骤8:将步骤5和6产生的比对成员共同组成子代成员,即P’=P1’+P2’;
步骤9:将子代种群作为新的父代种群,即令P=P’;
步骤10:当n达到代数N时,终止循环;
步骤11:输出网络比对结果,即输出网络G1的节点V1与网络G2的节点V2的对应关系,使得节点集V1中每一个节点到V2中的节点都存在一对一的映射。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810629705.8A CN108846255A (zh) | 2018-06-19 | 2018-06-19 | 一种分析木聚糖酶热稳定性影响因素的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810629705.8A CN108846255A (zh) | 2018-06-19 | 2018-06-19 | 一种分析木聚糖酶热稳定性影响因素的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108846255A true CN108846255A (zh) | 2018-11-20 |
Family
ID=64202787
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810629705.8A Pending CN108846255A (zh) | 2018-06-19 | 2018-06-19 | 一种分析木聚糖酶热稳定性影响因素的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108846255A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111584013A (zh) * | 2020-05-29 | 2020-08-25 | 江南大学 | 一种改变木聚糖酶热稳定性的方法 |
CN111755065A (zh) * | 2020-06-15 | 2020-10-09 | 重庆邮电大学 | 一种基于虚拟网络映射和云并行计算的蛋白质构象预测加速方法 |
WO2020253221A1 (zh) * | 2019-06-19 | 2020-12-24 | 江南大学 | 一种分析通信路径与脂肪酶耐热性关系的方法 |
WO2020253222A1 (zh) * | 2019-06-19 | 2020-12-24 | 江南大学 | 一种动态残基相互作用网络的社团检测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105740648A (zh) * | 2016-01-21 | 2016-07-06 | 江南大学 | 一种基于人工蜂群与粒子群混合算法的蛋白质耐热温度的多元线性回归计算方法 |
CN106960134A (zh) * | 2017-03-23 | 2017-07-18 | 江南大学 | 一种适用于木聚糖酶氨基酸相互作用网络聚类的s‑fcm算法 |
CN107679616A (zh) * | 2017-10-20 | 2018-02-09 | 江南大学 | 一种引入序列信息的残基相互作用网络比对算法si‑magna |
-
2018
- 2018-06-19 CN CN201810629705.8A patent/CN108846255A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105740648A (zh) * | 2016-01-21 | 2016-07-06 | 江南大学 | 一种基于人工蜂群与粒子群混合算法的蛋白质耐热温度的多元线性回归计算方法 |
CN106960134A (zh) * | 2017-03-23 | 2017-07-18 | 江南大学 | 一种适用于木聚糖酶氨基酸相互作用网络聚类的s‑fcm算法 |
CN107679616A (zh) * | 2017-10-20 | 2018-02-09 | 江南大学 | 一种引入序列信息的残基相互作用网络比对算法si‑magna |
Non-Patent Citations (3)
Title |
---|
VIKRAM SARAPH ET AL: "MAGNA: maximizing accuracy in global network alignment", 《BIOINFORMATICS》 * |
贺晓梅: "蛋白质序列特征表达及其在亚细胞定位预测中的应用", 《中国优秀硕士学位论文全文数据库 基础科学辑》 * |
饶榕: "基于分子模拟和复杂网络理论的木聚糖酶的耐热性研究", 《中国优秀硕士学位论文全文数据库 基础科学辑》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020253221A1 (zh) * | 2019-06-19 | 2020-12-24 | 江南大学 | 一种分析通信路径与脂肪酶耐热性关系的方法 |
WO2020253222A1 (zh) * | 2019-06-19 | 2020-12-24 | 江南大学 | 一种动态残基相互作用网络的社团检测方法 |
CN111584013A (zh) * | 2020-05-29 | 2020-08-25 | 江南大学 | 一种改变木聚糖酶热稳定性的方法 |
CN111584013B (zh) * | 2020-05-29 | 2023-10-27 | 江南大学 | 一种改变木聚糖酶热稳定性的方法 |
CN111755065A (zh) * | 2020-06-15 | 2020-10-09 | 重庆邮电大学 | 一种基于虚拟网络映射和云并行计算的蛋白质构象预测加速方法 |
CN111755065B (zh) * | 2020-06-15 | 2024-05-17 | 重庆邮电大学 | 一种基于虚拟网络映射和云并行计算的蛋白质构象预测加速方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108846255A (zh) | 一种分析木聚糖酶热稳定性影响因素的方法 | |
Vijayabaskar et al. | Interaction energy based protein structure networks | |
Segal et al. | Rich probabilistic models for gene expression | |
Wang et al. | A modified ant colony optimization algorithm for network coding resource minimization | |
Cuevas et al. | A cuckoo search algorithm for multimodal optimization | |
Ji et al. | Ant colony clustering with fitness perception and pheromone diffusion for community detection in complex networks | |
Cheng et al. | An elitism strategy based genetic algorithm for streaming pattern discovery in wireless sensor networks | |
Wu et al. | EAGCN: An efficient adaptive graph convolutional network for item recommendation in social Internet of Things | |
Antonio et al. | Indicator-based cooperative coevolution for multi-objective optimization | |
Liu et al. | A cooperative evolution for QoS-driven IoT service composition | |
Harrison et al. | A meta-analysis of centrality measures for comparing and generating complex network models | |
Zhang et al. | Selective-candidate framework with similarity selection rule for evolutionary optimization | |
Markham et al. | Discrete Gene Regulatory Networks (dGRNs): A novel approach to configuring sensor networks | |
Wei et al. | Cooperation dynamics on collaborative social networks of heterogeneous population | |
Liu et al. | Estimating protein complex model accuracy based on ultrafast shape recognition and deep learning in CASP15 | |
Ma et al. | Angle-based multi-objective evolutionary algorithm based on pruning-power indicator for game map generation | |
Kilinc et al. | Finding plausible optimal solutions in engineering problems using an adaptive genetic algorithm | |
Tan et al. | An evaluation model integrating user trust and capability for selection of cooperative learning partners | |
Xu et al. | Quantifying the effect of community structures for link prediction by constructing null models | |
Xiang | Topological analysis, endogenous mechanisms, and supply risk propagation in the polycrystalline silicon trade dependency network | |
Kashyap et al. | Multi-objective metaheuristic search algorithms for service composition in IoT | |
Wang et al. | Bi-level Multi-objective Evolutionary Learning: A Case Study on Multi-task Graph Neural Topology Search | |
Feng et al. | Curriculum goal-conditioned imitation for offline reinforcement learning | |
Marcolino et al. | Simultaneous influencing and mapping social networks | |
Doucette et al. | Revisiting the Acrobot ‘height’task: An example of efficient evolutionary policy search under an episodic goal seeking task |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181120 |