CN115631808B

CN115631808B - 一种分子靶点快速预测及关联机理分析方法

Info

Publication number: CN115631808B
Application number: CN202211310770.7A
Authority: CN
Inventors: 邹赛; 杨文雅; 商晨; 高鸿峰
Original assignee: Guizhou University
Current assignee: Guizhou University
Priority date: 2022-10-25
Filing date: 2022-10-25
Publication date: 2023-08-01
Anticipated expiration: 2042-10-25
Also published as: CN115631808A

Abstract

本发明涉及一种分子靶点快速预测及关联机理分析方法，包括：建立蛋白质与蛋白质关联概率模型；将蛋白质与蛋白质交叠网络拓扑特征、基因表达数据、直系同源数据组合，获得分子靶点候选种群关键性评分依据，基于分子靶点候选种群关键性评分依据，构建分子靶点快速预测的化学反应优化模型；基于化学反应优化模型与所述蛋白质之间的关联机理，平衡化学反应，优化局部与全局搜索策略，进行分子靶点快速预测及关联机理分析。本发明将朴素贝叶斯概率模型及化学优化反应算法引入到生物信息学的关键蛋白质分析和预测过程中，通过朴素贝叶斯概率模型分析蛋白质之间的关联机理，通过化学优化反应算法加快了关键蛋白质识别速度。

Description

一种分子靶点快速预测及关联机理分析方法

技术领域

本发明涉及靶向治疗和基本蛋白质的识别技术领域，特别是涉及一种分子靶点快速预测及关联机理分析方法。

背景技术

随着社会的发展，人类疾病的治疗观念正在发生根本的变化，既由经验科学向循证医学，由细胞攻击模式向靶向性治疗模式转变。靶向性治疗是在细胞水平上，针对已经明确的致癌位点进行专向性攻克，细胞内部的某些致癌蛋白分子就是靶向位点，致癌蛋白质分子就是细胞病变过程中的关键蛋白质。关键蛋白质的缺失将会导致蛋白质复合物的生物功能丧失和生物体死亡。因此关键蛋白质的鉴定研究，不仅有助于我们了解生物体活动的本质，也有助于发现人类疾病基因。蛋白质的鉴定及作用机理的可解析性研究已经成为生物信息界，医学界的热点，在当今的脑胶质瘤、肝癌、肺癌、胰腺癌等疾病的靶向治疗中得到了广泛应用。

随着可用医学信息量的增加，关键蛋白质的识别已成功引起了学者的关注。传统的生物实验方法也被相继提出，例如：基因敲除、RNA干扰、条件敲除等，这些经典的生物实验方法对预测关键蛋白质做出了一定的贡献，但是实验过程耗时久，成本高，已不能满足生物医药快速发展的需要。随着高通量技术的进步，后基因组时代蛋白质-蛋白质相互作用数据快速积累，利用大量蛋白质相互作用数据构建蛋白质相互作用网络为理解蛋白质复合物、生物途径和细胞组织功能提供了新的视角。基于蛋白质相互作用网络的特点，研究人员提出了许多基于生物网络拓扑中心性的方法来识别关键蛋白质。

后基因组时代的到来，使得多数据预测关键蛋白质成为了可能。为了进一步提高关键蛋白质识别率，一些研究人员提出将网络拓扑特征与生物信息(基因表达数据、亚细胞位置数据、正畸数据、基因本体)相结合，构建预测模型，提高预测精度。这些方法在结合了蛋白质的生物信息和拓扑结构特性后，提高了关键蛋白质的识别精度。然而，通过融合生物特征信息和拓扑信息，构建完全特征数字优化模型预测关键蛋白质的方法属于组合优化算法，这是一个NP困难问题。

启发式算法通过近似最优解能够快速求解NP困难问题。元启发式算法具有高鲁棒性、低复杂性和优化性能好的特点，为解决组合优化问题、聚类和其他领域提供了新的视角。化学优化反应算法是一种新型演化计算技术,通过模拟化学反应中分子间的变化和能量迁移方式快速求解NP困难问题。

关键蛋白质的鉴定对理解细胞的生命活动具有重要意义。随着后基因组时代的到来，生物医学领域里的数据量呈几何级数增长，研究者们更加关注这些多样化数据之间的复杂集成关系，分析蛋白质之间的关联机理，并快速识别生物体的大部分关键蛋白质靶点是接下来的一大挑战。

发明内容

本发明通过提供一种分子靶点快速预测及关联机理分析方法，引入朴素贝叶斯概率模型分析蛋白质间的同质性，并建立蛋白质与蛋白质关联概率模型。随后，提出化学优化反应算法对网络模型进行搜索优化，同时依据蛋白质同质率对分子结构进行变异选择，平衡局部和全局优化策略，最终达到提高关键蛋白质识别精度和识别速度的目的。

为实现上述目的，本发明提供了如下方案：

一种分子靶点快速预测及关联机理分析方法，包括：

建立蛋白质与蛋白质关联概率模型，所述蛋白质与蛋白质关联概率模型用于分析蛋白质之间的关联机理；

将蛋白质与蛋白质交叠网络拓扑特征、基因表达数据、直系同源数据组合，获得分子靶点候选种群关键性评分依据，基于所述分子靶点候选种群关键性评分依据，构建分子靶点快速预测的化学反应优化模型；

基于所述化学反应优化模型与所述蛋白质之间的关联机理，平衡化学反应，优化局部与全局搜索策略，进行分子靶点快速预测及关联机理分析。

优选地，建立所述蛋白质与蛋白质关联概率模型，包括：

结合蛋白质与蛋白质交叠网络拓扑特征和蛋白质生物特征，通过朴素贝叶斯模型求解蛋白质节点间的同质率EPr_i，分析蛋白质之间的关联机理，构建所述蛋白质与蛋白质关联概率模型。

优选地，分析所述蛋白质之间的关联机理，包括：

获取蛋白质与蛋白质之间的特征集，通过关键蛋白质节点与邻域蛋白质节点相互作用的局部性，以及关键蛋白质节点之间的独立性，基于所述蛋白质与蛋白质关联概率模型，分析蛋白质之间的关联机理，其中，所述同质率EPr_i,j越大，表示两个蛋白质节点之间的同质性越高，所述关联机理即所述同质性。

优选地，所述蛋白质与蛋白质之间的特征集为W＝{w₁，w₂，w₃}；

其中，w₁表示蛋白质与蛋白质所构成的边聚集系数ECC，w₂表示蛋白质的基因表达系数PCC，3表示蛋白质的直系同源相关性NOS。

优选地，获得所述分子靶点候选种群关键性评分依据，包括：

使用蛋白质的基因表达系数PCC来捕获蛋白质及蛋白质邻域的共表达特性，通过边聚集系数ECC捕获蛋白质的高连通性和集聚类特征，并使用同源相关性NOS来捕获蛋白质进化过程中的保守性，获得蛋白质之间的相关性，基于所述蛋白质之间的相关性，得到所述分子靶点候选种群关键性评分依据。

优选地，所述分子靶点候选种群关键性评分依据为：

其中，OW表示当ECC(v_i)＝0条件下的关键性评分依据，v_i与v_j分别表示第i个和第j个蛋白质节点，N表示蛋白质数量，ECC(v_i)为捕获蛋白质聚类特征的参数，NOS(v_j)表示捕获蛋白质同源相关性参数，PCC(v_i,v_j)表示蛋白质与其邻域的共表达特性参数。

优选地，若所述捕获蛋白质聚类特征的参数时，所述关键性评分依据OW为：

其中，v_i与v_j分别表示第i个和第j个蛋白质节点，N表示蛋白质数量。

优选地，构建分子靶点快速预测的化学反应优化模型，包括：

通过模拟化学反应优化算法中分子参与四种初等反应的过程，构建所述分子靶点快速预测的化学反应优化模型，从局部和全局搜索关键节点，进而达到分子靶点快速预测的目的；其中，所述四种初等反应包括：单分子无效碰撞反应，单分子分解反应，多分子间无效碰撞反应，多分子间结合反应。

优选地，基于所述化学反应优化模型与所述蛋白质之间的关联机理，将朴素贝叶斯模型所得到的蛋白质同质率作为分子变异的选择条件，平衡化学反应，优化局部与全局搜索策略。

本发明的有益效果为：

本发明将朴素贝叶斯概率模型及化学优化反应算法引入到生物信息学的关键蛋白质分析和预测过程中，针对现有的关键蛋白质识别技术对生物意义及生物功能关联关系挖掘不够深这一缺陷引入朴素贝叶斯概率模型分析蛋白质分子之间的关联机理，为更深入开展分子靶点功能应用研究提供了新的思路。同时，与具有高假阳性和假阴性的识别技术不同的是，本申请通过引入化学反应优化算法从局部和全局进行搜索提高了分子靶点的识别速度和精度，降低了假阴性和假阳性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中蛋白质与蛋白质关联概率模型示意图；

图2为本发明实施例中分子靶点快速预测的化学反应优化流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明提供一种分子靶点快速预测及关联机理分析方法，具体包括：

S1、将蛋白质与蛋白质交叠(PPI)网络拓扑特征与蛋白质生物特征(基因表达、直系同源)相结合，引入朴素贝叶斯模型分析蛋白质间的同质性，构建蛋白质与蛋白质关联概率模型，从而分析蛋白质之间的关联机理，如图1。

S2、将蛋白质与蛋白质交叠网络拓扑特征、基因表达数据、直系同源数据组合形成分子靶点候选种群关键性评分，并作为化学反应优化模型中分子的势能，构建分子靶点快速预测的化学反应优化模型。

S3、基于化学优化反应算法的基础上，将朴素贝叶斯模型所得到的蛋白质同质率作为分子变异的选择条件，去平衡化学优化反应局部与全局搜索策略，如图2。

进一步，所述步骤S1包括，

S101、具有N个蛋白质相互作用的PPI网络表示为无向图G＝(V,E,W),其中顶点集V＝{v₁，……，v_N}表示某生物蛋白质的集合，W表示蛋白质的特征集。边集E表示蛋白质与蛋白质之间的关联。若无向图G＝(V,E,W),v_i∈V(G),v_j∈V(G),(i，j＝1，……，N)存在，则

其中，表示蛋白质节点v_i与v_j之间存在相互作用。

S102、令W＝{w₁，w₂，w₃}为蛋白质与蛋白质之间的特征集，其中w₁表示蛋白质与蛋白质所构成的边聚集系数ECC，w₂表示蛋白质的基因表达系数PCC，w₃表示蛋白质的直系同源相关性NOS。进一步可分解为：

S1021、边聚集系数ECC能够描述一条边的两个连接节点与其周围其他节点之间的紧密程度，可表达为：

其中，是指相互作用的边/>在图G中形成的实际的三角形的数量，表示取蛋白质节点v_i与v_j度d的最小值。可见，当ECC值越大，该蛋白质与邻域蛋白质在同一簇的概率越大。

S1022、令Exp(v_i)＝{Exp(v_i,1),Exp(v_i,2),…，Exp(v_i,n)}表示蛋白质节点v_i在不同时刻的表达，其中Exp(v_i,n)表示蛋白质v_i在第n时刻的基因表达值。采用皮尔逊系数来描述蛋白质节点v_i和v_j的基因关联关系则

其中，表示蛋白质节点v_i在所有时刻的基因表达均值，σ(v_i)表示v_i在各个时刻基因表达量的标准方差。当/>为正值时，则蛋白质节点v_i与v_j正相关；如果值为负，则蛋白质节点v_i与v_j呈负相关。

S1023、令OS(v_i)表示蛋白质节点v_i在参考物种集S中具有同源物的数量。则对于蛋白质节点v_i，其直系同源相关性NOS(v_i)被定义为：

MAX_OS表示G中所有蛋白质节点的OS值的最大值。如果蛋白质节点v_i与S物种集中的所有生物都存在同源关系，则同源得分为1。相反，如果蛋白质v_i没有和任何生物存在同源关系，同源得分为0。

S103、针对关键蛋白质节点与邻域蛋白质节点相互作用的局部性，及部分关键蛋白质节点之间的独立性，引入朴素贝叶斯模型分析蛋白质节点之间的同质性，从而求解蛋白质同质率。

给定蛋白质训练集(X,Y)其中每个样本X和Y都包括特征W＝{w₁，w₂，w₃}。每个样本的先验概率通过训练样本特征W可以统计计算出来，P(Y＝v_i)表示第i个蛋白质的先验概率。P(Y＝v_i)可表示为：

P(X＝v_j|Y＝v_i)表示第i个蛋白质的后验概率，同时代表蛋白质节点v_i与v_j的同质率。P(X＝v_j|Y＝v_i)由下式给出：

由(5)式(6)式结合可得：

其中，当假设特征条件独立时，样本联合概率由各自的局部条件概率分布相乘求，得：

由(5)式到(8)可得蛋白质的同质率公式为：

进一步，所述步骤S2包括，

S201、化学反应优化是多代理算法，操作代理是分子，即描述所求问题的解。每个蛋白质候选集表示一个分子结构ω，即每个候选集包含M个蛋白质(M≤N)，每个蛋白质为潜在的基本蛋白质。分子结构ω表达为:

ω＝{v₁,v₂,…,v_M} (10)

初始种群Pop可表示为

Pop∈{ω_γ|γ＝1,2,3,…,Popsize} (11)

S202：化学反应是一个自然的不稳定物质转化到稳定的过程。它的转化以最优的能量来支持它们的存在，以动能KE和势能PE转化为主。其中分子的动能KE为分子的分解和化合提供能量，动能越高，越容易产生分解和化合反应，从而避免算法陷入局部最优，设每个分子的初始动能为0。势能PE代表关键蛋白质的关键性评分，即各个分子中蛋白质之间的关键性。

第γ个化学分子在反应过程中势能表达式为：

Z_score(v_i)表示第γ个化学分子结构中M个蛋白质关键性评分依据和。

S203、使用皮尔逊系数PCC来捕获蛋白质及其邻域的共表达特性，使用边距集系数ECC来捕获蛋白质的高连通性和集聚类特征，并使用同源相似性评分NOS来捕获蛋白质进化过程中的保守性，蛋白质之间的关键性评分依据和可表示为：

其中，OW表示其他情况下关键性评分依据，其值由S204给出。

S204、在PPI网络中与邻居蛋白质关联越频繁的蛋白质成为关键蛋白质的可能性越大，但是独立存在网络中的蛋白质也有可能是关键蛋白质。ECC是捕获蛋白质聚类特征的重要参数，当其值为0时，表示该蛋白质在网络中的连通性较低甚至没有。为了减小该参数缺失带来的影响，的条件下，关键性评分依据OW为：

进一步，所述步骤S3包括，

S301：单分子无效碰撞反应

单分子无效碰撞指单个分子在独立空间内进行碰撞并得到一个邻域分子的过程。根据蛋白质同质率，从原始蛋白质集里选择k(k∈[1,M])个蛋白质替换反应前分子结构ω_γ中的k个蛋白质，从而得到一个新的分子结构ω′_γ，替换过程如下式：

ω′_γ＝E_k(ω_γ) (15)

其中，替换过程应满足EPr′_i≥EPr_i(i＝1,2,…,N)，EPr_i和EPr′_i分别表示替换前和替换后的蛋白质同质率，R_k(*)表示选择替换算子。

第γ个分子发生碰撞应满足的条件为：

其中，ω′_γ表示反应后分子结构，和/>分别为ω_γ的势能和

动能，PE_ω′和KE_ω′分别为ω_γ的势能和动能。

根据能量守恒定律，可以得到反应后分子的动能KE计算公式为：

式中，α为动能损失率，α∈[0，1]。损失的部分动能被存储在系统中央缓冲区中，为其他分子的分解或者合成提供能量。

S302、单分子分解反应

分解是指单个分子在独立空间内进行碰撞并分解多个分子的过程(假设分解成两个分子)。在ω_γ的基础上，从初始蛋白质候选集里选择k个蛋白质代替反应前分子结构ω_γ中的k个蛋白质，获得ω′₁结构。同时选择M-k个蛋白质替换ω_γ中未被选择蛋白质，获得ω′₂。替换过程如下式：

ω′₁＝R_k(ω_γ) (18)

ω′₂＝R_M-k(ω_γ) (19)

其中，替换过程应满足EPr′_i≥EPr_i(i＝1,2,…,N)，R_M-k(·)表示选择替换算子将选择M-k个蛋白质。

第γ个分子发生分解应满足的条件为：

其中，ω′₁和ω′₂是分解反应后的两个新分子结构。

根据能量守恒定律，可以计算新分子的动能和/>假设则：

其中，q是指属于区间[0,1]的随机数。

由于分解过程需要非常大的动能支持，当反应过程中分子自身产生的动能不足以支持反应发生时，那么它的分解能量来源于中央缓冲区buffer。反应满足：

当满足公式(23)时，两个新分子的动能可以被表示为：

其中，m₁、m₂、m₃、m₄是[0，1]的随机数。

S303、多分子间无效碰撞反应

分子间无效碰撞指多个分子(假设两个分子)相互碰撞，生成相同数量新分子的过程。即ω₁+ω₂→ω′₁+ω′₂。生成新分子的过程如下：

ω′₁＝R_k(ω₁) (26)

ω′₂＝R_k(ω₂) (27)

其中，上述替换过程满足

多分子反应满足的条件为：

其中，ω′₁和ω′₂是碰撞反应后的分子结构。

根据能量守恒定律，可以计算新分子的动能和/> 则：

其中，q为区间[0,1]的随机数。

S304、多分子间合成反应

合成指多个分子(假设两个分子ω₁和ω₂)相互碰撞，并融合在一起的过程。新分子生成过程如下：

ω′_γ＝R_k(ω₁)+R_k(ω₂) (31)

其中，替换替换过程满足EPr′_i≥EPr_i(i＝1,2,…,N)。

合成反应发生的条件为：

其中，ω′_γ是碰撞反应后的分子结构。

新分子的动能可计算为：

本发明将朴素贝叶斯概率模型及化学优化反应算法引入到生物信息学的关键蛋白质分析和预测过程中，提出了一种融合化学反应优化模型及朴素贝叶斯模型的分子靶点快速预测及关联机理分析方法。通过朴素贝叶斯概率模型分析蛋白质之间的关联机理，通过化学优化反应算法加快了关键蛋白质识别速度。引入DIP、Gavin生物信息数据集进行验证。本发明的实验结果显示，能够平衡启发式算法的局部和全局搜索能力，快速获取全局优解；也能够解析关键蛋白质之间的作用机理，在预测精度方面也优于现有的经典预测方法。

以上所述的实施例仅是对本发明优选方式进行的描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种分子靶点快速预测及关联机理分析方法，其特征在于，包括：

建立所述蛋白质与蛋白质关联概率模型，包括：

结合蛋白质与蛋白质交叠网络拓扑特征和蛋白质生物特征，通过朴素贝叶斯模型求解蛋白质节点间的同质率EPr_i，分析蛋白质之间的关联机理，构建所述蛋白质与蛋白质关联概率模型；

所述蛋白质节点间的同质率EPr_i为：

蛋白质与蛋白质之间的特征集为W＝{w₁，w₂，w₃}；

其中，w₁表示蛋白质与蛋白质所构成的边聚集系数ECC，w₂表示蛋白质的基因表达系数PCC，w₃表示蛋白质的直系同源相关性NOS；

边聚集系数ECC用于描述一条边的两个连接节点与其周围其他节点之间的紧密程度，表达为：

其中，是指相互作用的边/>在图G中形成的实际的三角形的数量，表示取蛋白质节点v_i与v_j度d的最小值；

采用皮尔逊系数来描述蛋白质节点v_i和v_j的基因关联关系则：

其中，表示蛋白质节点v_i在所有时刻的基因表达均值，σ(v_i)表示v_i在各个时刻基因表达量的标准方差；

对于蛋白质节点v_i，其直系同源相关性NOS(v_i)被定义为：

MAX_OS表示G中所有蛋白质节点的OS值的最大值；

2.根据权利要求1所述的分子靶点快速预测及关联机理分析方法，其特征在于，分析所述蛋白质之间的关联机理，包括：

3.根据权利要求1所述的分子靶点快速预测及关联机理分析方法，其特征在于，获得所述分子靶点候选种群关键性评分依据，包括：

4.根据权利要求3所述的分子靶点快速预测及关联机理分析方法，其特征在于，所述分子靶点候选种群关键性评分依据为：

5.根据权利要求4所述的分子靶点快速预测及关联机理分析方法，其特征在于，若所述捕获蛋白质聚类特征的参数时，所述关键性评分依据OW为：

6.根据权利要求1所述的分子靶点快速预测及关联机理分析方法，其特征在于，构建分子靶点快速预测的化学反应优化模型，包括：

7.根据权利要求1所述的分子靶点快速预测及关联机理分析方法，其特征在于，基于所述化学反应优化模型与所述蛋白质之间的关联机理，将朴素贝叶斯模型所得到的蛋白质同质率作为分子变异的选择条件，平衡化学反应，优化局部与全局搜索策略。