CN115631808B - 一种分子靶点快速预测及关联机理分析方法 - Google Patents
一种分子靶点快速预测及关联机理分析方法 Download PDFInfo
- Publication number
- CN115631808B CN115631808B CN202211310770.7A CN202211310770A CN115631808B CN 115631808 B CN115631808 B CN 115631808B CN 202211310770 A CN202211310770 A CN 202211310770A CN 115631808 B CN115631808 B CN 115631808B
- Authority
- CN
- China
- Prior art keywords
- protein
- proteins
- molecular target
- association
- nodes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 39
- 238000004458 analytical method Methods 0.000 title claims abstract description 21
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 171
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 169
- 238000006243 chemical reaction Methods 0.000 claims abstract description 59
- 238000000034 method Methods 0.000 claims abstract description 41
- 238000005457 optimization Methods 0.000 claims abstract description 34
- 230000008569 process Effects 0.000 claims abstract description 23
- 230000014509 gene expression Effects 0.000 claims abstract description 18
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 17
- 238000000354 decomposition reaction Methods 0.000 claims description 11
- 230000003993 interaction Effects 0.000 claims description 6
- 230000002776 aggregation Effects 0.000 claims description 5
- 238000004220 aggregation Methods 0.000 claims description 5
- 230000004186 co-expression Effects 0.000 claims description 5
- 239000000203 mixture Substances 0.000 claims description 3
- 238000002818 protein evolution Methods 0.000 claims description 3
- 230000002068 genetic effect Effects 0.000 claims description 2
- 238000005381 potential energy Methods 0.000 description 5
- 230000006916 protein interaction Effects 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000008685 targeting Effects 0.000 description 3
- 101710085938 Matrix protein Proteins 0.000 description 2
- 101710127721 Membrane protein Proteins 0.000 description 2
- 101710093543 Probable non-specific lipid-transfer protein Proteins 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 230000008827 biological function Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241000894007 species Species 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 230000001225 therapeutic effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 1
- 102000007474 Multiprotein Complexes Human genes 0.000 description 1
- 108010085220 Multiprotein Complexes Proteins 0.000 description 1
- 101710141454 Nucleoprotein Proteins 0.000 description 1
- 206010061902 Pancreatic neoplasm Diseases 0.000 description 1
- 238000012228 RNA interference-mediated gene silencing Methods 0.000 description 1
- 239000000956 alloy Substances 0.000 description 1
- 229910045601 alloy Inorganic materials 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004166 bioassay Methods 0.000 description 1
- 230000008236 biological pathway Effects 0.000 description 1
- 201000007983 brain glioma Diseases 0.000 description 1
- 230000000711 cancerogenic effect Effects 0.000 description 1
- 231100000315 carcinogenic Toxicity 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000000120 cytopathologic effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000003209 gene knockout Methods 0.000 description 1
- 230000009368 gene silencing by RNA Effects 0.000 description 1
- 238000013090 high-throughput technology Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 201000007270 liver cancer Diseases 0.000 description 1
- 208000014018 liver neoplasm Diseases 0.000 description 1
- 201000005202 lung cancer Diseases 0.000 description 1
- 208000020816 lung neoplasm Diseases 0.000 description 1
- 208000015486 malignant pancreatic neoplasm Diseases 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 102000027450 oncoproteins Human genes 0.000 description 1
- 108091008819 oncoproteins Proteins 0.000 description 1
- 201000002528 pancreatic cancer Diseases 0.000 description 1
- 208000008443 pancreatic carcinoma Diseases 0.000 description 1
- 239000002243 precursor Substances 0.000 description 1
- 230000004850 protein–protein interaction Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000002626 targeted therapy Methods 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/30—Prediction of properties of chemical compounds, compositions or mixtures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
- G16B5/20—Probabilistic models
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/10—Analysis or design of chemical reactions, syntheses or processes
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Theoretical Computer Science (AREA)
- Crystallography & Structural Chemistry (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Physiology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Analytical Chemistry (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种分子靶点快速预测及关联机理分析方法,包括:建立蛋白质与蛋白质关联概率模型;将蛋白质与蛋白质交叠网络拓扑特征、基因表达数据、直系同源数据组合,获得分子靶点候选种群关键性评分依据,基于分子靶点候选种群关键性评分依据,构建分子靶点快速预测的化学反应优化模型;基于化学反应优化模型与所述蛋白质之间的关联机理,平衡化学反应,优化局部与全局搜索策略,进行分子靶点快速预测及关联机理分析。本发明将朴素贝叶斯概率模型及化学优化反应算法引入到生物信息学的关键蛋白质分析和预测过程中,通过朴素贝叶斯概率模型分析蛋白质之间的关联机理,通过化学优化反应算法加快了关键蛋白质识别速度。
Description
技术领域
本发明涉及靶向治疗和基本蛋白质的识别技术领域,特别是涉及一种分子靶点快速预测及关联机理分析方法。
背景技术
随着社会的发展,人类疾病的治疗观念正在发生根本的变化,既由经验科学向循证医学,由细胞攻击模式向靶向性治疗模式转变。靶向性治疗是在细胞水平上,针对已经明确的致癌位点进行专向性攻克,细胞内部的某些致癌蛋白分子就是靶向位点,致癌蛋白质分子就是细胞病变过程中的关键蛋白质。关键蛋白质的缺失将会导致蛋白质复合物的生物功能丧失和生物体死亡。因此关键蛋白质的鉴定研究,不仅有助于我们了解生物体活动的本质,也有助于发现人类疾病基因。蛋白质的鉴定及作用机理的可解析性研究已经成为生物信息界,医学界的热点,在当今的脑胶质瘤、肝癌、肺癌、胰腺癌等疾病的靶向治疗中得到了广泛应用。
随着可用医学信息量的增加,关键蛋白质的识别已成功引起了学者的关注。传统的生物实验方法也被相继提出,例如:基因敲除、RNA干扰、条件敲除等,这些经典的生物实验方法对预测关键蛋白质做出了一定的贡献,但是实验过程耗时久,成本高,已不能满足生物医药快速发展的需要。随着高通量技术的进步,后基因组时代蛋白质-蛋白质相互作用数据快速积累,利用大量蛋白质相互作用数据构建蛋白质相互作用网络为理解蛋白质复合物、生物途径和细胞组织功能提供了新的视角。基于蛋白质相互作用网络的特点,研究人员提出了许多基于生物网络拓扑中心性的方法来识别关键蛋白质。
后基因组时代的到来,使得多数据预测关键蛋白质成为了可能。为了进一步提高关键蛋白质识别率,一些研究人员提出将网络拓扑特征与生物信息(基因表达数据、亚细胞位置数据、正畸数据、基因本体)相结合,构建预测模型,提高预测精度。这些方法在结合了蛋白质的生物信息和拓扑结构特性后,提高了关键蛋白质的识别精度。然而,通过融合生物特征信息和拓扑信息,构建完全特征数字优化模型预测关键蛋白质的方法属于组合优化算法,这是一个NP困难问题。
启发式算法通过近似最优解能够快速求解NP困难问题。元启发式算法具有高鲁棒性、低复杂性和优化性能好的特点,为解决组合优化问题、聚类和其他领域提供了新的视角。化学优化反应算法是一种新型演化计算技术,通过模拟化学反应中分子间的变化和能量迁移方式快速求解NP困难问题。
关键蛋白质的鉴定对理解细胞的生命活动具有重要意义。随着后基因组时代的到来,生物医学领域里的数据量呈几何级数增长,研究者们更加关注这些多样化数据之间的复杂集成关系,分析蛋白质之间的关联机理,并快速识别生物体的大部分关键蛋白质靶点是接下来的一大挑战。
发明内容
本发明通过提供一种分子靶点快速预测及关联机理分析方法,引入朴素贝叶斯概率模型分析蛋白质间的同质性,并建立蛋白质与蛋白质关联概率模型。随后,提出化学优化反应算法对网络模型进行搜索优化,同时依据蛋白质同质率对分子结构进行变异选择,平衡局部和全局优化策略,最终达到提高关键蛋白质识别精度和识别速度的目的。
为实现上述目的,本发明提供了如下方案:
一种分子靶点快速预测及关联机理分析方法,包括:
建立蛋白质与蛋白质关联概率模型,所述蛋白质与蛋白质关联概率模型用于分析蛋白质之间的关联机理;
将蛋白质与蛋白质交叠网络拓扑特征、基因表达数据、直系同源数据组合,获得分子靶点候选种群关键性评分依据,基于所述分子靶点候选种群关键性评分依据,构建分子靶点快速预测的化学反应优化模型;
基于所述化学反应优化模型与所述蛋白质之间的关联机理,平衡化学反应,优化局部与全局搜索策略,进行分子靶点快速预测及关联机理分析。
优选地,建立所述蛋白质与蛋白质关联概率模型,包括:
结合蛋白质与蛋白质交叠网络拓扑特征和蛋白质生物特征,通过朴素贝叶斯模型求解蛋白质节点间的同质率EPri,分析蛋白质之间的关联机理,构建所述蛋白质与蛋白质关联概率模型。
优选地,分析所述蛋白质之间的关联机理,包括:
获取蛋白质与蛋白质之间的特征集,通过关键蛋白质节点与邻域蛋白质节点相互作用的局部性,以及关键蛋白质节点之间的独立性,基于所述蛋白质与蛋白质关联概率模型,分析蛋白质之间的关联机理,其中,所述同质率EPri,j越大,表示两个蛋白质节点之间的同质性越高,所述关联机理即所述同质性。
优选地,所述蛋白质与蛋白质之间的特征集为W={w1,w2,w3};
其中,w1表示蛋白质与蛋白质所构成的边聚集系数ECC,w2表示蛋白质的基因表达系数PCC,3表示蛋白质的直系同源相关性NOS。
优选地,获得所述分子靶点候选种群关键性评分依据,包括:
使用蛋白质的基因表达系数PCC来捕获蛋白质及蛋白质邻域的共表达特性,通过边聚集系数ECC捕获蛋白质的高连通性和集聚类特征,并使用同源相关性NOS来捕获蛋白质进化过程中的保守性,获得蛋白质之间的相关性,基于所述蛋白质之间的相关性,得到所述分子靶点候选种群关键性评分依据。
优选地,所述分子靶点候选种群关键性评分依据为:
其中,OW表示当ECC(vi)=0条件下的关键性评分依据,vi与vj分别表示第i个和第j个蛋白质节点,N表示蛋白质数量,ECC(vi)为捕获蛋白质聚类特征的参数,NOS(vj)表示捕获蛋白质同源相关性参数,PCC(vi,vj)表示蛋白质与其邻域的共表达特性参数。
优选地,若所述捕获蛋白质聚类特征的参数时,所述关键性评分依据OW为:
其中,vi与vj分别表示第i个和第j个蛋白质节点,N表示蛋白质数量。
优选地,构建分子靶点快速预测的化学反应优化模型,包括:
通过模拟化学反应优化算法中分子参与四种初等反应的过程,构建所述分子靶点快速预测的化学反应优化模型,从局部和全局搜索关键节点,进而达到分子靶点快速预测的目的;其中,所述四种初等反应包括:单分子无效碰撞反应,单分子分解反应,多分子间无效碰撞反应,多分子间结合反应。
优选地,基于所述化学反应优化模型与所述蛋白质之间的关联机理,将朴素贝叶斯模型所得到的蛋白质同质率作为分子变异的选择条件,平衡化学反应,优化局部与全局搜索策略。
本发明的有益效果为:
本发明将朴素贝叶斯概率模型及化学优化反应算法引入到生物信息学的关键蛋白质分析和预测过程中,针对现有的关键蛋白质识别技术对生物意义及生物功能关联关系挖掘不够深这一缺陷引入朴素贝叶斯概率模型分析蛋白质分子之间的关联机理,为更深入开展分子靶点功能应用研究提供了新的思路。同时,与具有高假阳性和假阴性的识别技术不同的是,本申请通过引入化学反应优化算法从局部和全局进行搜索提高了分子靶点的识别速度和精度,降低了假阴性和假阳性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中蛋白质与蛋白质关联概率模型示意图;
图2为本发明实施例中分子靶点快速预测的化学反应优化流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明提供一种分子靶点快速预测及关联机理分析方法,具体包括:
S1、将蛋白质与蛋白质交叠(PPI)网络拓扑特征与蛋白质生物特征(基因表达、直系同源)相结合,引入朴素贝叶斯模型分析蛋白质间的同质性,构建蛋白质与蛋白质关联概率模型,从而分析蛋白质之间的关联机理,如图1。
S2、将蛋白质与蛋白质交叠网络拓扑特征、基因表达数据、直系同源数据组合形成分子靶点候选种群关键性评分,并作为化学反应优化模型中分子的势能,构建分子靶点快速预测的化学反应优化模型。
S3、基于化学优化反应算法的基础上,将朴素贝叶斯模型所得到的蛋白质同质率作为分子变异的选择条件,去平衡化学优化反应局部与全局搜索策略,如图2。
进一步,所述步骤S1包括,
S101、具有N个蛋白质相互作用的PPI网络表示为无向图G=(V,E,W),其中顶点集V={v1,……,vN}表示某生物蛋白质的集合,W表示蛋白质的特征集。边集E表示蛋白质与蛋白质之间的关联。若无向图G=(V,E,W),vi∈V(G),vj∈V(G),(i,j=1,……,N)存在,则
其中,表示蛋白质节点vi与vj之间存在相互作用。
S102、令W={w1,w2,w3}为蛋白质与蛋白质之间的特征集,其中w1表示蛋白质与蛋白质所构成的边聚集系数ECC,w2表示蛋白质的基因表达系数PCC,w3表示蛋白质的直系同源相关性NOS。进一步可分解为:
S1021、边聚集系数ECC能够描述一条边的两个连接节点与其周围其他节点之间的紧密程度,可表达为:
其中,是指相互作用的边/>在图G中形成的实际的三角形的数量,表示取蛋白质节点vi与vj度d的最小值。可见,当ECC值越大,该蛋白质与邻域蛋白质在同一簇的概率越大。
S1022、令Exp(vi)={Exp(vi,1),Exp(vi,2),…,Exp(vi,n)}表示蛋白质节点vi在不同时刻的表达,其中Exp(vi,n)表示蛋白质vi在第n时刻的基因表达值。采用皮尔逊系数来描述蛋白质节点vi和vj的基因关联关系则
其中,表示蛋白质节点vi在所有时刻的基因表达均值,σ(vi)表示vi在各个时刻基因表达量的标准方差。当/>为正值时,则蛋白质节点vi与vj正相关;如果值为负,则蛋白质节点vi与vj呈负相关。
S1023、令OS(vi)表示蛋白质节点vi在参考物种集S中具有同源物的数量。则对于蛋白质节点vi,其直系同源相关性NOS(vi)被定义为:
MAXOS表示G中所有蛋白质节点的OS值的最大值。如果蛋白质节点vi与S物种集中的所有生物都存在同源关系,则同源得分为1。相反,如果蛋白质vi没有和任何生物存在同源关系,同源得分为0。
S103、针对关键蛋白质节点与邻域蛋白质节点相互作用的局部性,及部分关键蛋白质节点之间的独立性,引入朴素贝叶斯模型分析蛋白质节点之间的同质性,从而求解蛋白质同质率。
给定蛋白质训练集(X,Y)其中每个样本X和Y都包括特征W={w1,w2,w3}。每个样本的先验概率通过训练样本特征W可以统计计算出来,P(Y=vi)表示第i个蛋白质的先验概率。P(Y=vi)可表示为:
P(X=vj|Y=vi)表示第i个蛋白质的后验概率,同时代表蛋白质节点vi与vj的同质率。P(X=vj|Y=vi)由下式给出:
由(5)式(6)式结合可得:
其中,当假设特征条件独立时,样本联合概率由各自的局部条件概率分布相乘求,得:
由(5)式到(8)可得蛋白质的同质率公式为:
进一步,所述步骤S2包括,
S201、化学反应优化是多代理算法,操作代理是分子,即描述所求问题的解。每个蛋白质候选集表示一个分子结构ω,即每个候选集包含M个蛋白质(M≤N),每个蛋白质为潜在的基本蛋白质。分子结构ω表达为:
ω={v1,v2,…,vM} (10)
初始种群Pop可表示为
Pop∈{ωγ|γ=1,2,3,…,Popsize} (11)
S202:化学反应是一个自然的不稳定物质转化到稳定的过程。它的转化以最优的能量来支持它们的存在,以动能KE和势能PE转化为主。其中分子的动能KE为分子的分解和化合提供能量,动能越高,越容易产生分解和化合反应,从而避免算法陷入局部最优,设每个分子的初始动能为0。势能PE代表关键蛋白质的关键性评分,即各个分子中蛋白质之间的关键性。
第γ个化学分子在反应过程中势能表达式为:
Zscore(vi)表示第γ个化学分子结构中M个蛋白质关键性评分依据和。
S203、使用皮尔逊系数PCC来捕获蛋白质及其邻域的共表达特性,使用边距集系数ECC来捕获蛋白质的高连通性和集聚类特征,并使用同源相似性评分NOS来捕获蛋白质进化过程中的保守性,蛋白质之间的关键性评分依据和可表示为:
其中,OW表示其他情况下关键性评分依据,其值由S204给出。
S204、在PPI网络中与邻居蛋白质关联越频繁的蛋白质成为关键蛋白质的可能性越大,但是独立存在网络中的蛋白质也有可能是关键蛋白质。ECC是捕获蛋白质聚类特征的重要参数,当其值为0时,表示该蛋白质在网络中的连通性较低甚至没有。为了减小该参数缺失带来的影响,的条件下,关键性评分依据OW为:
进一步,所述步骤S3包括,
S301:单分子无效碰撞反应
单分子无效碰撞指单个分子在独立空间内进行碰撞并得到一个邻域分子的过程。根据蛋白质同质率,从原始蛋白质集里选择k(k∈[1,M])个蛋白质替换反应前分子结构ωγ中的k个蛋白质,从而得到一个新的分子结构ω′γ,替换过程如下式:
ω′γ=Ek(ωγ) (15)
其中,替换过程应满足EPr′i≥EPri(i=1,2,…,N),EPri和EPr′i分别表示替换前和替换后的蛋白质同质率,Rk(*)表示选择替换算子。
第γ个分子发生碰撞应满足的条件为:
其中,ω′γ表示反应后分子结构,和/>分别为ωγ的势能和
动能,PEω′和KEω′分别为ωγ的势能和动能。
根据能量守恒定律,可以得到反应后分子的动能KE计算公式为:
式中,α为动能损失率,α∈[0,1]。损失的部分动能被存储在系统中央缓冲区中,为其他分子的分解或者合成提供能量。
S302、单分子分解反应
分解是指单个分子在独立空间内进行碰撞并分解多个分子的过程(假设分解成两个分子)。在ωγ的基础上,从初始蛋白质候选集里选择k个蛋白质代替反应前分子结构ωγ中的k个蛋白质,获得ω′1结构。同时选择M-k个蛋白质替换ωγ中未被选择蛋白质,获得ω′2。替换过程如下式:
ω′1=Rk(ωγ) (18)
ω′2=RM-k(ωγ) (19)
其中,替换过程应满足EPr′i≥EPri(i=1,2,…,N),RM-k(·)表示选择替换算子将选择M-k个蛋白质。
第γ个分子发生分解应满足的条件为:
其中,ω′1和ω′2是分解反应后的两个新分子结构。
根据能量守恒定律,可以计算新分子的动能和/>假设则:
其中,q是指属于区间[0,1]的随机数。
由于分解过程需要非常大的动能支持,当反应过程中分子自身产生的动能不足以支持反应发生时,那么它的分解能量来源于中央缓冲区buffer。反应满足:
当满足公式(23)时,两个新分子的动能可以被表示为:
其中,m1、m2、m3、m4是[0,1]的随机数。
S303、多分子间无效碰撞反应
分子间无效碰撞指多个分子(假设两个分子)相互碰撞,生成相同数量新分子的过程。即ω1+ω2→ω′1+ω′2。生成新分子的过程如下:
ω′1=Rk(ω1) (26)
ω′2=Rk(ω2) (27)
其中,上述替换过程满足
多分子反应满足的条件为:
其中,ω′1和ω′2是碰撞反应后的分子结构。
根据能量守恒定律,可以计算新分子的动能和/> 则:
其中,q为区间[0,1]的随机数。
S304、多分子间合成反应
合成指多个分子(假设两个分子ω1和ω2)相互碰撞,并融合在一起的过程。新分子生成过程如下:
ω′γ=Rk(ω1)+Rk(ω2) (31)
其中,替换替换过程满足EPr′i≥EPri(i=1,2,…,N)。
合成反应发生的条件为:
其中,ω′γ是碰撞反应后的分子结构。
新分子的动能可计算为:
本发明将朴素贝叶斯概率模型及化学优化反应算法引入到生物信息学的关键蛋白质分析和预测过程中,提出了一种融合化学反应优化模型及朴素贝叶斯模型的分子靶点快速预测及关联机理分析方法。通过朴素贝叶斯概率模型分析蛋白质之间的关联机理,通过化学优化反应算法加快了关键蛋白质识别速度。引入DIP、Gavin生物信息数据集进行验证。本发明的实验结果显示,能够平衡启发式算法的局部和全局搜索能力,快速获取全局优解;也能够解析关键蛋白质之间的作用机理,在预测精度方面也优于现有的经典预测方法。
以上所述的实施例仅是对本发明优选方式进行的描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。
Claims (7)
1.一种分子靶点快速预测及关联机理分析方法,其特征在于,包括:
建立蛋白质与蛋白质关联概率模型,所述蛋白质与蛋白质关联概率模型用于分析蛋白质之间的关联机理;
建立所述蛋白质与蛋白质关联概率模型,包括:
结合蛋白质与蛋白质交叠网络拓扑特征和蛋白质生物特征,通过朴素贝叶斯模型求解蛋白质节点间的同质率EPri,分析蛋白质之间的关联机理,构建所述蛋白质与蛋白质关联概率模型;
所述蛋白质节点间的同质率EPri为:
蛋白质与蛋白质之间的特征集为W={w1,w2,w3};
其中,w1表示蛋白质与蛋白质所构成的边聚集系数ECC,w2表示蛋白质的基因表达系数PCC,w3表示蛋白质的直系同源相关性NOS;
边聚集系数ECC用于描述一条边的两个连接节点与其周围其他节点之间的紧密程度,表达为:
其中,是指相互作用的边/>在图G中形成的实际的三角形的数量,表示取蛋白质节点vi与vj度d的最小值;
采用皮尔逊系数来描述蛋白质节点vi和vj的基因关联关系则:
其中,表示蛋白质节点vi在所有时刻的基因表达均值,σ(vi)表示vi在各个时刻基因表达量的标准方差;
对于蛋白质节点vi,其直系同源相关性NOS(vi)被定义为:
MAXOS表示G中所有蛋白质节点的OS值的最大值;
将蛋白质与蛋白质交叠网络拓扑特征、基因表达数据、直系同源数据组合,获得分子靶点候选种群关键性评分依据,基于所述分子靶点候选种群关键性评分依据,构建分子靶点快速预测的化学反应优化模型;
基于所述化学反应优化模型与所述蛋白质之间的关联机理,平衡化学反应,优化局部与全局搜索策略,进行分子靶点快速预测及关联机理分析。
2.根据权利要求1所述的分子靶点快速预测及关联机理分析方法,其特征在于,分析所述蛋白质之间的关联机理,包括:
获取蛋白质与蛋白质之间的特征集,通过关键蛋白质节点与邻域蛋白质节点相互作用的局部性,以及关键蛋白质节点之间的独立性,基于所述蛋白质与蛋白质关联概率模型,分析蛋白质之间的关联机理,其中,所述同质率EPri,j越大,表示两个蛋白质节点之间的同质性越高,所述关联机理即所述同质性。
3.根据权利要求1所述的分子靶点快速预测及关联机理分析方法,其特征在于,获得所述分子靶点候选种群关键性评分依据,包括:
使用蛋白质的基因表达系数PCC来捕获蛋白质及蛋白质邻域的共表达特性,通过边聚集系数ECC捕获蛋白质的高连通性和集聚类特征,并使用同源相关性NOS来捕获蛋白质进化过程中的保守性,获得蛋白质之间的相关性,基于所述蛋白质之间的相关性,得到所述分子靶点候选种群关键性评分依据。
4.根据权利要求3所述的分子靶点快速预测及关联机理分析方法,其特征在于,所述分子靶点候选种群关键性评分依据为:
其中,OW表示当ECC(vi)=0条件下的关键性评分依据,vi与vj分别表示第i个和第j个蛋白质节点,N表示蛋白质数量,ECC(vi)为捕获蛋白质聚类特征的参数,NOS(vj)表示捕获蛋白质同源相关性参数,PCC(vi,vj)表示蛋白质与其邻域的共表达特性参数。
5.根据权利要求4所述的分子靶点快速预测及关联机理分析方法,其特征在于,若所述捕获蛋白质聚类特征的参数时,所述关键性评分依据OW为:
其中,vi与vj分别表示第i个和第j个蛋白质节点,N表示蛋白质数量。
6.根据权利要求1所述的分子靶点快速预测及关联机理分析方法,其特征在于,构建分子靶点快速预测的化学反应优化模型,包括:
通过模拟化学反应优化算法中分子参与四种初等反应的过程,构建所述分子靶点快速预测的化学反应优化模型,从局部和全局搜索关键节点,进而达到分子靶点快速预测的目的;其中,所述四种初等反应包括:单分子无效碰撞反应,单分子分解反应,多分子间无效碰撞反应,多分子间结合反应。
7.根据权利要求1所述的分子靶点快速预测及关联机理分析方法,其特征在于,基于所述化学反应优化模型与所述蛋白质之间的关联机理,将朴素贝叶斯模型所得到的蛋白质同质率作为分子变异的选择条件,平衡化学反应,优化局部与全局搜索策略。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211310770.7A CN115631808B (zh) | 2022-10-25 | 2022-10-25 | 一种分子靶点快速预测及关联机理分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211310770.7A CN115631808B (zh) | 2022-10-25 | 2022-10-25 | 一种分子靶点快速预测及关联机理分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115631808A CN115631808A (zh) | 2023-01-20 |
CN115631808B true CN115631808B (zh) | 2023-08-01 |
Family
ID=84906121
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211310770.7A Active CN115631808B (zh) | 2022-10-25 | 2022-10-25 | 一种分子靶点快速预测及关联机理分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115631808B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113808759A (zh) * | 2020-06-17 | 2021-12-17 | 华子昂 | 从分子水平筛选具有网络靶向作用的中药组合物的方法 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2600269A3 (en) * | 2011-12-03 | 2013-12-04 | Medeolinx, LLC | Microarray sampling and network modeling for drug toxicity prediction |
US20130253894A1 (en) * | 2012-03-07 | 2013-09-26 | The Trustees Of Columbia University In The City Of New York | Systems And Methods For Predicting Protein-Protein Interactions |
EP3298524A4 (en) * | 2015-05-22 | 2019-03-20 | CSTS Health Care Inc. | THERMODYNAMIC MEASUREMENTS RELATING TO PROTEIN-PROTEIN INTERACTION NETWORKS FOR THE TREATMENT OF CANCER |
US11912664B2 (en) * | 2017-06-06 | 2024-02-27 | President And Fellows Of Harvard College | Determining small molecule-protein and protein-protein interactions |
CN109686402B (zh) * | 2018-12-26 | 2023-11-03 | 扬州大学 | 基于动态加权相互作用网络中关键蛋白质识别方法 |
CN110351144B (zh) * | 2019-07-18 | 2020-07-07 | 重庆电子工程职业学院 | 一种基于cro改正的物联网接入虚拟化资源编排方法 |
WO2021044365A1 (en) * | 2019-09-05 | 2021-03-11 | 10736406 Canada Inc. | Method and system for generating synthetically accessible molecules with chemical reaction trajectories using reinforcement learning |
CN110660448B (zh) * | 2019-09-20 | 2022-02-01 | 长沙学院 | 一种基于蛋白质的拓扑与功能特征的关键蛋白识别方法 |
CN110910952B (zh) * | 2019-11-21 | 2023-05-12 | 衡阳师范学院 | 一种利用化学反应策略预测基本蛋白质方法 |
CN111128292B (zh) * | 2019-12-25 | 2023-05-05 | 湖南师范大学 | 一种基于蛋白质成簇特性和活性共表达的关键蛋白质识别方法 |
CN111667881B (zh) * | 2020-06-04 | 2023-06-06 | 大连民族大学 | 一种基于多网络拓扑结构的蛋白质功能预测方法 |
US20230395185A1 (en) * | 2020-10-14 | 2023-12-07 | The Regents Of The University Of California | Systems for and methods of determining protein-protein interaction |
US20220165352A1 (en) * | 2020-11-25 | 2022-05-26 | Northeastern Univesity | Network Medicine Framework for Identifying Drug Repurposing Opportunities |
CN114242168B (zh) * | 2021-12-17 | 2024-06-14 | 贵州大学 | 一种识别生物必需蛋白质方法 |
CN114974409A (zh) * | 2022-05-31 | 2022-08-30 | 浙江大学 | 一种基于零样本学习的针对新发现靶点的药物虚拟筛选系统 |
-
2022
- 2022-10-25 CN CN202211310770.7A patent/CN115631808B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113808759A (zh) * | 2020-06-17 | 2021-12-17 | 华子昂 | 从分子水平筛选具有网络靶向作用的中药组合物的方法 |
Non-Patent Citations (3)
Title |
---|
Virus–human protein–protein interaction prediction using Bayesian matrix factorization and projection techniques;Esmaeil Nourani,et al;Biocybernetics and Biomedical Engineering;第38卷(第3期);574-585 * |
加权优先级网络在蛋白质功能预测中的应用研究;潘怡,等;小型微型计算机系统(第09期);59-64 * |
基于网络拓扑的生物网络关键节点识别研究进展;黄海滨,等;数学的实践与认识(第07期);116-127 * |
Also Published As
Publication number | Publication date |
---|---|
CN115631808A (zh) | 2023-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhao et al. | Essential protein discovery based on a combination of modularity and conservatism | |
CN107679367B (zh) | 一种基于网络节点关联度的共调控网络功能模块识别方法及系统 | |
Le et al. | Drug response prediction by globally capturing drug and cell line information in a heterogeneous network | |
Zhao et al. | RWLPAP: random walk for lncRNA-protein associations prediction | |
Guo et al. | A network integration method for deciphering the types of metabolic pathway of chemicals with heterogeneous information | |
Zaki et al. | Identifying protein complexes in protein-protein interaction data using graph convolutional network | |
Padovani de Souza et al. | Machine learning meets genome assembly | |
Ji et al. | Ant colony optimization with multi-agent evolution for detecting functional modules in protein-protein interaction networks | |
CN115631808B (zh) | 一种分子靶点快速预测及关联机理分析方法 | |
Agrawal et al. | A review on application of particle swarm optimization in bioinformatics | |
Bi | Deterministic local alignment methods improved by a simple genetic algorithm | |
CN110910952B (zh) | 一种利用化学反应策略预测基本蛋白质方法 | |
Tseng et al. | A unified approach to computational drug discovery | |
Girisha et al. | A comprehensive review of global alignment of multiple biological networks: background, applications and open issues | |
Chen et al. | Nrwrh for drug target prediction | |
Li et al. | A comparative study for identifying the chromosome-wide spatial clusters from high-throughput chromatin conformation capture data | |
Hashim et al. | Comparative analysis of DNA motif discovery algorithms: a systemic review | |
Al-Jumaily et al. | Examining multi-objective deep reinforcement learning frameworks for molecular design | |
Naseri et al. | Enhancing gene regulatory networks inference through hub-based data integration | |
Garmire et al. | Single cell analysis, what is in the future? | |
Ahmad | Enhanced prediction of A-to-I RNA editing sites using nucleotide compositions | |
Phogat et al. | A survey of Meta-heuristics Approaches for application in Genomic data | |
Rahman et al. | Analyzing Tumor Heterogeneity by Incorporating Long-Range Mutational Influences and Multiple Sample Data into Heterogeneity Factorial Hidden Markov Model | |
Liu et al. | Minimum functional length analysis of k-mer based on BPNN | |
Ding et al. | Dynamic model inference of gene regulatory network based on hybrid parallel genetic algorithm and threshold qualification method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |