CN108629159A - 一种用于发现阿尔兹海默症致病关键蛋白质的方法 - Google Patents
一种用于发现阿尔兹海默症致病关键蛋白质的方法 Download PDFInfo
- Publication number
- CN108629159A CN108629159A CN201810454364.5A CN201810454364A CN108629159A CN 108629159 A CN108629159 A CN 108629159A CN 201810454364 A CN201810454364 A CN 201810454364A CN 108629159 A CN108629159 A CN 108629159A
- Authority
- CN
- China
- Prior art keywords
- protein
- disease
- alzheimer
- matter
- albumen
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioethics (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Peptides Or Proteins (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种用于发现阿尔兹海默症致病关键蛋白质的方法,其步骤为:1)、收集阿尔兹海默症文献信息,建立文献数据库;2)、建立蛋白质词典;3)、从文献数据库中提取蛋白质的信息,建立蛋白质矩阵;4)、基于蛋白质矩阵,剔除在网络结构分中与其他蛋白质关联性较小于的蛋白质,得到矩阵中的蛋白质网络特征;5)、根据蛋白质网络特征,计算得到蛋白质社群结构;6)、在蛋白质社群结构中,算得到蛋白质相似性;7)、基于蛋白质相似性的结果,挖掘关键蛋白质。本发明通过上述方法,提供了一种研究效率高,节约生物实验成本的阿尔兹海默症致病关键蛋白质的发现方法。
Description
技术领域
本发明涉及生物学和医学领域,特别涉及一种数据挖掘方法,用于寻找可能导致阿尔兹海默症发生的关键蛋白质。本方法是理解阿尔兹海默症发生原因与机制的重要手段,亦是数据挖掘方法在生物学、医学方面的应用。
背景技术
阿尔茨海默症又称老年痴呆症,属于神经退行性疾病,通常表现为进行性记忆力减退和获得性知识丧失,乃至丧失生活自理能力,是威胁人类健康的重大疾病。阿尔茨海默症产生的原因与机制广受关注,某些蛋白质如β-淀粉样蛋白和Tau蛋白被认为是导致其发生的重要因素。围绕阿尔茨海默症致病蛋白质已开展大量研究,积累了大量实验数据。
但当前阿尔茨海默症发生机理尚不完全清楚,致病蛋白质之间如何发生相互作用进而导致疾病发生的过程未被充分揭示。如何利用大量实验数据、发现蛋白质相互作用网络,寻找关键致病蛋白质,是当前面临的重要挑战。
因此,建立一种用于发现阿尔兹海默症致病关键蛋白质的数据挖掘方法,对于揭示阿尔茨海默症发生机制,理解蛋白质与人类健康复杂关系,解决人类重大疾病方面具有重要意义。
发明内容
本发明的目的是针对阿尔兹海默症已有大量实验数据与文献报道,但致病蛋白质网络尚未被充分揭示的特点,提出一种数据挖掘方法,用于发现阿尔兹海默症致病关键蛋白质,为阿尔兹海默症机制研究及后续药物开发提供科学依据。
为了实现上述目的,本发明采用的技术方案为:一种用于发现阿尔兹海默症致病关键蛋白质的方法,其特征在于,其步骤为:
1)、收集阿尔兹海默症文献信息,建立文献数据库;
2)、建立蛋白质词典,具体包括有蛋白质名称,分类信息,及相互引用关系;
3)、从步骤1)中的文献数据库中提取蛋白质的信息,建立蛋白质矩阵,并以步骤2)中的蛋白质词典作为蛋白质矩阵的依据和标准;
4)、基于蛋白质矩阵,剔除在网络结构分中与其他蛋白质关联性较小于的蛋白质,计算得到矩阵中的蛋白质网络特征;
5)、根据蛋白质网络特征,以矩阵内蛋白质之间相互作用距离作为依据,计算得到蛋白质社群结构;
6)、在蛋白质社群结构中,依据节点相似性进行计算,得到蛋白质相似性;
7)、基于蛋白质相似性的结果,挖掘关键蛋白质。
步骤3)中具体为:利用蛋白质词典及文本数据挖掘方法,以在文本中同时出现2种及 2种以上蛋白质视为蛋白质共现作为依据,从步骤1)中的文献数据库中提取蛋白质的信息。
步骤4)中关联性较小于的蛋白质具体指处于蛋白质网络边缘的蛋白质。
本发明专利的有益效果为:
由于阿尔兹海默症相关蛋白质数量巨大,利用实验方法寻找关键蛋白质,带有一定的盲目性,本发明则可以提高研究针对性。在本发明方法提出的关键蛋白质基础上,开展实验研究,能避免在数千种蛋白质中进行实验,只需要在几种或者几十种蛋白质中开展实验,从而简化或者节省了相应的生物实验需要的大量人力和时间,有助于提高研究效率,节约成本。
附图说明
图1:实施例1中点中心度频度图。
具体实施方式
一种用于发现阿尔兹海默症致病关键蛋白质的方法,其特征在于,其步骤为:
1)、收集阿尔兹海默症文献信息,建立文献数据库;
2)、建立蛋白质词典,具体包括有蛋白质名称,分类信息,及相互引用关系;
3)、从步骤1)中的文献数据库中提取蛋白质的信息,具体为利用蛋白质词典及文本数据挖掘方法,以在文本中同时出现2种及2种以上蛋白质视为蛋白质共现作为依据,从步骤1)中的文献数据库中提取蛋白质的信息;之后,建立蛋白质矩阵,并以步骤2)中的蛋白质词典作为蛋白质矩阵的依据和标准;
4)、基于蛋白质矩阵,剔除在网络结构分中与其他蛋白质关联性较小于的蛋白质,关联性较小于的蛋白质具体指处于蛋白质网络边缘的蛋白质,之后,计算得到矩阵中的蛋白质网络特征;
5)、根据蛋白质网络特征,以矩阵内蛋白质之间相互作用距离作为依据,计算得到蛋白质社群结构;
6)、在蛋白质社群结构中,依据节点相似性进行计算,得到蛋白质相似性;
7)、基于蛋白质相似性的结果,挖掘关键蛋白质。
实施例1:阿尔兹海默症致病关键蛋白质研究
1)收集阿尔兹海默症相关文献,构建文献数据库
收集到27682篇阿尔兹海默症相关文献。标记结果以MEDLINE形式导出文件,文件内容主要包含题目、摘要、作者、文章发表时间等,然后经过Python编程处理,提取文章摘要信息,以27682篇文献摘要作为数据源。
2)构建蛋白质词典
构建的蛋白质词典具有58006个蛋白质的信息,包括蛋白质名称或描述,分类数据和引用信息等。
3)从文献数据库中提取蛋白质,构建蛋白质矩阵
利用Python编程技术,共挖掘到549个蛋白质的1061个相互作用,以此构建矩阵,矩阵维数为549*549。由于某些蛋白质与其他蛋白质不存在相互作用,即网络中蛋白质不连通。我们提取最大蛋白质网络,该蛋白质网络包括412个蛋白质,占全部网络蛋白质的75%。
4)基于上述矩阵,计算蛋白质网络特征
根据蛋白质矩阵,计算蛋白质网络特征。包括聚类系数(Ci)、点中心度(CD)。聚类系数是表示一个图形中节点聚集程度的系数。在节点数为N的网络中,某个节点的聚集系数定义为:对于节点Vi,其与k个邻点之间的实际连接数L与k个节点之间所有可能存在的连接数量的比值,k为节点周围的邻接节点数量。公式为(1)。该网络中聚类系数为 0.22,点中心度公式为(2),其中xij表示节点i与其他j个节点之间直接联系的数量。计算结果表明,点中心度在1到64之间,具体频度分布见图1。
5)计算蛋白质社群结构
利用贪心算法计算蛋白质相互作用的距离,寻找蛋白质社群结构。研究中的贪心算法包括2个阶段,第一阶段,去掉所有蛋白质网络中的边,以节点为基本社区单元,网络中的每个连通部分作为一个社区,将还未加入网络的边分别重新加回网络,每次加入一条边,如果加入网络的边连接了两个不同的社区,则合并两个社区,并计算形成新社区划分的模块度增量。选择使模块度增量最大或者减小最少的两个社区进行合并,,直到网络社区划分的模块度不再增长。第2个阶段,遍历每种社区划分对应的模块度值,选取模块度最大的社区划分作为网络的最优划分。本研究中模块度公式为Q=∑i(eii-ai 2)。ai=∑jeij,ai表示与社区i中节点相连的边占所有边的比例。eii表示社区内部的边的比例。本研究中,阿尔兹海默症蛋白质网络中共有23个社群。
6)计算蛋白质网络结构中的蛋白质相似性
利用节点相似性算法,计算蛋白质相似性。根据我们的算法,Keratin,type IIcytoskeletal 8与Urokinase plasminogen activator surface receptor具有最高的相似性。算法具体如下sim(x,y)=|Γ(x)∩Γ(y)|。式中,Γ(x)表示节点x的邻居节点集合,Γ(y)表示节点y的邻居节点集合,sim(x,y)表示节点x和节点y的相似性。
7)基于上述相似性结果,挖掘关键蛋白质。
根据相似性结果,发现尿激酶纤溶酶原激活物表面受体与角蛋白、T细胞受体相关的跨膜蛋白及白介素相关因子之间、白细胞介素相关因子与胱天蛋白酶-3、基序趋化因子、代谢型谷氨酸受体具有网络结构,其中存在潜在的关键蛋白质。
Claims (3)
1.一种用于发现阿尔兹海默症致病关键蛋白质的方法,其特征在于,其步骤为:
1)、收集阿尔兹海默症文献信息,建立文献数据库;
2)、建立蛋白质词典,具体包括有蛋白质名称,分类信息,及相互引用关系;
3)、从步骤1)中的文献数据库中提取蛋白质的信息,建立蛋白质矩阵,并以步骤2)中的蛋白质词典作为蛋白质矩阵的依据和标准;
4)、基于蛋白质矩阵,剔除在网络结构分中与其他蛋白质关联性较小于的蛋白质,计算得到矩阵中的蛋白质网络特征;
5)、根据蛋白质网络特征,以矩阵内蛋白质之间相互作用距离作为依据,计算得到蛋白质社群结构;
6)、在蛋白质社群结构中,依据节点相似性进行计算,得到蛋白质相似性;
7)、基于蛋白质相似性的结果,挖掘关键蛋白质。
2.权利要求1所述的一种用于发现阿尔兹海默症致病关键蛋白质的方法,其特征在于:步骤3)中具体为:利用蛋白质词典及文本数据挖掘方法,以在文本中同时出现2种及2种以上蛋白质视为蛋白质共现作为依据,从步骤1)中的文献数据库中提取蛋白质的信息。
3.权利要求1所述的一种用于发现阿尔兹海默症致病关键蛋白质的方法,其特征在于:步骤4)中关联性较小于的蛋白质具体指处于蛋白质网络边缘的蛋白质。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810454364.5A CN108629159B (zh) | 2018-05-14 | 2018-05-14 | 一种用于发现阿尔兹海默症致病关键蛋白质的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810454364.5A CN108629159B (zh) | 2018-05-14 | 2018-05-14 | 一种用于发现阿尔兹海默症致病关键蛋白质的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108629159A true CN108629159A (zh) | 2018-10-09 |
CN108629159B CN108629159B (zh) | 2021-11-26 |
Family
ID=63692995
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810454364.5A Active CN108629159B (zh) | 2018-05-14 | 2018-05-14 | 一种用于发现阿尔兹海默症致病关键蛋白质的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108629159B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111640468A (zh) * | 2020-05-18 | 2020-09-08 | 天士力国际基因网络药物创新中心有限公司 | 一种基于复杂网络筛选疾病相关蛋白的方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050137808A1 (en) * | 2003-12-18 | 2005-06-23 | Choi Jae H. | Method for conceptualizing protein interaction networks using gene ontology |
US20070072226A1 (en) * | 2005-09-27 | 2007-03-29 | Indiana University Research & Technology Corporation | Mining protein interaction networks |
CN104992078A (zh) * | 2015-06-17 | 2015-10-21 | 西安理工大学 | 一种基于语义密度的蛋白质网络复合物识别方法 |
CN105279397A (zh) * | 2015-10-26 | 2016-01-27 | 华东交通大学 | 一种识别蛋白质相互作用网络中关键蛋白质的方法 |
CN107784196A (zh) * | 2017-09-29 | 2018-03-09 | 陕西师范大学 | 基于人工鱼群优化算法识别关键蛋白质的方法 |
CN107885971A (zh) * | 2017-10-30 | 2018-04-06 | 陕西师范大学 | 采用改进花授粉算法识别关键蛋白质的方法 |
CN108009403A (zh) * | 2017-11-24 | 2018-05-08 | 中国地质大学(武汉) | 基于多源数据融合及多目标优化的蛋白质复合物识别方法 |
-
2018
- 2018-05-14 CN CN201810454364.5A patent/CN108629159B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050137808A1 (en) * | 2003-12-18 | 2005-06-23 | Choi Jae H. | Method for conceptualizing protein interaction networks using gene ontology |
US20070072226A1 (en) * | 2005-09-27 | 2007-03-29 | Indiana University Research & Technology Corporation | Mining protein interaction networks |
CN104992078A (zh) * | 2015-06-17 | 2015-10-21 | 西安理工大学 | 一种基于语义密度的蛋白质网络复合物识别方法 |
CN105279397A (zh) * | 2015-10-26 | 2016-01-27 | 华东交通大学 | 一种识别蛋白质相互作用网络中关键蛋白质的方法 |
CN107784196A (zh) * | 2017-09-29 | 2018-03-09 | 陕西师范大学 | 基于人工鱼群优化算法识别关键蛋白质的方法 |
CN107885971A (zh) * | 2017-10-30 | 2018-04-06 | 陕西师范大学 | 采用改进花授粉算法识别关键蛋白质的方法 |
CN108009403A (zh) * | 2017-11-24 | 2018-05-08 | 中国地质大学(武汉) | 基于多源数据融合及多目标优化的蛋白质复合物识别方法 |
Non-Patent Citations (7)
Title |
---|
OMIDI S ET AL: "MODA: an efficient algorithm for network motif discovery in biological networks", 《GENES & GENETIC SYSTEMS》 * |
徐煜宸等: "阿尔兹海默症发病相关蛋白互作网络构建与通路分析", 《HTTP://WWW.HANSPUB.ORG/JOURNAL/HJBMHTTPS://DOI.ORG/10.12677/HJBM.2018.82003》 * |
洪海燕: "基于PPI网络的关键蛋白质识别方法研究及应用", 《中国优秀硕士学位论文全文数据基础科学辑》 * |
王峘: "基于蛋白质网络的关键蛋白质识别方法研究", 《中国优秀硕士学位论文全文数据基础科学辑》 * |
王玙: "复杂网络社团检测算法及其应用研究", 《中国博士学位论文全文数据库基础科学辑》 * |
贾宁宁: "复杂网络中社团发现算法研究及应用", 《中国优秀硕士学位论文全文数据库基础科学辑》 * |
赵艳丽: "基于时序网络的蛋白质复合物挖掘与疾病基因预测研究", 《中国优秀硕士学位论文全文数据库医药卫生科技辑》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111640468A (zh) * | 2020-05-18 | 2020-09-08 | 天士力国际基因网络药物创新中心有限公司 | 一种基于复杂网络筛选疾病相关蛋白的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108629159B (zh) | 2021-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Anchang et al. | Visualization and cellular hierarchy inference of single-cell data using SPADE | |
Di Ieva et al. | Fractals in the neurosciences, part I: general principles and basic neurosciences | |
Zamora-López et al. | Graph analysis of cortical networks reveals complex anatomical communication substrate | |
CN108389614A (zh) | 基于图像分割与卷积神经网络构建医学影像图谱的方法 | |
Takeda et al. | Nanobiotechnology as an emerging research domain from nanotechnology: A bibliometric approach | |
Yang et al. | Multi-source transfer learning via ensemble approach for initial diagnosis of Alzheimer’s disease | |
CN109063094A (zh) | 一种建立中医药知识图谱的方法 | |
de Souza et al. | Collaborative Networks as a measure of the Innovation Systems in second-generation ethanol | |
Csősz et al. | Diagnostic survey of Malagasy Nesomyrmex species-groups and revision of hafahafa group species via morphology based cluster delimitation protocol | |
Role et al. | Beyond cluster labeling: Semantic interpretation of clusters’ contents using a graph representation | |
David et al. | On the incompressible limit for a tumour growth model incorporating convective effects | |
Xu et al. | Attention-based pyramid network for segmentation and classification of high-resolution and hyperspectral remote sensing images | |
CN112466462A (zh) | 一种基于图深度学习的emr信息关联及演化方法 | |
CN110970112A (zh) | 一种面向营养健康的知识图谱构建方法和系统 | |
Kastrin et al. | Disentangling the evolution of MEDLINE bibliographic database: A complex network perspective | |
CN108629159A (zh) | 一种用于发现阿尔兹海默症致病关键蛋白质的方法 | |
Chaari et al. | Multigraph classification using learnable integration network with application to gender fingerprinting | |
Liu et al. | Inter-patient congestive heart failure detection using ECG-convolution-vision transformer network | |
Gao et al. | Research on Image Classification and Retrieval Using Deep Learning with Attention Mechanism on Diaspora Chinese Architectural Heritage in Jiangmen, China | |
Bonkra et al. | Scientific landscape and the road ahead for deep learning: apple leaves disease detection | |
Li et al. | Common pests classification based on asymmetric convolution enhance depthwise separable neural network | |
Meyers et al. | Cross-recurrence analysis for pattern matching of multidimensional physiological signals | |
Janiszewska et al. | Skeletal ontogeny in basal scleractinian micrabaciid corals | |
Wang et al. | A Plant Disease Classification Algorithm Based on Attention MobileNet V2 | |
Hu et al. | A method of biomedical knowledge discovery by literature mining based on SPO predications: a case study of induced pluripotent stem cells |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |