CN109378081A - 一种乳腺癌疾病功能网络特征分析方法 - Google Patents
一种乳腺癌疾病功能网络特征分析方法 Download PDFInfo
- Publication number
- CN109378081A CN109378081A CN201811127250.6A CN201811127250A CN109378081A CN 109378081 A CN109378081 A CN 109378081A CN 201811127250 A CN201811127250 A CN 201811127250A CN 109378081 A CN109378081 A CN 109378081A
- Authority
- CN
- China
- Prior art keywords
- network
- drug
- node
- target spot
- relationship
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/40—ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- Data Mining & Analysis (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Biomedical Technology (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medicinal Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Toxicology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于乳腺癌疾病的功能网络特征分析方法。包括:(1)整合了多种关系网络,包括药物‑疾病网络、药物‑药物网络、药物‑靶点网络、靶点‑靶点网络,并对网络进行了一系列网络拓扑结构性分析。(2)基于乳腺癌功能网络的拓扑结构关系,挖掘出11种可描述药物‑靶点相互作用关系的特征信息。(3)开发了相关的乳腺癌功能网络特征提取工具。本发明方法针对药物重定位这一问题,建立了一种适合乳腺癌疾病特点的功能网络分析方法,并利用该方法预测其潜在靶点和药物新用途,获得了较好的预测效果。
Description
技术领域
本发明属于疾病功能网络特征分析技术领域,涉及一种乳腺癌疾病功能网络特征分析方法及其生物学用途。
背景技术
药物靶点通常是指那些与特定疾病或者病理状态有关、在体内能够被药物作用的生物大分子。发现和验证新的药物靶点是药物研发的第一步,也是新药创制进程中的主要瓶颈之一。而现有研究成果表明,目前市场上开发成功的药物靶点数目还不到500个,随着人类基因组计划的完成,越来越多的潜在候选药物靶点有望被发现。而阐明药物与疾病靶蛋白之间相互作用关系对于发现新的药物靶点和阐明药物作用的机制显得尤为重要。由于现有实验方法检测药物-靶点相互作用关系需要耗费大量的人力和财力,因此越来越多的研究人员尝试利用计算方法来预测这些潜在的药物-靶点相互作用关系。
在各种疾病中,癌症已经成为当今威胁人类的第一大杀手。近年来,癌症的发病率逐年上升。世界卫生组织相关报告资料表明,中国每年新发癌症病例达429万,占全球新发病例的20%,其中死亡281万例。由于人类平均寿命的延长,生活方式的改变以及环境等原因,如果没有进一步地有效抑制癌症的措施,预计到2020年每年将有2000万起新的癌症病例产生,而癌症患者死亡人数将突破1000万人。因此开展与癌症有关的药物或者靶点的研究对癌症的治疗有着重要的意义。国家癌症中心发布的《2017年中国肿瘤的现状和趋势》报告显示,乳腺癌发病率位列女性恶性肿瘤之首。英国《独立报》也指出,2000年至2013年,中国乳腺癌年平均增长率约3.5%,而美国同期下降了0.4%。一系列数据发人深思。尽管目前乳腺癌的分子靶向治疗不断取得新的进展,据报道在KEGG数据库中与乳腺癌相关的药物也有40多个。然而,分子靶向治疗对于乳腺癌患者五年生存率的改善尚未达到预期效果,尤其对于缺乏治疗靶点的三阴性乳腺癌患者。
很多研究表明,与某一种疾病有关的药物也可能对其它疾病产生作用,因此研究药物-肿瘤疾病之间的关系是目前肿瘤药物研发的一条重要途径。而从药物-疾病作用网络的角度进行研究,将有助于从系统角度理解疾病发生发展的生物学过程和活动规律。近年来的研究不断揭示了网络拓扑结构信息挖掘在预测乳腺癌药物作用靶点上的重要性。随着现代人工智能技术的不断发展,采用有效的计算方法提高乳腺癌功能网络预测的性能变成了可能。然而如何挖掘可表征药物-靶点作用对之间的特征信息,并将相关信息有效的融合起来一直是乳腺癌疾病网络功能挖掘预测的一个关键。因此,本发明提出一种基于乳腺癌的药物疾病功能网络分析方法以发现其潜在的药物新靶点。
发明内容
目前乳腺癌是严重危害广大女性朋友身心健康以及生命的疾病之一,所以有效识别乳腺癌疾病的新药物靶点对于临床治疗意义重大。本发明基于乳腺癌功能网络中节点之间的距离关系模型,提出了一种系统分析网络拓扑特征的方法;开发了一种新的网络特征提取工具,实现了对药物-疾病-靶点之间潜在关系的有效预测。
该方法首先基于路径相加法和路径相减法两种方法研究了药物与疾病之间的关系,预测出了一些可靠的药物-疾病关系对。然后整合了药物-药物网络关系、药物-靶点网络关系、靶点-靶点网络关系和药物-疾病网络关系,进而分析了药物-靶点网络的拓扑结构和可靠性,并提出了11种用来描述药物-靶点作用关系对的特征,最后基于统计排名算法预测了药物与靶点之间的关系。实验结果表明,该方法预测精度较高,鲁棒性好,可用来预测现有乳腺癌药物、疾病与靶点之间的潜在关系。该方法也可用于乳腺癌疾病的新药研发前评估及其它基础生物学研究用途。
本发明提出了一种基于乳腺癌疾病的功能网络特征分析方法,具体包括:
(1)构建与乳腺癌有关的药物-疾病网络关系图,首先计算药物-疾病网络节点之间的最短路径,然后利用路径相加法(PAM)和路径相减法(PSM)两种方法构建药物-疾病关系对的特征,最后结合支持向量机(SVM)分类器方法对药物-疾病关系对进行分类预测;
(2)构建与乳腺癌有关的药物-靶点网络关系图,首先将4种网络关系嵌入到同一网络中,并对该复合网络进行拓扑结构分析;然后根据网络节点之间的关系提出11种描述药物和靶点之间关系的网络结构特征,并根据特征的分布规律预测出具有潜在关系的药物-靶点关系对;
(3)根据4种网络关系(药物-药物网络、药物-靶点网络、靶点-靶点网络、药物-疾病网络),开发了一种网络拓扑特征提取工具;用户只需提交对应的网络关系矩阵就可获得乳腺癌疾病网络中的11种网络结构特征,以供后续进一步的功能分析。
本发明步骤(1)中,所述路径相加法PAM如下:网络M中的节点定义为N={n1,n,…,nv,v=p+q},对于一个受体-配体对pair<r,l>,受体r到任意节点ni的最短距离记为dri,配体l到任意节点ni的最短距离记为dli,dri和dli取自于矩阵Mf;用dri与dli的和描述一个受体-配体对和节点ni的亲密关系,则受体-配体关系对的第i维的特征表示为:
其中,p是网络中受体的个数,q是网络中配体的个数;i取值从1到v,MAX表示不存在路径。
本发明步骤(1)中,所述路径相减法PSM如下:对于一个受体-配体对pair<r,l>,受体r和配体l对节点ni有一个相近的距离,用dri与dli的差值描述受体r和配体l与节点ni关系的一致性,差值越小,一致性就越高。则受体-配体关系对的第i维的特征用公式表示为:
其中i取值从1到v,MAX表示不存在路径。
本发明步骤(2)中,所述4种网络关系为药物-靶点网络关系、药物-药物网络关系、靶点-靶点网络关系以及药物-疾病网络关系。
本发明步骤(2)中,所述药物-靶点网络关系为一个无向简单图G=(V,E),V和E代表了图G中的节点集合和边集合,其中,节点集合V表示为V=(v1,v2,…,vm);边集合E用0-1矩阵表示:E={ei,j|i≠j;i,j=1,2,…,m},如果vi和vj之间存在边,则ei,j=1,否则为0。
本发明步骤(2)中,所述拓扑结构分析有7种,具体如下:
(1)网络直径
网络直径D是指图G中所有节点对之间的最短路径长度的最大值,用如下公式表示:
D=Max{di,j|i≠j;i,j=1,2,...,m} (1)
其中di,j表示vi和vj之间的最短路径长度,m为节点的个数。因为获取的药物-靶点关系数据可能不完整,所以网络可能是一个非连通图。为了避免使用无穷大来描述网络直径,在非连通图中,常用其生成的最大连通子图的网络直径表示。
(2)特征路径长度
特征路径长度L是指图G中所有最短路径长度的平均值,用如下公式表示:
L=∑dd·f(d)/∑df(d) (2)
其中,f(d)表示长度为d的最短路径出现的频率。对于非连通图,它的特征路径长度表示为图中所有存在路径的节点对之间的路径长度的平均值。
(3)网络连通效率
网络连通效率E是一个描述网络中节点分离程度的指标,而且其不受网络中无穷大路径节点的影响,用如下公式表示:
从公式可知,0≤E≤1,当网络为全连通图时E为1,当网络中节点完全离散时E为0。网络连通效率E越大表明网络的连通性越好。
(4)网络的平均度
网络的平均度为所有节点度的平均值,其中图G某个节点v的度kv是指与该节点相连的边的个数,用如下公式表示:
(5)度的变化系数特征值
为了描述网络的异质程度,计算了度的变化系数特征值ξ,用如下公式表示:
其中,ki是节点vi的度,k是所有节点的平均度。
(6)聚集系数
设节点v的度为kv,与其邻接的kv个节点之间的实际存在的边个数为Ev,则节点v的聚集系数表示为:
节点的聚集系数描述了该节点的邻接节点之间的联系程度,整个网络的聚集系数为所有节点聚集系数的平均值,它体现了相互作用节点聚集成簇的整体趋势。
(7)网络结构熵
熵是系统能量分布均匀性的一种度量,可表示为物体所处状态是否稳定及系统变化的方向。系统能量分布越均匀则熵越大,反之熵越小。网络结构熵的计算过程如下:
首先对于一个含有m个节点无向图G,ki是节点vi的度,节点vi的重要度Ii为:
该无向图G的网络结构熵为:
当网络完全均匀时,即Ii=1/m,最大值Enmax为lnm;当网络为星型时,网络最不均匀,此时网络结构熵最小,最小值Enmin为ln4(m-1)/2。
为了消除节点数量对网络结构熵的影响,将网络结构熵进行归一化处理,归一化后的网络结构熵也称为标准网络结构熵,计算如下:
本发明步骤(2)中,所述11种描述药物和靶点之间关系的网络结构特征为:F1:di的靶点集合和tj之间共有的配体数;F2:di的靶点集合和tj之间存在PPI关系数;F3:di的靶点集合和tj的药物集合之间存在的DPI关系数;F4:di的靶点集合和tj的靶点集合之间存在的PPI关系数;F5:di的靶点集合和tj的靶点集合之间共有的配体数;F6:di的药物集合和tj之间存在的DPI关系数;F7:di的药物集合与tj的药物集合之间存在的DDI关系数;F8:di的药物集合与tj的药物集合之间共有的靶点数;F9:di的药物集合与tj的靶点集合之间存在的DPI关系数;F10:di和tj的药物集合之间共有的靶点数;F11:di和tj的药物集合之间共有的疾病数。
本发明步骤(3)中,所述网络特征提取工具包括特征描述窗口和特征计算窗口。
其中,所述特征计算窗口包括加载资源、特征计算和结果保存。
本发明由于采取以上技术方案,其具有以下特点:(1)将药物-药物网络关系、药物-靶点网络关系、靶点-靶点网络关系及药物-疾病网络关系,嵌入到同一个复合网络中,然后根据网络节点之间中的路径关系,提出了基于路径的构建药物-靶点关系对特征的方法,取得了良好的预测效果。(2)根据网络节点之间的关系提出了11种描述药物和靶点之间关系的网络结构特征,并根据特征的分布规律预测出了具有一些具有潜在关系的药物-靶点关系对。(3)部分预测出的药物-靶点相互作用对在相关文献中得到验证,可为后续的乳腺癌网络功能研究提供一些有价值的线索。
附图说明
图1所示为本发明方法中与乳腺癌有关的药物-疾病网络结构图。
图2所示为本发明方法中不同特征构建方法的比较。
图3所示为本发明方法中与乳腺癌有关的药物-靶点网络结构图。
图4所示为本发明方法中药物-靶点网络关系的路径分布图。
图5所示为本发明方法中随机移除一定比例的节点。
图6所示为本发明方法中按序移除一定比例的高度节点。
图7所示为本发明方法中正样本与负样本中特征值不为零的样本所占的比例图。
图8所示为本发明方法中药物和靶点之间的部分网络结构图。
图9所示为本发明方法中特征描述窗口。
图10所示为本发明方法中特征计算窗口。
图11所示为本发明方法中加载资源对话框一。
图12所示为本发明方法中加载资源对话框二。
图13所示为本发明方法中计算特征对话框一。
图14所示为本发明方法中计算特征对话框二。
具体实施方式
下面结合附图和实施例来进一步阐述本发明。一种乳腺癌疾病功能网络特征分析方法,包括:
1.与乳腺癌有关的药物-疾病网络关系预测
近年来,发现现有药物的新用途即药物的重定位研究已成为药物研发的一个新方向。本发明从药物-疾病网络关系挖掘的角度出发,结合本发明提出的网络路径相加法和路径相减法,利用已知的药物-疾病相互作用关系,对药物与疾病之间的关系进行了预测。
1.1数据集构建
本发明首先在KEGG数据库中获取了与乳腺癌有关的42种药物,这42种药物分别与52种疾病存在261种药物-疾病相互作用关系;另外,这42个药物之间对应了313个药物-药物之间的相互作用关系。图1给出了上述临床药物与疾病之间的网络结构图。其中椭圆形图标表示药物,矩形图标表示疾病。图1表明,药物相互作用网络中拓扑结构的模块紧密度是不一样的,因此,研究药物-疾病网络的拓扑结构和功能模块之间的相互交互规律将为新药物靶点的发现提供有价值的线索。
1.2特征构建方法
本发明提出了以下两种构建特征的方法:
(1)路径相加法(PathAdditionMethod,PAM)
网络M中的节点定义为N={n1,n,…,nv,v=p+q}(p是网络中受体的个数,q是网络中配体的个数)。对于一个受体-配体对pair<r,l>,受体r到任意节点ni的最短距离记为dri,配体l到任意节点ni的最短距离记为dli,dri和dli取自于矩阵Mf。本发明用dri与dli的和描述一个受体-配体对和节点ni的亲密关系,则受体-配体对的第i维的特征表示为:
其中i取值从1到v,MAX表示不存在路径。
(2)路径相减法(PathSubtractionMethod,PSM)
对于一个受体-配体对pair<r,l>,受体r和配体l可能对节点ni有一个相近的距离,本发明用dri与dli的差值描述受体r和配体l与节点ni关系的一致性。显然差值越小,一致性就越高。则受体-配体对的第i维的特征用公式表示为:
其中i取值从1到v,MAX表示不存在路径。
本发明通过上述两种特征构建方法描述了药物-靶点相互关系对与节点之间的关系,发现有作用关系的药物-靶点对和无作用关系的药物-靶点对与网络中的节点之间关系存在明显的差异性,即绝大多数的有作用关系的药物-靶点对的特征要比无作用关系的药物-靶点对的特征值要小,这表明有相互作用关系的药物-靶点对与网络中的节点的关系更亲密,也在一定程度上说明本发明构建的特征能很好地区分这两种类别。
1.3药物-疾病关系预测
本发明首先计算药物-疾病网络节点之间的最短路径,然后利用路径相加法(PAM)和路径相减法(PSM)构建药物-疾病关系对的特征,最后结合支持向量机(SVM)分类器,用10重交叉验证方法对药物-疾病作用关系对进行分类预测。在10重交叉验证的过程中,对径向基核函数所采用的参数c和g,采用网格遍历法进行寻优,c和g的寻找范围都为2i,i∈{-8,-7,…,7,8}。表1给出了PAM和PSM的性能比较结果,图2提供了PAM和PSM两种方法的ROC和PR曲线比较图。图2表明,本专利提出的两种方法的预测精度均可以达到95%左右,以上结果表明基于网络路径的思路挖掘药物-疾病之间的关系是有效可行的。
表1.基于PAM和PSM的药物-疾病关系预测结果
1.4预测结果
从表1可知PAM和PSM方法的预测结果准确率较高,ACC达到了95%左右,说明该方法可以很好地区分正负样本。表2列出了PAM方法预测的排名前20的关系对。其中同一个关系被PAM和PSM两种方法都预测出的有17对。说明这17对新的药物-疾病关系对具有一定的参考价值,可以作为研究人员后续生物学功能研究的对象。
表2.PAM方法预测的前20名药物-疾病作用关系对
Rank | Drug | Disease | P_score | F1 | F2 | Rank | Drug | Disease | P_score | F1 | F2 |
1 | D00951 | H00024 | 1.391 | 2 | 2 | 11 | D00491 | H00024 | 0.304 | 4 | 8 |
2 | D05333 | H00018 | 1.282 | 10 | 5 | 12 | D07974 | H00030 | 0.280 | 7 | 14 |
3 | D07866 | H00027 | 1.142 | 6 | 7 | 13 | D00168 | H00022 | 0.198 | 7 | 10 |
4 | D03899 | H00022 | 1.062 | 4 | 21 | 14 | D01309 | H00048 | 0.189 | 7 | 5 |
5 | D06409 | H00018 | 0.803 | 10 | 3 | 15 | D02131 | H00017 | 0.176 | 4 | 12 |
6 | D00554 | H00026 | 0.560 | 2 | 2 | 16 | D00573 | H00026 | 0.173 | 1 | 2 |
7 | D00168 | H00005 | 0.548 | 5 | 11 | 17 | D00584 | H00048 | 0.159 | 7 | 16 |
8 | D03899 | H00007 | 0.544 | 2 | 21 | 18 | D02131 | H00014 | 0.042 | 6 | 9 |
9 | D00554 | H00599 | 0.381 | 1 | 1 | 19 | D07760 | H00027 | 0.022 | 6 | 10 |
10 | D06399 | H00017 | 0.364 | 4 | 8 | 20 | D00208 | H00025 | 0.009 | 4 | 12 |
1.5网络特征分析
对于药物-疾病网络关系,本发明整合了药物-药物关系和药物-疾病关系两种网络关系。本发明对于一个药物-疾病关系对,提出了两种特征系数描述药物与疾病之间的关系。第一个特征为集合S与药物之间存在的药物-药物关系的个数,第二个特征为集合S与药物之间共同关联的疾病的个数,其中S为与一个疾病有关的药物集合。表3列出了所有正样本和负样本的两种特征的平均值比较结果。从表3中可以看出正样本和负样本之间的特征值存在较大的差异,即正样本的特征要明显高于负样本的特征值,说明正样本与网络的节点的关联更为复杂。而且PAM方法预测的前20的关系对的特征比负样本的特征也大很多,这在一定程度说明了预测结果的可靠性。
表3.不同样本的关系特征值分布情况
特征 | 正样本 | 负样本 | PAM(top20) |
集合S与药物之间存在的药物-药物关系数(F1) | 6.732 | 2.012 | 4.95 |
集合S与药物之间的共同关联的疾病个数(F2) | 12.226 | 2.822 | 8.95 |
同时,本发明使用AUC分值(AUC是ROC曲线下的面积)和AUPR分值(AUPR是精度-召回曲线下的面积)来评估现有方法的性能。本发明在统一的数据集中应用5重交叉验证(5-foldCrossValidation)计算不同特征下该方法的性能。此外,本发明还采用了Sensitivity、Specificity、ACC等指标进行评价。其中Sensitivity(Sn)是敏感性,计算公式为TP/(TP+FN);Specificity(Sp)是特异性,计算公式为TN/(TN+FP);ACC为准确率,计算公式为(TP+TN)/(TP+FP+TN+FN);TP,FP,TN,FN,分别是真阳性、假阳性、真阴性、假阴性的样本个数。
2. 2.与乳腺癌有关的药物-靶点网络关系预测
本发明首先将四种网络关系(药物-靶点网络关系、药物-药物网络关系、靶点-靶点网络关系以及药物-疾病网络关系)嵌入到同一网络中,并对网络进行了拓扑结构和可靠性分析;然后根据网络节点之间的关系提出了11种描述药物和靶点之间关系的网络结构特征,并根据特征的分布规律预测出具有潜在关系的药物-靶点关系对。
2.1数据集
在KEGG数据库中,与乳腺癌症有关的药物有42个,这42个药物与23个靶点存在94种药物-靶点作用关系;42个药物之间存在313个药物-药物作用关系;23个靶点之间存在29个靶点-靶点作用关系;另外通过数据库查询,本发明发现这42个药物和52疾病共存在261种关系。图3给出了一个药物-靶点作用关系的网络结构图。
2.2药物-靶点网络关系拓扑结构及可靠性分析
药物-靶点作用网络是一种具有重要生物学意义的生物网络,它可以表示为一个无向简单图G=(V,E),V和E代表了图G中的节点集合和边集合。其中节点集合V表示为V=(v1,v2,…,vm);边集合E用0-1矩阵表示:E={ei,j|i≠j;i,j=1,2,…,m},如果vi和vj之间存在边,则ei,j=1,否则为0。本发明引入在蛋白质网络关系用到的7种拓扑结构特征来分析药物-靶点网络关系的拓扑结构及网络可靠性,具体如下:
(1)网络直径
网络直径D是指图G中所有节点对之间的最短路径长度的最大值,用如下公式表示:
D=Max{di,j|i≠j;i,j=1,2,...,m} (1)
其中di,j表示vi和vj之间的最短路径长度,m为节点的个数。因为获取的药物-靶点关系数据可能不完整,所以网络可能是一个非连通图。为了避免使用无穷大来描述网络直径,在非连通图中,用其生成的最大连通子图的网络直径表示。
(2)特征路径长度
特征路径长度L是指图G中所有最短路径长度的平均值,用如下公式表示:
L=∑dd·f(d)/∑df(d) (2)
其中,f(d)表示长度为d的最短路径出现的频率。对于非连通图,它的特征路径长度表示为图中所有存在路径的节点对之间的路径长度的平均值。
(3)网络连通效率
网络连通效率E是一个描述网络中节点分离程度的指标,而且其不受网络中无穷大路径节点的影响,用如下公式表示:
从公式可知,0≤E≤1,当网络为全连通图时E为1,当网络中节点完全离散时E为0。网络连通效率E越大表明网络的连通性越好。
(4)网络的平均度
网络的平均度为所有节点度的平均值,其中图G某个节点v的度kv是指与该节点相连的边的个数,用如下公式表示:
(5)度的变化系数特征值
为了描述网络的异质程度,计算了度的变化系数特征值ξ,用如下公式表示:
其中,ki是节点vi的度,k是所有节点的平均度。
(6)聚集系数
设节点v的度为kv,与其邻接的kv个节点之间的实际存在的边个数为Ev,则节点v的聚集系数为:
节点的聚集系数描述了该节点的邻接节点之间的联系程度,整个网络的聚集系数为所有节点聚集系数的平均值,它体现了相互作用节点聚集成簇的整体趋势。
(7)网络结构熵
熵是系统能量分布均匀性的一种度量,可表示为物体所处状态是否稳定及系统变化的方向。系统能量分布越均匀,熵越大,反之熵越小。网络结构熵的计算过程如下:
首先对于一个含有m个节点无向图G,ki是节点vi的度,节点vi的重要度Ii为:
该无向图G的网络结构熵为:
有研究已经证明当网络完全均匀时,即Ii=1/m,最大值Enmax为lnm;当网络为星型时,网络最不均匀,此时网络结构熵最小,最小值Enmin为ln4(m-1)/2。
为了消除节点数量对网络结构熵的影响,将网络结构熵进行归一化处理,归一化后的网络结构熵也称为标准网络结构熵,计算如下:
2.3药物-靶点网络关系的拓扑结构特征分析
表4列出了含有不同关系的药物-靶点网络关系的特征信息,B表示网络中边的个数,D表示网络直径,L表示特征路径长度,E表示网络连通效率,K表示所有节点的平均度,C表示聚集系数,NE表示标准网络结构熵,ξ表示度的变化系数特征值。其中M0表示原始的药物-靶点网络关系,M1表示在M0中加入靶点-靶点关系后的药物-靶点网络,M2表示在M0中加入药物-药物关系后的药物-靶点网络,M3表示在M0中加入靶点-靶点和药物-药物关系后的药物-靶点网络,M4表示在M3中加入药物-疾病关系后的药物-靶点网络。由于网络M0只存在药物-靶点一种作用关系,所以网络M0的聚集系数C为0。
表4.含有不同关系的药物-靶点网络的拓扑结构特征
B | D | L | E | K | C | NE | ξ | |
M<sub>0</sub> | 94 | 4 | 1.709 | 0.037 | 2.892 | 0 | 0.268 | 712.13 |
M<sub>1</sub> | 123 | 7 | 3.273 | 0.138 | 3.785 | 0.317 | 0.298 | 748.741 |
M<sub>2</sub> | 407 | 7 | 2.652 | 0.246 | 12.523 | 0.509 | 0.289 | 727.939 |
M<sub>3</sub> | 436 | 5 | 2.359 | 0.262 | 13.415 | 0.575 | 0.232 | 648.629 |
M<sub>4</sub> | 697 | 4 | 2.357 | 0.239 | 11.915 | 0.583 | 0.307 | 1217.1 |
2.3.1网络连通和网络路径分析
从表5中可以看出,在网络M0中连通效率E比较低,而在M0加入新的关系后,连通效率有了很大的提高,这反映出增加新的关系后的网络有更多节点之间存在可达的路径,因此连通性更好。另外,不同的药物-靶点作用网络中的节点之间的特征路径长度L都要小于4,具有典型的小世界特性。不同类型的网络存在的可达路径节点之间的最短路径长度分布如图4,其中p(d)表示路径长度为d所占的比例。从图中可以看到除了网络M1外,其它网络的路径长度d为2的比例最高。
2.3.2网络度的分布特性
由表5可知,5个网络中的度的变化系数特征ξ都很高,说明了这些网络属于相当异质的网络,即网络中只有很少的节点拥有大量的连接,绝大部分的节点仅有少量的连接。5个网络中不同度的节点所占的比例如表5所示。从该表中看到,随着新关系的加入,药物-靶点网络含有节点度大的数量有所增加,但是仍然以度小于20的节点为主,在M4中这一比例约占65%。
表5.含有不同关系的药物-靶点网络中不同度的节点所占的比例
最大度 | k=1 | k<=5 | k<=10 | k<=15 | k>20 | |
M<sub>0</sub> | 9 | 25.86% | 84.48% | 1 | 1 | 0 |
M<sub>1</sub> | 15 | 22.41% | 68.97% | 94.83% | 1 | 0 |
M<sub>2</sub> | 39 | 9.23% | 49.23% | 55.38% | 63.08% | 26.15% |
M<sub>3</sub> | 39 | 6.15% | 35.38% | 50.77% | 63.08% | 26.15% |
M<sub>4</sub> | 53 | 1.54% | 30.77% | 50.77% | 56.92% | 35.38% |
2.4药物-靶点网络可靠性分析
本发明通过随机移除和按序移除两种操作来分析节点移除对网络可靠性的影响,具体操作如下:
(a)随机移除一定比例的节点,移除比例从0%到10%,按照2%比例递增;
(b)按序移除一定比例的高度节点,移除比例从0%到10%,按照2%比例递增。
以上两种操作对网络连通效率和标准网络结构熵的影响如图5和6。对于随机移除,
为了避免随机选择造成的偏差,本发明将此操作重复执行了20次,并取其平均结果为最终结果。
从图5可以发现,随机移除不同比例的节点对药物-靶点网络的连通效率和标准网络结构熵几乎没有影响。而按序移除高度的节点对药物-靶点网络的连通效率也几乎没有影响,但是按序移除高度节点后的标准网络结构熵有轻微地下降。所以,总体而言随机移除和按序移除对构建的药物-靶点网络的影响都很小,说明网络具有较强的抗攻击性,可靠性较高。这有利于通过挖掘药物-靶点网络中的拓扑结构特征,进而去分析网络中药物-靶点相互作用关系。
2.5特征构建
图3的药物-靶点网络结构图表明,每个节点都有与之相连的药物集合(与一个节点相连的所有药物)和靶点集合(与一个节点相连的所有靶点)。本发明在整合多种网络关系后,对于一个药物-靶点对pair<di,tj>,通过分析药物集合和靶点集合之间的关系,提出了11种特征系数来描述药物di和靶点tj之间的关系(表6)。其中PPI表示靶点-靶点关系,DPI表示药物-靶点作用关系,DDI表示药物-药物作用关系。
另外,本发明将有关系的药物-靶点作用关系对作为正样本,无关系的药物-靶点对作为负样本。对于11种特征系数,本发明统计了所有正样本和负样本的特征平均值以及存在这种特征的样本个数及比例(表7)。从表中可知,正样本在特征比例和平均值上明显高于负样本,说明这两种类别存在显著的差异。
表6. 11种用来描述药物-靶点对的关系特征系数
特征系数 | 描述 |
F1 | d<sub>i</sub>的靶点集合和t<sub>j</sub>之间共有的配体数 |
F2 | d<sub>i</sub>的靶点集合和t<sub>j</sub>之间存在PPI关系数 |
F3 | d<sub>i</sub>的靶点集合和t<sub>j</sub>的药物集合之间存在的DPI关系数 |
F4 | d<sub>i</sub>的靶点集合和t<sub>j</sub>的靶点集合之间存在的PPI关系数 |
F5 | d<sub>i</sub>的靶点集合和t<sub>j</sub>的靶点集合之间共有的配体数 |
F6 | d<sub>i</sub>的药物集合和t<sub>j</sub>之间存在的DPI关系数 |
F7 | d<sub>i</sub>的药物集合与t<sub>j</sub>的药物集合之间存在的DDI关系数 |
F8 | d<sub>i</sub>的药物集合与t<sub>j</sub>的药物集合之间共有的靶点数 |
F9 | d<sub>i</sub>的药物集合与t<sub>j</sub>的靶点集合之间存在的DPI关系数 |
F10 | d<sub>i</sub>和t<sub>j</sub>的药物集合之间共有的靶点数 |
F11 | d<sub>i</sub>和t<sub>j</sub>的药物集合之间共有的疾病数 |
表7.药物-靶点对的特征系数的分布情况
2.6特征分析
从表7的数据可知,在绝大部分的特征中,正样本与负样本之间的差异性明显,即正样本的平均特征要比负样本的平均特征要大,所占的比例要高。这说明正样本与网络中节点的连接更加密切和复杂。图7给出了正样本和负样本11种特征中不为零的药物-靶点关系对所占的比例分布图。
曾有研究人员通过计算基因网络关系的拓扑结构特征,将所有的基因根据特征值排序,然后统计排名高的基因中存在已知关系的比例,而且认为得分高且排名也很高的基因成为新致病基因的概率大。本发明也采用了类似的判定规则,即对所有的药物-靶点对统计了两个排名指标,第一个指标是每个药物-靶点关系对11种特征中不为0的个数,第二个指标是药物-靶点关系对的11种特征值之和。
根据计算的两个排名指标,本发明设定的排序规则为:首先所有的药物-靶点关系对按照存在的特征个数排名,然后特征个数相同的关系对再按照特征和排名。表8列出了排名前n个中存在已知关系的药物-靶点关系对的比例,其中前20个药物-靶点关系对全部是已知的关系对。本实验总共有94个已知的关系对,在排名前94的药物-靶点关系对中,已知的比例占到了64.89%。
表8.排名前n的关系对中存在已知关系的比例
Topn | 20 | 30 | 40 | 60 | 80 | 100 | 130 | 150 | 160 |
Percentage | 100% | 93.33% | 85% | 75% | 72.5% | 61% | 59.23% | 54% | 53.13% |
表9.预测的排名前10的药物-靶点关系对
Rank | Drug | Target | Mark | Rank | Drug | Target | Mark |
1 | D01061 | Q02880 | 6 | D01885 | P11387 | ||
2 | D01061 | P11388 | 7 | D02166 | P11387 | ||
3 | D01275 | P11387 | 8 | D07901 | P11387 | ||
4 | D02214 | P11387 | 9 | D00491 | P03372 | C | |
5 | D03899 | P11387 | C | 10 | D00951 | P03372 | C,D |
表9列出了预测的排名前10的未知关系对,在前10名中有三对已经在已知的数据库中得到了证实,其中在CHEMBL数据库查找用‘C’标记,在DrugBank数据库中查找用‘D’标记。
图8给出了排名前10的药物-靶点对中存在的已知关系的部分网络结构图,通过分析发现预测的结果与“相似的药物可能结合相似的靶点”的结论相吻合。例如,对被预测出存在关系的药物-靶点关系对<D03899,P11387>而言,因为药物D03899和靶点P11387都与P11388、D01061和Q02880存在相互作用关系,所以D03899和P11387存在相互作用关系的可能性就很大。
3.3.网络特征提取工具
基于以上结果,本发明根据4种网络关系(药物-药物网络、药物-靶点网络、靶点-靶点网络、药物-疾病网络),开发了一个网络特征提取工具。用户只需要提交对应的网络关系矩阵就可以获得这11种网络结构特征以供进一步的后续功能分析。
3.1特征描述窗口
本特征提取工具主要包括两个窗口(图9~10),第一个窗口用来描述每一个特征的具体含义;第二个窗口根据用户提交的资源信息,计算药物-靶点关系对的网络结构特征,并给出正样本(有关系对)和负样本(无关系对)之间的特征值比较结果。
3.2特征计算窗口
3.2.1加载资源
对计算特征涉及到的四种网络关系资源,用户点击对应的load按钮,会弹出打开文件对话框(如图11),然后选择要加载的文件,点击打开按钮。若加载成功会显示成功加载资源对话框,并且该文件的路径会在文本框中显示出来,以供用户验证是否选择了正确的文件(如图12);否则点击取消按钮,提示没有加载该资源。
3.2.2特征计算
网络特征提取工具提供了11种网络结构特征,用户通过选择下拉列表中的特征选项,然后点击compute按钮,程序就会自动计算每个药物-靶点关系对的特征值(如图13)。特征分析区域给出了正样本和负样本之间的特征差异比较,统计了所有正样本和负样本特征的平均值,以及样本中特征值不为零个数和比例,并且右边会显示正、负样本对应的比例的对比图,如图14所示。
3.2.3结果保存
本网络特征提取工具将所计算的特征结果保存到一个矩阵当中,该矩阵中第i行第j列的值表示第i个药物和第j个靶点组成的药物-靶点关系对的特征值。用户点击save按钮后,结果矩阵将保存到用户自定义的文件中。
本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下,本领域技术人员能够想到的变化和优点都被包括在本发明中,并且以所附的权利要求书为保护范围。
Claims (9)
1.一种基于乳腺癌的功能网络特征分析方法,其特征在于,具体包括:
步骤(1),构建与乳腺癌有关的药物-疾病网络关系图,首先计算药物-疾病网络节点之间的最短路径,然后利用路径相加法和路径相减法两种方法构建药物-疾病关系对的特征,最后结合支持向量机分类器方法对药物-疾病关系对进行分类预测;
步骤(2),构建与乳腺癌有关的药物-靶点相互作用网络关系图,首先将4种网络关系嵌入到同一网络中,并对该复合网络进行拓扑结构分析;然后根据网络节点之间的关系提出11种描述药物和靶点之间关系的网络结构特征,并根据特征的分布规律预测出具有潜在关系的药物-靶点对;
步骤(3),根据4种网络关系,开发了一种网络特征提取工具;用户只需提交对应的网络关系矩阵就可获得乳腺癌疾病网络中的11种网络结构特征,以供进一步的功能分析。
2.如权利要求1所述方法,其特征在于,步骤(1)中,所述路径相加法如下:网络M中的节点定义为N={n1,n,…,nv,v=p+q},对于一个受体-配体对pair<r,l>,受体r到任意节点ni的最短距离记为dri,配体l到任意节点ni的最短距离记为dli,dri和dli取自于矩阵Mf;用dri与dli的和描述一个受体-配体对和节点ni的亲密关系,则受体-配体对的第i维的特征表示为:
其中,p是网络中受体的个数,q是网络中配体的个数;i取值从1到v,MAX表示不存在路径。
3.如权利要求1所述方法,其特征在于,步骤(1)中,所述路径相减法描述如下:对于一个受体-配体关系对pair<r,l>,受体r和配体l对节点ni有一个相近的距离,用dri与dli的差值描述受体r和配体l与节点ni关系的一致性,差值越小,一致性就越高,则受体-配体关系对的第i维的特征用公式表示为:
其中,i取值从1到v,MAX表示不存在路径。
4.如权利要求1所述方法,其特征在于,步骤(2)中,所述4种网络关系为药物-靶点网络关系、药物-药物网络关系、靶点-靶点网络关系以及药物-疾病网络关系。
5.如权利要求1所述方法,其特征在于,步骤(2)中,所述药物-靶点网络关系为一个无向简单图G=(V,E),V和E代表了图G中的节点集合和边集合;其中,节点集合V表示为V=(v1,v2,…,vm);边集合E用0-1矩阵表示:E={ei,j|i≠j;i,j=1,2,…,m},如果vi和vj之间存在边,则ei,j=1,否则为0。
6.如权利要求1所述方法,其特征在于,步骤(2)中,网络拓扑结构分析包括7种:
(1)网络直径
网络直径D是指图G中所有节点对之间的最短路径长度的最大值,用如下公式表示:
D=Max{di,j|i≠j;i,j=1,2,...,m} (1)
其中di,j表示vi和vj之间的最短路径长度,m为节点的个数;若获取的药物-靶点关系数据不完整,网络可能是一个非连通图,在非连通图中,用其生成的最大连通子图的网络直径表示;
(2)特征路径长度
特征路径长度L是指图G中所有最短路径长度的平均值,用如下公式表示:
L=∑dd·f(d)/∑df(d) (2)
其中,f(d)表示长度为d的最短路径出现的频率;对于非连通图,它的特征路径长度表示为图中所有存在路径的节点对之间的路径长度的平均值;
(3)网络连通效率
网络连通效率E是一个描述网络中节点分离程度的指标,而且其不受网络中无穷大路径节点的影响,用如下公式表示:
从公式可知,0≤E≤1,当网络为全连通图时E为1,当网络中节点完全离散时E为0;网络连通效率E越大表明网络的连通性越好;
(4)网络的平均度
网络的平均度为所有节点度的平均值,其中图G某个节点v的度kv是指与该节点相连的边的个数,用如下公式表示:
(5)度的变化系数特征值
为了描述网络的异质程度,我们计算了度的变化系数特征值ξ,用如下公式表示:
其中,ki是节点vi的度,k是所有节点的平均度;
(6)聚集系数
设节点v的度为kv,与其邻接的kv个节点之间的实际存在的边个数为Ev,则节点v的聚集系数为:
节点的聚集系数描述了该节点的邻接节点之间的联系程度,整个网络的聚集系数为所有节点聚集系数的平均值,它体现了相互作用节点聚集成簇的整体趋势;
(7)网络结构熵
熵是系统能量分布均匀性的一种度量,可表示为物体所处状态是否稳定及系统变化的方向;系统能量分布越均匀,熵越大,反之熵越小;网络结构熵的计算过程如下:
首先对于一个含有m个节点无向图G,ki是节点vi的度,节点vi的重要度Ii为:
该无向图G的网络结构熵为:
当网络完全均匀时,即Ii=1/m,最大值Enmax为lnm;当网络为星型时,网络最不均匀,此时网络结构熵最小,最小值Enmin为ln4(m-1)/2;
为了消除节点数量对网络结构熵的影响,将网络结构熵进行归一化处理,归一化后的网络结构熵也称为标准网络结构熵,计算方法如下:
7.如权利要求1所述方法,其特征在于,步骤(2)中,所述11种描述药物和靶点之间关系的网络结构特征为:F1:di的靶点集合和tj之间共有的配体数;F2:di的靶点集合和tj之间存在PPI关系数;F3:di的靶点集合和tj的药物集合之间存在的DPI关系数;F4:di的靶点集合和tj的靶点集合之间存在的PPI关系数;F5:di的靶点集合和tj的靶点集合之间共有的配体数;F6:di的药物集合和tj之间存在的DPI关系数;F7:di的药物集合与tj的药物集合之间存在的DDI关系数;F8:di的药物集合与tj的药物集合之间共有的靶点数;F9:di的药物集合与tj的靶点集合之间存在的DPI关系数;F10:di和tj的药物集合之间共有的靶点数;F11:di和tj的药物集合之间共有的疾病数。
8.如权利要求1所述方法,其特征在于,步骤(3)中,所述网络特征提取工具包括特征描述窗口和特征计算窗口。
9.如权利要求8所述方法,其特征在于,所述特征计算窗口包括加载资源、特征计算和保存结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811127250.6A CN109378081A (zh) | 2018-09-27 | 2018-09-27 | 一种乳腺癌疾病功能网络特征分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811127250.6A CN109378081A (zh) | 2018-09-27 | 2018-09-27 | 一种乳腺癌疾病功能网络特征分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109378081A true CN109378081A (zh) | 2019-02-22 |
Family
ID=65402668
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811127250.6A Pending CN109378081A (zh) | 2018-09-27 | 2018-09-27 | 一种乳腺癌疾病功能网络特征分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109378081A (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103065066A (zh) * | 2013-01-22 | 2013-04-24 | 四川大学 | 基于药物组合网络的药物联合作用预测方法 |
-
2018
- 2018-09-27 CN CN201811127250.6A patent/CN109378081A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103065066A (zh) * | 2013-01-22 | 2013-04-24 | 四川大学 | 基于药物组合网络的药物联合作用预测方法 |
Non-Patent Citations (1)
Title |
---|
陶然: "G蛋白偶联受体-配体相互作用网络的预测方法及应用研究", 《中国优秀硕士学位论文全文数据库(医药卫生科技辑)》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Davis et al. | Multi-relational link prediction in heterogeneous information networks | |
Abualigah et al. | A novel hybridization strategy for krill herd algorithm applied to clustering techniques | |
Yang et al. | Predicting links in multi-relational and heterogeneous networks | |
Ji et al. | Machine learning for perturbational single-cell omics | |
Gan et al. | From ontology to semantic similarity: calculation of ontology-based semantic similarity | |
Davis et al. | Supervised methods for multi-relational link prediction | |
Wang et al. | Link prediction based on hyperbolic mapping with community structure for complex networks | |
Zhu et al. | Uncovering missing links with cold ends | |
CN105653846A (zh) | 基于集成的相似性度量和双向随机游走的药物重定位方法 | |
Drugan et al. | Feature selection for Bayesian network classifiers using the MDL-FS score | |
CN114566211B (zh) | 基于生物网络与机器学习的合成致死基因组合预测系统 | |
Lin et al. | An integer programming approach and visual analysis for detecting hierarchical community structures in social networks | |
Wang et al. | DLS: a link prediction method based on network local structure for predicting drug-protein interactions | |
Yu et al. | Protein complexes detection based on node local properties and gene expression in PPI weighted networks | |
Dong et al. | TSIFIM: A three-stage iterative framework for influence maximization in complex networks | |
Mao et al. | Understanding structure-based social network de-anonymization techniques via empirical analysis | |
Gao et al. | Link prediction based on linear dynamical response | |
Yang et al. | Link prediction in heterogeneous networks: Influence and time matters | |
Ruzgar et al. | Clustering based distributed phylogenetic tree construction | |
Li et al. | A malware detection model based on imbalanced heterogeneous graph embeddings | |
Wang et al. | An ensemble learning framework for detecting protein complexes from PPI networks | |
CN109378081A (zh) | 一种乳腺癌疾病功能网络特征分析方法 | |
Ceddia et al. | Non-negative matrix tri-factorization for data integration and network-based drug repositioning | |
Zhang et al. | Data mining methods in Omics-based biomarker discovery | |
US20220020454A1 (en) | Method for data processing to derive new drug candidate substance |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190222 |