CN112086187A

CN112086187A - 一种基于复杂网络的疾病进展路径挖掘方法

Info

Publication number: CN112086187A
Application number: CN202010971130.5A
Authority: CN
Inventors: 邱航; 罗林; 王利亚; 胡智栩; 周德嘉
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-09-16
Filing date: 2020-09-16
Publication date: 2020-12-15
Anticipated expiration: 2040-09-16
Also published as: CN112086187B

Abstract

本发明公开了一种基于复杂网络的疾病进展路径挖掘方法，基于临床诊疗数据、基因疾病关联数据和通路疾病关联数据，构建有向表型疾病网络、基于基因的疾病关联网络和基于通路的疾病关联网络，并对节点间的边权值加权求和得到有向的复杂疾病网络；基于病死率对复杂疾病网络进行分类，得到源疾病群和目标疾病群；采用双向最大平均权值路径算法，搜索源疾病到目标疾病的疾病进展路径；最后，计算疾病进展得分，量化疾病进展路径的相对重要性。本发明通过挖掘疾病发展路径，量化疾病进展路径相对重要性，找到存在显著统计学关系的疾病进展轨迹，为疾病预防提供支撑，从而对预防低死亡风险疾病发展成高死亡风险疾病的研究具有重要意义。

Description

一种基于复杂网络的疾病进展路径挖掘方法

技术领域

本发明属于网络科学和医学领域，具体涉及一种基于复杂网络的疾病进展路径挖掘方法。

背景技术

许多疾病之间没有明确的界限，疾病间可以通过多个维度关联。网络分析被认为是分析疾病间关系的有效方法，疾病网络可以全面、系统地阐释疾病之间的关系。近年来，国内外学者围绕基于基因、蛋白质数据的复杂生物网络和基于临床诊断信息的疾病表型网络展开了研究。从分子水平分析疾病与基因、蛋白质之间的关系，有助于发现疾病的发病机制；从临床角度，基于表型相似性对疾病进行系统分类，有助于促进疾病进展模式的识别。如何整合表型数据与分子疾病关联数据，构建复杂疾病网络，是亟待研究的一个关键问题。

进一步地，在疾病网络中，基于疾病之间的先后关系识别疾病进展模式，对预防疾病的并发症或发展成其他疾病具有重要意义。在庞大的疾病网络中，如何高效准确挖掘低风险疾病到高风险疾病具有显著统计学意义的疾病进展路径，是亟需解决的又一关键问题。

发明内容

针对现有技术中的上述不足，本发明提供的一种基于复杂网络的疾病进展路径挖掘方法解决了现有技术中存在的问题。

为了达到上述发明目的，本发明采用的技术方案为：一种基于复杂网络的疾病进展路径挖掘方法，包括以下步骤：

S1、采集临床诊疗数据，并根据临床诊疗数据中疾病患病率和共病信息构建有向表型疾病网络；

S2、采集基因-疾病关联数据，并根据基因-疾病关联数据构建基于基因的疾病关联网络；

S3、采集疾病通路数据，并根据疾病通路数据构建基于通路的疾病关联网络；

S4、将两两疾病之间的表型疾病网络边权值、基于基因的疾病关联网络边权值和基于通路的疾病关联网络边权值按网络权重相加，将边权值之和作为复杂疾病网络的边权值，构建有向的复杂疾病网络；

S5、将复杂疾病网络中疾病分为低风险、中风险和高风险三部分，设定低风险疾病为源疾病群和高风险疾病为目标疾病群；

S6、采用双向最大平均权值路径算法搜索源疾病群到目标疾病群的疾病进展路径；

S7、计算疾病进展路径的得分，选择得分最高的疾病进展路径，得到源疾病群到目标疾病群的病情进展路径挖掘结果。

进一步地，所述步骤S1包括以下分步骤：

S1.1、采集临床诊疗数据，筛选同一患者所患的全部疾病；

S1.2、根据疾病的患病率和共病信息，获取疾病d_i与疾病d_j的相对风险RR(d_i,d_j)为：

其中，i＝1,2,...,N，j＝1,2,...,N，N表示临床诊疗数据中疾病的总数，p(d_j|d_i)表示在患疾病d_i的情况下患疾病d_j的概率，

表示在不患疾病d_i的情况下患疾病d_j的概率；

S1.3、根据相对风险RR(d_i,d_j)，获取疾病d_i对疾病d_j的影响参数h(d_i,d_j)为：

S1.4、对影响参数h(d_i,d_j)进行标准化，得到疾病d_i对疾病d_j的影响程度值

为：

其中，C表示表型疾病网络；max_C表示表型疾病网络中，所有疾病对之间影响参数的最大值；

S1.5、将疾病作为网络节点和影响程度值作为两种疾病之间的边权值，得到有向的表型疾病网络。

进一步地，所述步骤S2包括以下分步骤：

S2.1、采集基因-疾病关联数据，并计算疾病d_i与疾病d_j之间的基因相似性

为：

其中，G表示基于基因的疾病关联网络，J()表示雅卡尔指数计算函数，

表示疾病d_i的基因集合，

表示疾病d_j的基因集合，

表示疾病d_i与疾病d_j之间的共同基因，

表示疾病d_i与疾病d_j的基因并集；

S2.2、将疾病作为网络节点和疾病间的基因相似性作为两种疾病之间的边权值，得到基于基因的疾病关联网络。

进一步地，所述步骤S3包括以下分步骤：

S3.1、采集疾病通路数据，并根据疾病通路数据获取疾病d_i与疾病d_j之间基于通路k的距离S_k(d_i,d_j)为：

其中，f_k(d_i,d_i)表示每个基因g与其他所有基因CG(k,d_i)-{g}的平均最短路径长度，CG(k,d_i)表示疾病d_i与通路k之间的共同基因集；f_k(d_j,d_j)表示基因q与其他所有基因CG(k,d_j)-{q}的平均最短路径长度，CG(k,d_j)表示疾病d_j与通路k之间的共同基因集；f_k(d_i,d_j)表示CG(k,d_i)中的节点到CG(k,d_j)中节点的平均最短路径长度；

S3.2、将距离S_k(d_i,d_j)进行标准化，获取标准化距离

为：

其中，

表示在通路k的基础上疾病d_i与疾病d_j之间的距离最小值，

表示在通路k的基础上疾病d_i与疾病d_j之间的距离最大值；

S3.3、将疾病作为网络节点，通过标准化距离

计算网络节点之间的边权值

为：

其中，P表示基于通路的疾病关联网络，k＝1,2,...,n，n表示通路的总数；

S3.4、根据网络节点以及网络节点之间对应的边权值，获取基于通路的疾病关联网络。

进一步地，所述步骤S4包括以下分步骤：

S4.1、分别设置表型疾病网络、基于基因的疾病关联网络和基于通路的疾病关联网络的权重为ω₁、ω₂和ω₃；

S4.2、将疾病d_i与疾病d_j之间的表型疾病网络边权值、基于基因的疾病关联网络边权值和基于通路的疾病关联网络边权值按网络权重相加，得到疾病d_i与疾病d_j在复杂疾病网络中的边权值w_i,j为：

S4.3、将疾病作为网络节点，并通过边权值获取复杂疾病网络。

进一步地，所述步骤S5中将复杂疾病网络中疾病分为低风险、中风险和高风险三部分的具体方法为：根据临床诊疗数据计算病死率，将病死率小于A的疾病分为低风险疾病，将病死率大于等于A且小于B的疾病分为中风险疾病，将病死率大于等于B的疾病分为高风险疾病。

进一步地，所述步骤S6中采用双向最大平均权值路径算法搜索源疾病群到目标疾病群的疾病进展路径的具体方法为：

S6.1、以源疾病群中疾病为起点，按照疾病进展方向搜索源疾病群中各个节点到非目标疾病群中各个节点的最大平均权值路径；

S6.2、以目标疾病群中疾病为起点，按照疾病进展方向反向搜索目标疾病群中各个节点到目标疾病群邻接点的最大平均权值路径；

S6.3、将源疾病群到非目标疾病群节点的最大平均权值路径和目标疾病群到目标疾病群邻接点的最大平均权值路径进行连接，得到源疾病群到目标疾病群的疾病进展路径。

进一步地，所述步骤S6.1包括以下分步骤：

S6.1.1、以源疾病d_Si为起点，按照疾病进展方向搜索源疾病d_Si到非目标疾病群

中疾病d_m的路径；

S6.1.2、根据路径，计算源疾病d_Si到非目标疾病群

中疾病d_m的最大平均权值δ(d_Si,d_m)为：

其中，a表示源疾病d_Si到非目标疾病群中疾病节点d_m的路径数，η_x(d_Si,d_m)表示源疾病d_Si到疾病节点d_m的第x条路径对应的各疾病间边权值集合，w^x表示各疾病间边权值集合η_x(d_Si,d_m)中的边权值，l_x(d_Si,d_m)表示源疾病d_Si到疾病节点d_m的第x条路径的步数，x＝1,2,...,a；

S6.1.3、记录源疾病d_Si到非目标疾病群中疾病节点d_m的最大平均权值对应路径φ(d_Si,d_m)为：

φ(d_Si,d_m)＝{d_Si,d₁,...,d_m-1,d_m}

其中，{d₁,...,d_m-1}表示最大平均权值对应路径上的疾病节点；

S6.1.4、以源疾病d_Si为起点，遍历所有非目标疾病群中疾病节点，得到源疾病d_Si到非目标疾病群的最大平均权值路径；

S6.1.5、使用步骤S6.1.1-S6.1.4的方法，遍历源疾病群中所有源疾病，得到源疾病群中各个节点到非目标疾病群中各个节点的最大平均权值路径。

进一步地，所述步骤S6.2包括以下分步骤：

S6.2.1、以目标疾病d_Tj为起点，按照疾病进展方向反向搜索目标疾病d_Tj到目标疾病群邻接点的路径，直至到达目标疾病群邻接点d_u；

S6.2.2、计算目标疾病d_Tj到目标疾病群邻接点d_u的最大平均权值δ(d_Tj,d_u)，并记录最大平均权值对应的路径为φ(d_Tj,d_u)，所述最大平均权值δ(d_Tj,d_u)为：

其中，o表示目标疾病d_Tj到目标疾病群邻接点d_u的路径数，η_f(d_Tj,d_u)表示目标疾病d_Tj到目标疾病群邻接点d_u的第f条路径对应的各疾病间边权值集合，w^f表示各疾病间边权值集合η_f(d_Tj,d_u)中的边权值，l_f(d_Tj,d_u)表示目标疾病d_Tj到目标疾病群邻接点d_u的第f条路径的步数，f＝1,2,...,o；

S6.2.3、以目标疾病d_Tj为起点，遍历所有目标疾病群邻接点，得到目标疾病d_Tj到所有目标疾病群邻接点的最大平均权值路径；

S6.2.4、使用步骤S6.2.1-S6.2.3的方法，遍历目标疾病群中的所有目标疾病，得到目标疾病群中各个节点到各个目标疾病群邻接点的最大平均权值路径。

进一步地，所述步骤S7中疾病进展路径的得分计算公式为：

其中，Score_y(d_Si,d_Tj)表示源疾病d_Si到目标疾病d_Tj经过目标疾病群邻接点y的疾病进展路径得分，η_y(d_Si,d_Tj)表示源疾病d_Si到目标疾病d_Tj经过目标疾病群邻接点y的路径对应的各疾病间边权值集合，w^y表示各疾病间边权值集合η_y(d_Si,d_Tj)中的边权值，l_y(d_Si,d_Tj)表示源疾病d_Si到目标疾病d_Tj经过目标疾病群邻接点y的路径的步数；

所述源疾病d_Si到目标疾病d_Tj经过目标疾病群邻接点y的路径具体为：φ_y(d_Si,d_Tj)＝{d_Si,d₁,…,d_y,…,d_T1′,d_Tj}。

本发明的有益效果为：

(1)本发明基于临床诊疗数据、基因疾病关联数据和通路疾病关联数据，构建有向的复杂疾病网络，从多个维度分析疾病间的影响关系，使结果更全面、更可靠。

(2)本发明采用双向最大平均权值路径算法，寻找源疾病群到目标疾病群的疾病进展路径，在准确识别低死亡风险疾病进展为高死亡风险疾病的同时，显著提高运行效率。

(3)本发明通过挖掘疾病发展路径，量化疾病进展路径相对重要性，找到存在显著统计学关系的疾病进展轨迹，为疾病预防提供支撑，从而对预防低死亡风险疾病发展成高死亡风险疾病的研究具有重要意义。

附图说明

图1为本发明提出的一种基于复杂网络的疾病进展路径挖掘方法流程图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

下面结合附图详细说明本发明的实施例。

如图1所示，一种基于复杂网络的疾病进展路径挖掘方法，包括以下步骤：

在本实施例中，疾病通路数据从京都基因与基因组百科全书(Kyotoencyclopedia of genes and genomes)中采集。

所述步骤S1包括以下分步骤：

S1.1、采集临床诊疗数据，筛选同一患者所患的全部疾病；

表示在不患疾病d_i的情况下患疾病d_j的概率；

为：

所述步骤S2包括以下分步骤：

为：

其中，G表示基于基因的疾病关联网络，J()表示雅卡尔指数计算函数，g_di表示疾病d_i的基因集合，

表示疾病d_j的基因集合，

表示疾病d_i与疾病d_j之间的共同基因，

表示疾病d_i与疾病d_j的基因并集；

所述步骤S3包括以下分步骤：

S3.2、将距离S_k(d_i,d_j)进行标准化，获取标准化距离

为：

其中，

表示在通路k的基础上疾病d_i与疾病d_j之间的距离最小值，

表示在通路k的基础上疾病d_i与疾病d_j之间的距离最大值；

S3.3、将疾病作为网络节点，通过标准化距离

计算网络节点之间的边权值

为：

所述步骤S4包括以下分步骤：

所述步骤S5中将复杂疾病网络中疾病分为低风险、中风险和高风险三部分的具体方法为：根据临床诊疗数据计算病死率，将病死率小于A的疾病分为低风险疾病，将病死率大于等于A且小于B的疾病分为中风险疾病，将病死率大于等于B的疾病分为高风险疾病。

所述步骤S6中采用双向最大平均权值路径算法搜索源疾病群到目标疾病群的疾病进展路径的具体方法为：

所述步骤S6.1包括以下分步骤：

中疾病d_m的路径；

S6.1.2、根据路径，计算源疾病d_Si到非目标疾病群

中疾病d_m的最大平均权值δ(d_Si,d_m)为：

φ(d_Si,d_m)＝{d_Si,d₁,...,d_m-1,d_m}

所述步骤S6.2包括以下分步骤：

在本实施例中，目标疾病群邻接点指目标疾病群的上一节点，节点与目标疾病群之间只有一条边。

所述步骤S7中疾病进展路径的得分计算公式为：

Claims

1.一种基于复杂网络的疾病进展路径挖掘方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于复杂网络的疾病进展路径挖掘方法，其特征在于，所述步骤S1包括以下分步骤：

S1.1、采集临床诊疗数据，筛选同一患者所患的全部疾病；

表示在不患疾病d_i的情况下患疾病d_j的概率；

为：

3.根据权利要求2所述的基于复杂网络的疾病进展路径挖掘方法，其特征在于，所述步骤S2包括以下分步骤：

为：

表示疾病d_i的基因集合，

表示疾病d_j的基因集合，

表示疾病d_i与疾病d_j之间的共同基因，

表示疾病d_i与疾病d_j的基因并集；

4.根据权利要求3所述的基于复杂网络的疾病进展路径挖掘方法，其特征在于，所述步骤S3包括以下分步骤：

S3.2、将距离S_k(d_i,d_j)进行标准化，获取标准化距离

为：

其中，

表示在通路k的基础上疾病d_i与疾病d_j之间的距离最小值，

表示在通路k的基础上疾病d_i与疾病d_j之间的距离最大值；

S3.3、将疾病作为网络节点，通过标准化距离

计算网络节点之间的边权值

为：

5.根据权利要求4所述的基于复杂网络的疾病进展路径挖掘方法，其特征在于，所述步骤S4包括以下分步骤：

6.根据权利要求1所述的基于复杂网络的疾病进展路径挖掘方法，其特征在于，所述步骤S5中将复杂疾病网络中疾病分为低风险、中风险和高风险三部分的具体方法为：根据临床诊疗数据计算病死率，将病死率小于A的疾病分为低风险疾病，将病死率大于等于A且小于B的疾病分为中风险疾病，将病死率大于等于B的疾病分为高风险疾病。

7.根据权利要求1所述的基于复杂网络的疾病进展路径挖掘方法，其特征在于，所述步骤S6中采用双向最大平均权值路径算法搜索源疾病群到目标疾病群的疾病进展路径的具体方法为：

8.根据权利要求7所述的基于复杂网络的疾病进展路径挖掘方法，其特征在于，所述步骤S6.1包括以下分步骤：

中疾病d_m的路径；

S6.1.2、根据路径，计算源疾病d_Si到非目标疾病群

中疾病d_m的最大平均权值δ(d_Si,d_m)为：

φ(d_Si,d_m)＝{d_Si,d₁,...,d_m-1,d_m}

9.根据权利要求8所述的基于复杂网络的疾病进展路径挖掘方法，其特征在于，所述步骤S6.2包括以下分步骤：

10.根据权利要求1所述的基于复杂网络的疾病进展路径挖掘方法，其特征在于，所述步骤S7中疾病进展路径的得分计算公式为：