CN112086187B - 一种基于复杂网络的疾病进展路径挖掘方法 - Google Patents
一种基于复杂网络的疾病进展路径挖掘方法 Download PDFInfo
- Publication number
- CN112086187B CN112086187B CN202010971130.5A CN202010971130A CN112086187B CN 112086187 B CN112086187 B CN 112086187B CN 202010971130 A CN202010971130 A CN 202010971130A CN 112086187 B CN112086187 B CN 112086187B
- Authority
- CN
- China
- Prior art keywords
- disease
- path
- network
- target
- group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 570
- 201000010099 disease Diseases 0.000 title claims abstract description 567
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000005065 mining Methods 0.000 title claims abstract description 19
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 57
- 230000037361 pathway Effects 0.000 claims abstract description 44
- 206010061818 Disease progression Diseases 0.000 claims abstract description 43
- 230000005750 disease progression Effects 0.000 claims abstract description 43
- 238000003759 clinical diagnosis Methods 0.000 claims abstract description 17
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 244000052769 pathogen Species 0.000 claims description 6
- 208000035475 disorder Diseases 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 230000006806 disease prevention Effects 0.000 abstract description 2
- 230000002265 prevention Effects 0.000 abstract description 2
- 102000004169 proteins and genes Human genes 0.000 description 2
- 208000024556 Mendelian disease Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000003012 network analysis Methods 0.000 description 1
- 230000008506 pathogenesis Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种基于复杂网络的疾病进展路径挖掘方法,基于临床诊疗数据、基因疾病关联数据和通路疾病关联数据,构建有向表型疾病网络、基于基因的疾病关联网络和基于通路的疾病关联网络,并对节点间的边权值加权求和得到有向的复杂疾病网络;基于病死率对复杂疾病网络进行分类,得到源疾病群和目标疾病群;采用双向最大平均权值路径算法,搜索源疾病到目标疾病的疾病进展路径;最后,计算疾病进展得分,量化疾病进展路径的相对重要性。本发明通过挖掘疾病发展路径,量化疾病进展路径相对重要性,找到存在显著统计学关系的疾病进展轨迹,为疾病预防提供支撑,从而对预防低死亡风险疾病发展成高死亡风险疾病的研究具有重要意义。
Description
技术领域
本发明属于网络科学和医学领域,具体涉及一种基于复杂网络的疾病进展路径挖掘方法。
背景技术
许多疾病之间没有明确的界限,疾病间可以通过多个维度关联。网络分析被认为是分析疾病间关系的有效方法,疾病网络可以全面、系统地阐释疾病之间的关系。近年来,国内外学者围绕基于基因、蛋白质数据的复杂生物网络和基于临床诊断信息的疾病表型网络展开了研究。从分子水平分析疾病与基因、蛋白质之间的关系,有助于发现疾病的发病机制;从临床角度,基于表型相似性对疾病进行系统分类,有助于促进疾病进展模式的识别。如何整合表型数据与分子疾病关联数据,构建复杂疾病网络,是亟待研究的一个关键问题。
进一步地,在疾病网络中,基于疾病之间的先后关系识别疾病进展模式,对预防疾病的并发症或发展成其他疾病具有重要意义。在庞大的疾病网络中,如何高效准确挖掘低风险疾病到高风险疾病具有显著统计学意义的疾病进展路径,是亟需解决的又一关键问题。
发明内容
针对现有技术中的上述不足,本发明提供的一种基于复杂网络的疾病进展路径挖掘方法解决了现有技术中存在的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种基于复杂网络的疾病进展路径挖掘方法,包括以下步骤:
S1、采集临床诊疗数据,并根据临床诊疗数据中疾病患病率和共病信息构建有向表型疾病网络;
S2、采集基因-疾病关联数据,并根据基因-疾病关联数据构建基于基因的疾病关联网络;
S3、采集疾病通路数据,并根据疾病通路数据构建基于通路的疾病关联网络;
S4、将两两疾病之间的表型疾病网络边权值、基于基因的疾病关联网络边权值和基于通路的疾病关联网络边权值按网络权重相加,将边权值之和作为复杂疾病网络的边权值,构建有向的复杂疾病网络;
S5、将复杂疾病网络中疾病分为低风险、中风险和高风险三部分,设定低风险疾病为源疾病群和高风险疾病为目标疾病群;
S6、采用双向最大平均权值路径算法搜索源疾病群到目标疾病群的疾病进展路径;
S7、计算疾病进展路径的得分,选择得分最高的疾病进展路径,得到源疾病群到目标疾病群的病情进展路径挖掘结果。
进一步地,所述步骤S1包括以下分步骤:
S1.1、采集临床诊疗数据,筛选同一患者所患的全部疾病;
S1.2、根据疾病的患病率和共病信息,获取疾病di与疾病dj的相对风险RR(di,dj)为:
S1.3、根据相对风险RR(di,dj),获取疾病di对疾病dj的影响参数h(di,dj)为:
其中,C表示表型疾病网络;maxC表示表型疾病网络中,所有疾病对之间影响参数的最大值;
S1.5、将疾病作为网络节点和影响程度值作为两种疾病之间的边权值,得到有向的表型疾病网络。
进一步地,所述步骤S2包括以下分步骤:
S2.2、将疾病作为网络节点和疾病间的基因相似性作为两种疾病之间的边权值,得到基于基因的疾病关联网络。
进一步地,所述步骤S3包括以下分步骤:
S3.1、采集疾病通路数据,并根据疾病通路数据获取疾病di与疾病dj之间基于通路k的距离Sk(di,dj)为:
其中,fk(di,di)表示每个基因g与其他所有基因CG(k,di)-{g}的平均最短路径长度,CG(k,di)表示疾病di与通路k之间的共同基因集;fk(dj,dj)表示基因q与其他所有基因CG(k,dj)-{q}的平均最短路径长度,CG(k,dj)表示疾病dj与通路k之间的共同基因集;fk(di,dj)表示CG(k,di)中的节点到CG(k,dj)中节点的平均最短路径长度;
其中,P表示基于通路的疾病关联网络,k=1,2,...,n,n表示通路的总数;
S3.4、根据网络节点以及网络节点之间对应的边权值,获取基于通路的疾病关联网络。
进一步地,所述步骤S4包括以下分步骤:
S4.1、分别设置表型疾病网络、基于基因的疾病关联网络和基于通路的疾病关联网络的权重为ω1、ω2和ω3;
S4.2、将疾病di与疾病dj之间的表型疾病网络边权值、基于基因的疾病关联网络边权值和基于通路的疾病关联网络边权值按网络权重相加,得到疾病di与疾病dj在复杂疾病网络中的边权值wi,j为:
S4.3、将疾病作为网络节点,并通过边权值获取复杂疾病网络。
进一步地,所述步骤S5中将复杂疾病网络中疾病分为低风险、中风险和高风险三部分的具体方法为:根据临床诊疗数据计算病死率,将病死率小于A的疾病分为低风险疾病,将病死率大于等于A且小于B的疾病分为中风险疾病,将病死率大于等于B的疾病分为高风险疾病。
进一步地,所述步骤S6中采用双向最大平均权值路径算法搜索源疾病群到目标疾病群的疾病进展路径的具体方法为:
S6.1、以源疾病群中疾病为起点,按照疾病进展方向搜索源疾病群中各个节点到非目标疾病群中各个节点的最大平均权值路径;
S6.2、以目标疾病群中疾病为起点,按照疾病进展方向反向搜索目标疾病群中各个节点到目标疾病群邻接点的最大平均权值路径;
S6.3、将源疾病群到非目标疾病群节点的最大平均权值路径和目标疾病群到目标疾病群邻接点的最大平均权值路径进行连接,得到源疾病群到目标疾病群的疾病进展路径。
进一步地,所述步骤S6.1包括以下分步骤:
其中,a表示源疾病dSi到非目标疾病群中疾病节点dm的路径数,ηx(dSi,dm)表示源疾病dSi到疾病节点dm的第x条路径对应的各疾病间边权值集合,wx表示各疾病间边权值集合ηx(dSi,dm)中的边权值,lx(dSi,dm)表示源疾病dSi到疾病节点dm的第x条路径的步数,x=1,2,...,a;
S6.1.3、记录源疾病dSi到非目标疾病群中疾病节点dm的最大平均权值对应路径φ(dSi,dm)为:
φ(dSi,dm)={dSi,d1,...,dm-1,dm}
其中,{d1,...,dm-1}表示最大平均权值对应路径上的疾病节点;
S6.1.4、以源疾病dSi为起点,遍历所有非目标疾病群中疾病节点,得到源疾病dSi到非目标疾病群的最大平均权值路径;
S6.1.5、使用步骤S6.1.1-S6.1.4的方法,遍历源疾病群中所有源疾病,得到源疾病群中各个节点到非目标疾病群中各个节点的最大平均权值路径。
进一步地,所述步骤S6.2包括以下分步骤:
S6.2.1、以目标疾病dTj为起点,按照疾病进展方向反向搜索目标疾病dTj到目标疾病群邻接点的路径,直至到达目标疾病群邻接点du;
S6.2.2、计算目标疾病dTj到目标疾病群邻接点du的最大平均权值δ(dTj,du),并记录最大平均权值对应的路径为φ(dTj,du),所述最大平均权值δ(dTj,du)为:
其中,o表示目标疾病dTj到目标疾病群邻接点du的路径数,ηf(dTj,du)表示目标疾病dTj到目标疾病群邻接点du的第f条路径对应的各疾病间边权值集合,wf表示各疾病间边权值集合ηf(dTj,du)中的边权值,lf(dTj,du)表示目标疾病dTj到目标疾病群邻接点du的第f条路径的步数,f=1,2,...,o;
S6.2.3、以目标疾病dTj为起点,遍历所有目标疾病群邻接点,得到目标疾病dTj到所有目标疾病群邻接点的最大平均权值路径;
S6.2.4、使用步骤S6.2.1-S6.2.3的方法,遍历目标疾病群中的所有目标疾病,得到目标疾病群中各个节点到各个目标疾病群邻接点的最大平均权值路径。
进一步地,所述步骤S7中疾病进展路径的得分计算公式为:
其中,Scorey(dSi,dTj)表示源疾病dSi到目标疾病dTj经过目标疾病群邻接点y的疾病进展路径得分,ηy(dSi,dTj)表示源疾病dSi到目标疾病dTj经过目标疾病群邻接点y的路径对应的各疾病间边权值集合,wy表示各疾病间边权值集合ηy(dSi,dTj)中的边权值,ly(dSi,dTj)表示源疾病dSi到目标疾病dTj经过目标疾病群邻接点y的路径的步数;
所述源疾病dSi到目标疾病dTj经过目标疾病群邻接点y的路径具体为:φy(dSi,dTj)={dSi,d1,…,dy,…,dT1′,dTj}。
本发明的有益效果为:
(1)本发明基于临床诊疗数据、基因疾病关联数据和通路疾病关联数据,构建有向的复杂疾病网络,从多个维度分析疾病间的影响关系,使结果更全面、更可靠。
(2)本发明采用双向最大平均权值路径算法,寻找源疾病群到目标疾病群的疾病进展路径,在准确识别低死亡风险疾病进展为高死亡风险疾病的同时,显著提高运行效率。
(3)本发明通过挖掘疾病发展路径,量化疾病进展路径相对重要性,找到存在显著统计学关系的疾病进展轨迹,为疾病预防提供支撑,从而对预防低死亡风险疾病发展成高死亡风险疾病的研究具有重要意义。
附图说明
图1为本发明提出的一种基于复杂网络的疾病进展路径挖掘方法流程图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
下面结合附图详细说明本发明的实施例。
如图1所示,一种基于复杂网络的疾病进展路径挖掘方法,包括以下步骤:
S1、采集临床诊疗数据,并根据临床诊疗数据中疾病患病率和共病信息构建有向表型疾病网络;
S2、采集基因-疾病关联数据,并根据基因-疾病关联数据构建基于基因的疾病关联网络;
S3、采集疾病通路数据,并根据疾病通路数据构建基于通路的疾病关联网络;
S4、将两两疾病之间的表型疾病网络边权值、基于基因的疾病关联网络边权值和基于通路的疾病关联网络边权值按网络权重相加,将边权值之和作为复杂疾病网络的边权值,构建有向的复杂疾病网络;
S5、将复杂疾病网络中疾病分为低风险、中风险和高风险三部分,设定低风险疾病为源疾病群和高风险疾病为目标疾病群;
S6、采用双向最大平均权值路径算法搜索源疾病群到目标疾病群的疾病进展路径;
S7、计算疾病进展路径的得分,选择得分最高的疾病进展路径,得到源疾病群到目标疾病群的病情进展路径挖掘结果。
在本实施例中,疾病通路数据从京都基因与基因组百科全书(Kyotoencyclopedia of genes and genomes)中采集。
所述步骤S1包括以下分步骤:
S1.1、采集临床诊疗数据,筛选同一患者所患的全部疾病;
S1.2、根据疾病的患病率和共病信息,获取疾病di与疾病dj的相对风险RR(di,dj)为:
S1.3、根据相对风险RR(di,dj),获取疾病di对疾病dj的影响参数h(di,dj)为:
其中,C表示表型疾病网络;maxC表示表型疾病网络中,所有疾病对之间影响参数的最大值;
S1.5、将疾病作为网络节点和影响程度值作为两种疾病之间的边权值,得到有向的表型疾病网络。
所述步骤S2包括以下分步骤:
S2.2、将疾病作为网络节点和疾病间的基因相似性作为两种疾病之间的边权值,得到基于基因的疾病关联网络。
所述步骤S3包括以下分步骤:
S3.1、采集疾病通路数据,并根据疾病通路数据获取疾病di与疾病dj之间基于通路k的距离Sk(di,dj)为:
其中,fk(di,di)表示每个基因g与其他所有基因CG(k,di)-{g}的平均最短路径长度,CG(k,di)表示疾病di与通路k之间的共同基因集;fk(dj,dj)表示基因q与其他所有基因CG(k,dj)-{q}的平均最短路径长度,CG(k,dj)表示疾病dj与通路k之间的共同基因集;fk(di,dj)表示CG(k,di)中的节点到CG(k,dj)中节点的平均最短路径长度;
其中,P表示基于通路的疾病关联网络,k=1,2,...,n,n表示通路的总数;
S3.4、根据网络节点以及网络节点之间对应的边权值,获取基于通路的疾病关联网络。
所述步骤S4包括以下分步骤:
S4.1、分别设置表型疾病网络、基于基因的疾病关联网络和基于通路的疾病关联网络的权重为ω1、ω2和ω3;
S4.2、将疾病di与疾病dj之间的表型疾病网络边权值、基于基因的疾病关联网络边权值和基于通路的疾病关联网络边权值按网络权重相加,得到疾病di与疾病dj在复杂疾病网络中的边权值wi,j为:
S4.3、将疾病作为网络节点,并通过边权值获取复杂疾病网络。
所述步骤S5中将复杂疾病网络中疾病分为低风险、中风险和高风险三部分的具体方法为:根据临床诊疗数据计算病死率,将病死率小于A的疾病分为低风险疾病,将病死率大于等于A且小于B的疾病分为中风险疾病,将病死率大于等于B的疾病分为高风险疾病。
所述步骤S6中采用双向最大平均权值路径算法搜索源疾病群到目标疾病群的疾病进展路径的具体方法为:
S6.1、以源疾病群中疾病为起点,按照疾病进展方向搜索源疾病群中各个节点到非目标疾病群中各个节点的最大平均权值路径;
S6.2、以目标疾病群中疾病为起点,按照疾病进展方向反向搜索目标疾病群中各个节点到目标疾病群邻接点的最大平均权值路径;
S6.3、将源疾病群到非目标疾病群节点的最大平均权值路径和目标疾病群到目标疾病群邻接点的最大平均权值路径进行连接,得到源疾病群到目标疾病群的疾病进展路径。
所述步骤S6.1包括以下分步骤:
其中,a表示源疾病dSi到非目标疾病群中疾病节点dm的路径数,ηx(dSi,dm)表示源疾病dSi到疾病节点dm的第x条路径对应的各疾病间边权值集合,wx表示各疾病间边权值集合ηx(dSi,dm)中的边权值,lx(dSi,dm)表示源疾病dSi到疾病节点dm的第x条路径的步数,x=1,2,...,a;
S6.1.3、记录源疾病dSi到非目标疾病群中疾病节点dm的最大平均权值对应路径φ(dSi,dm)为:
φ(dSi,dm)={dSi,d1,...,dm-1,dm}
其中,{d1,...,dm-1}表示最大平均权值对应路径上的疾病节点;
S6.1.4、以源疾病dSi为起点,遍历所有非目标疾病群中疾病节点,得到源疾病dSi到非目标疾病群的最大平均权值路径;
S6.1.5、使用步骤S6.1.1-S6.1.4的方法,遍历源疾病群中所有源疾病,得到源疾病群中各个节点到非目标疾病群中各个节点的最大平均权值路径。
所述步骤S6.2包括以下分步骤:
S6.2.1、以目标疾病dTj为起点,按照疾病进展方向反向搜索目标疾病dTj到目标疾病群邻接点的路径,直至到达目标疾病群邻接点du;
S6.2.2、计算目标疾病dTj到目标疾病群邻接点du的最大平均权值δ(dTj,du),并记录最大平均权值对应的路径为φ(dTj,du),所述最大平均权值δ(dTj,du)为:
其中,o表示目标疾病dTj到目标疾病群邻接点du的路径数,ηf(dTj,du)表示目标疾病dTj到目标疾病群邻接点du的第f条路径对应的各疾病间边权值集合,wf表示各疾病间边权值集合ηf(dTj,du)中的边权值,lf(dTj,du)表示目标疾病dTj到目标疾病群邻接点du的第f条路径的步数,f=1,2,...,o;
S6.2.3、以目标疾病dTj为起点,遍历所有目标疾病群邻接点,得到目标疾病dTj到所有目标疾病群邻接点的最大平均权值路径;
S6.2.4、使用步骤S6.2.1-S6.2.3的方法,遍历目标疾病群中的所有目标疾病,得到目标疾病群中各个节点到各个目标疾病群邻接点的最大平均权值路径。
在本实施例中,目标疾病群邻接点指目标疾病群的上一节点,节点与目标疾病群之间只有一条边。
所述步骤S7中疾病进展路径的得分计算公式为:
其中,Scorey(dSi,dTj)表示源疾病dSi到目标疾病dTj经过目标疾病群邻接点y的疾病进展路径得分,ηy(dSi,dTj)表示源疾病dSi到目标疾病dTj经过目标疾病群邻接点y的路径对应的各疾病间边权值集合,wy表示各疾病间边权值集合ηy(dSi,dTj)中的边权值,ly(dSi,dTj)表示源疾病dSi到目标疾病dTj经过目标疾病群邻接点y的路径的步数;
所述源疾病dSi到目标疾病dTj经过目标疾病群邻接点y的路径具体为:φy(dSi,dTj)={dSi,d1,…,dy,…,dT1′,dTj}。
Claims (8)
1.一种基于复杂网络的疾病进展路径挖掘方法,其特征在于,包括以下步骤:
S1、采集临床诊疗数据,并根据临床诊疗数据中疾病患病率和共病信息构建有向表型疾病网络;
S2、采集基因-疾病关联数据,并根据基因-疾病关联数据构建基于基因的疾病关联网络;
S3、采集疾病通路数据,并根据疾病通路数据构建基于通路的疾病关联网络;
所述步骤S3包括以下分步骤:
S3.1、采集疾病通路数据,并根据疾病通路数据获取疾病di与疾病dj之间基于通路k的距离Sk(di,dj)为:
其中,fk(di,di)表示每个基因g与其他所有基因CG(k,di)-{g}的平均最短路径长度,CG(k,di)表示疾病di与通路k之间的共同基因集;fk(dj,dj)表示基因q与其他所有基因CG(k,dj)-{q}的平均最短路径长度,CG(k,dj)表示疾病dj与通路k之间的共同基因集;fk(di,dj)表示CG(k,di)中的节点到CG(k,dj)中节点的平均最短路径长度;
其中,P表示基于通路的疾病关联网络,k=1,2,...,n,n表示通路的总数;
S3.4、根据网络节点以及网络节点之间对应的边权值,获取基于通路的疾病关联网络;
S4、将两两疾病之间的表型疾病网络边权值、基于基因的疾病关联网络边权值和基于通路的疾病关联网络边权值按网络权重相加,将边权值之和作为复杂疾病网络的边权值,构建有向的复杂疾病网络;
S5、将复杂疾病网络中疾病分为低风险、中风险和高风险三部分,设定低风险疾病为源疾病群和高风险疾病为目标疾病群;
S6、采用双向最大平均权值路径算法搜索源疾病群到目标疾病群的疾病进展路径;
所述步骤S6中采用双向最大平均权值路径算法搜索源疾病群到目标疾病群的疾病进展路径的具体方法为:
S6.1、以源疾病群中疾病为起点,按照疾病进展方向搜索源疾病群中各个节点到非目标疾病群中各个节点的最大平均权值路径;
S6.2、以目标疾病群中疾病为起点,按照疾病进展方向反向搜索目标疾病群中各个节点到目标疾病群邻接点的最大平均权值路径;
S6.3、将源疾病群到非目标疾病群节点的最大平均权值路径和目标疾病群到目标疾病群邻接点的最大平均权值路径进行连接,得到源疾病群到目标疾病群的疾病进展路径;
S7、计算疾病进展路径的得分,选择得分最高的疾病进展路径,得到源疾病群到目标疾病群的病情进展路径挖掘结果。
2.根据权利要求1所述的基于复杂网络的疾病进展路径挖掘方法,其特征在于,所述步骤S1包括以下分步骤:
S1.1、采集临床诊疗数据,筛选同一患者所患的全部疾病;
S1.2、根据疾病的患病率和共病信息,获取疾病di与疾病dj的相对风险RR(di,dj)为:
S1.3、根据相对风险RR(di,dj),获取疾病di对疾病dj的影响参数h(di,dj)为:
其中,C表示表型疾病网络;maxC表示表型疾病网络中,所有疾病对之间影响参数的最大值;
S1.5、将疾病作为网络节点,影响程度值作为两种疾病之间的边权值,得到有向的表型疾病网络。
5.根据权利要求1所述的基于复杂网络的疾病进展路径挖掘方法,其特征在于,所述步骤S5中将复杂疾病网络中疾病分为低风险、中风险和高风险三部分的具体方法为:根据临床诊疗数据计算病死率,将病死率小于A的疾病分为低风险疾病,将病死率大于等于A且小于B的疾病分为中风险疾病,将病死率大于等于B的疾病分为高风险疾病。
6.根据权利要求1所述的基于复杂网络的疾病进展路径挖掘方法,其特征在于,所述步骤S6.1包括以下分步骤:
其中,a表示源疾病dSi到非目标疾病群中疾病节点dm的路径数,ηx(dSi,dm)表示源疾病dSi到疾病节点dm的第x条路径对应的各疾病间边权值集合,wx表示各疾病间边权值集合ηx(dSi,dm)中的边权值,lx(dSi,dm)表示源疾病dSi到疾病节点dm的第x条路径的步数,x=1,2,...,a;
S6.1.3、记录源疾病dSi到非目标疾病群中疾病节点dm的最大平均权值对应路径φ(dSi,dm)为:
φ(dSi,dm)={dSi,d1,...,dm-1,dm}
其中,{d1,...,dm-1}表示最大平均权值对应路径上的疾病节点;
S6.1.4、以源疾病dSi为起点,遍历所有非目标疾病群中疾病节点,得到源疾病dSi到非目标疾病群的最大平均权值路径;
S6.1.5、使用步骤S6.1.1-S6.1.4的方法,遍历源疾病群中所有源疾病,得到源疾病群中各个节点到非目标疾病群中各个节点的最大平均权值路径。
7.根据权利要求6所述的基于复杂网络的疾病进展路径挖掘方法,其特征在于,所述步骤S6.2包括以下分步骤:
S6.2.1、以目标疾病dTj为起点,按照疾病进展方向反向搜索目标疾病dTj到目标疾病群邻接点的路径,直至到达目标疾病群邻接点du;
S6.2.2、计算目标疾病dTj到目标疾病群邻接点du的最大平均权值δ(dTj,du),并记录最大平均权值对应的路径为φ(dTj,du),所述最大平均权值δ(dTj,du)为:
其中,o表示目标疾病dTj到目标疾病群邻接点du的路径数,ηf(dTj,du)表示目标疾病dTj到目标疾病群邻接点du的第f条路径对应的各疾病间边权值集合,wf表示各疾病间边权值集合ηf(dTj,du)中的边权值,lf(dTj,du)表示目标疾病dTj到目标疾病群邻接点du的第f条路径的步数,f=1,2,...,o;
S6.2.3、以目标疾病dTj为起点,遍历所有目标疾病群邻接点,得到目标疾病dTj到所有目标疾病群邻接点的最大平均权值路径;
S6.2.4、使用步骤S6.2.1-S6.2.3的方法,遍历目标疾病群中的所有目标疾病,得到目标疾病群中各个节点到各个目标疾病群邻接点的最大平均权值路径。
8.根据权利要求1所述的基于复杂网络的疾病进展路径挖掘方法,其特征在于,所述步骤S7中疾病进展路径的得分计算公式为:
其中,Scorey(dSi,dTj)表示源疾病dSi到目标疾病dTj经过目标疾病群邻接点y的疾病进展路径得分,ηy(dSi,dTj)表示源疾病dSi到目标疾病dTj经过目标疾病群邻接点y的路径对应的各疾病间边权值集合,wy表示各疾病间边权值集合ηy(dSi,dTj)中的边权值,ly(dSi,dTj)表示源疾病dSi到目标疾病dTj经过目标疾病群邻接点y的路径的步数;
所述源疾病dSi到目标疾病dTj经过目标疾病群邻接点y的路径具体为:φy(dSi,dTj)={dSi,d1,…,dy,…,dT1′,dTj}。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010971130.5A CN112086187B (zh) | 2020-09-16 | 2020-09-16 | 一种基于复杂网络的疾病进展路径挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010971130.5A CN112086187B (zh) | 2020-09-16 | 2020-09-16 | 一种基于复杂网络的疾病进展路径挖掘方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112086187A CN112086187A (zh) | 2020-12-15 |
CN112086187B true CN112086187B (zh) | 2022-04-19 |
Family
ID=73736439
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010971130.5A Active CN112086187B (zh) | 2020-09-16 | 2020-09-16 | 一种基于复杂网络的疾病进展路径挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112086187B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115312182B (zh) * | 2022-07-26 | 2023-06-27 | 哈尔滨工业大学 | 一种预测疫苗接种后不良反应转为严重不良反应风险的模型 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108846503A (zh) * | 2018-05-17 | 2018-11-20 | 电子科技大学 | 一种基于神经网络的呼吸系统疾病患病人次动态预测方法 |
CN109243523A (zh) * | 2018-08-24 | 2019-01-18 | 东北大学 | 一种基于乳腺癌疾病的调控网络构建及分析方法 |
CN109841281A (zh) * | 2017-11-29 | 2019-06-04 | 郑州大学第一附属医院 | 基于共表达相似性识别肺腺癌早期诊断标识及风险预测模型的构建方法 |
CN111192639A (zh) * | 2020-01-03 | 2020-05-22 | 中国石油大学(华东) | 一种基于复杂网络的肿瘤转移关键基因检索方法 |
CN111192644A (zh) * | 2019-12-11 | 2020-05-22 | 平安医疗健康管理股份有限公司 | 临床路径的构建方法、装置、计算机设备和存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130138447A1 (en) * | 2010-07-19 | 2013-05-30 | Pathway Genomics | Genetic based health management apparatus and methods |
US20120310667A1 (en) * | 2011-06-03 | 2012-12-06 | Roy Altman | Dynamic clinical pathways |
US20130144584A1 (en) * | 2011-12-03 | 2013-06-06 | Medeolinx, LLC | Network modeling for drug toxicity prediction |
CN110010196B (zh) * | 2019-03-19 | 2020-11-06 | 北京工业大学 | 一种基于异质网的基因相似性搜索方法 |
CN110782945B (zh) * | 2019-10-22 | 2023-07-18 | 长沙学院 | 一种利用间接与直接特征信息识别lncRNA与疾病关联的方法 |
-
2020
- 2020-09-16 CN CN202010971130.5A patent/CN112086187B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109841281A (zh) * | 2017-11-29 | 2019-06-04 | 郑州大学第一附属医院 | 基于共表达相似性识别肺腺癌早期诊断标识及风险预测模型的构建方法 |
CN108846503A (zh) * | 2018-05-17 | 2018-11-20 | 电子科技大学 | 一种基于神经网络的呼吸系统疾病患病人次动态预测方法 |
CN109243523A (zh) * | 2018-08-24 | 2019-01-18 | 东北大学 | 一种基于乳腺癌疾病的调控网络构建及分析方法 |
CN111192644A (zh) * | 2019-12-11 | 2020-05-22 | 平安医疗健康管理股份有限公司 | 临床路径的构建方法、装置、计算机设备和存储介质 |
CN111192639A (zh) * | 2020-01-03 | 2020-05-22 | 中国石油大学(华东) | 一种基于复杂网络的肿瘤转移关键基因检索方法 |
Non-Patent Citations (4)
Title |
---|
Machine Learning Approaches to Predict Peak Demand Days of Cardiovascular Admissions Considering Environmental Exposure;Hang Qiu et al.;《BMC Medical Informations and Decision Making》;20200501;第1-26页 * |
分级诊疗大数据监测评估平台设计;邱航 等;《中国卫生信息管理杂志》;20170420;第14卷(第2期);第165-169页 * |
基于异质agent的疾病传播建模与计算实验;段伟;《中国博士学位论文全文数据库 基础科学辑》;20151115(第11期);第A002-13页 * |
基于语义相似度的ICD-10编码归一化;谢雨杉 等;《中国病案》;20180918;第19卷(第9期);第18-21页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112086187A (zh) | 2020-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230222311A1 (en) | Generating machine learning models using genetic data | |
ES2970286T3 (es) | Plantillas de control de calidad para garantizar la validez de ensayos basados en secuenciación | |
US20190316209A1 (en) | Multi-Assay Prediction Model for Cancer Detection | |
KR102562419B1 (ko) | 심층 신경망에 기반한 변이체 분류자 | |
CN115151974A (zh) | 使用补丁卷积神经网络的癌症分类 | |
JP2021503922A (ja) | ターゲットシーケンシングのためのモデル | |
JP2012514783A (ja) | 進化クラスタ化アルゴリズム | |
KR20020075265A (ko) | 임상 진단 서비스를 제공하는 방법 | |
US20230183812A1 (en) | Artificial-intelligence-based cancer diagnosis and cancer type prediction method | |
Win et al. | Cancer recurrence prediction using machine learning | |
JP6141310B2 (ja) | 強固な変異体特定および検証 | |
CN112086187B (zh) | 一种基于复杂网络的疾病进展路径挖掘方法 | |
Ahmed et al. | Genetic variations analysis for complex brain disease diagnosis using machine learning techniques: opportunities and hurdles | |
Sharma et al. | Predicting survivability in oral cancer patients | |
Palmal et al. | Integrative prognostic modeling for breast cancer: Unveiling optimal multimodal combinations using graph convolutional networks and calibrated random forest | |
Bi et al. | SSLpheno: a self-supervised learning approach for gene–phenotype association prediction using protein–protein interactions and gene ontology data | |
WO2018209704A1 (zh) | 基于dna测序数据的样本来源检测方法、装置和存储介质 | |
Shi et al. | scDA: Single cell discriminant analysis for single-cell RNA sequencing data | |
Eshun et al. | Identification of significantly expressed gene mutations for automated classification of benign and malignant prostate cancer | |
WO2022056060A1 (en) | Deep-learning-based techniques for generating a consensus sequence from multiple noisy sequences | |
Chitode et al. | A comparative study of microarray data analysis for cancer classification | |
Lincy et al. | Analyzing DNA Pattern Matching through String Similarity Measurements in Cancer Sequence Data | |
He et al. | Classification of cancer types based on gene expression data | |
Daisy et al. | Classification of human cancer diseases gene expression profiles using genetic algorithm by integrating protein protein interactions along with gene expression profiles | |
Porto-Díaz et al. | Local modeling classifier for microarray gene-expression data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |