CN112086187B - 一种基于复杂网络的疾病进展路径挖掘方法 - Google Patents

一种基于复杂网络的疾病进展路径挖掘方法 Download PDF

Info

Publication number
CN112086187B
CN112086187B CN202010971130.5A CN202010971130A CN112086187B CN 112086187 B CN112086187 B CN 112086187B CN 202010971130 A CN202010971130 A CN 202010971130A CN 112086187 B CN112086187 B CN 112086187B
Authority
CN
China
Prior art keywords
disease
path
network
target
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010971130.5A
Other languages
English (en)
Other versions
CN112086187A (zh
Inventor
邱航
罗林
王利亚
胡智栩
周德嘉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202010971130.5A priority Critical patent/CN112086187B/zh
Publication of CN112086187A publication Critical patent/CN112086187A/zh
Application granted granted Critical
Publication of CN112086187B publication Critical patent/CN112086187B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种基于复杂网络的疾病进展路径挖掘方法,基于临床诊疗数据、基因疾病关联数据和通路疾病关联数据,构建有向表型疾病网络、基于基因的疾病关联网络和基于通路的疾病关联网络,并对节点间的边权值加权求和得到有向的复杂疾病网络;基于病死率对复杂疾病网络进行分类,得到源疾病群和目标疾病群;采用双向最大平均权值路径算法,搜索源疾病到目标疾病的疾病进展路径;最后,计算疾病进展得分,量化疾病进展路径的相对重要性。本发明通过挖掘疾病发展路径,量化疾病进展路径相对重要性,找到存在显著统计学关系的疾病进展轨迹,为疾病预防提供支撑,从而对预防低死亡风险疾病发展成高死亡风险疾病的研究具有重要意义。

Description

一种基于复杂网络的疾病进展路径挖掘方法
技术领域
本发明属于网络科学和医学领域,具体涉及一种基于复杂网络的疾病进展路径挖掘方法。
背景技术
许多疾病之间没有明确的界限,疾病间可以通过多个维度关联。网络分析被认为是分析疾病间关系的有效方法,疾病网络可以全面、系统地阐释疾病之间的关系。近年来,国内外学者围绕基于基因、蛋白质数据的复杂生物网络和基于临床诊断信息的疾病表型网络展开了研究。从分子水平分析疾病与基因、蛋白质之间的关系,有助于发现疾病的发病机制;从临床角度,基于表型相似性对疾病进行系统分类,有助于促进疾病进展模式的识别。如何整合表型数据与分子疾病关联数据,构建复杂疾病网络,是亟待研究的一个关键问题。
进一步地,在疾病网络中,基于疾病之间的先后关系识别疾病进展模式,对预防疾病的并发症或发展成其他疾病具有重要意义。在庞大的疾病网络中,如何高效准确挖掘低风险疾病到高风险疾病具有显著统计学意义的疾病进展路径,是亟需解决的又一关键问题。
发明内容
针对现有技术中的上述不足,本发明提供的一种基于复杂网络的疾病进展路径挖掘方法解决了现有技术中存在的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种基于复杂网络的疾病进展路径挖掘方法,包括以下步骤:
S1、采集临床诊疗数据,并根据临床诊疗数据中疾病患病率和共病信息构建有向表型疾病网络;
S2、采集基因-疾病关联数据,并根据基因-疾病关联数据构建基于基因的疾病关联网络;
S3、采集疾病通路数据,并根据疾病通路数据构建基于通路的疾病关联网络;
S4、将两两疾病之间的表型疾病网络边权值、基于基因的疾病关联网络边权值和基于通路的疾病关联网络边权值按网络权重相加,将边权值之和作为复杂疾病网络的边权值,构建有向的复杂疾病网络;
S5、将复杂疾病网络中疾病分为低风险、中风险和高风险三部分,设定低风险疾病为源疾病群和高风险疾病为目标疾病群;
S6、采用双向最大平均权值路径算法搜索源疾病群到目标疾病群的疾病进展路径;
S7、计算疾病进展路径的得分,选择得分最高的疾病进展路径,得到源疾病群到目标疾病群的病情进展路径挖掘结果。
进一步地,所述步骤S1包括以下分步骤:
S1.1、采集临床诊疗数据,筛选同一患者所患的全部疾病;
S1.2、根据疾病的患病率和共病信息,获取疾病di与疾病dj的相对风险RR(di,dj)为:
Figure BDA0002684091110000021
其中,i=1,2,...,N,j=1,2,...,N,N表示临床诊疗数据中疾病的总数,p(dj|di)表示在患疾病di的情况下患疾病dj的概率,
Figure BDA0002684091110000022
表示在不患疾病di的情况下患疾病dj的概率;
S1.3、根据相对风险RR(di,dj),获取疾病di对疾病dj的影响参数h(di,dj)为:
Figure BDA0002684091110000031
S1.4、对影响参数h(di,dj)进行标准化,得到疾病di对疾病dj的影响程度值
Figure BDA0002684091110000032
为:
Figure BDA0002684091110000033
其中,C表示表型疾病网络;maxC表示表型疾病网络中,所有疾病对之间影响参数的最大值;
S1.5、将疾病作为网络节点和影响程度值作为两种疾病之间的边权值,得到有向的表型疾病网络。
进一步地,所述步骤S2包括以下分步骤:
S2.1、采集基因-疾病关联数据,并计算疾病di与疾病dj之间的基因相似性
Figure BDA0002684091110000034
为:
Figure BDA0002684091110000035
其中,G表示基于基因的疾病关联网络,J()表示雅卡尔指数计算函数,
Figure BDA0002684091110000036
表示疾病di的基因集合,
Figure BDA0002684091110000037
表示疾病dj的基因集合,
Figure BDA0002684091110000038
表示疾病di与疾病dj之间的共同基因,
Figure BDA0002684091110000039
表示疾病di与疾病dj的基因并集;
S2.2、将疾病作为网络节点和疾病间的基因相似性作为两种疾病之间的边权值,得到基于基因的疾病关联网络。
进一步地,所述步骤S3包括以下分步骤:
S3.1、采集疾病通路数据,并根据疾病通路数据获取疾病di与疾病dj之间基于通路k的距离Sk(di,dj)为:
Figure BDA00026840911100000310
其中,fk(di,di)表示每个基因g与其他所有基因CG(k,di)-{g}的平均最短路径长度,CG(k,di)表示疾病di与通路k之间的共同基因集;fk(dj,dj)表示基因q与其他所有基因CG(k,dj)-{q}的平均最短路径长度,CG(k,dj)表示疾病dj与通路k之间的共同基因集;fk(di,dj)表示CG(k,di)中的节点到CG(k,dj)中节点的平均最短路径长度;
S3.2、将距离Sk(di,dj)进行标准化,获取标准化距离
Figure BDA0002684091110000041
为:
Figure BDA0002684091110000042
其中,
Figure BDA0002684091110000043
表示在通路k的基础上疾病di与疾病dj之间的距离最小值,
Figure BDA0002684091110000044
表示在通路k的基础上疾病di与疾病dj之间的距离最大值;
S3.3、将疾病作为网络节点,通过标准化距离
Figure BDA0002684091110000045
计算网络节点之间的边权值
Figure BDA0002684091110000046
为:
Figure BDA0002684091110000047
其中,P表示基于通路的疾病关联网络,k=1,2,...,n,n表示通路的总数;
S3.4、根据网络节点以及网络节点之间对应的边权值,获取基于通路的疾病关联网络。
进一步地,所述步骤S4包括以下分步骤:
S4.1、分别设置表型疾病网络、基于基因的疾病关联网络和基于通路的疾病关联网络的权重为ω1、ω2和ω3
S4.2、将疾病di与疾病dj之间的表型疾病网络边权值、基于基因的疾病关联网络边权值和基于通路的疾病关联网络边权值按网络权重相加,得到疾病di与疾病dj在复杂疾病网络中的边权值wi,j为:
Figure BDA0002684091110000051
S4.3、将疾病作为网络节点,并通过边权值获取复杂疾病网络。
进一步地,所述步骤S5中将复杂疾病网络中疾病分为低风险、中风险和高风险三部分的具体方法为:根据临床诊疗数据计算病死率,将病死率小于A的疾病分为低风险疾病,将病死率大于等于A且小于B的疾病分为中风险疾病,将病死率大于等于B的疾病分为高风险疾病。
进一步地,所述步骤S6中采用双向最大平均权值路径算法搜索源疾病群到目标疾病群的疾病进展路径的具体方法为:
S6.1、以源疾病群中疾病为起点,按照疾病进展方向搜索源疾病群中各个节点到非目标疾病群中各个节点的最大平均权值路径;
S6.2、以目标疾病群中疾病为起点,按照疾病进展方向反向搜索目标疾病群中各个节点到目标疾病群邻接点的最大平均权值路径;
S6.3、将源疾病群到非目标疾病群节点的最大平均权值路径和目标疾病群到目标疾病群邻接点的最大平均权值路径进行连接,得到源疾病群到目标疾病群的疾病进展路径。
进一步地,所述步骤S6.1包括以下分步骤:
S6.1.1、以源疾病dSi为起点,按照疾病进展方向搜索源疾病dSi到非目标疾病群
Figure BDA0002684091110000053
中疾病dm的路径;
S6.1.2、根据路径,计算源疾病dSi到非目标疾病群
Figure BDA0002684091110000054
中疾病dm的最大平均权值δ(dSi,dm)为:
Figure BDA0002684091110000052
其中,a表示源疾病dSi到非目标疾病群中疾病节点dm的路径数,ηx(dSi,dm)表示源疾病dSi到疾病节点dm的第x条路径对应的各疾病间边权值集合,wx表示各疾病间边权值集合ηx(dSi,dm)中的边权值,lx(dSi,dm)表示源疾病dSi到疾病节点dm的第x条路径的步数,x=1,2,...,a;
S6.1.3、记录源疾病dSi到非目标疾病群中疾病节点dm的最大平均权值对应路径φ(dSi,dm)为:
φ(dSi,dm)={dSi,d1,...,dm-1,dm}
其中,{d1,...,dm-1}表示最大平均权值对应路径上的疾病节点;
S6.1.4、以源疾病dSi为起点,遍历所有非目标疾病群中疾病节点,得到源疾病dSi到非目标疾病群的最大平均权值路径;
S6.1.5、使用步骤S6.1.1-S6.1.4的方法,遍历源疾病群中所有源疾病,得到源疾病群中各个节点到非目标疾病群中各个节点的最大平均权值路径。
进一步地,所述步骤S6.2包括以下分步骤:
S6.2.1、以目标疾病dTj为起点,按照疾病进展方向反向搜索目标疾病dTj到目标疾病群邻接点的路径,直至到达目标疾病群邻接点du
S6.2.2、计算目标疾病dTj到目标疾病群邻接点du的最大平均权值δ(dTj,du),并记录最大平均权值对应的路径为φ(dTj,du),所述最大平均权值δ(dTj,du)为:
Figure BDA0002684091110000061
其中,o表示目标疾病dTj到目标疾病群邻接点du的路径数,ηf(dTj,du)表示目标疾病dTj到目标疾病群邻接点du的第f条路径对应的各疾病间边权值集合,wf表示各疾病间边权值集合ηf(dTj,du)中的边权值,lf(dTj,du)表示目标疾病dTj到目标疾病群邻接点du的第f条路径的步数,f=1,2,...,o;
S6.2.3、以目标疾病dTj为起点,遍历所有目标疾病群邻接点,得到目标疾病dTj到所有目标疾病群邻接点的最大平均权值路径;
S6.2.4、使用步骤S6.2.1-S6.2.3的方法,遍历目标疾病群中的所有目标疾病,得到目标疾病群中各个节点到各个目标疾病群邻接点的最大平均权值路径。
进一步地,所述步骤S7中疾病进展路径的得分计算公式为:
Figure BDA0002684091110000071
其中,Scorey(dSi,dTj)表示源疾病dSi到目标疾病dTj经过目标疾病群邻接点y的疾病进展路径得分,ηy(dSi,dTj)表示源疾病dSi到目标疾病dTj经过目标疾病群邻接点y的路径对应的各疾病间边权值集合,wy表示各疾病间边权值集合ηy(dSi,dTj)中的边权值,ly(dSi,dTj)表示源疾病dSi到目标疾病dTj经过目标疾病群邻接点y的路径的步数;
所述源疾病dSi到目标疾病dTj经过目标疾病群邻接点y的路径具体为:φy(dSi,dTj)={dSi,d1,…,dy,…,dT1′,dTj}。
本发明的有益效果为:
(1)本发明基于临床诊疗数据、基因疾病关联数据和通路疾病关联数据,构建有向的复杂疾病网络,从多个维度分析疾病间的影响关系,使结果更全面、更可靠。
(2)本发明采用双向最大平均权值路径算法,寻找源疾病群到目标疾病群的疾病进展路径,在准确识别低死亡风险疾病进展为高死亡风险疾病的同时,显著提高运行效率。
(3)本发明通过挖掘疾病发展路径,量化疾病进展路径相对重要性,找到存在显著统计学关系的疾病进展轨迹,为疾病预防提供支撑,从而对预防低死亡风险疾病发展成高死亡风险疾病的研究具有重要意义。
附图说明
图1为本发明提出的一种基于复杂网络的疾病进展路径挖掘方法流程图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
下面结合附图详细说明本发明的实施例。
如图1所示,一种基于复杂网络的疾病进展路径挖掘方法,包括以下步骤:
S1、采集临床诊疗数据,并根据临床诊疗数据中疾病患病率和共病信息构建有向表型疾病网络;
S2、采集基因-疾病关联数据,并根据基因-疾病关联数据构建基于基因的疾病关联网络;
S3、采集疾病通路数据,并根据疾病通路数据构建基于通路的疾病关联网络;
S4、将两两疾病之间的表型疾病网络边权值、基于基因的疾病关联网络边权值和基于通路的疾病关联网络边权值按网络权重相加,将边权值之和作为复杂疾病网络的边权值,构建有向的复杂疾病网络;
S5、将复杂疾病网络中疾病分为低风险、中风险和高风险三部分,设定低风险疾病为源疾病群和高风险疾病为目标疾病群;
S6、采用双向最大平均权值路径算法搜索源疾病群到目标疾病群的疾病进展路径;
S7、计算疾病进展路径的得分,选择得分最高的疾病进展路径,得到源疾病群到目标疾病群的病情进展路径挖掘结果。
在本实施例中,疾病通路数据从京都基因与基因组百科全书(Kyotoencyclopedia of genes and genomes)中采集。
所述步骤S1包括以下分步骤:
S1.1、采集临床诊疗数据,筛选同一患者所患的全部疾病;
S1.2、根据疾病的患病率和共病信息,获取疾病di与疾病dj的相对风险RR(di,dj)为:
Figure BDA0002684091110000091
其中,i=1,2,...,N,j=1,2,...,N,N表示临床诊疗数据中疾病的总数,p(dj|di)表示在患疾病di的情况下患疾病dj的概率,
Figure BDA0002684091110000095
表示在不患疾病di的情况下患疾病dj的概率;
S1.3、根据相对风险RR(di,dj),获取疾病di对疾病dj的影响参数h(di,dj)为:
Figure BDA0002684091110000092
S1.4、对影响参数h(di,dj)进行标准化,得到疾病di对疾病dj的影响程度值
Figure BDA0002684091110000093
为:
Figure BDA0002684091110000094
其中,C表示表型疾病网络;maxC表示表型疾病网络中,所有疾病对之间影响参数的最大值;
S1.5、将疾病作为网络节点和影响程度值作为两种疾病之间的边权值,得到有向的表型疾病网络。
所述步骤S2包括以下分步骤:
S2.1、采集基因-疾病关联数据,并计算疾病di与疾病dj之间的基因相似性
Figure BDA0002684091110000101
为:
Figure BDA0002684091110000102
其中,G表示基于基因的疾病关联网络,J()表示雅卡尔指数计算函数,gdi表示疾病di的基因集合,
Figure BDA0002684091110000103
表示疾病dj的基因集合,
Figure BDA0002684091110000104
表示疾病di与疾病dj之间的共同基因,
Figure BDA0002684091110000105
表示疾病di与疾病dj的基因并集;
S2.2、将疾病作为网络节点和疾病间的基因相似性作为两种疾病之间的边权值,得到基于基因的疾病关联网络。
所述步骤S3包括以下分步骤:
S3.1、采集疾病通路数据,并根据疾病通路数据获取疾病di与疾病dj之间基于通路k的距离Sk(di,dj)为:
Figure BDA0002684091110000106
其中,fk(di,di)表示每个基因g与其他所有基因CG(k,di)-{g}的平均最短路径长度,CG(k,di)表示疾病di与通路k之间的共同基因集;fk(dj,dj)表示基因q与其他所有基因CG(k,dj)-{q}的平均最短路径长度,CG(k,dj)表示疾病dj与通路k之间的共同基因集;fk(di,dj)表示CG(k,di)中的节点到CG(k,dj)中节点的平均最短路径长度;
S3.2、将距离Sk(di,dj)进行标准化,获取标准化距离
Figure BDA0002684091110000107
为:
Figure BDA0002684091110000108
其中,
Figure BDA0002684091110000109
表示在通路k的基础上疾病di与疾病dj之间的距离最小值,
Figure BDA00026840911100001010
表示在通路k的基础上疾病di与疾病dj之间的距离最大值;
S3.3、将疾病作为网络节点,通过标准化距离
Figure BDA0002684091110000111
计算网络节点之间的边权值
Figure BDA0002684091110000112
为:
Figure BDA0002684091110000113
其中,P表示基于通路的疾病关联网络,k=1,2,...,n,n表示通路的总数;
S3.4、根据网络节点以及网络节点之间对应的边权值,获取基于通路的疾病关联网络。
所述步骤S4包括以下分步骤:
S4.1、分别设置表型疾病网络、基于基因的疾病关联网络和基于通路的疾病关联网络的权重为ω1、ω2和ω3
S4.2、将疾病di与疾病dj之间的表型疾病网络边权值、基于基因的疾病关联网络边权值和基于通路的疾病关联网络边权值按网络权重相加,得到疾病di与疾病dj在复杂疾病网络中的边权值wi,j为:
Figure BDA0002684091110000114
S4.3、将疾病作为网络节点,并通过边权值获取复杂疾病网络。
所述步骤S5中将复杂疾病网络中疾病分为低风险、中风险和高风险三部分的具体方法为:根据临床诊疗数据计算病死率,将病死率小于A的疾病分为低风险疾病,将病死率大于等于A且小于B的疾病分为中风险疾病,将病死率大于等于B的疾病分为高风险疾病。
所述步骤S6中采用双向最大平均权值路径算法搜索源疾病群到目标疾病群的疾病进展路径的具体方法为:
S6.1、以源疾病群中疾病为起点,按照疾病进展方向搜索源疾病群中各个节点到非目标疾病群中各个节点的最大平均权值路径;
S6.2、以目标疾病群中疾病为起点,按照疾病进展方向反向搜索目标疾病群中各个节点到目标疾病群邻接点的最大平均权值路径;
S6.3、将源疾病群到非目标疾病群节点的最大平均权值路径和目标疾病群到目标疾病群邻接点的最大平均权值路径进行连接,得到源疾病群到目标疾病群的疾病进展路径。
所述步骤S6.1包括以下分步骤:
S6.1.1、以源疾病dSi为起点,按照疾病进展方向搜索源疾病dSi到非目标疾病群
Figure BDA0002684091110000121
中疾病dm的路径;
S6.1.2、根据路径,计算源疾病dSi到非目标疾病群
Figure BDA0002684091110000122
中疾病dm的最大平均权值δ(dSi,dm)为:
Figure BDA0002684091110000123
其中,a表示源疾病dSi到非目标疾病群中疾病节点dm的路径数,ηx(dSi,dm)表示源疾病dSi到疾病节点dm的第x条路径对应的各疾病间边权值集合,wx表示各疾病间边权值集合ηx(dSi,dm)中的边权值,lx(dSi,dm)表示源疾病dSi到疾病节点dm的第x条路径的步数,x=1,2,...,a;
S6.1.3、记录源疾病dSi到非目标疾病群中疾病节点dm的最大平均权值对应路径φ(dSi,dm)为:
φ(dSi,dm)={dSi,d1,...,dm-1,dm}
其中,{d1,...,dm-1}表示最大平均权值对应路径上的疾病节点;
S6.1.4、以源疾病dSi为起点,遍历所有非目标疾病群中疾病节点,得到源疾病dSi到非目标疾病群的最大平均权值路径;
S6.1.5、使用步骤S6.1.1-S6.1.4的方法,遍历源疾病群中所有源疾病,得到源疾病群中各个节点到非目标疾病群中各个节点的最大平均权值路径。
所述步骤S6.2包括以下分步骤:
S6.2.1、以目标疾病dTj为起点,按照疾病进展方向反向搜索目标疾病dTj到目标疾病群邻接点的路径,直至到达目标疾病群邻接点du
S6.2.2、计算目标疾病dTj到目标疾病群邻接点du的最大平均权值δ(dTj,du),并记录最大平均权值对应的路径为φ(dTj,du),所述最大平均权值δ(dTj,du)为:
Figure BDA0002684091110000131
其中,o表示目标疾病dTj到目标疾病群邻接点du的路径数,ηf(dTj,du)表示目标疾病dTj到目标疾病群邻接点du的第f条路径对应的各疾病间边权值集合,wf表示各疾病间边权值集合ηf(dTj,du)中的边权值,lf(dTj,du)表示目标疾病dTj到目标疾病群邻接点du的第f条路径的步数,f=1,2,...,o;
S6.2.3、以目标疾病dTj为起点,遍历所有目标疾病群邻接点,得到目标疾病dTj到所有目标疾病群邻接点的最大平均权值路径;
S6.2.4、使用步骤S6.2.1-S6.2.3的方法,遍历目标疾病群中的所有目标疾病,得到目标疾病群中各个节点到各个目标疾病群邻接点的最大平均权值路径。
在本实施例中,目标疾病群邻接点指目标疾病群的上一节点,节点与目标疾病群之间只有一条边。
所述步骤S7中疾病进展路径的得分计算公式为:
Figure BDA0002684091110000132
其中,Scorey(dSi,dTj)表示源疾病dSi到目标疾病dTj经过目标疾病群邻接点y的疾病进展路径得分,ηy(dSi,dTj)表示源疾病dSi到目标疾病dTj经过目标疾病群邻接点y的路径对应的各疾病间边权值集合,wy表示各疾病间边权值集合ηy(dSi,dTj)中的边权值,ly(dSi,dTj)表示源疾病dSi到目标疾病dTj经过目标疾病群邻接点y的路径的步数;
所述源疾病dSi到目标疾病dTj经过目标疾病群邻接点y的路径具体为:φy(dSi,dTj)={dSi,d1,…,dy,…,dT1′,dTj}。

Claims (8)

1.一种基于复杂网络的疾病进展路径挖掘方法,其特征在于,包括以下步骤:
S1、采集临床诊疗数据,并根据临床诊疗数据中疾病患病率和共病信息构建有向表型疾病网络;
S2、采集基因-疾病关联数据,并根据基因-疾病关联数据构建基于基因的疾病关联网络;
S3、采集疾病通路数据,并根据疾病通路数据构建基于通路的疾病关联网络;
所述步骤S3包括以下分步骤:
S3.1、采集疾病通路数据,并根据疾病通路数据获取疾病di与疾病dj之间基于通路k的距离Sk(di,dj)为:
Figure FDA0003501894810000011
其中,fk(di,di)表示每个基因g与其他所有基因CG(k,di)-{g}的平均最短路径长度,CG(k,di)表示疾病di与通路k之间的共同基因集;fk(dj,dj)表示基因q与其他所有基因CG(k,dj)-{q}的平均最短路径长度,CG(k,dj)表示疾病dj与通路k之间的共同基因集;fk(di,dj)表示CG(k,di)中的节点到CG(k,dj)中节点的平均最短路径长度;
S3.2、将距离Sk(di,dj)进行标准化,获取标准化距离
Figure FDA0003501894810000012
为:
Figure FDA0003501894810000013
其中,
Figure FDA0003501894810000014
表示在通路k的基础上疾病di与疾病dj之间的距离最小值,
Figure FDA0003501894810000015
表示在通路k的基础上疾病di与疾病dj之间的距离最大值;
S3.3、将疾病作为网络节点,通过标准化距离
Figure FDA0003501894810000016
计算网络节点之间的边权值
Figure FDA0003501894810000021
为:
Figure FDA0003501894810000022
其中,P表示基于通路的疾病关联网络,k=1,2,...,n,n表示通路的总数;
S3.4、根据网络节点以及网络节点之间对应的边权值,获取基于通路的疾病关联网络;
S4、将两两疾病之间的表型疾病网络边权值、基于基因的疾病关联网络边权值和基于通路的疾病关联网络边权值按网络权重相加,将边权值之和作为复杂疾病网络的边权值,构建有向的复杂疾病网络;
S5、将复杂疾病网络中疾病分为低风险、中风险和高风险三部分,设定低风险疾病为源疾病群和高风险疾病为目标疾病群;
S6、采用双向最大平均权值路径算法搜索源疾病群到目标疾病群的疾病进展路径;
所述步骤S6中采用双向最大平均权值路径算法搜索源疾病群到目标疾病群的疾病进展路径的具体方法为:
S6.1、以源疾病群中疾病为起点,按照疾病进展方向搜索源疾病群中各个节点到非目标疾病群中各个节点的最大平均权值路径;
S6.2、以目标疾病群中疾病为起点,按照疾病进展方向反向搜索目标疾病群中各个节点到目标疾病群邻接点的最大平均权值路径;
S6.3、将源疾病群到非目标疾病群节点的最大平均权值路径和目标疾病群到目标疾病群邻接点的最大平均权值路径进行连接,得到源疾病群到目标疾病群的疾病进展路径;
S7、计算疾病进展路径的得分,选择得分最高的疾病进展路径,得到源疾病群到目标疾病群的病情进展路径挖掘结果。
2.根据权利要求1所述的基于复杂网络的疾病进展路径挖掘方法,其特征在于,所述步骤S1包括以下分步骤:
S1.1、采集临床诊疗数据,筛选同一患者所患的全部疾病;
S1.2、根据疾病的患病率和共病信息,获取疾病di与疾病dj的相对风险RR(di,dj)为:
Figure FDA0003501894810000031
其中,i=1,2,...,N,j=1,2,...,N,N表示临床诊疗数据中疾病的总数,p(dj|di)表示在患疾病di的情况下患疾病dj的概率,
Figure FDA0003501894810000032
表示在不患疾病di的情况下患疾病dj的概率;
S1.3、根据相对风险RR(di,dj),获取疾病di对疾病dj的影响参数h(di,dj)为:
Figure FDA0003501894810000033
S1.4、对影响参数h(di,dj)进行标准化,得到疾病di对疾病dj的影响程度值
Figure FDA0003501894810000034
为:
Figure FDA0003501894810000035
其中,C表示表型疾病网络;maxC表示表型疾病网络中,所有疾病对之间影响参数的最大值;
S1.5、将疾病作为网络节点,影响程度值作为两种疾病之间的边权值,得到有向的表型疾病网络。
3.根据权利要求2所述的基于复杂网络的疾病进展路径挖掘方法,其特征在于,所述步骤S2包括以下分步骤:
S2.1、采集基因-疾病关联数据,并计算疾病di与疾病dj之间的基因相似性
Figure FDA0003501894810000041
为:
Figure FDA0003501894810000042
其中,G表示基于基因的疾病关联网络,J()表示雅卡尔指数计算函数,
Figure FDA0003501894810000043
表示疾病di的基因集合,
Figure FDA0003501894810000044
表示疾病dj的基因集合,
Figure FDA0003501894810000045
表示疾病di与疾病dj之间的共同基因,
Figure FDA0003501894810000046
表示疾病di与疾病dj的基因并集;
S2.2、将疾病作为网络节点,疾病间的基因相似性作为两种疾病之间的边权值,得到基于基因的疾病关联网络。
4.根据权利要求3所述的基于复杂网络的疾病进展路径挖掘方法,其特征在于,所述步骤S4包括以下分步骤:
S4.1、分别设置表型疾病网络、基于基因的疾病关联网络和基于通路的疾病关联网络的权重为ω1、ω2和ω3
S4.2、将疾病di与疾病dj之间的表型疾病网络边权值、基于基因的疾病关联网络边权值和基于通路的疾病关联网络边权值按网络权重相加,得到疾病di与疾病dj在复杂疾病网络中的边权值wi,j为:
Figure FDA0003501894810000047
S4.3、将疾病作为网络节点,并通过边权值获取复杂疾病网络。
5.根据权利要求1所述的基于复杂网络的疾病进展路径挖掘方法,其特征在于,所述步骤S5中将复杂疾病网络中疾病分为低风险、中风险和高风险三部分的具体方法为:根据临床诊疗数据计算病死率,将病死率小于A的疾病分为低风险疾病,将病死率大于等于A且小于B的疾病分为中风险疾病,将病死率大于等于B的疾病分为高风险疾病。
6.根据权利要求1所述的基于复杂网络的疾病进展路径挖掘方法,其特征在于,所述步骤S6.1包括以下分步骤:
S6.1.1、以源疾病dSi为起点,按照疾病进展方向搜索源疾病dSi到非目标疾病群
Figure FDA0003501894810000051
中疾病dm的路径;
S6.1.2、根据路径,计算源疾病dSi到非目标疾病群
Figure FDA0003501894810000052
中疾病dm的最大平均权值δ(dSi,dm)为:
Figure FDA0003501894810000053
其中,a表示源疾病dSi到非目标疾病群中疾病节点dm的路径数,ηx(dSi,dm)表示源疾病dSi到疾病节点dm的第x条路径对应的各疾病间边权值集合,wx表示各疾病间边权值集合ηx(dSi,dm)中的边权值,lx(dSi,dm)表示源疾病dSi到疾病节点dm的第x条路径的步数,x=1,2,...,a;
S6.1.3、记录源疾病dSi到非目标疾病群中疾病节点dm的最大平均权值对应路径φ(dSi,dm)为:
φ(dSi,dm)={dSi,d1,...,dm-1,dm}
其中,{d1,...,dm-1}表示最大平均权值对应路径上的疾病节点;
S6.1.4、以源疾病dSi为起点,遍历所有非目标疾病群中疾病节点,得到源疾病dSi到非目标疾病群的最大平均权值路径;
S6.1.5、使用步骤S6.1.1-S6.1.4的方法,遍历源疾病群中所有源疾病,得到源疾病群中各个节点到非目标疾病群中各个节点的最大平均权值路径。
7.根据权利要求6所述的基于复杂网络的疾病进展路径挖掘方法,其特征在于,所述步骤S6.2包括以下分步骤:
S6.2.1、以目标疾病dTj为起点,按照疾病进展方向反向搜索目标疾病dTj到目标疾病群邻接点的路径,直至到达目标疾病群邻接点du
S6.2.2、计算目标疾病dTj到目标疾病群邻接点du的最大平均权值δ(dTj,du),并记录最大平均权值对应的路径为φ(dTj,du),所述最大平均权值δ(dTj,du)为:
Figure FDA0003501894810000061
其中,o表示目标疾病dTj到目标疾病群邻接点du的路径数,ηf(dTj,du)表示目标疾病dTj到目标疾病群邻接点du的第f条路径对应的各疾病间边权值集合,wf表示各疾病间边权值集合ηf(dTj,du)中的边权值,lf(dTj,du)表示目标疾病dTj到目标疾病群邻接点du的第f条路径的步数,f=1,2,...,o;
S6.2.3、以目标疾病dTj为起点,遍历所有目标疾病群邻接点,得到目标疾病dTj到所有目标疾病群邻接点的最大平均权值路径;
S6.2.4、使用步骤S6.2.1-S6.2.3的方法,遍历目标疾病群中的所有目标疾病,得到目标疾病群中各个节点到各个目标疾病群邻接点的最大平均权值路径。
8.根据权利要求1所述的基于复杂网络的疾病进展路径挖掘方法,其特征在于,所述步骤S7中疾病进展路径的得分计算公式为:
Figure FDA0003501894810000062
其中,Scorey(dSi,dTj)表示源疾病dSi到目标疾病dTj经过目标疾病群邻接点y的疾病进展路径得分,ηy(dSi,dTj)表示源疾病dSi到目标疾病dTj经过目标疾病群邻接点y的路径对应的各疾病间边权值集合,wy表示各疾病间边权值集合ηy(dSi,dTj)中的边权值,ly(dSi,dTj)表示源疾病dSi到目标疾病dTj经过目标疾病群邻接点y的路径的步数;
所述源疾病dSi到目标疾病dTj经过目标疾病群邻接点y的路径具体为:φy(dSi,dTj)={dSi,d1,…,dy,…,dT1′,dTj}。
CN202010971130.5A 2020-09-16 2020-09-16 一种基于复杂网络的疾病进展路径挖掘方法 Active CN112086187B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010971130.5A CN112086187B (zh) 2020-09-16 2020-09-16 一种基于复杂网络的疾病进展路径挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010971130.5A CN112086187B (zh) 2020-09-16 2020-09-16 一种基于复杂网络的疾病进展路径挖掘方法

Publications (2)

Publication Number Publication Date
CN112086187A CN112086187A (zh) 2020-12-15
CN112086187B true CN112086187B (zh) 2022-04-19

Family

ID=73736439

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010971130.5A Active CN112086187B (zh) 2020-09-16 2020-09-16 一种基于复杂网络的疾病进展路径挖掘方法

Country Status (1)

Country Link
CN (1) CN112086187B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115312182B (zh) * 2022-07-26 2023-06-27 哈尔滨工业大学 一种预测疫苗接种后不良反应转为严重不良反应风险的模型

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108846503A (zh) * 2018-05-17 2018-11-20 电子科技大学 一种基于神经网络的呼吸系统疾病患病人次动态预测方法
CN109243523A (zh) * 2018-08-24 2019-01-18 东北大学 一种基于乳腺癌疾病的调控网络构建及分析方法
CN109841281A (zh) * 2017-11-29 2019-06-04 郑州大学第一附属医院 基于共表达相似性识别肺腺癌早期诊断标识及风险预测模型的构建方法
CN111192639A (zh) * 2020-01-03 2020-05-22 中国石油大学(华东) 一种基于复杂网络的肿瘤转移关键基因检索方法
CN111192644A (zh) * 2019-12-11 2020-05-22 平安医疗健康管理股份有限公司 临床路径的构建方法、装置、计算机设备和存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130138447A1 (en) * 2010-07-19 2013-05-30 Pathway Genomics Genetic based health management apparatus and methods
US20120310667A1 (en) * 2011-06-03 2012-12-06 Roy Altman Dynamic clinical pathways
US20130144584A1 (en) * 2011-12-03 2013-06-06 Medeolinx, LLC Network modeling for drug toxicity prediction
CN110010196B (zh) * 2019-03-19 2020-11-06 北京工业大学 一种基于异质网的基因相似性搜索方法
CN110782945B (zh) * 2019-10-22 2023-07-18 长沙学院 一种利用间接与直接特征信息识别lncRNA与疾病关联的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109841281A (zh) * 2017-11-29 2019-06-04 郑州大学第一附属医院 基于共表达相似性识别肺腺癌早期诊断标识及风险预测模型的构建方法
CN108846503A (zh) * 2018-05-17 2018-11-20 电子科技大学 一种基于神经网络的呼吸系统疾病患病人次动态预测方法
CN109243523A (zh) * 2018-08-24 2019-01-18 东北大学 一种基于乳腺癌疾病的调控网络构建及分析方法
CN111192644A (zh) * 2019-12-11 2020-05-22 平安医疗健康管理股份有限公司 临床路径的构建方法、装置、计算机设备和存储介质
CN111192639A (zh) * 2020-01-03 2020-05-22 中国石油大学(华东) 一种基于复杂网络的肿瘤转移关键基因检索方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Machine Learning Approaches to Predict Peak Demand Days of Cardiovascular Admissions Considering Environmental Exposure;Hang Qiu et al.;《BMC Medical Informations and Decision Making》;20200501;第1-26页 *
分级诊疗大数据监测评估平台设计;邱航 等;《中国卫生信息管理杂志》;20170420;第14卷(第2期);第165-169页 *
基于异质agent的疾病传播建模与计算实验;段伟;《中国博士学位论文全文数据库 基础科学辑》;20151115(第11期);第A002-13页 *
基于语义相似度的ICD-10编码归一化;谢雨杉 等;《中国病案》;20180918;第19卷(第9期);第18-21页 *

Also Published As

Publication number Publication date
CN112086187A (zh) 2020-12-15

Similar Documents

Publication Publication Date Title
US20230222311A1 (en) Generating machine learning models using genetic data
ES2970286T3 (es) Plantillas de control de calidad para garantizar la validez de ensayos basados en secuenciación
US20190316209A1 (en) Multi-Assay Prediction Model for Cancer Detection
KR102562419B1 (ko) 심층 신경망에 기반한 변이체 분류자
CN115151974A (zh) 使用补丁卷积神经网络的癌症分类
JP2021503922A (ja) ターゲットシーケンシングのためのモデル
JP2012514783A (ja) 進化クラスタ化アルゴリズム
KR20020075265A (ko) 임상 진단 서비스를 제공하는 방법
US20230183812A1 (en) Artificial-intelligence-based cancer diagnosis and cancer type prediction method
Win et al. Cancer recurrence prediction using machine learning
JP6141310B2 (ja) 強固な変異体特定および検証
CN112086187B (zh) 一种基于复杂网络的疾病进展路径挖掘方法
Ahmed et al. Genetic variations analysis for complex brain disease diagnosis using machine learning techniques: opportunities and hurdles
Sharma et al. Predicting survivability in oral cancer patients
Palmal et al. Integrative prognostic modeling for breast cancer: Unveiling optimal multimodal combinations using graph convolutional networks and calibrated random forest
Bi et al. SSLpheno: a self-supervised learning approach for gene–phenotype association prediction using protein–protein interactions and gene ontology data
WO2018209704A1 (zh) 基于dna测序数据的样本来源检测方法、装置和存储介质
Shi et al. scDA: Single cell discriminant analysis for single-cell RNA sequencing data
Eshun et al. Identification of significantly expressed gene mutations for automated classification of benign and malignant prostate cancer
WO2022056060A1 (en) Deep-learning-based techniques for generating a consensus sequence from multiple noisy sequences
Chitode et al. A comparative study of microarray data analysis for cancer classification
Lincy et al. Analyzing DNA Pattern Matching through String Similarity Measurements in Cancer Sequence Data
He et al. Classification of cancer types based on gene expression data
Daisy et al. Classification of human cancer diseases gene expression profiles using genetic algorithm by integrating protein protein interactions along with gene expression profiles
Porto-Díaz et al. Local modeling classifier for microarray gene-expression data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant