CN112289436A - 一种基于表型距离信息构建罕见病地图及导航的方法 - Google Patents
一种基于表型距离信息构建罕见病地图及导航的方法 Download PDFInfo
- Publication number
- CN112289436A CN112289436A CN202011119985.1A CN202011119985A CN112289436A CN 112289436 A CN112289436 A CN 112289436A CN 202011119985 A CN202011119985 A CN 202011119985A CN 112289436 A CN112289436 A CN 112289436A
- Authority
- CN
- China
- Prior art keywords
- rare
- distance
- phenotype
- diseases
- rare disease
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 208000035977 Rare disease Diseases 0.000 title claims abstract description 146
- 238000000034 method Methods 0.000 title claims abstract description 39
- 201000010099 disease Diseases 0.000 claims abstract description 65
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 65
- 239000011159 matrix material Substances 0.000 claims abstract description 10
- 238000012800 visualization Methods 0.000 claims abstract description 3
- 238000001914 filtration Methods 0.000 claims description 4
- 230000002452 interceptive effect Effects 0.000 claims description 3
- 238000000638 solvent extraction Methods 0.000 claims description 2
- 238000004091 panning Methods 0.000 claims 1
- 238000003745 diagnosis Methods 0.000 abstract description 7
- 230000002159 abnormal effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000005192 partition Methods 0.000 description 4
- 230000036541 health Effects 0.000 description 3
- 230000035772 mutation Effects 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 238000012552 review Methods 0.000 description 3
- 208000037190 ALG6-CDG Diseases 0.000 description 2
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 description 2
- 208000024556 Mendelian disease Diseases 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000003759 clinical diagnosis Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 208000024891 symptom Diseases 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 201000007994 Aceruloplasminemia Diseases 0.000 description 1
- 206010068783 Alstroem syndrome Diseases 0.000 description 1
- 201000005932 Alstrom Syndrome Diseases 0.000 description 1
- 208000016762 Attenuated Chédiak-Higashi syndrome Diseases 0.000 description 1
- 201000000304 Cleidocranial dysplasia Diseases 0.000 description 1
- 206010056370 Congestive cardiomyopathy Diseases 0.000 description 1
- 201000010046 Dilated cardiomyopathy Diseases 0.000 description 1
- 108700024394 Exon Proteins 0.000 description 1
- 208000024720 Fabry Disease Diseases 0.000 description 1
- 108700000224 Familial apoceruloplasmin deficiency Proteins 0.000 description 1
- 208000000250 Greig cephalopolysyndactyly syndrome Diseases 0.000 description 1
- 201000003676 Hereditary hypophosphatemic rickets with hypercalciuria Diseases 0.000 description 1
- 101001018064 Homo sapiens Lysosomal-trafficking regulator Proteins 0.000 description 1
- 101000970561 Homo sapiens Myc box-dependent-interacting protein 1 Proteins 0.000 description 1
- 206010049933 Hypophosphatasia Diseases 0.000 description 1
- 208000000913 Kidney Calculi Diseases 0.000 description 1
- 201000005978 Loeys-Dietz syndrome Diseases 0.000 description 1
- 206010049459 Lymphangioleiomyomatosis Diseases 0.000 description 1
- 102100033472 Lysosomal-trafficking regulator Human genes 0.000 description 1
- 208000034025 Mayer-Rokitansky-Küster-Hauser syndrome Diseases 0.000 description 1
- 208000003090 Mowat-Wilson syndrome Diseases 0.000 description 1
- 102100021970 Myc box-dependent-interacting protein 1 Human genes 0.000 description 1
- 206010029148 Nephrolithiasis Diseases 0.000 description 1
- 206010037407 Pulmonary hypoplasia Diseases 0.000 description 1
- 208000037340 Rare genetic disease Diseases 0.000 description 1
- 201000003604 Renal agenesis Diseases 0.000 description 1
- 208000032978 Structural Congenital Myopathies Diseases 0.000 description 1
- 102100035559 Transcriptional activator GLI3 Human genes 0.000 description 1
- 208000001910 Ventricular Heart Septal Defects Diseases 0.000 description 1
- 201000003412 Wolcott-Rallison syndrome Diseases 0.000 description 1
- 208000004622 abetalipoproteinemia Diseases 0.000 description 1
- 125000002015 acyclic group Chemical group 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 208000013906 autosomal recessive centronuclear myopathy Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000008236 biological pathway Effects 0.000 description 1
- 238000002655 chelation therapy Methods 0.000 description 1
- 230000001684 chronic effect Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 208000006520 congenital disorder of glycosylation type 1C Diseases 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000009395 genetic defect Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 229910052742 iron Inorganic materials 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004770 neurodegeneration Effects 0.000 description 1
- 208000015122 neurodegenerative disease Diseases 0.000 description 1
- 208000038009 orphan disease Diseases 0.000 description 1
- 201000003144 pneumothorax Diseases 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- ZAHRKKWIAAJSAO-UHFFFAOYSA-N rapamycin Natural products COCC(O)C(=C/C(C)C(=O)CC(OC(=O)C1CCCCN1C(=O)C(=O)C2(O)OC(CC(OC)C(=CC=CC=CC(C)CC(C)C(=O)C)C)CCC2C)C(C)CC3CCC(O)C(C3)OC)C ZAHRKKWIAAJSAO-UHFFFAOYSA-N 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- QFJCIRLUMZQUOT-HPLJOQBZSA-N sirolimus Chemical compound C1C[C@@H](O)[C@H](OC)C[C@@H]1C[C@@H](C)[C@H]1OC(=O)[C@@H]2CCCCN2C(=O)C(=O)[C@](O)(O2)[C@H](C)CC[C@H]2C[C@H](OC)/C(C)=C/C=C/C=C/[C@@H](C)C[C@@H](C)C(=O)[C@H](OC)[C@H](O)/C(C)=C/[C@@H](C)C(=O)C1 QFJCIRLUMZQUOT-HPLJOQBZSA-N 0.000 description 1
- 229960002930 sirolimus Drugs 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 208000011580 syndromic disease Diseases 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- Theoretical Computer Science (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开了一种基于表型距离信息构建罕见病地图及导航的方法,包括如下步骤:(1)基于表型本体的有向无环图的结构,计算两表型本体之间的距离,获得表型距离;(2)依据表型距离,计算罕见病数据库中所有罕见病两两之间的距离,获得罕见病距离矩阵;(3)将所述的罕见病距离矩阵转变为欧几里得空间的二维坐标;(4)将罕见病的二维坐标通过可视化展现为电子地图,即获得所述的罕见病地图;(5)将待诊断的临床表型输入所述的罕见病地图,通过罕见病地图导航获得相应的罕见病推荐。本发明通过相似性距离来根据临床表型推荐疾病,辅助医生减少罕见病的初诊误诊。
Description
技术领域
本发明涉及疾病导航方法,尤其涉及一种基于表型距离信息构建罕见病地图及导航的方法。
背景技术
罕见病是指那些发病率极低的疾病。罕见疾病又称“孤儿病”,在中国没有明确的定义。根据世界卫生组织(WHO)的定义,罕见病为患病人数占总人口的0.65‰~1‰的疾病。多数罕见病是慢性严重的疾病,通常会危及生命。约80%的罕见病是由遗传缺陷引起的,因此罕见病一般是指“罕见性遗传病”。
虽然罕见病单个病种的发病率低,但是由于其种类繁多,整体来说罕见病并不罕见,我国罕见病患者总数不低于2500万。据世界卫生组织(WHO)报道,目前已确认的罕见病有5000多种,大约占人类疾病种类的10%;约有50%的罕见病在出生时或者儿童期即可发病,病情常进展迅速,死亡率很高,多数尚无有效的治疗方法,给患者造成巨大的痛苦。
由于对于罕见病的认识水平低造成误诊率非常高,根据欧洲罕见病组织(EURORDIS)的一份调研报告,通常超过1/4的罕见病患者的确诊时间需要5到30年,初诊的误诊率超过40%,所有这些误诊带来的不合理的诊治和手术,不仅可能严重损害患者的健康,同时也给医疗资源和患者家庭带来大量浪费。
罕见病误诊的关键因素在于临床人员通常较少接触到罕见病因而缺乏相应的疾病认识,同时大量罕见病的临床表型之间相互交叠,同一罕见病在表型外显上也具有很大的变异,因此往往会出现误诊。
罕见病同时也是非常稀有的临床研究资源,罕见病的研究对于理解复杂的疾病机制、关键生物通路以及相关治疗方法都提供了很多机会。因此目前很多罕见病临床诊治中心开始建立起来,成为新时期临床医学发展的重要模块,但是如何在临床日常工作中发现罕见病还缺乏有效的工具。
目前一些罕见病知识库被建立起来,比如1997年在法国建立的Orphanet,利用互联网收集分散的罕见病知识,目前成为了主要的罕见病参考资源,但是其中的知识采用传统的关键词索引,只能单向通过疾病来检索到对应的单一的知识库条目,同时无法了解与之相关的罕见病,这对于临床认知罕见病特别是在仅明确部分表型的情况下开展初步诊断并没有太大帮助。
同时由于疾病的表型在临床上具有不同的表达方式很难和知识库中的标准化术语完全匹配,因此不完整和不准确的临床表型也给相关的知识检索过程带来了不便。
发明内容
本发明提供了一种基于表型距离信息构建罕见病地图及导航的方法,可应用于临床,通过临床表型相似性距离来推荐疾病,辅助医生减少罕见病的初诊误诊。
本发明的技术方案如下:
一种基于表型距离信息构建罕见病地图及导航的方法,包括如下步骤:
(1)基于表型本体的有向无环图的结构,计算两表型本体之间的距离,获得表型距离;
(2)依据表型距离,计算罕见病数据库中所有罕见病两两之间的距离,获得罕见病距离矩阵;
(3)将所述的罕见病距离矩阵转变为欧几里得空间的二维坐标;
(4)将罕见病的二维坐标通过可视化展现为电子地图,即获得所述的罕见病地图;
(5)将待诊断的临床表型输入所述的罕见病地图,通过罕见病地图导航获得相应的罕见病推荐。
HPO(Human Phenotype Ontology)人类表型本体是由Robinson教授等人于2008年提出,利用计算机科学中的本体论思想来构建一个人类异常表型的本体,以涵盖人类单基因疾病中所有常见的异常表型并且实现人类表型的标准化。
采用HPO注释的疾病数据库基于本体论思想,将其中的表型本体构成有向无环图,图中每个节点都代表一种表型本体,这些表型本体通过“IS_A”关系连接到父节点表型本体。因此子类表型本体相较于父节点表型本体是更为精确的症状定义,并且一种表型本体可能具有多个父类,反映多种语义类型。
步骤(1)中,通过式(a)计算两表型本体之间的距离:
其中,p1和p2为两种表型本体;D1和D2分别为p1和p2与距离两者最近的共同祖先节点的距离;Dmax为整个表型本体的有向无环图中距离最远的节点的距离。
步骤(2)中,通过式(b)计算两罕见病之间的距离:
其中,d1和d2表示两种疾病,d1包含m个表型本体pi,表型本体pi在疾病d1人群中出现的频率为wi;d2包含n个表型本体pj,表型本体pj在疾病d2人群中出现的频率为wj。
式(b)通过从两个疾病的两组表型本体出发,匹配最近距离的表型本体,计算双向的距离然后获取平均值。
步骤(2)中,所述的罕见病数据库为Orphanet。Orphanet中对于疾病表型的注释采用了HPO。
步骤(3)中,采用多维标度法(multidimensional scaling)将所述的罕见病距离矩阵转变为欧几里得空间的二维坐标。
转变获得的二维空间的距离最大程度还原了疾病之间的距离,由此可以为疾病地图上的疾病提供定位信息。
步骤(4)中,将罕见病的二维坐标可视化之前,还包括将罕见病的二维坐标集成该罕见病的其它信息;所述的其它信息包括该罕见病的人群发病率。可通过二维空间上气泡的大小来展示罕见病的人群发病率。
优选的,步骤(4)中,将罕见病的二维坐标可视化之前,还包括利用非监督聚类方法将罕见病进行聚类分区。
所述的罕见病地图具体缩放功能、平移功能、隐藏和显示特定疾病分区和发病率分组的信息浏览功能。并且通过罕见病地图可以直观的了解各种罕见病之间的关系。
所述的罕见病地图具有罕见病检索功能:向罕见病地图输入表型本体或表型本体组,罕见病地图可匹配出相应的罕见病。
所述的检索功能包括表型本体精确匹配模式和表型距离匹配模式;所述的表型本体精确匹配模式为:向罕见病地图输入表型本体或表型本体组,罕见病地图将具有完全匹配表型的疾病可视化展示;所述的表型距离匹配模式为:向罕见病地图输入表型本体或表型本体组,罕见病地图将可视化展示所有罕见病与输入的表型本体或表型本体组的距离,通过互动的过滤条件可筛选出可能潜在的罕见病。
与现有技术相比,本发明的有益效果为:
本发明的基于表型距离信息构建罕见病地图及导航的方法可在临床获取表型不完全、不精准或存在错误的条件下导航定位可能的罕见病;能够直观可视化展现复杂的上千种罕见疾病之间的相互关系。
附图说明
图1为基于表型距离信息构建罕见病地图及导航的方法的流程示意图;
图2为罕见病地图的构建示意图;
图3为本发明的方法与传统的疾病推荐方法的效果对比图。
具体实施方式
下面结合附图和实施例对本发明作进一步详细描述,需要指出的是,以下所述实施例旨在便于对本发明的理解,而对其不起任何限定作用。
本发明通过利用Orphanet知识库中罕见病与临床表型的注释提出了一种疾病表型距离计算的方法;基于这个距离模型提出了构建罕见病地图的方法;同时提出了一种疾病地图的疾病导航模式,可以让临床工作者在不精确、不完整的表型基础上在疾病地图上定位相关罕见疾病。
基于表型距离信息构建罕见病地图及导航的方法如图1所示,包括如下步骤:
(1)基于表型本体的表型距离计算
HPO(Human Phenotype Ontology)人类表型本体是由Robinson教授等人于2008年提出,利用计算机科学中的本体论思想来构建一个人类异常表型的本体,以涵盖人类单基因疾病中所有常见的异常表型并且实现人类表型的标准化。目前罕见病重要的参考资源Orphanet中对于疾病表型的注释就采用了HPO。HPO数据库基于本体论思想将其中的表型术语构成有向无环图,图中每个节点都代表一种表型术语,这些表型术语通过“IS_A”关系连接到父节点表型术语。因此子类表型术语相较于父节点表型术语是更为精确的症状定义,并且一种表型术语可能具有多个父类,反映多种语义类型。
从本体的有向无环图的结构出发,通过定义HPO本体中的任意两个表型术语p1和p2,其距离可以通过本体层次结构中对应的两个节点之间的最短距离来量化:
其中,D1和D2分别代表p1和p2与距离两者最近的共同祖先节点的距离,Dmax代表了整个有向无环图中距离最远的节点的距离。
(2)基于表型距离的罕见病距离计算
收录到Orphanet的罕见病中有3287种进行了HPO的注释,其中包含了标准的表型术语以及对应的表型出现的频率,利用这些信息定义如下的疾病距离:
其中,疾病d1包含了m个表型pi对应出现的频率为wi;疾病d2包含了n个表型pj对应出现的频率为wj;这个公式通过从两个疾病的两组表型出发,匹配最近距离的表型并计算双向的平均值获得。
(3)罕见病地图的构建
通过计算Orphanet中包含的3287种疾病两两之间的距离,可以获得一个罕见病的距离矩阵,利用多维标度法(multidimensional scaling)可以把这个距离矩阵转变为传统欧几里得空间的二维坐标,这个二维空间的距离最大程度还原了疾病之间的距离。由此可以为疾病地图上疾病提供定位的信息,同时通过集成疾病的其它信息,如疾病的人群发病率等可以通过二维空间上气泡的大小来展示,同时由于疾病众多,利用非监督聚类的方式可以形成若干疾病分区,并通过可视化的方式把这些信息展现为电子地图,并提供电子地图的缩放、平移、隐藏和显示特定疾病分区或者发病率分组等信息浏览功能,通过地图可以直观的了解各种罕见病之间的关系,如图2所示。
(4)罕见病地图的导航技术
为了充分发挥罕见病地图在临床诊疗中的作用,提供一个录入表型或表型组来检索罕见病的功能,该检索提供两种模式,一种是传统的表型精确匹配模式,通过检索地图上具有完全匹配表型的疾病并通过可视化方式展现出来;另外一种模式通过上述提及的表型距离计算,然后可视化出所有罕见病与该检索条件的距离,然后通过互动的过滤条件来检索可能潜在的罕见疾病。
利用上述方法,基于Orphanet中3287种罕见病数据,生成的一个具有17个表型聚类分区的罕见病地图。地图提供缩放功能,并且随着缩放比例提供额外的疾病信息,同时通过点击图例可以隐藏/显示对应的疾病,方便用户来浏览。
选择具体疾病后会显示疾病的详细信息,除了列出该疾病的基本信息和相关的表型信息之外,还提供了一个相似疾病的列表,通过这个列表又可以重新在地图上定位新的疾病,也可以把这组相似的疾病都渲染到地图上供用户浏览。
最关键的一个功能是为地图导航功能,在罕见病地图的右侧提供了检索框,这个检索框除了可以检索具体疾病之外,提供了表型导航功能,用户通过录入一个或者多个表型来利用相似性来检索整个疾病地图,如通过输入两个表型“肾结石”和“室间隔缺损”,然后选择“similarity”的模式,可以在地图上计算所有罕见病和这个表型组之间的相似性,然后利用地图控件可以调整过滤条件,地图上互动显示出来的信息可以帮助临床医生方便的确定潜在的罕见疾病。
对于通过相似距离来推荐疾病的方法是否有效,我们开展了一个测试,通过随机获取1000种罕见病,并且挑选排名前四的典型表型,然后开展不同程度的表型混淆(通过兄弟节点或者父亲节点来替代原有表型)下,比较了传统的术语匹配的方法(JacardMatching)和单向的相似距离(Similarity)以及双向的相似距离(Similarity-avg)三种方法在不同数量精准表型下的匹配结果的排名,结果如图3所示,可以看出在完全精准的情况下(第一组数据)三种方法都比较好,但是基于相似性距离的方法给出的排名更靠前;随着不精准表型数量的增加,传统的匹配方法的效果开始严重恶化,而两种基于相似距离的方法依然保持了比较好的推荐效果,目标疾病排名依然靠前。同时在这种检索场景下,单向的相似距离(Similarity)表现的更好,本发明也采用了该方法。这种基于地图导航的模式非常符合目前临床实践中获取的临床表型的现状,该发明形成的地图和导航功能对于目前在临床上减少罕见病的初诊误诊将会提供有效的工具。
此外针对权威罕见病期刊(Orphanet Journal of Rare Diseases)中报道的20哥罕见病案例以及其临床表型在本发明的罕见病地图上进行定位,结果显示如表1,目标疾病在推荐疾病中的平均排名为1.8位(中位数排名为1),也就是绝大多数情况下可以比较好的导航到准确的罕见病。
表1
以上20例罕见病报道的参考文献列表如下:
1.Al-Owain M,Mohamed S,Kaya N,Zagal A,Matthijs G,Jaeken J.A novelmutation and first report of dilated cardiomyopathy in ALG6-CDG(CDG-Ic):acase report.Orphanet J Rare Dis.2010;5:7.
2.U,R,H,Kurul S,Dirik E,et al.Case report ofintrafamilial variability in autosomal recessive centronuclear myopathyassociated to a novel BIN1 stop mutation.Orphanet J Rare Dis.2010;5:35.
3.Acién P,Galán F,Manchón I,Ruiz E,Acién M,Alcaraz LA.Hereditaryrenal adysplasia,pulmonary hypoplasia and Mayer-Rokitansky-Küster-Hauser(MRKH)syndrome:a case report.Orphanet J Rare Dis.2010;5:6.
4.Mejia-Gaviria N,H,Coto E,Pérez-Menéndez TM,Santos F.Geneticand clinical peculiarities in a new family with hereditary hypophosphatemicrickets with hypercalciuria:A case report.Orphanet J Rare Dis.2010;
5.Joy T,Cao H,Black G,Malik R,Charlton-Menys V,Hegele RA,etal.Alstrom syndrome(OMIM 203800):a case report and literature review.OrphanetJ Rare Dis.2007;2:49.
6.Zhu Y,Zou Y,Yu Q,Sun H,Mou S,Xu S,et al.Combined surgical-orthodontic treatment of patients with cleidocranial dysplasia:case reportand review of the literature.Orphanet J Rare Dis.2018;13:217.
7.Zamel R,Khan R,Pollex RL,Hegele RA.Abetalipoproteinemia:two casereports and literature review.Orphanet J Rare Dis.2008;3:19.
8.Vroegindeweij LHP,Boon AJW,Wilson JHP,Langendonk JG.Effects of ironchelation therapy on the clinical course of aceruloplasminemia:an analysis ofaggregated case reports.Orphanet J Rare Dis.2020;15:105.
9.Zhou L,Ouyang R,Luo H,Ren S,Chen P,Peng Y,et al.Efficacy ofsirolimus for the prevention of recurrent pneumothorax in patients withlymphangioleiomyomatosis:a case series.Orphanet J Rare Dis.2018;13:168.
10.Dias RP,Buchanan CR,Thomas N,Lim S,Solanki G,Connor SEJ,et al.Osodontoideum in wolcott-rallison syndrome:A case series of 4patients.OrphanetJ Rare Dis.2016;
11.Valayannopoulos V,Nicely H,Harmatz P,TurbevilleS.Mucopolysaccharidosis VI.Orphanet J Rare Dis.2010;5:5.
12.Biesecker LG.The Greig cephalopolysyndactyly syndrome.Orphanet JRare Dis.2008;
13.Germain DP.Fabry disease.Orphanet J Rare Dis.2010;5:30.
14.Drera B,Ritelli M,Zoppi N,Wischmeijer A,Gnoli M,Fattori R,etal.Loeys-Dietz syndrome type i and type II:Clinical findings and novelmutations in two Italian patients.Orphanet J Rare Dis.2009;
15.Reibel A,Manière M-C,Clauss F,Droz D,Alembik Y,Mornet E,etal.Orodental phenotype and genotype findings in all subtypes ofhypophosphatasia.Orphanet J Rare Dis.2009;4:6.
16.Sarfati J,Bouvattier C,Bry-Gauillard H,Cartes A,Bouligand J,YoungJ.Kallmann syndrome with FGFR1 and KAL1 mutations detected during fetallife.Orphanet J Rare Dis.2015;10:71.
17.Weisfeld-Adams JD,Mehta L,Rucker JC,Dembitzer FR,Szporn A,LublinFD,et al.Atypical Chédiak-Higashi syndrome with attenuated phenotype:threeadult siblings homozygous for a novel LYST deletion and withneurodegenerative disease.Orphanet J Rare Dis.2013;8:46.
18.Mowat DR,Wilson MJ,Goossens M.Mowat-Wilsonsyndrome.J.Med.Genet.2003.
19.Chrzanowska KH,Gregorek H,Dembowska-Bagińska B,Kalina MA,DigweedM.Nijmegen breakage syndrome(NBS).Orphanet J Rare Dis.2012;7:13.
20.Marshall BA,Paciorkowski AR,Hoekel J,Karzon R,Wasson J,Viehover A,et al.Phenotypic characteristics of early Wolfram syndrome.Orphanet J RareDis.2013;
以上所述的实施例对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的具体实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于表型距离信息构建罕见病地图及导航的方法,其特征在于,包括如下步骤:
(1)基于表型本体的有向无环图的结构,计算两表型本体之间的距离,获得表型距离;
(2)依据表型距离,计算罕见病数据库中所有罕见病两两之间的距离,获得罕见病距离矩阵;
(3)将所述的罕见病距离矩阵转变为欧几里得空间的二维坐标;
(4)将罕见病的二维坐标通过可视化展现为电子地图,即获得所述的罕见病地图;
(5)将待诊断的临床表型输入所述的罕见病地图,通过罕见病地图导航获得相应的罕见病推荐。
4.根据权利要求1所述的基于表型距离信息构建罕见病地图及导航的方法,其特征在于,所述的罕见病数据库为Orphanet。
5.根据权利要求1所述的基于表型距离信息构建罕见病地图及导航的方法,其特征在于,步骤(3)中,采用多维标度法将所述的罕见病距离矩阵转变为欧几里得空间的二维坐标。
6.根据权利要求1所述的基于表型距离信息构建罕见病地图及导航的方法,其特征在于,步骤(4)中,将罕见病的二维坐标可视化之前,还包括将罕见病的二维坐标集成该罕见病的其它信息;所述的其它信息包括该罕见病的人群发病率。
7.根据权利要求1或6所述的基于表型距离信息构建罕见病地图及导航的方法,其特征在于,步骤(4)中,将罕见病的二维坐标可视化之前,还包括利用非监督聚类方法将罕见病进行聚类分区。
8.根据权利要求1所述的基于表型距离信息构建罕见病地图及导航的方法,其特征在于,所述的罕见病地图具体缩放功能、平移功能、隐藏和显示特定疾病分区和发病率分组的信息浏览功能。
9.根据权利要求1所述的基于表型距离信息构建罕见病地图及导航的方法,其特征在于,所述的罕见病地图具有罕见病检索功能:向罕见病地图输入表型本体或表型本体组,罕见病地图可匹配出相应的罕见病。
10.根据权利要求9所述的基于表型距离信息构建罕见病地图及导航的方法,其特征在于,所述的检索功能包括表型本体精确匹配模式和表型距离匹配模式;所述的表型本体精确匹配模式为:向罕见病地图输入表型本体或表型本体组,罕见病地图将具有完全匹配表型的疾病可视化展示;所述的表型距离匹配模式为:向罕见病地图输入表型本体或表型本体组,罕见病地图将可视化展示所有罕见病与输入的表型本体或表型本体组的距离,通过互动的过滤条件可筛选出可能潜在的罕见病。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011119985.1A CN112289436B (zh) | 2020-10-19 | 2020-10-19 | 一种基于表型距离信息构建罕见病地图及导航的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011119985.1A CN112289436B (zh) | 2020-10-19 | 2020-10-19 | 一种基于表型距离信息构建罕见病地图及导航的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112289436A true CN112289436A (zh) | 2021-01-29 |
CN112289436B CN112289436B (zh) | 2024-03-19 |
Family
ID=74497976
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011119985.1A Active CN112289436B (zh) | 2020-10-19 | 2020-10-19 | 一种基于表型距离信息构建罕见病地图及导航的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112289436B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116343913A (zh) * | 2023-03-15 | 2023-06-27 | 昆明市延安医院 | 基于表型语义关联基因聚类调控网络预测单基因遗传病潜在致病机制的分析方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101086785A (zh) * | 2007-05-25 | 2007-12-12 | 浙江大学 | 支持可视化编辑的多模态临床指南知识管理系统 |
US20140304200A1 (en) * | 2011-10-24 | 2014-10-09 | President And Fellows Of Harvard College | Enhancing diagnosis of disorder through artificial intelligence and mobile health technologies without compromising accuracy |
CN108334749A (zh) * | 2018-02-06 | 2018-07-27 | 西安交通大学 | 一种基于染色质调控环路检测复杂疾病上位性的方法及系统 |
CN110706755A (zh) * | 2019-08-26 | 2020-01-17 | 上海科技发展有限公司 | 结核菌耐药性检测方法、装置、计算机设备和存储介质 |
US20200090802A1 (en) * | 2017-03-24 | 2020-03-19 | The Brigham And Women's Hospital, Inc. | Systems and Methods for Automated Treatment Recommendation Based on Pathophenotype Identification |
CN110993047A (zh) * | 2019-12-03 | 2020-04-10 | 中国医学科学院北京协和医院 | 罕见病信息管理方法、设备及计算机可读存储介质 |
-
2020
- 2020-10-19 CN CN202011119985.1A patent/CN112289436B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101086785A (zh) * | 2007-05-25 | 2007-12-12 | 浙江大学 | 支持可视化编辑的多模态临床指南知识管理系统 |
US20140304200A1 (en) * | 2011-10-24 | 2014-10-09 | President And Fellows Of Harvard College | Enhancing diagnosis of disorder through artificial intelligence and mobile health technologies without compromising accuracy |
US20200090802A1 (en) * | 2017-03-24 | 2020-03-19 | The Brigham And Women's Hospital, Inc. | Systems and Methods for Automated Treatment Recommendation Based on Pathophenotype Identification |
CN108334749A (zh) * | 2018-02-06 | 2018-07-27 | 西安交通大学 | 一种基于染色质调控环路检测复杂疾病上位性的方法及系统 |
CN110706755A (zh) * | 2019-08-26 | 2020-01-17 | 上海科技发展有限公司 | 结核菌耐药性检测方法、装置、计算机设备和存储介质 |
CN110993047A (zh) * | 2019-12-03 | 2020-04-10 | 中国医学科学院北京协和医院 | 罕见病信息管理方法、设备及计算机可读存储介质 |
Non-Patent Citations (3)
Title |
---|
ZHENGXING HUANG ETC.: "Similarity Measure Between Patient Traces for Clinical Pathway Analysis: Problem, Method, and Applications", 《IEEE》, pages 5 - 14 * |
孟琳非等: "基于聚类分析对慢性肺部疾病表型的研究进展", 《医学信息》, pages 44 - 48 * |
魏丹丹;白澎;孙永昌;: "聚类分析在慢性阻塞性肺疾病表型研究中的应用探讨", 中国呼吸与危重监护杂志, no. 05 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116343913A (zh) * | 2023-03-15 | 2023-06-27 | 昆明市延安医院 | 基于表型语义关联基因聚类调控网络预测单基因遗传病潜在致病机制的分析方法 |
CN116343913B (zh) * | 2023-03-15 | 2023-11-14 | 昆明市延安医院 | 基于表型语义关联基因聚类调控网络预测单基因遗传病潜在致病机制的分析方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112289436B (zh) | 2024-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109299239B (zh) | 一种基于es的电子病历检索方法 | |
Ordonez | Association rule discovery with the train and test approach for heart disease prediction | |
James et al. | A visual and curatorial approach to clinical variant prioritization and disease gene discovery in genome-wide diagnostics | |
CN110459320B (zh) | 一种基于知识图谱的辅助诊疗系统 | |
CN110021364B (zh) | 基于病人临床症状数据和全外显子组测序数据筛选单基因遗传病致病基因的分析检测系统 | |
Ordonez | Comparing association rules and decision trees for disease prediction | |
US20090228299A1 (en) | Methods and apparatus for context-sensitive telemedicine | |
CN112542243B (zh) | 一种icu电子病历知识图谱构建方法、系统和存储介质 | |
US20070130206A1 (en) | System and Method For Integrating Heterogeneous Biomedical Information | |
JP5028847B2 (ja) | 遺伝子間相互作用ネットワーク分析支援プログラム、該プログラムを記録した記録媒体、遺伝子間相互作用ネットワーク分析支援方法、および、遺伝子間相互作用ネットワーク分析支援装置 | |
CN112687397B (zh) | 罕见病知识库的处理方法及装置、可读存储介质 | |
Glueck et al. | PhenoBlocks: Phenotype comparison visualizations | |
JP2018503902A (ja) | 診断妥当性基準を採用することによって病態を特定するための診断検査の最適なシーケンスを決定することに適合した医用鑑別診断装置 | |
CN106202883A (zh) | 一种基于大数据分析建立疾病云图的方法 | |
WO2009083841A1 (en) | Method and apparatus for refining similar case search | |
Glueck et al. | PhenoLines: Phenotype comparison visualizations for disease subtyping via topic models | |
CN112614565A (zh) | 一种基于知识图谱技术的中药经典名方智能推荐方法 | |
CN113889265B (zh) | 一种基于表型可视化的罕见病辅助推理的方法及系统 | |
CN116013534A (zh) | 一种基于医学指南和数据的临床辅助决策方法及系统 | |
CN110299209A (zh) | 相似病历查找方法、装置、设备及可读存储介质 | |
Yang et al. | RDmap: a map for exploring rare diseases | |
CN115497631A (zh) | 一种临床科研大数据分析系统 | |
CN115798733A (zh) | 一种用于孤儿病的智能辅助推理系统及方法 | |
Bannach et al. | Visual analytics for radiomics: Combining medical imaging with patient data for clinical research | |
CN112289436B (zh) | 一种基于表型距离信息构建罕见病地图及导航的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |