CN106980749A - 疾病的快速辅助定位方法 - Google Patents

疾病的快速辅助定位方法 Download PDF

Info

Publication number
CN106980749A
CN106980749A CN201710092648.XA CN201710092648A CN106980749A CN 106980749 A CN106980749 A CN 106980749A CN 201710092648 A CN201710092648 A CN 201710092648A CN 106980749 A CN106980749 A CN 106980749A
Authority
CN
China
Prior art keywords
phenotype
disease
collection
patient
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710092648.XA
Other languages
English (en)
Other versions
CN106980749B (zh
Inventor
李其刚
赵科研
杨京忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Tchien Biotechnology Co Ltd
Original Assignee
Chengdu Tchien Biotechnology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Tchien Biotechnology Co Ltd filed Critical Chengdu Tchien Biotechnology Co Ltd
Priority to CN201710092648.XA priority Critical patent/CN106980749B/zh
Publication of CN106980749A publication Critical patent/CN106980749A/zh
Application granted granted Critical
Publication of CN106980749B publication Critical patent/CN106980749B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Public Health (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种疾病的快速辅助定位方法,其包括:接收患者描述的罹患疾病的所有表型,并采用接收的所有表型构建患者描述表型集;获取表型注释数据库中具有患者描述的表型的所有疾病;查找每种疾病所对应的表型,并采用每种疾病所对应的表型分别构建相关疾病表型集;计算患者描述表型集与每个相关疾病表型集的相似度;比较患者描述表型集与所有相关疾病表型集的相似度,相似度值越大,则患者罹患当前相似度对应疾病的概率越大。

Description

疾病的快速辅助定位方法
技术领域
本发明涉及临床诊断系统,具体涉及一种疾病的快速辅助定位方法。
背景技术
在罕见疾病的临床诊断中,一个常见的问题便是如何根据患者的表型信息快速准确地分析出其罹患的具体的疾病类型。表型诊断就是通过比较患者表型和所有已知疾病记录的表型间的相似程度,跟患者越相似的疾病可能性越大,因此精确地计算记录的疾病表型和患者间的表型间的相似程度是成功诊断的关键。
由于各种外界原因,比如患者间的遗传和环境等个体差异、临床医生的知识结构差异等,临床诊断时患者的表型描述不可能跟疾病的已知表述完全一致,在现实场景中,经常出现以下问题:1)数据不完整(只包括部分表型);2)噪音(跟真实疾病无关的表型,即提供了错误的表型);3)不准确描述(表型描述过于宽泛,不具有区分度)。
发明内容
针对现有技术中的上述不足,本发明提供的疾病的快速辅助定位方法解决了实际场景中表型数据不完备、带有噪音和描述不够准确引起疾病定位不准确的问题。
为了达到上述发明目的,本发明采用的技术方案为:
提供一种疾病的快速辅助定位方法,其包括:
接收患者描述的罹患疾病的所有表型,并采用接收的所有表型构建患者描述表型集;
获取表型注释数据库中具有患者描述的表型的所有疾病;
查找每种疾病所对应的表型,并采用每种疾病所对应的表型分别构建相关疾病表型集;
计算患者描述表型集与每个相关疾病表型集的相似度:
其中,T1为患者描述表型集;T2为相关疾病表型集;sim(T1,T2)为集合T1与集合T2之间的相似度;t1和t2疾病所对应的两种不同的表型;sim(t1,t2)为表型t1和t2之间的相似度;
比较患者描述表型集与所有相关疾病表型集的相似度,相似度值越大,则患者罹患当前相似度对应疾病的概率越大。
本发明的有益效果为:本方案通过独特的算法计算患者表型与所有已知疾病的相似度,能够很好地排除患者描述表型数据不完备、带有噪音和描述不够准确等带来的不确定性;将采用本方案的方法与现有通过相似度定位疾病的Resnik、JC和Lin方法在同等模拟环境下进行模拟实验,通过数据对比,本方案抗外界干扰因素明显高于现有技术中采用相似度的三种方法。
附图说明
图1为本发明疾病的快速辅助定位方法一个实施例的流程图。
图2为模拟测试时,添加0.5倍,1倍和1.5倍噪音后,本方案与现有技术中的Resnik、JC和Lin方法抵抗噪音干扰时的效果图。
图3为模拟测试时,先抽取50%表型,然后分别替换其中的30%、50%和90%的表型作为每个表型对应的任意一个祖先表型后,本方案与现有技术中的Resnik、JC和Lin方法抵抗不精确描述时的效果图。
图4为模拟测试时,先抽样50%的表型,不精确部分表型,在添加不同程度的噪音后,本方案与现有技术中的Resnik、JC和Lin方法抵抗混合效应时的效果图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
参考图,图1示出了本发明疾病的快速辅助定位方法一个实施例的流程图。如图1所示,该方法100包括步骤101至步骤104。
在步骤101中,接收患者描述的罹患疾病的所有表型;为了便于后面患者罹患疾病的相似度与数据库中疾病的相似度计算,此处将患者描述的所有表型构建成一个集合,即采用接收的所有表型构建患者描述表型集。
在本发明的一个实施例中,表型注释数据库为从人类表型本体官方网站获得的罕见疾病和每种罕见疾病对应的表型构建而成。
由于数据集中的所有疾病及每种疾病的相关表型均来自于全球权威机构,而不是自己从各种数据网址收集整理而来,更助于后面准确定位疾病的准确性和可靠性。
在步骤102中,获取表型注释数据库中具有患者描述的表型的所有疾病,此处的疾病的所有表型中至少包括一种患者描述的表型。
在步骤103中,查找每种疾病所对应的表型,此处为便于后续相似度计算,同理也可以将每种疾病所对应的表型分别构建成一个集合,即采用每种疾病所对应的表型分别构建相关疾病表型集。
在步骤104中,计算患者描述表型集与每个相关疾病表型集的相似度:
其中,T1为患者描述表型集;T2为相关疾病表型集;sim(T1,T2)为集合T1与集合T2之间的相似度;t1和t2疾病所对应的两种不同的表型;sim(t1,t2)为表型t1和t2之间的相似度;
在本发明的一个实施例中,表型t1和t2之间的相似度sim(t1,t2)的具体算法为:
sim(t1,t2)=2IC(tMICA)-min(IC(t1),IC(t2))
其中,tMICA为表型t1和t2的最大信息量共同祖先节点;IC(tMICA)为两个表型t1和t2共同的祖先tMICA的信息量;IC(t1)和IC(t2)分别为表型t1和t2的信息量;min(IC(t1),IC(t2)表示取IC(t1)和IC(t2)两者中最小值。
实施时,优选表型的信息量的具体算法为:
IC(t)=log(N/Nt)
其中,N为从表型注释数据库获取的所有疾病的数量;t为疾病所对应的表型;Nt为具有表型t的疾病数量;IC代表每个表型的信息量。
在步骤105中,比较患者描述表型集与所有相关疾病表型集的相似度,相似度值越大,则患者罹患当前相似度对应疾病的概率越大。
在本发明的一个实施例中,该疾病的快速辅助定位方法还包括对患者描述表型集与所有相关疾病表型集的相似度按照疾病的维度进行排序,并输出排序结果。
通过输出的排序结果,用户可以动态地增减或修改描述的表型,以达到罹患疾病的精确定位。
下面选取DDDG2P(Development Disorder Genotype–Phenotype Database数据库(https://decipher.sanger.ac.uk)对现有技术中Resnik、JC和Lin与本方案的方法(下面用ERIC表示)进行模拟测试。
其中,DDDG2P(Development Disorder Genotype–Phenotype Database数据库包含了大约25000个疾病和表型间的对应关系,包括1300种发育相关的疾病和大约4000个人类表型本体(HPO)表型术语。
噪音对比测试
由于个体遗传和环境等差异,临床患者还可能表现出跟真实疾病记录无关或者不一致的表型(噪音),我们采用如下步骤生成带噪音的患者描述表型集。
首先,每种疾病我们随机抽取50%的表型,每种疾病抽样10次,添加0.5倍,1倍和1.5倍的噪音,计算带噪音抽样表型跟每个疾病所有表型的相关疾病表型集的相似性,如果目标疾病(真实表型数据来源的疾病)的排名越靠前则说明抗噪音能力越好。
通过模拟测试输出的图像(参考图2)可以发现抵抗噪音能力依次为:ERIC>JC>Lin>Resnik,可见本方案提供的方法(ERIC)比其它方法更能抵抗噪音的影响。
参见表1,在1.5倍噪音时,排名前5的疾病,ERIC依次能比JC、Lin和Resnik多13.8%,23.3%和25.7%。
表1 1.5倍噪音时真实疾病排名
不精确描述测试
临床上患者描述疾病的表型可能比较宽泛,不精确,因此我们还需要模拟不精确描述的影响。同样先抽取50%表型,然后分别替换其中的30%、50%和90%的表型作为每个表型对应的任意一个祖先表型。
通过模拟测试输出的图像(参考图3)可以发现ERIC和Resnik抵御不精确描述的能力比较一致,且都优于JC和Lin方法。
参见表2,在90%的不精确描述时,排名前5的疾病ERIC和Resnik比JC和Lin多大约8%。
表2 90%不精确描述时的真实疾病排名
混合效应测试
真实的临床使用时,会同时受到噪音和不精确描述的影响。为了评估这种混合效应的影响,我们抽样50%的表型,然后分别替换其中50%的表型作为每个表型对应的任意一个祖先表型,之后再添加1倍的噪音进行模拟测试。
通过模拟测试分别计算相似度后,我们发现ERIC仍然是表现最好的,测试数据参考图4和表3。
表3 1倍和50%不精确描述时真实疾病排名
综上所述,本方案通过独特的计算方式计算的相似度确定为某种疾病的方式与现有的Resnik、JC和Lin相比,具有更好的抗噪声性能,更能容忍不精确表型描述带来的干扰。

Claims (5)

1.疾病的快速辅助定位方法,其特征在于,包括:
接收患者描述的罹患疾病的所有表型,并采用接收的所有表型构建患者描述表型集;
获取表型注释数据库中具有患者描述的表型的所有疾病;
查找每种疾病所对应的表型,并采用每种疾病所对应的表型分别构建相关疾病表型集;
计算患者描述表型集与每个相关疾病表型集的相似度:
s i m ( T 1 , T 2 ) = Σ ∀ t 1 ∈ T 1 m a x ∀ t 2 ∈ T 2 ( s i m ( t 1 , t 2 ) )
其中,T1为患者描述表型集;T2为相关疾病表型集;sim(T1,T2)为集合T1与集合T2之间的相似度;t1和t2疾病所对应的两种不同的表型;sim(t1,t2)为表型t1和t2之间的相似度;
比较患者描述表型集与所有相关疾病表型集的相似度,相似度值越大,则患者罹患当前相似度对应疾病的概率越大。
2.根据权利要求1所述的疾病的快速辅助定位方法,其特征在于,所述表型t1和t2之间的相似度sim(t1,t2)的具体算法为:
sim(t1,t2)=2IC(tMICA)-min(IC(t1),IC(t2))
其中,tMICA为表型t1和t2的最大信息量共同祖先节点;IC(tMICA)为两个表型t1和t2共同的祖先tMICA的信息量;IC(t1)和IC(t2)分别为表型t1和t2的信息量;min(IC(t1),IC(t2)表示取IC(t1)和IC(t2)两者中最小值。
3.根据权利要求2所述的疾病的快速辅助定位方法,其特征在于,表型的信息量的具体算法为:
IC(t)=log(N/Nt)
其中,N为从表型注释数据库获取的所有疾病的数量;t为疾病所对应的表型;Nt为具有表型t的疾病数量;IC代表每个表型的信息量。
4.根据权利要求1-3任一所述的疾病的快速辅助定位方法,其特征在于,还包括对患者描述表型集与所有相关疾病表型集的相似度按照疾病的维度进行排序,并输出排序结果。
5.根据权利要求1-3任一所述的疾病的快速辅助定位方法,其特征在于,所述表型注释数据库为从人类表型本体官方网站获得的罕见疾病和每种罕见疾病对应的表型构建而成。
CN201710092648.XA 2017-02-21 2017-02-21 疾病的快速辅助定位方法 Active CN106980749B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710092648.XA CN106980749B (zh) 2017-02-21 2017-02-21 疾病的快速辅助定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710092648.XA CN106980749B (zh) 2017-02-21 2017-02-21 疾病的快速辅助定位方法

Publications (2)

Publication Number Publication Date
CN106980749A true CN106980749A (zh) 2017-07-25
CN106980749B CN106980749B (zh) 2021-10-26

Family

ID=59338172

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710092648.XA Active CN106980749B (zh) 2017-02-21 2017-02-21 疾病的快速辅助定位方法

Country Status (1)

Country Link
CN (1) CN106980749B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108363902A (zh) * 2018-01-30 2018-08-03 成都奇恩生物科技有限公司 一种致病遗传变异的精确预测方法
CN109473169A (zh) * 2018-10-18 2019-03-15 安吉康尔(深圳)科技有限公司 一种疾病诊断方法、装置及终端设备
CN113241118A (zh) * 2021-07-12 2021-08-10 法玛门多(常州)生物科技有限公司 一种基因突变有害性预测的方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102156812A (zh) * 2011-04-02 2011-08-17 中国医学科学院医学信息研究所 基于症状相似度分析的就医辅助决策方法
US20150211019A1 (en) * 2012-08-13 2015-07-30 University Of Georgia Research Foundation, Inc. Compositions and Methods for Increasing Pest Resistance in Plants

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102156812A (zh) * 2011-04-02 2011-08-17 中国医学科学院医学信息研究所 基于症状相似度分析的就医辅助决策方法
US20150211019A1 (en) * 2012-08-13 2015-07-30 University Of Georgia Research Foundation, Inc. Compositions and Methods for Increasing Pest Resistance in Plants

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BOYCOTT KM等: "International cooperation to enable the diagnosis of all rare genetic diseases", 《AM J HUM GENET》 *
WANG JZ等: "A new method to measure the semantic similarity of GO terms", 《BIOINFORMATICS》 *
李杰等: "基于疾病本体的疾病相似度计算方法", 《生物化学与生物物理进展》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108363902A (zh) * 2018-01-30 2018-08-03 成都奇恩生物科技有限公司 一种致病遗传变异的精确预测方法
CN108363902B (zh) * 2018-01-30 2022-02-25 成都奇恩生物科技有限公司 一种致病遗传变异的精确预测方法
CN109473169A (zh) * 2018-10-18 2019-03-15 安吉康尔(深圳)科技有限公司 一种疾病诊断方法、装置及终端设备
CN113241118A (zh) * 2021-07-12 2021-08-10 法玛门多(常州)生物科技有限公司 一种基因突变有害性预测的方法

Also Published As

Publication number Publication date
CN106980749B (zh) 2021-10-26

Similar Documents

Publication Publication Date Title
Tu et al. Causal discovery in the presence of missing data
Daka et al. Generating unit tests with descriptive names or: Would you name your children thing1 and thing2?
Ivanova et al. An empirical comparison of univariate versus multivariate methods for the analysis of brain–behavior mapping
CN105184103B (zh) 基于病历数据库的虚拟名医系统
US7139676B2 (en) Revising a test suite using diagnostic efficacy evaluation
Thompson et al. Prevalence odds ratio or prevalence ratio in the analysis of cross sectional data: what is to be done?
Lee et al. Bayesian analysis of structural equation models with dichotomous variables
Cha et al. 9-V algorithm for test pattern generation of combinational digital circuits
JP2001318804A (ja) 確率的な診断システム
CN102750223B (zh) 一种基于面向对象程序切片谱的错误定位方法
Reger et al. A pattern-based approach to parametric specification mining
CN106980749A (zh) 疾病的快速辅助定位方法
CN102831055A (zh) 基于加权属性的测试用例选择方法
KR20190053616A (ko) 빅데이터 분석을 위한 데이터 병합 장치 및 방법
CN112363923A (zh) 基于问卷系统的测试方法、装置、计算机设备及介质
CN103970654B (zh) 一种软件可靠性虚拟测试方法
Delgado-Pérez et al. Using evolutionary mutation testing to improve the quality of test suites
CN103019943B (zh) 一种面向失败测试用例稀少情况的软件错误定位方法
Stoffel et al. Equivalence checking of arithmetic circuits on the arithmetic bit level
CN111880957A (zh) 一种基于随机森林模型的程序错误定位方法
CN112035361B (zh) 医疗诊断模型的测试方法、装置、计算机设备和存储介质
Sheppard et al. Improving the accuracy of diagnostics provided by fault dictionaries
CN115688644A (zh) 一种解决rtl仿真设计与芯片算法一致性差的验证方法
CN109509547B (zh) 选择嵌套并发的过程模型修正方法
CN110704697B (zh) 一种基于选择分支构建的用于提高业务流程效率的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant