CN104463754B - 基于疾病特征的医学信息本体数据库的建立方法 - Google Patents
基于疾病特征的医学信息本体数据库的建立方法 Download PDFInfo
- Publication number
- CN104463754B CN104463754B CN201410844664.6A CN201410844664A CN104463754B CN 104463754 B CN104463754 B CN 104463754B CN 201410844664 A CN201410844664 A CN 201410844664A CN 104463754 B CN104463754 B CN 104463754B
- Authority
- CN
- China
- Prior art keywords
- disease
- terms
- symptom
- term
- patient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G06F19/324—
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明提供一种基于疾病特征的医学信息本体数据库的建立方法,建立医学信息本体(Medical Ontology)数据库,即MO数据库;将疾病及其特征用MO terms进行编号,每个MO terms代表一个顶点,两个terms之间的关系用有向边表示,这样将疾病和病征表示在一个有向无环图中;对有向边赋予权重;通过本发明的方法,建立起基于疾病特征的医学信息本体数据库,能够提供完善的疾病及病征数据,以及疾病及病征之间合理分配权重,最大可能的为帮助病患自诊提供准确有效的数据依据,为疾病自诊信息平台提供完备的信息基础,既为人们节省不必要的时间消耗,又不会耽误疾病的最佳治疗时间。
Description
技术领域
本发明属于计算机信息领域,特别是涉及到一种基于疾病特征的医学信息本体数据库的建立方法。
背景技术
现阶段人们的生活节奏很快,生活压力也很大,这就为人们的身体健康带来了很多隐忧。人们一旦身体健康出现问题,首选是去医院,但是医院里看病的人又似乎永远是非常多,哪怕是一些小病征,整个看病的流程走下来会花费很多时间;而如果人们觉得耽误时间,不愿意去医院,只是依据自己的经验买些药服用,这样又有可能错过最佳治疗时间,耽误病情。
基于这种现象,如果能够有一个帮助人们进行疾病自诊的信息平台,将会对人们产生巨大的帮助,人们可以通过信息平台的内容,结合自身的状况,先对自己的病患进行初期的判断,病征轻微的,可以根据信息平台的内容进行自我简单的治疗,病征有危险的发展趋势时,再去医院治疗。
要建立一个这样的帮助人们进行疾病自诊的信息平台,需要有一个完善的医学信息数据库,才能保证自诊的准确性,既能帮助人们节省时间,又不会耽误疾病的最佳治疗时间。
发明内容
本发明要解决的问题是设计一种基于疾病特征的医学信息本体数据库,基于本体论在信息学的应用,具有自我完善功能,为疾病自诊信息平台提供完备的信息基础,为病患初期的自诊提供完善的数据。
本体论(Ontology)在信息科学中的定义:给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延规则的定义。
需要说明的是,本发明基于本体论建立医学信息本体数据库,是信息学的一种应用,并非属于疾病的诊断和治疗方法,因此不违反专利法第二十五条的相关规定。
为了达到上述目的,本发明采取的技术方案为:一种基于疾病特征的医学信息本体数据库的建立方法,其特征在于,包括如下步骤:
(1)创建医学信息本体Medical Ontology数据库,即MO数据库;
(2)将疾病及其特征用MO terms进行编号,每个MO terms代表一个顶点,两个terms之间的关系用有向边表示,这样将疾病和病征表示在一个有向无环图中;
(3)顶点之间的关联分成两种类型:is_a关系和part_of关系;is_a关系是一种简单的包含关系;part_of关系表示一部分的包含关系,一种疾病有多种病征表现,病征和疾病之间是part_of的关系,疾病和疾病之间是is_a的关系,病征和病征之间是is_a的关系;
(4)对于任两个terms之间的有向边,若是part_of的关系,则赋予权重;权重用关联度d表示;将父term与之关联的子terms之间进行关联度d分配,0<d<=1;其中关联度d表示父term中出现子term的概率;
(5)对于任两个terms之间的有向边,若是is_a的关系,则赋予权重;权重用关联百分比表示;父term与子terms之间的关联百分比用该子term在父term所关联的所有子terms中出现比率来表示;所有子terms的关联百分比之和为1;
(6)通过数据训练进行参数降噪,在数据训练中,需要甄别所叙述的病征是否与所患疾病关联,舍弃掉不属于该疾病的病征特征;
(7)在该MO数据库中,通过不断增加已有病例,不断更新和丰富MO数据库的数据参数,包括MO term之间关联的权重参数;
(8)疾病和病征构造的有向无环图,其层数小于等于最长的有向路的顶点数,最上层的为第一层,依次往下计数;一个疾病的病症描述的越详细,就越靠近下层。
优选的,所述步骤(2)中,若病友已知自己患病名称,则将该病友数据作为基础数据为MO数据库进行参数关联。
优选的,所述步骤(6)中数据训练的方法为:
第一步:所有的有向边的权重初始值为0,每个有向边设一个计数器count=0用以计算所有患者对应的该边出现的term关联次数;
第二步:根据每个患者提供的所患疾病,在MO的有向无环图中用回溯法,回溯到该图的根,在根到所患疾病的MO term顶点的每条有向路的每条边的计数器增加1;
第三步:根据每个患者提供的所患疾病,在MO数据库中通过广度优先搜索算法寻找该疾病对应的MO term和该term所有的关联的子terms;
第四步:将患者提供的MO terms与该疾病在MO数据库中对应MO terms进行比较,若患者的MO terms与该疾病名称对应的MO term存在有向路相连,则将在这条有向路的边的计数器均加1,即count=count+1;
第五步:随时将新的患者提供的病征,按照以上步骤运算,训练该有向无环图的各个顶点之间的关联次数,进而计算出对应的关联度;这些有向边关联度随着患者数据的增加随时更新;
第六步:若已知所患疾病的患者提供的症状中,有不属于所患疾病的症状,说明该患者可能还患有其它疾病。
进一步的,所述第三步的广度优先搜索(BFS)算法从最下层的terms即病情描述最详细的terms开始由下层往上层逐层扫描,依次用这些子terms对应的定义和同义词,对患者描述的病征进行字符串匹配比对,对化验指标提取化验值,得到与之匹配的最靠下层的MOterms,进而得到该患者陈述的病征的MO terms集合。
更进一步的,所述字符串匹配比对的方法为较长字符串运用Smith-Waterman比对算法,较短的直接匹配。
进一步的,所述第五步中计算方法包括:某疾病的某个症状出现的概率=对应有向边的计数/该疾病患者人数;某疾病在所属大的门类科室所出现的概率=该疾病患者人数/该门类下所有患者人数。
本发明的有益效果为:通过本发明的方法,建立起基于疾病特征的医学信息本体数据库,能够提供完善的疾病及病征数据,以及疾病及病征之间合理分配权重,而且该数据库通过不断增加已有病例(病友上传病例),来不断更新和丰富数据库的数据参数,特别是term之间关联的权重参数,同时通过数据训练进行参数降噪,使数据得到更有效的甄别,最大可能的为帮助病患自诊提供准确有效的数据依据,为疾病自诊信息平台提供完备的信息基础,既为人们节省不必要的时间消耗,又不会耽误疾病的最佳治疗时间。
附图说明
图1是本发明的步骤示意图;
图2是本发明中数据训练的步骤示意图;
图3是本发明中数据结构示意图。
具体实施方式
下面结合具体实施例对本发明做进一步说明。
按照图1所示的步骤建立基于疾病特征的医学信息本体数据库。
若病友已知自己患病名称,可以将该病友数据作为基础数据为MOD进行参数关联。
数据关联的解决方法:我们将疾病及其特征用MO terms进行编号,每个MO terms代表一个顶点,两个terms之间的关系用有向边表示,这样将疾病和特征表示在一个有向无环图中,如图3所示。在该MO数据库中,通过不断增加已有病例(病友上传病例),来不断更新和丰富MO数据库的数据参数,特别是term之间关联的权重参数。
对任两个terms之间的边若是part_of的关系,可以赋予权重。如果可以将父term与之关联的子terms之间的进行关联度d分配(0<d<=1),使得所有子terms的关联度相加等于1.关联度d(term1,term2)表示父病征term1出现term2子病征的概率(例如:肺炎中咳嗽症状出现的概率)。
对任两个terms之间的边若是is_a的关系,也可以赋予权重。父term与子terms之间的关联度用该子term在父term所关联的所有子terms中出现比率(例如:肺炎占呼吸道疾病的比率)。
另外还需要参数降噪过程:在参数训练中,需要甄别所叙述的症状是否与所患疾病的关联,舍弃掉不属于该病的病征特征,对不属于该疾病的特征将可以进行下面所要描述疾病自诊。
如图2所示,数据训练的主要步骤如下:
第一步:所有的有向边的权重初始值为0,每个有向边设一个计数器count=0用以计算所有患者对应的该边出现的term关联次数。
第二步:根据每个患者提供的所患疾病,在MO的有向无圈图中用回溯法,回溯到该图的根(root),在根到所患疾病的MO term顶点的每条有向路的每条边的计数器增加1。
第三步:根据每个患者提供的所患疾病,在MO数据库中通过广度优先搜索(BFS)算法寻找该疾病对应的MO term和该term所有的关联的子terms(即:后代terms)。算法从最下层的terms(即病情描述最详细的terms)开始由下层往上层逐层扫描,依次用这些子terms对应的定义和同义词,对患者描述的病征进行字符串匹配比对(较长字符串运用Smith-Waterman比对算法,较短的直接匹配),对化验指标提取化验值,得到与之匹配的最靠下层的MO terms。进而得到该病友陈述的病征的MO terms集合。
第四步:将患者提供的MO terms与该疾病在MO数据库中对于MO terms进行比较,若患者的MO terms与该疾病名称对应的MO term存在有向路相连,则将在这条有向路的边的计数器均加1(count=count+1).
第五步:随时将新的患者提供的病征,按照以上步骤运算,训练该有向无圈图的各个顶点之间的关联次数,进而计算出对应的关联度。其中某疾病的某个症状出现的概率=对应有向边的计数/该疾病患者人数;某疾病在所属大的门类科室所出现的概率=该疾病患者人数/该门类下所有患者人数。这些有向边关联度随着患者数据的增加随时更新。
第六步:若已知所患疾病的患者提供的症状中,有不属于所患疾病的症状。说明该患者可能还患有其它疾病。
以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于疾病特征的医学信息本体数据库的建立方法,其特征在于,包括如下步骤:
(1)创建医学信息本体Medical Ontology数据库,即MO数据库;
(2)将疾病及其特征用MO terms进行编号,每个MO terms代表一个顶点,两个terms之间的关系用有向边表示,这样将疾病和病征表示在一个有向无环图中;
(3)顶点之间的关联分成两种类型:is_a关系和part_of关系;is_a关系是一种简单的包含关系;part_of关系表示一部分的包含关系,一种疾病有多种病征表现,病征和疾病之间是part_of的关系,疾病和疾病之间是is_a的关系,病征和病征之间是is_a的关系;
(4)对于任两个terms之间的有向边,若是part_of的关系,则赋予权重;权重用关联度d表示;将父term与之关联的子terms之间进行关联度d分配,0<d<=1;其中关联度d表示父term中出现子term的概率;
(5)对于任两个terms之间的有向边,若是is_a的关系,则赋予权重;权重用关联百分比表示;父term与子terms之间的关联百分比用该子term在父term所关联的所有子terms中出现比率来表示;所有子terms的关联百分比之和为1;
(6)通过数据训练进行参数降噪,在数据训练中,需要甄别所叙述的病征是否与所患疾病关联,舍弃掉不属于该疾病的病征特征;
(7)在该MO数据库中,通过不断增加已有病例,不断更新和丰富MO数据库的数据参数,包括MO term之间关联的权重参数;
(8)疾病和病征构造的有向无环图,其层数小于等于最长的有向路的顶点数,最上层的为第一层,依次往下计数;一个疾病的病症描述的越详细,就越靠近下层。
2.根据权利要求1所述的一种基于疾病特征的医学信息本体数据库的建立方法,其特征在于,所述步骤(2)中,若病友已知自己患病名称,则将该病友数据作为基础数据为MO数据库进行参数关联。
3.根据权利要求1所述的一种基于疾病特征的医学信息本体数据库的建立方法,其特征在于,所述步骤(6)中数据训练的方法为:
第一步:所有的有向边的权重初始值为0,每个有向边设一个计数器count=0用以计算所有患者对应的该边出现的term关联次数;
第二步:根据每个患者提供的所患疾病,在MO的有向无环图中用回溯法,回溯到该图的根,在根到所患疾病的MO term顶点的每条有向路的每条边的计数器增加1;
第三步:根据每个患者提供的所患疾病,在MO数据库中通过广度优先搜索算法寻找该疾病对应的MO term和该term所有的关联的子terms;
第四步:将患者提供的MO terms与该疾病在MO数据库中对应MO terms进行比较,若患者的MO terms与该疾病名称对应的MO term存在有向路相连,则将在这条有向路的边的计数器均加1,即count=count+1;
第五步:随时将新的患者提供的病征,按照以上步骤运算,训练该有向无环图的各个顶点之间的关联次数,进而计算出对应的关联度;这些有向边关联度随着患者数据的增加随时更新;
第六步:若已知所患疾病的患者提供的症状中,有不属于所患疾病的症状,说明该患者可能还患有其它疾病。
4.根据权利要求3所述的一种基于疾病特征的医学信息本体数据库的建立方法,其特征在于,所述第三步的广度优先搜索(BFS)算法从最下层的terms即病情描述最详细的terms开始由下层往上层逐层扫描,依次用这些子terms对应的定义和同义词,对患者描述的病征进行字符串匹配比对,对化验指标提取化验值,得到与之匹配的最靠下层的MOterms,进而得到该患者陈述的病征的MO terms集合。
5.根据权利要求4所述的一种基于疾病特征的医学信息本体数据库的建立方法,其特征在于,所述字符串匹配比对的方法为较长字符串运用Smith-Waterman比对算法,较短的直接匹配。
6.根据权利要求3所述的一种基于疾病特征的医学信息本体数据库的建立方法,其特征在于,所述第五步中计算方法包括:某疾病的某个症状出现的概率=对应有向边的计数/该疾病患者人数;某疾病在所属大的门类科室所出现的概率=该疾病患者人数/该门类下所有患者人数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410844664.6A CN104463754B (zh) | 2014-12-30 | 2014-12-30 | 基于疾病特征的医学信息本体数据库的建立方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410844664.6A CN104463754B (zh) | 2014-12-30 | 2014-12-30 | 基于疾病特征的医学信息本体数据库的建立方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104463754A CN104463754A (zh) | 2015-03-25 |
CN104463754B true CN104463754B (zh) | 2018-01-23 |
Family
ID=52909742
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410844664.6A Active CN104463754B (zh) | 2014-12-30 | 2014-12-30 | 基于疾病特征的医学信息本体数据库的建立方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104463754B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR3038756B1 (fr) * | 2015-07-10 | 2018-06-15 | Assistance Publique - Hopitaux De Paris | Procede d'aide au diagnostic medical |
US20170344711A1 (en) * | 2016-05-31 | 2017-11-30 | Baidu Usa Llc | System and method for processing medical queries using automatic question and answering diagnosis system |
CN113724884A (zh) * | 2016-09-21 | 2021-11-30 | 北京大学 | 基于病例库的疾病症状及其权重知识的获取和处理方法 |
CN107463786A (zh) * | 2017-08-17 | 2017-12-12 | 王卫鹏 | 基于结构化报告模板的医学影像知识库建立方法 |
CN107786342A (zh) * | 2017-10-19 | 2018-03-09 | 江苏大学 | 基于盲签名的细粒度隐私保护症状匹配系统及其匹配方法 |
CN108122611B (zh) * | 2017-12-22 | 2021-05-07 | 东软集团股份有限公司 | 一种信息推荐方法、装置及存储介质、程序产品 |
CN110785749B (zh) | 2018-06-25 | 2020-08-21 | 北京嘀嘀无限科技发展有限公司 | 用于生成宽表的系统和方法 |
CN109360651A (zh) * | 2018-12-12 | 2019-02-19 | 天津迈沃医药技术股份有限公司 | 基于疾病圈的治疗史统计生成方法和系统 |
CN109616207A (zh) * | 2018-12-12 | 2019-04-12 | 天津迈沃医药技术股份有限公司 | 基于疾病集的个人自测模型建立方法及自测系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN201828916U (zh) * | 2010-08-10 | 2011-05-11 | 李光煌 | 人体医学表面症状自动诊断装置 |
CN102184315A (zh) * | 2011-04-02 | 2011-09-14 | 中国医学科学院医学信息研究所 | 基于诊断要素分析的科室分诊系统 |
US8135730B2 (en) * | 2009-06-09 | 2012-03-13 | International Business Machines Corporation | Ontology-based searching in database systems |
CN103164616A (zh) * | 2013-02-02 | 2013-06-19 | 杭州卓健信息科技有限公司 | 一种智能导诊系统和方法 |
CN103699808A (zh) * | 2014-01-03 | 2014-04-02 | 上海理工大学 | 一种医院辅助决策系统 |
-
2014
- 2014-12-30 CN CN201410844664.6A patent/CN104463754B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8135730B2 (en) * | 2009-06-09 | 2012-03-13 | International Business Machines Corporation | Ontology-based searching in database systems |
CN201828916U (zh) * | 2010-08-10 | 2011-05-11 | 李光煌 | 人体医学表面症状自动诊断装置 |
CN102184315A (zh) * | 2011-04-02 | 2011-09-14 | 中国医学科学院医学信息研究所 | 基于诊断要素分析的科室分诊系统 |
CN103164616A (zh) * | 2013-02-02 | 2013-06-19 | 杭州卓健信息科技有限公司 | 一种智能导诊系统和方法 |
CN103699808A (zh) * | 2014-01-03 | 2014-04-02 | 上海理工大学 | 一种医院辅助决策系统 |
Non-Patent Citations (1)
Title |
---|
医学信息数据库的建立与数据挖掘;屈景辉等;《第四军医大学学报》;20010131;第22卷(第1期);第88-89页 * |
Also Published As
Publication number | Publication date |
---|---|
CN104463754A (zh) | 2015-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104463754B (zh) | 基于疾病特征的医学信息本体数据库的建立方法 | |
CN104484845B (zh) | 基于医学信息本体数据库的疾病自我分析平台 | |
Chang et al. | A review of nurses' knowledge, attitudes, and ability to communicate the risks and benefits of complementary and alternative medicine | |
Ma et al. | The development of traditional Chinese medicine | |
CN107578818B (zh) | 一种基于深度学习的辅助开方方法及装置 | |
Li et al. | Effectiveness of pulmonary rehabilitation in elderly patients with COPD: a systematic review and meta‐analysis of randomized controlled trials | |
CN105825064A (zh) | 日常性中医疗法智能咨询系统 | |
CN102184314A (zh) | 面向偏差性症状描述的自动辅助诊断方法 | |
Zhang et al. | Topic model for chinese medicine diagnosis and prescription regularities analysis: case on diabetes | |
Dou et al. | Syndrome differentiation and treatment regularity in traditional Chinese medicine for type 2 diabetes: a text mining analysis | |
Yang et al. | The exploration of disease pattern, zheng, for differentiation of allergic rhinitis in traditional Chinese medicine practice | |
Yuan et al. | The mediating effect of self‐efficacy on the relationship between family functioning and quality of life among elders with chronic diseases | |
Schreiner et al. | Associations between symptom severity and treatment burden in people living with HIV | |
CN104504119A (zh) | 基于医学信息本体数据库的关联药品的自我分析方法 | |
Yousefi et al. | Structural relationships between self-differentiation and subjective wellbeing, mental health and marital quality | |
CN104740746A (zh) | 一种抑郁症电子救助系统及其救助方法 | |
CN106777966B (zh) | 基于医疗信息平台的数据互动训练方法及系统 | |
CN105678065B (zh) | 基于疾病圈的疾病自诊知识问答方法及系统 | |
Li et al. | Network meta-analysis of the effects of different types of traditional Chinese exercises on pulmonary function, endurance capacity and quality of life in patients with COPD | |
Li et al. | The artificial intelligence system for the generation of sports education guidance model and physical fitness evaluation under deep learning | |
Rawat et al. | Role of optimism in self esteem and self efficacy of older adults | |
Mucheng et al. | TCM-SD: a benchmark for probing syndrome differentiation via Natural Language processing | |
Rosero et al. | Physical, functional, psychological, and social effects of a physical activity program in adults and older adults during and/or after hospitalization for COVID-19: A systematic review | |
Park | The effect of health literacy and self-efficacy on treatment adherence of hypertensive elders | |
Kim | Developing an intelligent health pre-diagnosis system for Korean traditional medicine public user |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 300381 Tianjin city Xiqing District Lingao creative industry park for a period of 4 two storey building on the north side of part Applicant after: Tianjin mywor medical technology Limited by Share Ltd Address before: 300381 Tianjin city Xiqing District Lingao Creative Industrial Park, a 4 Building 2 layer Applicant before: TIANJIN MEDICAL WORKSHOP CO., LTD. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |