CN108461151A - 一种知识图谱的逻辑增强方法及装置 - Google Patents
一种知识图谱的逻辑增强方法及装置 Download PDFInfo
- Publication number
- CN108461151A CN108461151A CN201711344802.4A CN201711344802A CN108461151A CN 108461151 A CN108461151 A CN 108461151A CN 201711344802 A CN201711344802 A CN 201711344802A CN 108461151 A CN108461151 A CN 108461151A
- Authority
- CN
- China
- Prior art keywords
- entity
- node
- symptom
- bayesian network
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及大数据处理,尤其涉及一种知识图谱的逻辑增强方法,包括,获取预定格式的医学电子文本,从医学电子文本中提取特征实体,特征实体包括疾病实体、症状实体和高危因素实体;将疾病实体和症状实体作为节点构建基本的贝叶斯网络模型,在基本的贝叶斯网络模型中增加高危因素实体作为节点,构建多属性贝叶斯网络模型,多属性贝叶斯网络模型包括疾病实体、症状实体和高危因素实体节点之间的拓扑关系,以及实体节点之间的概率分布,对实体节点之间的关系强度进行量化。最终构建的面向医学领域的多属性贝叶斯网络,能够自动调整知识图谱当中关系强度的概率表示,有效解决因关系强度缺失导致的推理有效性偏低问题,增强现有图谱的逻辑推理能力。
Description
技术领域
本发明涉及大数据处理,尤其涉及一种知识图谱的逻辑增强方法。
背景技术
随着知识图谱、web语义网络等技术在医学知识的表示与融合、辅助诊断中的广泛应用,智慧医疗吸引着越来越多学业界和产业界的关注。其中,对于计算机辅助临床诊断,常有背景知识不足、信息描述模糊、含干扰因素等情况,加之人类对医学知识的局限性,因此部分医学诊治推理可视为不确定性推理。
基于知识图谱的医学推理模型是一种典型的结构推理模型。知识图谱利用其图结构的特性,可直观表示医学实体以及实体间的关系,形成带语义的网络化知识库,增强医学知识的连通性,并支持领域知识的权威检索与浏览。然而,由于传统的知识图谱缺少实体间关系的概率权重,其往往仅能基于子图中路径的连通性、路径跳数、可达路径总数目以及子图匹配程度等进行粗粒度逻辑推理,而缺乏进行更细粒度的概率推理能力。在医学辅助诊断中,由于每种症状特征或其他特征对是否患病产生的影响力不同,将特征一视同仁的推理方法将导致判断结果出现误差。
发明内容
为了解决现有技术中,在知识图谱建立过程中将特征一视同仁的推理方法容易导致判断结果出现误差的技术问题,本发明提供一种知识图谱的逻辑增强方法,具体包括:
获取预定格式的医学电子文本;
从医学电子文本中提取特征实体,特征实体包括作为判断结果的疾病实体、作为显性关联因素的症状实体和作为隐性关联因素的高危因素实体;
将疾病实体和症状实体作为节点构建基本的贝叶斯网络模型,所述基本的贝叶斯网络模型包括疾病实体和症状实体节点之间的拓扑关系,以及实体节点之间的概率分布;
在基本的贝叶斯网络模型中增加高危因素实体作为节点,构建多属性贝叶斯网络模型,所述多属性贝叶斯网络模型包括疾病实体、症状实体和高危因素实体节点之间的拓扑关系,以及实体节点之间的概率分布;
利用构建的多属性贝叶斯网络,对知识图谱中各节点间的关系强度进行量化。
其中,构建基本的贝叶斯网络模型包括:
基于医学电子文本对疾病实体和症状实体进行统计,计算各实体节点间的OR值;
用OR值表示疾病实体-症状实体间和症状实体-症状实体间的互信息强度,设置合适的互信息强度阈值,去除互信息强度小于阈值的实体节点间关系边;
根据实体节点之间的互信息强度计算各实体节点的全局影响力,根据全局影响力建立节点间的顺序,根据节点间顺序依次增加新的节点,得到基本的贝叶斯网络模型的拓扑关系;
通过医学电子文本统计结果和贝叶斯估计的方法,计算各节点的先验概率以及节点间的条件概率分布;
其中,构建多属性贝叶斯网络模型包括:
在基本的贝叶斯网络模型的拓扑结构上增加高危因素实体作为节点;
补全与高危因素实体相关的疾病实体和症状实体;
建立高危因素实体-高危因素实体、疾病实体-高危因素实体以及症状实体-高危因素实体之间的拓扑关系;
计算高危因素实体-高危因素实体、疾病实体-高危因素实体以及症状实体-高危因素实体之间的概率分布。
其中,基本的贝叶斯网络模型还包括K2贪心算法,当新增节点时,为新增节点添加父节点,实现基本贝叶斯网络拓扑关系的自动学习。
其中,利用构建的多属性贝叶斯网络,对知识图谱中各节点间的关系强度进行量化,包括:
利用所构建贝叶斯网络中,各节点的先验概率和节点间的条件概率,为知识图谱中的关系边添加概率权重,量化知识图谱中实体节点之间的关系强度。
其中,从医学电子文本中提取特征实体还包括:以模板学习为基础,采用与全科知识图谱进行匹配的方法,从医学电子文本中抽取特征实体,利用别名库对实质相同的特征实体进行对齐处理。
其中,高危因素实体包括性别、年龄、家族史、民族、居住地、职业、吸烟频度、肥胖程度和婚姻状况中的至少一个,特征实体还包括否定症状实体,所构建的多属性贝叶斯网络模型中还将否定症状实体作为节点。
一种知识图谱的逻辑增强方法,包括:
获取预定类型和格式的电子文本;
从电子文本中提取作为判断结果的第一类实体、作为显性原因的第二类实体和作为隐性原因的第三类实体;
将第一类实体和第二类实体作为节点构建基本的贝叶斯网络模型,所述基本的贝叶斯网络模型包括第一类实体和第二类实体节点之间的拓扑关系,以及实体节点之间的概率分布;
在基本的贝叶斯网络模型中增加第三类实体作为节点,构建多属性贝叶斯网络模型,所述多属性贝叶斯网络模型包括第一类实体、第二类实体和第三类实体节点之间的拓扑关系,以及实体节点之间的概率分布;
利用构建的多属性贝叶斯网络,对知识图谱中各节点间的关系强度进行量化。
一种知识图谱的逻辑增强装置,包括:
获取单元,用于获取预定格式的医学电子文本;
提取单元,用于从医学电子文本中提取特征实体,特征实体包括作为判断结果的疾病实体、作为显性关联因素的症状实体和作为隐性关联因素的高危因素实体;
第一构建单元,用于将疾病实体和症状实体作为节点构建基本的贝叶斯网络模型,所述基本的贝叶斯网络模型包括疾病实体和症状实体节点之间的拓扑关系,以及实体节点之间的概率分布;
第二构建单元,用于在基本的贝叶斯网络模型中增加高危因素实体作为节点,构建多属性贝叶斯网络模型,所述多属性贝叶斯网络模型包括疾病实体、症状实体和高危因素实体节点之间的拓扑关系,以及实体节点之间的概率分布;
量化单元,用于利用构建的多属性贝叶斯网络,对知识图谱中各节点间的关系强度进行量化。
其中,第一构建单元用于基于医学电子文本对疾病实体和症状实体进行统计,计算各实体节点间的OR值;用OR值表示疾病实体-症状实体间和症状实体-症状实体间的互信息强度,设置合适的互信息强度阈值,去除互信息强度小于阈值的实体节点间关系边;根据实体节点之间的互信息强度计算各实体节点的全局影响力,根据全局影响力建立节点间的顺序,利用K2贪心算法根据节点间顺序依次增加新的节点,得到基本的贝叶斯网络模型的拓扑关系;通过医学电子文本统计结果和贝叶斯估计的方法,计算各节点间的概率分布。
其中,量化单元用于利用构建的多属性贝叶斯网络中,各节点的先验概率以及节点间的条件概率分布,通过节点间的先验概率和条件概率量化知识图谱中实体节点之间的关系强度。
其中,提取单元还用于以模板学习为基础,采用与全科知识图谱进行匹配的方法,从医学电子文本中抽取特征实体,利用别名库对实质相同的特征实体进行对齐处理。
其中,特征实体还包括否定症状实体,所构建的多属性贝叶斯网络模型中还将否定症状实体作为节点。
一种计算机可读存储介质,包括多属性贝叶斯网络模型,所述多属性贝叶斯网络模型包括节点和节点之间的关系,所述节点包括作为判断结果的第一类实体、作为显性原因的第二类实体和作为隐性原因的第三类实体,所述节点之间的关系包括第一类实体、第二类实体和第三类实体间的概率分布和拓扑结构,所述概率分布采用量化的方式。
本发明和现有技术相比具有以下技术效果:
通过构建基于医学文本的多属性贝叶斯网络,并将其应用于医学知识图谱的关系强度量化中,能够对现有图谱进行逻辑增强,提高其推理有效性。通过挖掘多源医学文本中蕴含的医学知识,并自动学习贝叶斯网络的拓扑结构,能够表示疾病、症状、高危因素之间丰富的关联关系;通过计算贝叶斯网络中各节点间的概率分布,能够客观地量化疾病、症状、高危因素实体间的依赖关系强度;最终构建的面向医学领域的多属性贝叶斯网络,能够自动调整图谱当中关系强度的概率表示,避免了人工标注缺乏客观依据和标准的问题,具有一定的应用价值和创新性。同时,本发明对其他领域的图谱补全增强工作具有一定的借鉴意义。在医学知识表示与建模、计算机辅助医疗研究方面具有重要的应用价值和研究意义。
附图说明
图1为本申请实施例中知识图谱的逻辑增强方法流程图;
图2为本申请中基本贝叶斯网络模型的构建方法;
图3为本申请实施例中构建的多属性贝叶斯网络模型图;
图4为本申请实施例中知识图谱的逻辑增强装置的结构示意图。
具体实施方式
下面通过具体实施方式结合附图对本发明作进一步的详细说明。
实施例1
本实施例提供一种知识图谱的逻辑增强方法,如图1,包括:
步骤S1:获取预定格式的医学电子文本;
步骤S2:从医学电子文本中提取特征实体,特征实体包括作为判断结果的疾病实体、作为显性关联因素的症状实体和作为隐性关联因素的高危因素实体;
将疾病实体和症状实体作为节点构建基本的贝叶斯网络模型,所述基本的贝叶斯网络模型包括疾病实体和症状实体节点之间的拓扑关系,以及实体节点之间的概率分布;
步骤S3:在基本的贝叶斯网络模型中增加高危因素实体作为节点,构建多属性贝叶斯网络模型,所述多属性贝叶斯网络模型包括疾病实体、症状实体和高危因素实体节点之间的拓扑关系,以及实体节点之间的概率分布;
步骤S4:利用构建的多属性贝叶斯网络,对知识图谱中各节点间的关系强度进行量化。
本申请实施例提供的上述知识图谱的逻辑增强方法,通过挖掘多源医学文本中蕴含的医学知识,并自动学习贝叶斯网络的拓扑结构,能够表示疾病、症状、高危因素之间丰富的关联关系;通过计算贝叶斯网络中各节点间的概率分布,能够客观地量化疾病、症状、高危因素实体间的依赖关系强度;通过构建基于医学文本的多属性贝叶斯网络,并将其应用于医学知识图谱的关系强度量化中,能够对现有图谱进行逻辑增强,提高其推理有效性和逻辑性。同时,利用所构建的多属性贝叶斯网络模型,能够自动调整图谱当中关系强度的概率表示,避免了人工标注缺乏客观依据和标准的问题,在医学领域具有很高的应用价值。
如下对上述各步骤进行具体说明。
在具体实施例时,在上述步骤S1中,获取预定格式的医学电子文本,具体通过以下方法实现:
步骤S11:获取关键字信息文本。本实施例中收集近百家医院的中文病例文本,提取病例文本中的关键字段按照统一的格式进行存储,作为关键字信息文本。其中关键字段包括:患者性别、年龄、职业,患者主诉病情,患者现病史、既往史、个人史、家族史,患者体格检查结果、辅助检查结果,患者入院诊断、治疗过程、出院诊断、出院医嘱等关键字信息,本申请实施例对关键字段不进行限定。
步骤S12:从获取的关键字信息文本中分别提取疾病实体、症状实体、高危因素实体、否定症状实体,并利用ICD-10编码库对上述实体进行对齐,得到预定格式的医学电子文本。
其中,高危因素实体包括性别、年龄、家族史、民族、居住地、职业、吸烟频度、肥胖程度和婚姻状况中的至少一个。
其中,在否定症状实体提取时,首先要识别出否定特征,否定症状指病例描述中,患者未显式表现的症状。如“患者于入院前反复出现头晕,严重时伴有晕厥,无胸闷、胸痛”中的胸闷、胸痛症状视为否定症状,否定症状对于实体间关系刻画及推理决策同样具有重要影响。例如“胸闷”是“冠心病”的典型症状。虽然极少数病例中,也存在“冠心病”患者未出现“胸闷”表征的情况,但未出现“胸闷”症状的患者其患冠心病的概率将大大降低。考虑到否定症状的影响,将能够有效排除一些患病概率小的疾病,有助于提高推理准确度及有效性。
上述步骤S2中,从医学电子文本中提取特征实体,具体包括:以模板学习为基础,采用与全科知识图谱进行匹配的方法,从医学电子文本中抽取特征实体,利用别名库对实质相同的特征实体进行对齐处理。
其中,上述步骤S2中,将疾病实体和症状实体作为节点构建基本的贝叶斯网络模型,如图2,具体包括以下步骤:
步骤S21:基于医学电子文本对疾病实体和症状实体进行统计,同时也要统计否定特征实体,将否定特征实体也作为实体节点,计算各实体节点间的OR值;其中,在计算各实体节点间的OR值时,以疾病-症状实体为例,其OR值指病例组中暴露人数与非暴露人数的比值除以对照组中暴露人数与非暴露人数的比值。OR值常用来反映疾病和暴露症状的关联强度,若计算某症状与某疾病间的OR值大于1,则该症状被认为是患病的危险因素,即显式表现该症状的患者的患病风险较高;若OR值小于1,则该症状就是患病的保护因素,患者患病风险较低。其计算公式如下所示,其中Si表示症状,Yi表示疾病,
式(1)中,Si=1表示患者出现症状Si,Si=0表示患者未出现症状Si;Yi=1表示患者患有疾病Yi,Yi=0表示患者未患有疾病Yi;P(Si=1|Yi=1)表示病例组中的暴露人数,即疾病Yi的患者中,出现症状Si的人数;P(Si=0|Yi=1)表示病例组中的非暴露人数,即疾病Yi的患者中,未出现症状Si的人数;P(Si=1|Yi=0)表示对照组中的暴露人数,即非疾病Yi的患者中,出现症状Si的人数;P(Si=0|Yi=0)表示对照组中的非暴露人数,即非疾病Yi的患者中,未出现症状Si的人数。
步骤S22:本实施例中用实体节点间的OR值表示节点间的互信息强度,设置合适的互信息强度阈值,将小于阈值的实体节点间的关系边去除;
步骤S23:根据实体节点间的OR值,计算每个节点的全局影响力,按照全局影响力对节点进行从大到小排序;
其中,计算每个节点的全局影响力具体包括:对于当前节点,其全局影响力等于该节点与其他节点之间OR值的总和除于其他节点的总个数。
步骤S24:利用K2贪心算法,按照全局影响力从大到小的顺序,依次增加新的节点,得到基本的贝叶斯网络模型的拓扑关系;
其中步骤S24中还包括,每添加一个新节点后为其选择前序父节点,计算当前贝叶斯网络的结构评分,若当前计算的结构评分大于上次计算的结构评分,则增加该新节点与父节点间的关系边,同时说明当前添加的关系边对当前贝叶斯拓扑评分产生增益;若当前计算的结构评分小于或等于上次计算的结构评分,则不增加该新节点与父节点间的关系边。
步骤S25:通过医学电子文本统计结果和贝叶斯估计的方法,计算各节点的先验概率及节点间的概率分布,进而实现基本贝叶斯网络概率分布的自动学习。通过学习每个节点的条件分布概率,能够量化父节点对子节点的影响。
其中,步骤S3中,在基本的贝叶斯网络模型中增加高危因素实体作为节点,构建多属性贝叶斯网络模型,具体包括:
在基本贝叶斯网络的原拓扑结构上,增加高危因素实体,以及疾病-高危因素实体、症状-高危因素实体、高危因素实体-实体间的关系,同时,以病例统计结果为基础,计算新增实体间、新增实体与原实体间的概率分布。
其中在构建多属性贝叶斯网络模型时,采用的方法步骤和构建基本贝叶斯网络模型相同,即先计算各节点间的OR值,将实体节点间的OR值作为节点间的互信息强度,设置互信息强度阈值,将小于阈值的节点间关系边去除;根据实体节点间的OR值,计算每个节点的全局影响力,按照全局影响力对节点进行从大到小排序;利用K2贪心算法,按照全局影响力从大到小的顺序,依次增加高危因素实体,得到多属性贝叶斯网络模型的拓扑关系。两个构建过程的不同之处在于,构建多属性贝叶斯网络模型时,增加了高危因素节点和与其相关的关系边。
如图3,最终所得多属性复杂贝叶斯网络,能够显著提高辅助诊断的有效性和科学性。
其中步骤S4中,利用构建的多属性贝叶斯网络,对知识图谱中各节点间的关系强度进行量化,具体包括:
利用所构建的复杂贝叶斯网络中节点间的条件概率分布,为已有知识图谱中实体间关系边添加概率权重,客观地量化图谱中各实体间的关系强度,增强其逻辑推理能力以及推理有效性。
实施例2
本实施例提供一种知识图谱的逻辑增强方法,具体包括:
获取预定类型和格式的电子文本;
从电子文本中提取作为判断结果的第一类实体、作为显性原因的第二类实体和作为隐性原因的第三类实体;
将第一类实体和第二类实体作为节点构建基本的贝叶斯网络模型,所述基本的贝叶斯网络模型包括第一类实体和第二类实体节点之间的拓扑关系,以及实体节点之间的概率分布;
在基本的贝叶斯网络模型中增加第三类实体作为节点,构建多属性贝叶斯网络模型,所述多属性贝叶斯网络模型包括第一类实体、第二类实体和第三类实体节点之间的拓扑关系,以及实体节点之间的概率分布;
利用构建的多属性贝叶斯网络,对知识图谱中各节点间的关系强度进行量化。
通过本实施例提供的方法,先通过第一类实体和第二类实体作为节点构建基本的贝叶斯网络模型,再在基本的贝叶斯网络模型上增加第三类实体作为节点,构建多属性贝叶斯网络模型。利用构建的多属性贝叶斯网络,对知识图谱中各节点间的关系强度进行量化。通过将所构建多属性贝叶斯网络应用于医学知识图谱的关系强度量化中,能够对现有图谱进行逻辑增强,提高其推理有效性,在医学上具有一定的应用价值。
实施例3
本实施例提供一种知识图谱的逻辑增强装置,如图4,包括:
获取单元,用于获取预定格式的医学电子文本;
提取单元,用于从医学电子文本中提取特征实体,特征实体包括作为判断结果的疾病实体、作为显性关联因素的症状实体和作为隐性关联因素的高危因素实体;
第一构建单元,用于将疾病实体和症状实体作为节点构建基本的贝叶斯网络模型,所述基本的贝叶斯网络模型包括疾病实体和症状实体节点之间的拓扑关系,以及实体节点之间的概率分布;
第二构建单元,用于在基本的贝叶斯网络模型中增加高危因素实体作为节点,构建多属性贝叶斯网络模型,所述多属性贝叶斯网络模型包括疾病实体、症状实体和高危因素实体节点之间的拓扑关系,以及实体节点之间的概率分布;
量化单元,用于利用构建的多属性贝叶斯网络,对知识图谱中各节点间的关系强度进行量化。
其中,第一构建单元用于基于医学电子文本对疾病实体和症状实体进行统计,计算各实体节点间的OR值;用OR值表示疾病实体-症状实体间和症状实体-症状实体间的互信息强度,设置合适和互信息强度阈值,去除互信息强度小于阈值的实体节点间关系边;根据实体节点之间的互信息强度计算各实体节点的全局影响力,根据全局影响力建立节点间的顺序,利用K2贪心算法根据节点间顺序依次增加新的节点,得到基本的贝叶斯网络模型的拓扑关系;通过医学电子文本统计结果和贝叶斯估计的方法,计算各节点的先验概率及节点间的概率分布。
其中,量化单元用于利用构建的多属性贝叶斯网络中,各节点的先验概率和节点间条件概率,为知识图谱中的关系边添加权重,量化图谱中实体节点之间的关系强度。
其中,提取单元还用于以模板学习为基础,采用与全科知识图谱进行匹配的方法,从医学电子文本中抽取特征实体,利用别名库对实质相同的特征实体进行对齐处理。
其中,特征实体还包括否定症状实体,所构建的多属性贝叶斯网络模型中还将否定症状实体作为节点。
本实施例提供的逻辑增强装置,通过构建基于医学文本的多属性贝叶斯网络,并将其应用于医学知识图谱的关系强度量化中,能够对现有图谱进行逻辑增强,提高其推理有效性。通过挖掘多源医学文本中蕴含的医学知识,并自动学习贝叶斯网络的拓扑结构,能够表示疾病、症状、高危因素之间丰富的关联关系;通过计算贝叶斯网络中各节点间的概率分布,能够客观地量化疾病、症状、高危因素实体间的依赖关系强度;最终构建的面向医学领域的多属性贝叶斯网络,能够自动调整图谱当中关系强度的概率表示,避免了人工标注缺乏客观依据和标准的问题,具有一定的应用价值和创新性。
实施例4
本实施例提供一种计算机可读存储介质,包括多属性贝叶斯网络模型,多属性贝叶斯网络模型包括节点和节点之间的关系,节点包括作为判断结果的第一类实体、作为显性原因的第二类实体和作为隐性原因的第三类实体,节点之间的关系包括第一类实体、第二类实体和第三类实体间的概率分布和拓扑结构,概率分布采用量化的方式。本实施例提供的计算机可读存储介质包括的多属性贝叶斯网络模型,将其应用于医学知识图谱的关系强度量化中,能够对现有图谱进行逻辑增强,提高其推理有效性和逻辑性,同时能够自动调整图谱当中关系强度的概率表示,避免了人工标注缺乏客观依据和标准的问题,在医学领域具有很高的应用价值。
以上应用了具体个例对本发明进行阐述,只是用于帮助理解本发明,并不用以限制本发明。对于本发明所属技术领域的技术人员,依据本发明的思想,还可以做出若干简单推演、变形或替换。
Claims (13)
1.一种知识图谱的逻辑增强方法,其特征在于包括:
获取预定格式的医学电子文本;
从医学电子文本中提取特征实体,特征实体包括作为判断结果的疾病实体、作为显性关联因素的症状实体和作为隐性关联因素的高危因素实体;
将疾病实体和症状实体作为节点构建基本的贝叶斯网络模型,所述基本的贝叶斯网络模型包括疾病实体和症状实体节点之间的拓扑关系,以及实体节点之间的概率分布;
在基本的贝叶斯网络模型中增加高危因素实体作为节点,构建多属性贝叶斯网络模型,所述多属性贝叶斯网络模型包括疾病实体、症状实体和高危因素实体节点之间的拓扑关系,以及实体节点之间的概率分布;
利用构建的多属性贝叶斯网络,对知识图谱中各节点间的关系强度进行量化。
2.如权利要求1所述的方法,其特征在于,构建基本的贝叶斯网络模型包括:
基于医学电子文本对疾病实体和症状实体进行统计,计算各实体节点间的OR值;
用OR值表示疾病实体-症状实体间和症状实体-症状实体间的互信息强度,设置合适的互信息强度阈值,去除互信息强度小于阈值的实体节点间关系边;
根据实体节点之间的互信息强度计算各实体节点的全局影响力,根据全局影响力建立节点间的顺序,根据节点间顺序依次增加新的节点,得到基本的贝叶斯网络模型的拓扑关系;
通过医学电子文本统计结果和贝叶斯估计的方法,计算各节点的先验概率以及节点间的条件概率分布;
构建多属性贝叶斯网络模型包括:
在基本的贝叶斯网络模型的拓扑结构上增加高危因素实体作为节点;
补全与高危因素实体相关的疾病实体和症状实体;
建立高危因素实体-高危因素实体、疾病实体-高危因素实体以及症状实体-高危因素实体之间的拓扑关系;
计算高危因素实体-高危因素实体、疾病实体-高危因素实体以及症状实体-高危因素实体之间的概率分布。
3.如权利要求2所述的方法,其特征在于,所述基本的贝叶斯网络模型还包括K2贪心算法,当新增节点时,为新增节点添加父节点,实现基本贝叶斯网络拓扑关系的自动学习。
4.如权利要求1所述的方法,其特征在于,利用构建的多属性贝叶斯网络,对知识图谱中各节点间的关系强度进行量化,包括:
利用所构建多属性贝叶斯网络中,节点间的先验概率和条件概率,为知识图谱中的关系边添加权重,量化图谱中实体节点之间的关系强度。
5.如权利要求1所述的方法,其特征在于,从医学电子文本中提取特征实体还包括:以模板学习为基础,采用与全科知识图谱进行匹配的方法,从医学电子文本中抽取特征实体;并利用别名库对实质相同的特征实体进行对齐处理。
6.如权利要求1所述的方法,其特征在于,所述高危因素实体包括性别、年龄、家族史、民族、居住地、职业、吸烟频度、肥胖程度和婚姻状况中的至少一个,特征实体还包括否定症状实体,所构建的多属性贝叶斯网络模型中还将否定症状实体作为节点。
7.一种知识图谱的逻辑增强方法,其特征在于包括:
获取预定类型和格式的电子文本;
从电子文本中提取作为判断结果的第一类实体、作为显性原因的第二类实体和作为隐性原因的第三类实体;
将第一类实体和第二类实体作为节点构建基本的贝叶斯网络模型,所述基本的贝叶斯网络模型包括第一类实体和第二类实体节点之间的拓扑关系,以及实体节点之间的概率分布;
在基本的贝叶斯网络模型中增加第三类实体作为节点,构建多属性贝叶斯网络模型,所述多属性贝叶斯网络模型包括第一类实体、第二类实体和第三类实体节点之间的拓扑关系,以及实体节点之间的概率分布;
利用构建的多属性贝叶斯网络,对知识图谱中各节点间的关系强度进行量化。
8.一种知识图谱的逻辑增强装置,其特征在于包括:
获取单元,用于获取预定格式的医学电子文本;
提取单元,用于从医学电子文本中提取特征实体,特征实体包括作为判断结果的疾病实体、作为显性关联因素的症状实体和作为隐性关联因素的高危因素实体;
第一构建单元,用于将疾病实体和症状实体作为节点构建基本的贝叶斯网络模型,所述基本的贝叶斯网络模型包括疾病实体和症状实体节点之间的拓扑关系,以及实体节点之间的概率分布;
第二构建单元,用于在基本的贝叶斯网络模型中增加高危因素实体作为节点,构建多属性贝叶斯网络模型,所述多属性贝叶斯网络模型包括疾病实体、症状实体和高危因素实体节点之间的拓扑关系,以及实体节点之间的概率分布;
量化单元,用于利用构建的多属性贝叶斯网络,对知识图谱中各节点间的关系强度进行量化。
9.如权利要求8所述的装置,其特征在于,第一构建单元用于基于医学电子文本对疾病实体和症状实体进行统计,计算各实体节点间的OR值;用OR值表示疾病实体-症状实体间和症状实体-症状实体间的互信息强度,设置合适的互信息强度阈值,去除互信息强度小于阈值的实体节点间关系边;根据实体节点之间的互信息强度计算各实体节点的全局影响力,根据全局影响力建立节点间的顺序,利用K2贪心算法根据节点间顺序依次增加新的节点,得到基本的贝叶斯网络模型的拓扑关系;通过医学电子文本统计结果和贝叶斯估计的方法,计算各节点间的概率分布。
10.如权利要求8所述的装置,其特征在于,量化单元用于利用构建的多属性贝叶斯网络,学习各节点的先验概率以及节点间的条件概率分布,通过节点间的先验概率和条件概率量化知识图谱中实体节点之间的关系强度。
11.如权利要求8所述的装置,其特征在于,提取单元还用于以模板学习为基础,采用与全科知识图谱进行匹配的方法,从医学电子文本中抽取特征实体,利用别名库对实质相同的特征实体进行对齐处理。
12.如权利要求8所述的装置,其特征在于,特征实体还包括否定症状实体,所构建的多属性贝叶斯网络模型中还将否定症状实体作为节点。
13.一种计算机可读存储介质,其特征在于,包括多属性贝叶斯网络模型,所述多属性贝叶斯网络模型包括节点和节点之间的关系,所述节点包括作为判断结果的第一类实体、作为显性原因的第二类实体和作为隐性原因的第三类实体,所述节点之间的关系包括第一类实体、第二类实体和第三类实体间的概率分布和拓扑结构,所述概率分布采用量化的方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711344802.4A CN108461151B (zh) | 2017-12-15 | 2017-12-15 | 一种知识图谱的逻辑增强方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711344802.4A CN108461151B (zh) | 2017-12-15 | 2017-12-15 | 一种知识图谱的逻辑增强方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108461151A true CN108461151A (zh) | 2018-08-28 |
CN108461151B CN108461151B (zh) | 2021-06-15 |
Family
ID=63221137
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711344802.4A Active CN108461151B (zh) | 2017-12-15 | 2017-12-15 | 一种知识图谱的逻辑增强方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108461151B (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109508385A (zh) * | 2018-11-06 | 2019-03-22 | 云南大学 | 一种基于贝叶斯网的网页新闻数据中的人物关系分析方法 |
CN109686443A (zh) * | 2018-12-26 | 2019-04-26 | 孙炜 | 一种临床诊断辅助决策系统和医学知识图谱积累方式 |
CN109935328A (zh) * | 2019-03-20 | 2019-06-25 | 上海铀米机器人科技有限公司 | 一种基于贝叶斯模型的体质辨识方法 |
CN110085325A (zh) * | 2019-04-30 | 2019-08-02 | 王小岗 | 关于中医经验数据的知识图谱的构建方法及装置 |
CN110391026A (zh) * | 2019-07-25 | 2019-10-29 | 北京百度网讯科技有限公司 | 基于医疗概率图的信息分类方法、装置及设备 |
CN111292848A (zh) * | 2019-12-31 | 2020-06-16 | 同方知网(北京)技术有限公司 | 一种基于贝叶斯估计的医疗知识图谱辅助推理方法 |
CN111382275A (zh) * | 2018-12-28 | 2020-07-07 | 医渡云(北京)技术有限公司 | 医疗知识图谱的构建方法、装置、介质及电子设备 |
CN111914562A (zh) * | 2020-08-21 | 2020-11-10 | 腾讯科技(深圳)有限公司 | 电子信息分析方法、装置、设备及可读存储介质 |
CN112241734A (zh) * | 2020-10-15 | 2021-01-19 | 首域科技(杭州)有限公司 | 通过知识图谱和贝叶斯网络对设备故障诊断的方法和系统 |
CN112256801A (zh) * | 2020-10-10 | 2021-01-22 | 深圳力维智联技术有限公司 | 抽取实体关系图中关键实体的方法、系统和存储介质 |
CN112749286A (zh) * | 2021-01-26 | 2021-05-04 | 北京搜狗科技发展有限公司 | 知识图谱的构建和使用方法、装置和介质 |
CN112749287A (zh) * | 2021-01-26 | 2021-05-04 | 北京搜狗科技发展有限公司 | 知识图谱的构建方法和使用方法、装置和介质 |
CN113257414A (zh) * | 2021-07-14 | 2021-08-13 | 北京好欣晴移动医疗科技有限公司 | 基于贝叶斯结构学习的信息归类方法、装置和系统 |
CN113284629A (zh) * | 2021-07-16 | 2021-08-20 | 成都索贝数码科技股份有限公司 | 一种基于医疗大数据、依据社会属性构建疾病画像的方法 |
CN113362931A (zh) * | 2021-08-12 | 2021-09-07 | 北京好欣晴移动医疗科技有限公司 | 基于知识图谱的归因分析方法、装置和系统 |
WO2021197491A1 (zh) * | 2020-04-03 | 2021-10-07 | 清华大学 | 跨医疗数据源的网络表示学习算法 |
CN113590774A (zh) * | 2021-06-22 | 2021-11-02 | 北京百度网讯科技有限公司 | 事件查询方法、装置以及存储介质 |
CN113656600A (zh) * | 2021-08-23 | 2021-11-16 | 东北农业大学 | 一种基于知识图谱的dhi报告解读方法、系统及存储介质 |
CN114496234A (zh) * | 2022-04-18 | 2022-05-13 | 浙江大学 | 一种基于认知图谱的全科患者个性化诊疗方案推荐系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080201280A1 (en) * | 2007-02-16 | 2008-08-21 | Huber Martin | Medical ontologies for machine learning and decision support |
CN102859528A (zh) * | 2010-05-19 | 2013-01-02 | 加利福尼亚大学董事会 | 使用生物网络识别药物靶点的系统和方法 |
US20160147960A1 (en) * | 2014-11-25 | 2016-05-26 | Electronics And Telecommunications Research Institute | Apparatus and method for providing customized personal health service |
CN106503035A (zh) * | 2016-09-14 | 2017-03-15 | 海信集团有限公司 | 一种知识图谱的数据处理方法和装置 |
CN106649878A (zh) * | 2017-01-07 | 2017-05-10 | 陈翔宇 | 基于人工智能的物联网实体搜索方法及系统 |
CN106933983A (zh) * | 2017-02-20 | 2017-07-07 | 广东省中医院 | 一种中医药知识图谱的构建方法 |
CN107145744A (zh) * | 2017-05-08 | 2017-09-08 | 合肥工业大学 | 医学知识图谱的构建方法、装置及辅助诊断方法 |
-
2017
- 2017-12-15 CN CN201711344802.4A patent/CN108461151B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080201280A1 (en) * | 2007-02-16 | 2008-08-21 | Huber Martin | Medical ontologies for machine learning and decision support |
CN102859528A (zh) * | 2010-05-19 | 2013-01-02 | 加利福尼亚大学董事会 | 使用生物网络识别药物靶点的系统和方法 |
US20160147960A1 (en) * | 2014-11-25 | 2016-05-26 | Electronics And Telecommunications Research Institute | Apparatus and method for providing customized personal health service |
CN106503035A (zh) * | 2016-09-14 | 2017-03-15 | 海信集团有限公司 | 一种知识图谱的数据处理方法和装置 |
CN106649878A (zh) * | 2017-01-07 | 2017-05-10 | 陈翔宇 | 基于人工智能的物联网实体搜索方法及系统 |
CN106933983A (zh) * | 2017-02-20 | 2017-07-07 | 广东省中医院 | 一种中医药知识图谱的构建方法 |
CN107145744A (zh) * | 2017-05-08 | 2017-09-08 | 合肥工业大学 | 医学知识图谱的构建方法、装置及辅助诊断方法 |
Non-Patent Citations (1)
Title |
---|
袁凯琦等: ""医学知识图谱构建技术与研究进展"", 《计算机应用研究》 * |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109508385A (zh) * | 2018-11-06 | 2019-03-22 | 云南大学 | 一种基于贝叶斯网的网页新闻数据中的人物关系分析方法 |
CN109686443A (zh) * | 2018-12-26 | 2019-04-26 | 孙炜 | 一种临床诊断辅助决策系统和医学知识图谱积累方式 |
CN109686443B (zh) * | 2018-12-26 | 2021-05-25 | 孙炜 | 一种临床诊断辅助决策系统和医学知识图谱积累方式 |
CN111382275A (zh) * | 2018-12-28 | 2020-07-07 | 医渡云(北京)技术有限公司 | 医疗知识图谱的构建方法、装置、介质及电子设备 |
CN109935328A (zh) * | 2019-03-20 | 2019-06-25 | 上海铀米机器人科技有限公司 | 一种基于贝叶斯模型的体质辨识方法 |
CN110085325A (zh) * | 2019-04-30 | 2019-08-02 | 王小岗 | 关于中医经验数据的知识图谱的构建方法及装置 |
CN110391026B (zh) * | 2019-07-25 | 2022-04-26 | 北京百度网讯科技有限公司 | 基于医疗概率图的信息分类方法、装置及设备 |
CN110391026A (zh) * | 2019-07-25 | 2019-10-29 | 北京百度网讯科技有限公司 | 基于医疗概率图的信息分类方法、装置及设备 |
CN111292848A (zh) * | 2019-12-31 | 2020-06-16 | 同方知网(北京)技术有限公司 | 一种基于贝叶斯估计的医疗知识图谱辅助推理方法 |
CN111292848B (zh) * | 2019-12-31 | 2023-05-16 | 同方知网数字出版技术股份有限公司 | 一种基于贝叶斯估计的医疗知识图谱辅助推理方法 |
WO2021197491A1 (zh) * | 2020-04-03 | 2021-10-07 | 清华大学 | 跨医疗数据源的网络表示学习算法 |
CN111914562A (zh) * | 2020-08-21 | 2020-11-10 | 腾讯科技(深圳)有限公司 | 电子信息分析方法、装置、设备及可读存储介质 |
CN112256801A (zh) * | 2020-10-10 | 2021-01-22 | 深圳力维智联技术有限公司 | 抽取实体关系图中关键实体的方法、系统和存储介质 |
CN112256801B (zh) * | 2020-10-10 | 2024-04-09 | 深圳力维智联技术有限公司 | 抽取实体关系图中关键实体的方法、系统和存储介质 |
CN112241734A (zh) * | 2020-10-15 | 2021-01-19 | 首域科技(杭州)有限公司 | 通过知识图谱和贝叶斯网络对设备故障诊断的方法和系统 |
CN112749287A (zh) * | 2021-01-26 | 2021-05-04 | 北京搜狗科技发展有限公司 | 知识图谱的构建方法和使用方法、装置和介质 |
CN112749286A (zh) * | 2021-01-26 | 2021-05-04 | 北京搜狗科技发展有限公司 | 知识图谱的构建和使用方法、装置和介质 |
CN113590774A (zh) * | 2021-06-22 | 2021-11-02 | 北京百度网讯科技有限公司 | 事件查询方法、装置以及存储介质 |
CN113590774B (zh) * | 2021-06-22 | 2023-09-29 | 北京百度网讯科技有限公司 | 事件查询方法、装置以及存储介质 |
CN113257414A (zh) * | 2021-07-14 | 2021-08-13 | 北京好欣晴移动医疗科技有限公司 | 基于贝叶斯结构学习的信息归类方法、装置和系统 |
CN113284629A (zh) * | 2021-07-16 | 2021-08-20 | 成都索贝数码科技股份有限公司 | 一种基于医疗大数据、依据社会属性构建疾病画像的方法 |
CN113362931B (zh) * | 2021-08-12 | 2021-11-16 | 北京好欣晴移动医疗科技有限公司 | 基于知识图谱的归因分析方法、装置和系统 |
CN113362931A (zh) * | 2021-08-12 | 2021-09-07 | 北京好欣晴移动医疗科技有限公司 | 基于知识图谱的归因分析方法、装置和系统 |
CN113656600A (zh) * | 2021-08-23 | 2021-11-16 | 东北农业大学 | 一种基于知识图谱的dhi报告解读方法、系统及存储介质 |
CN114496234A (zh) * | 2022-04-18 | 2022-05-13 | 浙江大学 | 一种基于认知图谱的全科患者个性化诊疗方案推荐系统 |
CN114496234B (zh) * | 2022-04-18 | 2022-07-19 | 浙江大学 | 一种基于认知图谱的全科患者个性化诊疗方案推荐系统 |
Also Published As
Publication number | Publication date |
---|---|
CN108461151B (zh) | 2021-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108461151A (zh) | 一种知识图谱的逻辑增强方法及装置 | |
CN111192680B (zh) | 一种基于深度学习和集成分类的智能辅助诊断方法 | |
CN110838368B (zh) | 一种基于中医临床知识图谱的主动问诊机器人 | |
Priyanka et al. | Usage of data mining techniques in predicting the heart diseases—Naïve Bayes & decision tree | |
CN110297908A (zh) | 诊疗方案预测方法及装置 | |
CN110111887A (zh) | 临床辅助决策方法及装置 | |
CN109935336A (zh) | 一种儿童呼吸科疾病的智能辅助诊断方法及诊断系统 | |
Fang et al. | Feature Selection Method Based on Class Discriminative Degree for Intelligent Medical Diagnosis. | |
CN108628824A (zh) | 一种基于中文电子病历的实体识别方法 | |
CN107193919A (zh) | 一种电子病历的检索方法及系统 | |
CN103310109B (zh) | 一种患者随访提醒周期自适应调整方法 | |
CN109119160B (zh) | 多重推理方式的专家分诊系统及其方法 | |
CN107145715B (zh) | 一种基于推举算法的临床医学智能判别装置 | |
Singh et al. | A comprehensive review of intelligent medical diagnostic systems | |
Kumar et al. | A computational intelligence method for effective diagnosis of heart disease using genetic algorithm | |
CN116364299A (zh) | 一种基于异构信息网络的疾病诊疗路径聚类方法及系统 | |
Sonet et al. | Analyzing patterns of numerously occurring heart diseases using association rule mining | |
CN109192312B (zh) | 一种心力衰竭患者不良事件智能管理系统及方法 | |
CN107785079A (zh) | 一种基于弥散张量成像的抑郁症患者疾病恢复的评估方法 | |
Rawat | Validating and Strengthen the Prediction Performance Using Machine Learning Models and Operational Research for Lung Cancer | |
Bhandari et al. | Comparative analysis of fuzzy expert systems for diabetic diagnosis | |
CN109308525A (zh) | 基于马尔科夫逻辑网的院内感染定植排查智能推理方法 | |
CN106354715A (zh) | 医疗词汇处理方法及装置 | |
CN115938593A (zh) | 病历信息的处理方法、装置、设备及计算机可读存储介质 | |
CN108538390A (zh) | 一种面向医学数据的增量式处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |