融合医学知识及应用病例的动态知识图谱更新方法
技术领域
本发明涉及互联网数据处理技术领域,尤其涉及融合医学知识及应用病例的动态知识图谱更新方法。
背景技术
知识图谱是图结构的知识库,属于知识工程的范畴。不同于普通知识库,知识图谱能够融合所有学科,将不同来源、不同类型、不同结构的知识单元通过链接关联成图,基于各学科的元数据,为用户提供更广度、更深度的知识体系并不断扩充,其本质上是将领域知识数据体系化、关系化,并以图的方式将知识可视化。简单来说,知识图谱是基于信息系统建立的知识体系,通过数据采集、数据挖掘、信息处理、知识计量和图形绘制等技术把复杂的知识领域系统地显示出来,揭示知识领域的动态发展规律。
近年来,医疗卫生信息平台在医疗卫生机构迅速普及,同时产生了大量的医疗数据。如何利用这些海量的医疗信息资源更好的为人们服务,已成为人们所关注的热点问题。知识图谱技术给解决这个问题,提供了一个新的技术手段。作为知识图谱的分支,医学知识图谱是实现智慧医疗的基石,有望带来更高效精准的医疗服务。然而,现有知识图谱构建技术在医学领域中普遍存在效率低、限制多、拓展性差等问题。现有的医学知识图谱构建方法多为基于理论材料(教材、文献)的关键字提取、通过词频分析等构建知识概念、本体间的关系,在临床医疗实际过程中产生的大量真实数据没有被有效组织成知识图谱,造成医学理论与实践的脱节,并且,难以根据医疗实践的经验而更新原有知识库和知识图谱。医学领域中的病症、疾病与诊疗手段之间通常存在着错综复杂的关系,而现有的关系模型的数据存储模式不利于医学知识体系内容的扩充,也不能为医护人员提供直观的参考。
知识图谱能够解决医疗大数据中的知识分散、异构、冗余和碎片化的问题,提供有效的整合和组织医疗知识的途径。
发明内容
有鉴于此,针对现有技术的上述缺点,本发明提出了一种融合医学理论知识与临床实践数据来构建知识图谱及更新方法。
根据本发明的实施例,提供了一种动态医学知识图谱更新方法,包括以下步骤:步骤1、从医疗结算系统获取患者的真实医疗数据;步骤2、将同一患者同一次就诊的医疗数据整合成完整医疗数据;步骤3、在整合后的完整医疗数据中进行命名实体识别;步骤4、根据现有医学知识图谱,对识别出的命名实体进行标注,并根据标注结果,在识别出的命名实体之间建立两两关系组,并计算所述关系组的关系系数;步骤5、在现有医学知识图谱中确立与所述关系组匹配的两个节点;步骤6、使用步骤4中计算的关系系数来更新所述两个节点之间的关系系数。
根据本发明的实施例,提供了一种用于进行所述方法的动态医学知识图谱更新系统,包括:医疗数据获取模块,被配置用于从医疗结算系统获取患者的真实医疗数据;数据清洗模块,被配置用于将同一患者同一次就诊的医疗数据整合成完整医疗数据;命名实体识别模块,被配置用于在整合后的完整医疗数据中进行命名实体识别;实体关系识别模块,被配置用于根据现有医学知识图谱,对识别出的命名实体进行标注,并根据标注结果,在识别出的命名实体之间建立两两关系组,并计算所述关系组的关系系数;知识图谱更新模块、被配置用于在现有医学知识图谱中确立与所述关系组匹配的两个节点,并更新现有医学知识图谱。
根据本发明的实施例,提供了一种计算机可读存储介质,其上存储用于执行动态知识图谱更新方法的程序,所述程序被处理器执行时,实现根据所述方法的步骤。
本发明的有益效果主要在于:1、为有效利用临床医疗数据提供了有效的存储、整理方案;2、提高了医学知识共享与更新速度;3、通过理论与实际数据的交叉印证,提高临床诊疗的安全性。
附图说明
图1为根据本发明的实施例的动态医学知识图谱更新系统的功能模块示意图;
图2为根据本发明的实施例的动态医学知识图谱更新方法的流程示意图;
图3为根据本发明的实施例的动态医学知识图谱更新方法中的所识别出的主题及其属性之间的关系示意图;
图4为根据本发明的实施例的动态医学知识图谱更新方法中的所识别出的主题之间的关系示意图;
图5至8为根据本发明的实施例的动态医学知识图谱更新方法中的图谱更新的概念示意图;
图9示出了根据本发明的实施例的安装了应用程序的系统的运行环境。
具体实施方式
下面,结合附图对技术方案的实施作进一步的详细描述。
本领域的技术人员能够理解,尽管以下的说明涉及到有关本发明的实施例的很多技术细节,但这仅为用来说明本发明的原理的示例、而不意味着任何限制。本发明能够适用于不同于以下例举的技术细节之外的场合,只要它们不背离本发明的原理和精神即可。
另外,为了避免使本说明书的描述限于冗繁,在本说明书中的描述中,可能对可在现有技术资料中获得的部分技术细节进行了省略、简化、变通等处理,这对于本领域的技术人员来说是可以理解的,并且这不会影响本说明书的公开充分性。
下文中,将参照附图描述本发明的实施例。
注意,将以下面的次序给出描述:1、动态医学知识图谱更新系统的架构(图1);2、动态医学知识图谱更新方法(图2至8);3、根据本发明的实施例的安装了应用程序的系统(图9)。
1、动态医学知识图谱更新系统的架构
图1为根据本发明的实施例的动态医学知识图谱更新系统的功能架构示意图。
如图1所示,根据本发明的实施例,提供了一种动态医学知识图谱更新系统,其主要包括“医疗数据获取模块”、“数据清洗模块”、“命名实体识别模块”、“实体关系识别模块”、“知识图谱更新模块”。
命名实体识别模块用于将获取的临床实践数据(包括电子病历、检验检查单、病案首页、发票等)的信息通过既往的分类规则,将不同类型的数据标记为不同种类,例如:发票中出现“青霉素80w单位,5元”,则系统将该信息标注为[<药品>青霉素],[<剂量>80w],[<价格>5],[<剂量单位>单位],[<价格单位>元]。
关系识别模块用于通过信息类别的隐含信息及临床数据中的信息交叉验证,自动推断实际应用中不同种类数据的关系。例如:上述青霉素属于一类药品,作为药品有隐含的治疗属性,且与患者化验单数据交叉验证后可推断青霉素是在实际治疗过程中起作用,故产生关系<青霉素>治疗<单据上某相关疾病>。
知识图谱更新模块用于处理关系识别模块产生的推断结论与现有知识图谱的推断结论出现矛盾的时候依据既定的数据量阈值来更新医学知识图谱。例如:如果上述某相关疾病为非感染性疾病,按照既往知识,青霉素不应该用于治疗,此时产生矛盾,由此模块将该事件记录,当同类事件数量累积到设定阈值时将修改更新现有医学图谱。
下面具体说明动态医学知识图谱更新方法。
2、动态医学知识图谱更新方法
图2为根据本发明的实施例的动态医学知识图谱更新方法的流程示意图。
如图2所示,根据本发明的实施例的动态医学知识图谱更新方法主要包括以下步骤:
步骤S100、从医疗结算系统获取同一患者的真实医疗数据;
步骤S200、对真实医疗数据进行数据清洗,将同一患者同一次就诊(一次患病)的医疗数据结合并为该患者同一次就诊的完整医疗数据;
步骤S300、在该患者同一次就诊的完整医疗数据中进行命名实体识别;
步骤S400、在识别出的命名实体之间建立关联关系;
步骤S500、将命名实体与基于文献资料的医学知识图谱对齐;
步骤S600、更新医学知识图谱,包括使用实体及关系均对齐的实体对更新现有图谱关系的强度,判断未对齐的实体对是否作为新实体及关系纳入图谱。
作为示例,在步骤S100中,所述真实医疗数据包括通过结算通道获取的票据、单据、日清单信息,从医院信息化系统获取的医嘱记录、护理记录和电子病历数据,等等。
所述从医疗结算系统获取的医疗费用清单的示例如下:
作为示例,在步骤S200中,通过患者姓名、住院号、性别、科室、诊断等信息,进行交叉验证(多重信息核对一致后,可确认是同一患者),建立患者主索引(EMPI),将同一次患者的例如上述多个就诊结算单整合成一个完整的医疗清单,如下所示。
由此可见,通过上述过程,已将患者A的本次就诊(治疗)信息整合到一个清单/列表中。
作为示例,在步骤S300中,可通过LSTM-CRF模型(CRF:条件随机场,LSTM:长短期记忆网络)进行命名实体识别,得到如下标注结果:
其中,被识别出的命名实体分为两类:主题和属性,其上部均出现标注,该标注为所识别出的主题和属性的类别(例如,规格、等等),所述标注是根据现有的知识图谱而产生的。
作为示例,在步骤S400中,将被标注为“规格”的命名实体作为属性与相应的主题建立关联,形成如图3所示的关系组(其中标为白色的命名实体作为属性与作为主题的其他命名实体关联)。
可选地,主题之间可建立两两相互关系,由此获取主题-主题组,如图4所示,其中,由于两两相关数量较多,图中仅举部分例子说明。
作为示例,在步骤S500中,通过主题本身及其属性的相似度匹配,将从上述数据识别出的命名实体与基于文献资料等建立的知识图谱对齐,即,从现有知识图谱中找到与上述命名实体(主题)相匹配的项目/实体。
例如:主题“锁骨骨折”,可与知识图谱中的疾病项目“锁骨骨折”完全一致而对齐;主题“自攻锁定螺钉”,可通过其相关的材料特征“自攻”、“锁定螺钉”、相关的规格属性“3.5mm”、“38-60mm”,与知识图谱中的项目“美敦力康辉3.5mm自攻锁定螺钉”对齐。
在如上所述实体对齐后,进行关系对齐,即,从现有知识图谱中找到与上述带有关系的命名实体对(三元组)相匹配的项目/实体,可分为以下4种情况:
1)双实体与关系均对齐:如上述“锁骨骨折”与“锁骨骨折切开复位内固定术”间的关系与知识图谱中的两者间的治疗关系均对齐/匹配。
2)双实体对齐、关系未对齐:如“丙泊酚注射液”与“床位费”、“锁骨骨折切开复位内固定术”与“全身麻醉”均在知识图谱中原有节点对齐,但两者之间无关联。
3)单实体对齐、关系及另一实体未对齐:如“全身麻醉”与知识图谱对齐,但“丁丙诺啡透皮贴剂”未能找到对齐的节点。
4)双实体及关系均未对齐:“丁丙诺啡透皮贴剂”、“单纯静脉麻醉”均未在图谱找到可对齐的对象,则该组的实体机关系均未对齐。
作为示例,在步骤S600中,根据上述对齐情况,更新知识图谱。
图5为根据本发明的实施例的动态医学知识图谱更新方法中的图谱更新的概念示意图。图谱结构中的各关系可参照图5所示。
对于上述步骤S500中的示例情况1),“锁骨骨折”与“锁骨骨折切开复位内固定术”间与图谱中两者间的治疗关系对齐,如数据来源的情况如下表,则根据地区、医疗机构等级、医生职称因素计算强度系数,其为以Gov_rank、Hosp_rank、Doc_rank、Gdp_rank为自变量的函数,此处作为示例,取上述自变量的均值。其中,Gov_rank为行政区,Gdp_rank为以同级别行政区GDP排名为加权系数的对病例数量的加权平均值。
以下表中的N
1列为例(指来自于省级三甲医院由主任级医生产生的病例数据,涉及3个省级城市的4家三甲医院和6名主任医生),其为3个省级行政区的数据,假设从公开数据库查询3个行政区的GDP从大到小排名为“10,7,3”,对应的病例数为“n
1,n
2,n
3”,n
1+n
2+n
3=N
1,则N
1列的
作为示例,强度系数S1可求得:
S1=Average(Gov_rank=6,Hosp_rank=9,Doc_rank=4,GDP_rank)
上述各个量化分数(各rank的分数)见下表所示。
其中,应用范围系数C为与不同地区、医疗机构、医生数量、数据获取时间相关的增函数值,此处为简化起见,取上述不同地区、医疗机构、医生数量的均值,C=Average(10,15,24)=16.3,取整后为16。
由此,将计算后的关系系数R更新到知识图谱中。
对于上述示例情况2),以“丙泊酚注射液”与“床位费”为例说明。
“丙泊酚注射液”与“床位费”两种均在原知识图谱中找到对应节点,但两节点间无关系,所以无法直接完成关系对齐;在此情况下,可通过以下流程处理:
(1)在两者之间建立虚拟关系,并通过数据计算其关系系数R及距离
(2)计算两者间的最短实际关系距离,如图6所示的
其中,R
a、R
b、R
c分别为关系a、b、c的关系系数,C调节系数为调节系数,一般可设置为
来达到自动判断目的,此处为
(3)当D虚<D实时,建立两节点间的(实际)关系。
上述关系的建立如图6所示。之后,将所建立的关系更新到现有图谱中。
具体地,在此例中,床位费与丙泊酚注射液虽然从数据看有一定关联,但实际中其关联是通过疾病及疾病相关的麻醉产生的,实际中关系系数Ra、Rb、Rc通常远大于R,从而能在大多数情况下保证(1/R_a+1/R_b+1/R_c)×C调节系数<1/R从而排除间接产生的关系。
对于上述示例情况3),以“丙泊酚注射液”与“床位费”为例说明。
其中,“全身麻醉”与知识图谱对齐,但“丁丙诺啡透皮贴剂(5mg/片)”未能找到对齐的节点。
通过丢弃“丁丙诺啡透皮贴剂(5mg/片)”的部分属性值来查找其父类节点后作为子节点添加,最佳父类节点的标准为保留最多的子类属性值,如图7所示,可舍弃“5mg/片”的属性将“丁丙诺啡透皮贴剂(5mg/片)”作为子类添加“丁丙诺啡透皮贴剂”(B)下,这是因为添加到“丁丙诺啡”(A)下需舍弃两个属性,故不是最优选择。添加完成后则可继续按示例情况2)来处理节点间的关系。如果节点舍弃全部属性后仍不能寻找到父节点,则予以舍弃,即,不进行图谱更新。
对于上述示例情况4),作为示例,“丁丙诺啡透皮贴剂(5mg/片)”、“单纯静脉麻醉”均未在图谱找到可对齐的对象,这时,首先按照在示例情况3)中描述的方法寻找节点的父节点,如“丁丙诺啡透皮贴剂”和“麻醉”,如无对应父节点的予以舍弃。子节点添加完成后可继续按示例情况2)处理。
对于上述示例情况1)至4)的处理,可参见图8的总结概要。
3、安装了用于实现本发明的实施例的应用程序的系统
此外,本发明的不同实施例也可以通过软件模块或存储在一个或多个计算机可读介质上的计算机可读指令的方式实现,其中,所述计算机可读指令当被处理器或设备组件执行时,执行本发明所述的不同的实施例。类似地,软件模块、计算机可读介质和硬件部件的任意组合都是本发明预期的。所述软件模块可以被存储在任意类型的计算机可读存储介质上,例如RAM、EPROM、EEPROM、闪存、寄存器、硬盘、CD-ROM、DVD等等。
具体地,本发明的另一个方面涉及使用硬件和/或软件实现上述不同的实施例。本领域的技术人员应该理解,可以使用计算设备或者一个或多个处理器实现或执行本发明的实施例。计算设备或处理器可以是例如通用处理器、数字信号处理器(DSP)、专用集成芯片(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑设备,等等。本发明不同的实施例也可以被这些设备的组合执行或体现。
参照图9,其示出了根据本发明的实施例的安装了应用程序的系统的运行环境。
在本实施例中,所述的安装应用程序的系统安装并运行于电子装置中。所述电子装置可以是桌上型计算机、笔记本、掌上电脑及服务器等计算设备。该电子装置可包括但不限于存储器、处理器及显示器。图6仅示出了具有上述组件的电子装置,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
所述存储器在一些实施例中可以是所述电子装置的内部存储单元,例如该电子装置的硬盘或内存。所述存储器在另一些实施例中也可以是所述电子装置的外部存储设备,例如所述电子装置上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器还可以既包括所述电子装置的内部存储单元也包括外部存储设备。所述存储器用于存储安装于所述电子装置的应用软件及各类数据,例如所述安装应用程序的系统的程序代码等。所述存储器还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器在一些实施例中可以是中央处理单元(Central Processing Unit,CPU)、微处理器或其他数据处理芯片,用于运行所述存储器中存储的程序代码或处理数据,例如执行所述安装应用程序的系统等。
所述显示器在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。所述显示器用于显示在所述电子装置中处理的信息以及用于显示可视化的用户界面,例如应用菜单界面、应用图标界面等。所述电子装置的部件通过系统总线相互通信。
由上,将理解,为了说明的目的,这里已描述了本发明的具体实施例,但是,可作出各个修改,而不会背离本发明的范围。本领域的技术人员将理解,流程图步骤中所绘出或这里描述的操作和例程可以多种方式变化。更具体地,可重新安排步骤的次序,可并行执行步骤,可省略步骤,可包括其它步骤,可作出例程的各种组合或省略。因而,本发明仅由所附权利要求限制。