CN107862075A - 一种基于医疗卫生大数据的知识图谱构建方法及装置 - Google Patents

一种基于医疗卫生大数据的知识图谱构建方法及装置 Download PDF

Info

Publication number
CN107862075A
CN107862075A CN201711222631.8A CN201711222631A CN107862075A CN 107862075 A CN107862075 A CN 107862075A CN 201711222631 A CN201711222631 A CN 201711222631A CN 107862075 A CN107862075 A CN 107862075A
Authority
CN
China
Prior art keywords
field contents
knowledge
knowledge mapping
data
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711222631.8A
Other languages
English (en)
Inventor
王本强
衣秀
郭运艳
张娴
马良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Software Co Ltd
Original Assignee
Inspur Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Software Co Ltd filed Critical Inspur Software Co Ltd
Priority to CN201711222631.8A priority Critical patent/CN107862075A/zh
Publication of CN107862075A publication Critical patent/CN107862075A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明提供了一种基于医疗卫生大数据的知识图谱构建方法及装置,该方法包括:创建定义有至少一个实体及各实体对应的至少一个属性和至少一个关系的数据模型;针对各医疗数据来源:采集当前医疗数据来源中的实体类字段内容、各属性类字段内容、各关系类字段内容,基于数据模型对采集到的各字段内容执行相应填充以构建出一知识图谱;针对构建出的各知识图谱:当存在另一知识图谱中的一第一字段内容与当前知识图谱中的一第二字段内容相一致时,将该两字段内容相融合。基于医疗卫生大数据以构建知识图谱,经知识图谱间的对齐融合以去除冗余数据,构建出的知识图谱信息关联度高,故本发明所构建出的知识图谱能够使所获得的个人信息更为全面。

Description

一种基于医疗卫生大数据的知识图谱构建方法及装置
技术领域
本发明涉及计算机技术领域,特别涉及一种基于医疗卫生大数据的知识图谱构建方法及装置。
背景技术
信息技术的发展不断推动着互联网技术的变革,搜索引擎由于使得用户寻找信息的范围缩小,已经成为人们查找海量信息不可或缺的工具。
目前,医疗领域在信息化建设过程中,主要是围绕各类业务工作建立了大量的信息系统和数据中心。了解个人信息时,可以从相应信息系统或数据中心中查询。
但现有实现方式获得的个人信息较为片面,信息关联度低。
发明内容
本发明提供了一种基于医疗卫生大数据的知识图谱构建方法及装置,能够使所获得的个人信息更为全面。
为了达到上述目的,本发明是通过如下技术方案实现的:
一方面,本发明提供了一种基于医疗卫生大数据的知识图谱构建方法,创建数据模型,所述数据模型中定义有至少一个实体,以及每一个所述实体对应的至少一个属性和至少一个关系;还包括:
针对预先确定好的每一个医疗数据来源均执行:采集当前医疗数据来源中包括的实体类字段内容、至少一个属性类字段内容、至少一个关系类字段内容;基于所述数据模型,对采集到的每一个字段内容执行相应填充,以构建出一知识图谱;
针对构建出的至少两个知识图谱中的每一个知识图谱均执行:判断所述至少两个知识图谱中是否包括目标知识图谱,其中,所述目标知识图谱中的一第一字段内容与当前知识图谱中的一第二字段内容相一致,若是,将所述第一字段内容与所述第二字段内容相融合。
进一步地,所述至少一个属性包括:至少一个标识型属性和第一数量的非标识型属性,其中,所述第一数量为整数;
所述第一字段内容为实体类字段内容或关系类字段内容;
所述第二字段内容为实体类字段内容或关系类字段内容;
所述目标知识图谱中的一第一字段内容与当前知识图谱中的一第二字段内容相一致,包括:所述第一字段内容和所述第二字段内容的内容相同,且所述目标知识图谱中的一标识型属性类字段内容和所述当前知识图谱中的一标识型属性类字段内容之间唯一关联。
进一步地,该方法还包括:在判断出融合后的知识图谱中的一第三字段内容和一第四字段内容相一致时,将所述第三字段内容和所述第四字段内容相融合。
进一步地,该方法还包括:所述当前医疗数据来源的数据类型为非结构化数据时,标记从所述当前医疗数据来源中采集的每一个字段内容。
进一步地,所述至少一个实体包括:患者、医护人员、医疗机构、至少一个医疗事件中的任意一种或多种。
另一方面,本发明提供了一种基于医疗卫生大数据的知识图谱构建装置,包括:
创建单元,用于创建数据模型,所述数据模型中定义有至少一个实体,以及每一个所述实体对应的至少一个属性和至少一个关系;
数据处理单元,用于针对预先确定好的每一个医疗数据来源均执行:采集当前医疗数据来源中包括的实体类字段内容、至少一个属性类字段内容、至少一个关系类字段内容;基于所述数据模型,对采集到的每一个字段内容执行相应填充,以构建出一知识图谱;
数据融合单元,用于针对构建出的至少两个知识图谱中的每一个知识图谱均执行:判断所述至少两个知识图谱中是否包括目标知识图谱,其中,所述目标知识图谱中的一第一字段内容与当前知识图谱中的一第二字段内容相一致,若是,将所述第一字段内容与所述第二字段内容相融合。
进一步地,所述至少一个属性包括:至少一个标识型属性和第一数量的非标识型属性,其中,所述第一数量为整数;
所述第一字段内容为实体类字段内容或关系类字段内容;
所述第二字段内容为实体类字段内容或关系类字段内容;
所述数据融合单元,具体用于判断所述第一字段内容和所述第二字段内容的内容是否相同,且所述目标知识图谱中的一标识型属性类字段内容和所述当前知识图谱中的一标识型属性类字段内容之间是否唯一关联,若是,将所述第一字段内容与所述第二字段内容相融合。
进一步地,所述数据融合单元,还用于在判断出融合后的知识图谱中的一第三字段内容和一第四字段内容相一致时,将所述第三字段内容和所述第四字段内容相融合。
进一步地,所述数据处理单元,还用于所述当前医疗数据来源的数据类型为非结构化数据时,标记从所述当前医疗数据来源中采集的每一个字段内容。
进一步地,所述至少一个实体包括:患者、医护人员、医疗机构、至少一个医疗事件中的任意一种或多种。
本发明提供了一种基于医疗卫生大数据的知识图谱构建方法及装置,该方法包括:创建定义有至少一个实体及各实体对应的至少一个属性和至少一个关系的数据模型;针对各医疗数据来源:采集当前医疗数据来源中的实体类字段内容、各属性类字段内容、各关系类字段内容,基于数据模型对采集到的各字段内容执行相应填充以构建出一知识图谱;针对构建出的各知识图谱:当存在另一知识图谱中的一第一字段内容与当前知识图谱中的一第二字段内容相一致时,将该两字段内容相融合。基于医疗卫生大数据以构建知识图谱,经知识图谱间的对齐融合以去除冗余数据,构建出的知识图谱信息关联度高,故本发明所构建出的知识图谱能够使所获得的个人信息更为全面。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种基于医疗卫生大数据的知识图谱构建方法的流程图;
图2是本发明一实施例提供的一种数据模型的框架的示意图;
图3是本发明一实施例提供的一种知识图谱的示意图;
图4是本发明一实施例提供的另一种知识图谱的示意图;
图5是本发明一实施例提供的又一种知识图谱的示意图;
图6是本发明一实施例提供的再一种知识图谱的示意图;
图7是本发明一实施例提供的另一种基于医疗卫生大数据的知识图谱构建方法的流程图;
图8是本发明一实施例提供的一种基于医疗卫生大数据的知识图谱构建装置的示意图;
图9是本发明一实施例提供的另一种基于医疗卫生大数据的知识图谱构建装置的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种基于医疗卫生大数据的知识图谱构建方法,可以包括以下步骤:
步骤101:创建数据模型,所述数据模型中定义有至少一个实体,以及每一个所述实体对应的至少一个属性和至少一个关系。
步骤102:针对预先确定好的每一个医疗数据来源均执行:采集当前医疗数据来源中包括的实体类字段内容、至少一个属性类字段内容、至少一个关系类字段内容;基于所述数据模型,对采集到的每一个字段内容执行相应填充,以构建出一知识图谱。
步骤103:针对构建出的至少两个知识图谱中的每一个知识图谱均执行:判断所述至少两个知识图谱中是否包括目标知识图谱,其中,所述目标知识图谱中的一第一字段内容与当前知识图谱中的一第二字段内容相一致,若是,将所述第一字段内容与所述第二字段内容相融合。
本发明实施例提供了一种基于医疗卫生大数据的知识图谱构建方法,创建定义有至少一个实体及各实体对应的至少一个属性和至少一个关系的数据模型;针对各医疗数据来源:采集当前医疗数据来源中的实体类字段内容、各属性类字段内容、各关系类字段内容,基于数据模型对采集到的各字段内容执行相应填充以构建出一知识图谱;针对构建出的各知识图谱:当存在另一知识图谱中的一第一字段内容与当前知识图谱中的一第二字段内容相一致时,将该两字段内容相融合。基于医疗卫生大数据以构建知识图谱,经知识图谱间的对齐融合以去除冗余数据,构建出的知识图谱信息关联度高,故本发明实施例所构建出的知识图谱能够使所获得的个人信息更为全面。
在本发明的一个实施例中,所述至少一个实体包括:患者、医护人员、医疗机构、至少一个医疗事件中的任意一种或多种。
详细地,基于医疗卫生大数据所构建出的知识图谱,通常应满足常见信息查询所需,故在数据建模时,可以预先确定好每一个实体,以及各实体对应的每一个属性和每一个关系。其中,不同实体对应的属性的种类和个数通常不同,不同实体对应的关系的种类和个数通常不同。
本发明一个实施例中,关系主要可以包括:患者的家庭关系,如父子(女)关系、母子(女)关系、配偶关系;患者与医生是诊疗关系,患者与护士是护理关系;医生之间、护士之间、医生护士之间是职务关系;医生及护士与医疗机构是聘任关系;机构之间是隶属关系;事件与事件之间也有不同的关系。
详细地,定义的实体可以有患者、医护人员、医疗机构、医疗事件等。此外,基于不同的实际应用需求,还可以包括其他实体,如医药、病种、医疗器械等。
详细地,医护人员可以包括医生、护士、检验员等。
详细地,医疗机构可以包括医院、科室等。
详细地,只要是与医疗机构发生关系,就可以认为是一次医疗事件。
在本发明一个实施例中,医疗事件可以包括:出生事件,儿童保健事件,健康体检事件,妇女保健事件,门诊事件,住院事件,疾病防控事件,疾病管理事件等。优选地,定义出的所有医疗事件,可以覆盖每一个患者从出生至当前这一过程中的全部医疗相关事件。
在本发明一个实施例中,针对患者这一实体,其属性可以包括:性别、年龄、居住地、身份证、医保卡号等,其关系可以包括:父子(女)关系、母子(女)关系、存在的医疗事件等。
举例来说,如图2所示,提供了一种数据模型的框架,针对的实体为患者,其属性可以包括身份证号、出生日期、联系方式、年龄、籍贯、居住地、性别等,其关系可以包括出生事件、儿童保健事件、健康体验事件、死亡事件等。当然,图2中未列出的属性还可以有医保卡号等,未列出的关系还可以有父亲、母亲、配偶、住院事件、门诊事件等。
在本发明一个实施例中,针对医护人员这一实体,其属性可以包括:性别、年龄、职位、身份证号等,其关系可以包括:科室、医院等。
在本发明一个实施例中,针对医疗机构这一实体,其属性可以包括:成立日期、医疗服务等级、医院唯一代码、所在地等,其关系可以包括:院长、书记等。
在本发明一个实施例中,针对医疗事件这一实体,其属性通常可以涉及时间、疾病、临床诊断、检验结果等,其关系可以包括:患者、主治医师、医疗机构等。
基于上述内容,对于任一实体,其可以作为其他实体的一个关系,对应地,该实体的一些关系,同样可以作为独立的实体。
在定义好各实体及其属性、关系后,可以基于数据来源以采集数据,并将采集到的所有数据填充至创建好的相应模型框架中。详细地,对于任一医疗数据来源,通常包括一实体对应的字段内容、若干属性对应的字段内容、若干关系对应的字段内容。
在本发明一个实施例中,医疗数据来源所涉及的信息可以包括:个人家庭信息、社保信息、从事医疗行业人员的基本信息、医疗机构信息、医疗行业人员与医疗机构的附属关系信息、健康查体信息、儿童保健信息、妇女保健信息、疾病控制信息、重大疾病管理信息、门诊信息、检验检查信息、育龄夫妇信息、婚姻信息、计划生育信息、流动人口信息等。
更为详细地,上述健康查体信息还可以包括历次健康查体信息、住院史、家庭病史、学生体检信息等;上述儿童保健信息还可以包括出生医学证明、疾病筛查、随访记录、体弱儿管理等;上述妇女保健信息还可以包括产前检查、分娩情况、产后检查及随访记录、高危孕妇管理、避孕及孕检信息等;上述疾病控制信息还可以包括疫苗接种记录、艾滋病防治、职业病体检、脑卒病人管理、传染病、结核病等;上述重大疾病管理信息还可以包括乙肝患者管理、精神分裂、精神疾病、糖尿病管理、老年人健康管理、高血压患者管理、冠心病患者管理以及残疾人管理等;上述门诊信息还可以包括门诊挂号、门诊处方、门诊记录等;上述检验检查信息还可以包括报告单、影像诊断报告、出入院记录、电子病历等。
通常情况下,上述的各医疗数据源,基本上可以包括一个人一生中与医疗机构发生关系的全记录。
举例来说,待采集的全部医疗数据来源中,存在一健康体检表单,如此可以采集实体类字段内容、各属性类字段内容、各关系类字段内容。比如,采集到的所有字段内容可以如下述内容所示:
实体类字段内容:患者:张三;
属性类字段内容:性别:男,年龄:1岁,临床诊断:营养元素缺乏,样本号:血常规375,化验结果:(此处省略),样本类型:末梢全血,采样时间:2017-11-24 16:00,医保卡号:980100037233569;
关系类字段内容:就诊科室:保健科门诊,就诊医师:李四,就诊医院:北京儿童医院。
然后,基于预先创建好的、所针对实体为健康体验事件的数据模型框架,可以对采集到的上述字段内容进行相应填充。比如,填充后所得的知识图谱可以如图3所示。
通常情况下,待处理的医疗数据来源的数量庞大,使得构建出的知识图谱的数量庞大,且不同知识图谱中易包括大量重复的冗余信息,基于此,可以执行冗余信息的统一、合并,从而实现相关知识图谱间的融合。
在本发明一个实施例中,所述至少一个属性包括:至少一个标识型属性和第一数量的非标识型属性,其中,所述第一数量为整数;
所述第一字段内容为实体类字段内容或关系类字段内容;
所述第二字段内容为实体类字段内容或关系类字段内容;
所述目标知识图谱中的一第一字段内容与当前知识图谱中的一第二字段内容相一致,包括:所述第一字段内容和所述第二字段内容的内容相同,且所述目标知识图谱中的一标识型属性类字段内容和所述当前知识图谱中的一标识型属性类字段内容之间唯一关联。
举例来说,当前知识图谱为如图3所示的知识图谱001,所有的知识图谱中包括如图4和图5所示的知识图谱。经判断,知识图谱001和图4所示的知识图谱002中均存在“张三”这一字段内容,故知识图谱002可以为上述目标知识图谱。但仅根据患者姓名还不能认定这两个字段内容相一致,故可以进一步验证。可以看出,因两者的医保卡号相同且唯一,可以认为为同一患者,从而可以将“张三”这一字段内容相融合。
当然,在本发明另一实施例中,经验证,同样可以确定知识图谱001中的医保卡号和图谱002中的身份证号唯一关联,同样可以确定为同一患者。其中,可以经中间的某一知识图谱进行验证,也可以经预设的信息对应关系表进行验证。
可以看出,知识图谱001和知识图谱002中均存在“980100037233569”这一字段内容,但两者均为标识型属性类字段内容,属性类字段内容无需融合。同理,知识图谱001和知识图谱002中均存在“男”这一字段内容,但两者均为非标识型属性类字段内容,属性类字段内容无需融合。
以此类推,知识图谱001和知识图谱002中不存在相一致的字段内容时,可以查找下一个目标知识图谱。
此时,由于知识图谱001和知识图谱002之间实现了至少一个字段内容的融合处理,故两者即融合为一个共同的知识图谱。如此,上述当前知识图谱可以为该融合后的知识图谱。
基于同样的实现原理,经判断,融合后的知识图谱和图5所示的知识图谱003中同样存在相一致的3组字段内容,故可以将融合后的知识图谱和知识图谱003进一步融合,此次融合后的知识图谱可以如图6所示。
上述融合主要实现了知识图谱001和知识图谱002间的融合,以及知识图谱001和知识图谱003间的融合,经两次融合后,融合后的知识图谱为一个知识图谱整体。但这一过程未涉及知识图谱002和知识图谱003间的融合,使得两次融合后的知识图谱中可能存在可进一步融合的字段内容。
在本发明一个实施例中,该方法还可以包括:在判断出融合后的知识图谱中的一第三字段内容和一第四字段内容相一致时,将所述第三字段内容和所述第四字段内容相融合。
比如,图6所示的知识图谱中,存在两个“男”这一字段内容。当然,由于这一字段内容为属性类字段内容,故无需融合。
在本发明另一实施例中,除了可以融合实体类字段内容和关系类字段内容外,基于不同的实际应用需求,同样可以融合属性类字段内容。
比如,基于不同实际应用需求,当需要统计某一医疗情况的男女发生概率时,可以对性别这一种属性确定为待融合种类,当不同知识图谱间或同一知识图谱间存在至少两个字段内容,所属种类均为性别,且字段内容相一致时,可以执行融合,否则,无需融合。
在本发明另一实施例中,除了对比标识型属性类字段内容的关联性以外,确定第一字段内容和第二字段内容相一致的可能实现方式还可以为:确定目标知识图谱的各非标识型属性类字段内容,以及确定当前知识图谱的各非标识型属性类字段内容,两组字段内容的相似度达到相应设定阈值时,即可以认为第一字段内容和第二字段内容相一致。
在本发明一个实施例中,该方法可以进一步包括:在判断出所述当前知识图谱中的一第五字段内容的所属种类为待验证种类时,标记所述第五字段内容;
判断预设的字段内容置换表中是否存在与所述第五字段内容对应的目标字段内容,若是,取消对所述第五字段内容的标记,并将所述第五字段内容更新为所述目标字段内容,否则,标记所述当前知识图谱对应的医疗数据来源中的所述第五字段内容。
详细地,基于不同的实际应用需求,在数据建模时,可以对待验证种类进行定义。
举例来说,在某一医院中,针对部分药品名称较为复杂的药品,各医生习惯使用其简化名称,故录入药品信息时也会采用这一简化名称。当然,对于外界大众来说,不易正确理解该简化名称。
因此,数据建模时,当一实体或一属性的对应填充内容为药品名称时,可以对该实体或属性进行特殊定义。当完成数据采集、数据填充及数据融合后,可以进一步判断各知识图谱中是否存在这一特殊定义,若存在,即可标记相应填充内容,即标记上述第五字段内容。
比如,一实体或一属性的对应填充内容为姓名、性别、身份证号等时,其所属种类可以不为待验证种类,为药品名称、科室名称、医疗设备名称等时,其所属种类可以为待验证种类。
假设采集到一药品名称,并将其填充至属性为患者所用药品对应区域时,经判断,该药品名称的所属种类为待验证种类,故可以进行标记。基于预设的药品简称和药品全称对照列表,若存在其对应的药品全称,则可以执行相应更新置换,并取消标记,否则,保留标记,以待后续处理,比如可以由工作人员人工处理。
对于各数据来源来说,可能存在一些错误信息,有些是人工疏忽录入的,有些是导入过程中额外引入的一些。受目前自然语言处理水平的限制,对非结构的信息抽取,可能也会存在实体链接后的实体对象存在匹配错误的情况。
因此,在本发明一个实施例中,该方法可以进一步包括:所述当前医疗数据来源的数据类型为非结构化数据时,标记从所述当前医疗数据来源中采集的每一个字段内容。
详细地,当前数据来源为非结构化数据时,可以对从中采集到的每一个字段内容进行特殊标识,以待后续处理,比如可以由工作人员人工验证。
如图7所示,本发明一个实施例提供了另一种基于医疗卫生大数据的知识图谱构建方法,具体包括以下步骤:
步骤701:创建数据模型,数据模型中定义有至少一个实体,以及每一个实体对应的至少一个属性、至少一个关系。
详细地,至少一个实体包括:患者、医护人员、医疗机构、至少一个医疗事件中的任意一种或多种。
详细地,至少一个属性可以包括至少一个标识型属性和第一数量的非标识型属性。其中,第一数量为整数。其中标识型属性对应的字段内容可以用于两字段内容的一致性验证。
步骤702:针对预先确定好的每一个医疗数据来源均执行:采集当前医疗数据来源中包括的实体类字段内容、至少一个属性类字段内容、至少一个关系类字段内容。
步骤703:判断当前医疗数据来源的数据类型是否为非结构化数据,若是,标记从当前医疗数据来源中采集的每一个字段内容,并执行步骤704,否则,执行步骤704。
步骤704:基于数据模型,对采集到的每一个字段内容执行相应填充,以构建出一知识图谱。
步骤705:针对构建出的至少两个知识图谱中的每一个知识图谱均执行:判断至少两个知识图谱中是否包括目标知识图谱,且目标知识图谱中的一第一字段内容与当前知识图谱中的一第二字段内容相一致,若是,将第一字段内容与第二字段内容相融合,执行步骤706,否则,执行步骤707。
详细地,第一字段内容、第二字段内容可以为实体类字段内容,也可以为关系类字段内容。
详细地,第一字段内容和第二字段内容的内容相同,且目标知识图谱中的一标识型属性类字段内容和当前知识图谱中的一标识型属性类字段内容之间唯一关联时,可以认为第一字段内容与第二字段内容相一致。
步骤706:判断融合后的知识图谱中是否存在相一致的一第三字段内容和一第四字段内容,若是,将第三字段内容和第四字段内容相融合,执行步骤707,否则,执行步骤707。
步骤707:判断当前的知识图谱中是否存在所属种类为待验证种类的一第五字段内容,若是,标记第五字段内容,执行步骤708,否则,执行步骤708。
步骤708:判断预设的字段内容置换表中是否存在与第五字段内容对应的目标字段内容,若是,取消对第五字段内容的标记,并将第五字段内容更新为目标字段内容,否则,标记当前知识图谱对应的医疗数据来源中的第五字段内容。
在本发明一个实施例中,知识图谱的构建过程是一个迭代更新的过程。比如,当存在新的医疗数据来源时,基于同样的实现原理,可以再次执行上述步骤702至步骤708,其中,可以以当前已有知识图谱作为上述当前知识图谱,或作为上述目标知识图谱,从而可以将从新医疗数据来源中采集到的数据更新至已有知识图谱中。
当然,基于不同的实际应用需求,同样可以再次执行上述步骤701,以定义新的实体及其相应属性。
综上所述,通过知识抽取,知识融合以及知识加工,可以完成对医生、患者、医疗机构、医疗诊断事件等实体的建模,把一些诊疗信息关联起来,以满足患者、医生、医疗管理者的各自不同的需求。借助于知识图谱,可以把患者每次的诊疗事件按照时间序列展现在医生面前,医生依据这些信息,可以更加清楚目前患者的健康状态,对诊疗起到了很大的帮助作用。此外,医疗管理者可以根据知识图谱,统计分析重大疾病的时间地理分布,疾病防控的预测等。进一步地,还可以通过智能搜索、关系推理、自动问答等来进行知识挖掘。
如图8所示,本发明一个实施例提供了一种基于医疗卫生大数据的知识图谱构建装置,包括:
创建单元801,用于创建数据模型,所述数据模型中定义有至少一个实体,以及每一个所述实体对应的至少一个属性和至少一个关系;
数据处理单元802,用于针对预先确定好的每一个医疗数据来源均执行:采集当前医疗数据来源中包括的实体类字段内容、至少一个属性类字段内容、至少一个关系类字段内容;基于所述数据模型,对采集到的每一个字段内容执行相应填充,以构建出一知识图谱;
数据融合单元803,用于针对构建出的至少两个知识图谱中的每一个知识图谱均执行:判断所述至少两个知识图谱中是否包括目标知识图谱,其中,所述目标知识图谱中的一第一字段内容与当前知识图谱中的一第二字段内容相一致,若是,将所述第一字段内容与所述第二字段内容相融合。
在本发明一个实施例中,所述至少一个属性包括:至少一个标识型属性和第一数量的非标识型属性,其中,所述第一数量为整数;
所述第一字段内容为实体类字段内容或关系类字段内容;
所述第二字段内容为实体类字段内容或关系类字段内容;
所述数据融合单元803,具体用于判断所述第一字段内容和所述第二字段内容的内容是否相同,且所述目标知识图谱中的一标识型属性类字段内容和所述当前知识图谱中的一标识型属性类字段内容之间是否唯一关联,若是,将所述第一字段内容与所述第二字段内容相融合。
在本发明一个实施例中,所述数据融合单元803,还用于在判断出融合后的知识图谱中的一第三字段内容和一第四字段内容相一致时,将所述第三字段内容和所述第四字段内容相融合。
在本发明一个实施例中,请参考图9,该基于医疗卫生大数据的知识图谱构建装置还可以包括:数据验证单元901,用于在判断出所述当前知识图谱中的一第五字段内容的所属种类为待验证种类时,标记所述第五字段内容;判断预设的字段内容置换表中是否存在与所述第五字段内容对应的目标字段内容,若是,取消对所述第五字段内容的标记,并将所述第五字段内容更新为所述目标字段内容,否则,标记所述当前知识图谱对应的医疗数据来源中的所述第五字段内容。
在本发明一个实施例中,所述数据处理单元802,还用于所述当前医疗数据来源的数据类型为非结构化数据时,标记从所述当前医疗数据来源中采集的每一个字段内容。
在本发明一个实施例中,所述至少一个实体包括:患者、医护人员、医疗机构、至少一个医疗事件中的任意一种或多种。
上述装置内的各单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
综上所述,本发明的各个实施例至少具有如下有益效果:
1、本发明实施例中,创建定义有至少一个实体及各实体对应的至少一个属性和至少一个关系的数据模型;针对各医疗数据来源:采集当前医疗数据来源中的实体类字段内容、各属性类字段内容、各关系类字段内容,基于数据模型对采集到的各字段内容执行相应填充以构建出一知识图谱;针对构建出的各知识图谱:当存在另一知识图谱中的一第一字段内容与当前知识图谱中的一第二字段内容相一致时,将该两字段内容相融合。基于医疗卫生大数据以构建知识图谱,经知识图谱间的对齐融合以去除冗余数据,构建出的知识图谱信息关联度高,故本发明实施例所构建出的知识图谱能够使所获得的个人信息更为全面。
2、本发明实施例中,通过知识抽取,知识融合以及知识加工,可以完成对医生、患者、医疗机构、医疗诊断事件等实体的建模,把一些诊疗信息关联起来,以满足患者、医生、医疗管理者的各自不同的需求。借助于知识图谱,可以把患者每次的诊疗事件按照时间序列展现在医生面前,医生依据这些信息,可以更加清楚目前患者的健康状态,对诊疗起到了很大的帮助作用。此外,医疗管理者可以根据知识图谱,统计分析重大疾病的时间地理分布,疾病防控的预测等。进一步地,还可以通过智能搜索、关系推理、自动问答等来进行知识挖掘。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个〃····〃”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。
最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种基于医疗卫生大数据的知识图谱构建方法,其特征在于,创建数据模型,所述数据模型中定义有至少一个实体,以及每一个所述实体对应的至少一个属性和至少一个关系;还包括:
针对预先确定好的每一个医疗数据来源均执行:采集当前医疗数据来源中包括的实体类字段内容、至少一个属性类字段内容、至少一个关系类字段内容;基于所述数据模型,对采集到的每一个字段内容执行相应填充,以构建出一知识图谱;
针对构建出的至少两个知识图谱中的每一个知识图谱均执行:判断所述至少两个知识图谱中是否包括目标知识图谱,其中,所述目标知识图谱中的一第一字段内容与当前知识图谱中的一第二字段内容相一致,若是,将所述第一字段内容与所述第二字段内容相融合。
2.根据权利要求1所述的方法,其特征在于,
所述至少一个属性包括:至少一个标识型属性和第一数量的非标识型属性,其中,所述第一数量为整数;
所述第一字段内容为实体类字段内容或关系类字段内容;
所述第二字段内容为实体类字段内容或关系类字段内容;
所述目标知识图谱中的一第一字段内容与当前知识图谱中的一第二字段内容相一致,包括:所述第一字段内容和所述第二字段内容的内容相同,且所述目标知识图谱中的一标识型属性类字段内容和所述当前知识图谱中的一标识型属性类字段内容之间唯一关联。
3.根据权利要求1所述的方法,其特征在于,
进一步包括:在判断出融合后的知识图谱中的一第三字段内容和一第四字段内容相一致时,将所述第三字段内容和所述第四字段内容相融合。
4.根据权利要求1所述的方法,其特征在于,
进一步包括:所述当前医疗数据来源的数据类型为非结构化数据时,标记从所述当前医疗数据来源中采集的每一个字段内容。
5.根据权利要求1至4中任一所述的方法,其特征在于,
所述至少一个实体包括:患者、医护人员、医疗机构、至少一个医疗事件中的任意一种或多种。
6.一种基于医疗卫生大数据的知识图谱构建装置,其特征在于,包括:
创建单元,用于创建数据模型,所述数据模型中定义有至少一个实体,以及每一个所述实体对应的至少一个属性和至少一个关系;
数据处理单元,用于针对预先确定好的每一个医疗数据来源均执行:采集当前医疗数据来源中包括的实体类字段内容、至少一个属性类字段内容、至少一个关系类字段内容;基于所述数据模型,对采集到的每一个字段内容执行相应填充,以构建出一知识图谱;
数据融合单元,用于针对构建出的至少两个知识图谱中的每一个知识图谱均执行:判断所述至少两个知识图谱中是否包括目标知识图谱,其中,所述目标知识图谱中的一第一字段内容与当前知识图谱中的一第二字段内容相一致,若是,将所述第一字段内容与所述第二字段内容相融合。
7.根据权利要求6所述的基于医疗卫生大数据的知识图谱构建装置,其特征在于,
所述至少一个属性包括:至少一个标识型属性和第一数量的非标识型属性,其中,所述第一数量为整数;
所述第一字段内容为实体类字段内容或关系类字段内容;
所述第二字段内容为实体类字段内容或关系类字段内容;
所述数据融合单元,具体用于判断所述第一字段内容和所述第二字段内容的内容是否相同,且所述目标知识图谱中的一标识型属性类字段内容和所述当前知识图谱中的一标识型属性类字段内容之间是否唯一关联,若是,将所述第一字段内容与所述第二字段内容相融合。
8.根据权利要求6所述的基于医疗卫生大数据的知识图谱构建装置,其特征在于,
所述数据融合单元,还用于在判断出融合后的知识图谱中的一第三字段内容和一第四字段内容相一致时,将所述第三字段内容和所述第四字段内容相融合。
9.根据权利要求6所述的基于医疗卫生大数据的知识图谱构建装置,其特征在于,
所述数据处理单元,还用于所述当前医疗数据来源的数据类型为非结构化数据时,标记从所述当前医疗数据来源中采集的每一个字段内容。
10.根据权利要求6至9中任一所述的基于医疗卫生大数据的知识图谱构建装置,其特征在于,
所述至少一个实体包括:患者、医护人员、医疗机构、至少一个医疗事件中的任意一种或多种。
CN201711222631.8A 2017-11-29 2017-11-29 一种基于医疗卫生大数据的知识图谱构建方法及装置 Pending CN107862075A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711222631.8A CN107862075A (zh) 2017-11-29 2017-11-29 一种基于医疗卫生大数据的知识图谱构建方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711222631.8A CN107862075A (zh) 2017-11-29 2017-11-29 一种基于医疗卫生大数据的知识图谱构建方法及装置

Publications (1)

Publication Number Publication Date
CN107862075A true CN107862075A (zh) 2018-03-30

Family

ID=61704236

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711222631.8A Pending CN107862075A (zh) 2017-11-29 2017-11-29 一种基于医疗卫生大数据的知识图谱构建方法及装置

Country Status (1)

Country Link
CN (1) CN107862075A (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108549731A (zh) * 2018-07-11 2018-09-18 中国电子科技集团公司第二十八研究所 一种基于本体模型的知识图谱构建方法
CN109213747A (zh) * 2018-08-08 2019-01-15 麒麟合盛网络技术股份有限公司 一种数据管理方法及装置
CN109635121A (zh) * 2018-11-07 2019-04-16 平安科技(深圳)有限公司 医疗知识图谱创建方法及相关装置
CN109766445A (zh) * 2018-12-13 2019-05-17 平安科技(深圳)有限公司 一种知识图谱构建方法及数据处理装置
CN109766446A (zh) * 2018-12-13 2019-05-17 平安科技(深圳)有限公司 一种数据调查方法、数据调查装置及计算机可读存储介质
CN109817327A (zh) * 2018-12-20 2019-05-28 东软集团股份有限公司 挂号指导方法、装置、计算机可读存储介质及电子设备
CN109960810A (zh) * 2019-03-28 2019-07-02 科大讯飞(苏州)科技有限公司 一种实体对齐方法及装置
CN110246590A (zh) * 2019-06-17 2019-09-17 上海米帝信息技术有限公司 一种血液病知识图谱数据库的构建方法
CN110674360A (zh) * 2019-09-27 2020-01-10 厦门美亚亿安信息科技有限公司 一种用于数据关联图谱的构建和数据的溯源方法和系统
CN111061884A (zh) * 2019-11-14 2020-04-24 临沂市拓普网络股份有限公司 一种基于DeepDive技术构建K12教育知识图谱的方法
CN111625607A (zh) * 2019-12-27 2020-09-04 北京国双科技有限公司 油气知识图谱的构建方法、装置、电子设备和存储介质
CN111739595A (zh) * 2020-07-24 2020-10-02 湖南创星科技股份有限公司 一种医疗大数据共享分析方法及装置
CN111753100A (zh) * 2020-06-30 2020-10-09 广州小鹏车联网科技有限公司 一种针对车载应用的知识图谱生成方法和服务器
CN112507138A (zh) * 2020-12-28 2021-03-16 医渡云(北京)技术有限公司 专病知识图谱构建方法及装置、介质及电子设备
CN112836058A (zh) * 2019-11-25 2021-05-25 北京搜狗科技发展有限公司 医疗知识图谱建立方法及装置、医疗知识图谱查询方法及装置
CN112988735A (zh) * 2021-05-13 2021-06-18 江苏数兑科技有限公司 一种基于知识图谱的智能数据分析方法
CN113643785A (zh) * 2021-07-22 2021-11-12 海南大学 基于dikw图谱的疫苗接种浓度确认方法
CN114168608A (zh) * 2021-12-16 2022-03-11 中科雨辰科技有限公司 一种用于更新知识图谱的数据处理系统
CN118016316A (zh) * 2024-04-10 2024-05-10 健数(长春)科技有限公司 知识图谱结合血常规检验数据的疾病筛率提升方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140046934A1 (en) * 2012-08-08 2014-02-13 Chen Zhou Search Result Ranking and Presentation
CN105183869A (zh) * 2015-09-16 2015-12-23 分众(中国)信息技术有限公司 楼宇知识图谱数据库及其构建方法
CN105279277A (zh) * 2015-11-12 2016-01-27 百度在线网络技术(北京)有限公司 知识数据的处理方法和装置
CN105956052A (zh) * 2016-04-27 2016-09-21 青岛海尔软件有限公司 一种基于垂直领域的知识图谱的构建方法
CN106021281A (zh) * 2016-04-29 2016-10-12 京东方科技集团股份有限公司 医学知识图谱的构建方法、其装置及其查询方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140046934A1 (en) * 2012-08-08 2014-02-13 Chen Zhou Search Result Ranking and Presentation
CN105183869A (zh) * 2015-09-16 2015-12-23 分众(中国)信息技术有限公司 楼宇知识图谱数据库及其构建方法
CN105279277A (zh) * 2015-11-12 2016-01-27 百度在线网络技术(北京)有限公司 知识数据的处理方法和装置
CN105956052A (zh) * 2016-04-27 2016-09-21 青岛海尔软件有限公司 一种基于垂直领域的知识图谱的构建方法
CN106021281A (zh) * 2016-04-29 2016-10-12 京东方科技集团股份有限公司 医学知识图谱的构建方法、其装置及其查询方法

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108549731A (zh) * 2018-07-11 2018-09-18 中国电子科技集团公司第二十八研究所 一种基于本体模型的知识图谱构建方法
CN109213747A (zh) * 2018-08-08 2019-01-15 麒麟合盛网络技术股份有限公司 一种数据管理方法及装置
CN109213747B (zh) * 2018-08-08 2021-11-16 麒麟合盛网络技术股份有限公司 一种数据管理方法及装置
CN109635121A (zh) * 2018-11-07 2019-04-16 平安科技(深圳)有限公司 医疗知识图谱创建方法及相关装置
CN109766445B (zh) * 2018-12-13 2024-03-26 平安科技(深圳)有限公司 一种知识图谱构建方法及数据处理装置
CN109766445A (zh) * 2018-12-13 2019-05-17 平安科技(深圳)有限公司 一种知识图谱构建方法及数据处理装置
CN109766446A (zh) * 2018-12-13 2019-05-17 平安科技(深圳)有限公司 一种数据调查方法、数据调查装置及计算机可读存储介质
CN109817327A (zh) * 2018-12-20 2019-05-28 东软集团股份有限公司 挂号指导方法、装置、计算机可读存储介质及电子设备
CN109817327B (zh) * 2018-12-20 2021-03-02 东软集团股份有限公司 挂号指导方法、装置、计算机可读存储介质及电子设备
CN109960810A (zh) * 2019-03-28 2019-07-02 科大讯飞(苏州)科技有限公司 一种实体对齐方法及装置
CN110246590A (zh) * 2019-06-17 2019-09-17 上海米帝信息技术有限公司 一种血液病知识图谱数据库的构建方法
CN110674360A (zh) * 2019-09-27 2020-01-10 厦门美亚亿安信息科技有限公司 一种用于数据关联图谱的构建和数据的溯源方法和系统
CN111061884A (zh) * 2019-11-14 2020-04-24 临沂市拓普网络股份有限公司 一种基于DeepDive技术构建K12教育知识图谱的方法
CN111061884B (zh) * 2019-11-14 2023-11-21 临沂市拓普网络股份有限公司 一种基于DeepDive技术构建K12教育知识图谱的方法
CN112836058A (zh) * 2019-11-25 2021-05-25 北京搜狗科技发展有限公司 医疗知识图谱建立方法及装置、医疗知识图谱查询方法及装置
CN112836058B (zh) * 2019-11-25 2024-10-15 北京搜狗科技发展有限公司 医疗知识图谱建立方法及装置、医疗知识图谱查询方法及装置
CN111625607A (zh) * 2019-12-27 2020-09-04 北京国双科技有限公司 油气知识图谱的构建方法、装置、电子设备和存储介质
CN111753100A (zh) * 2020-06-30 2020-10-09 广州小鹏车联网科技有限公司 一种针对车载应用的知识图谱生成方法和服务器
CN111753100B (zh) * 2020-06-30 2024-07-19 北京小鹏汽车有限公司 一种针对车载应用的知识图谱生成方法和服务器
CN111739595A (zh) * 2020-07-24 2020-10-02 湖南创星科技股份有限公司 一种医疗大数据共享分析方法及装置
CN112507138A (zh) * 2020-12-28 2021-03-16 医渡云(北京)技术有限公司 专病知识图谱构建方法及装置、介质及电子设备
CN112988735A (zh) * 2021-05-13 2021-06-18 江苏数兑科技有限公司 一种基于知识图谱的智能数据分析方法
CN113643785B (zh) * 2021-07-22 2023-09-01 海南大学 基于dikw图谱的疫苗接种浓度确认方法
CN113643785A (zh) * 2021-07-22 2021-11-12 海南大学 基于dikw图谱的疫苗接种浓度确认方法
CN114168608B (zh) * 2021-12-16 2022-07-15 中科雨辰科技有限公司 一种用于更新知识图谱的数据处理系统
CN114168608A (zh) * 2021-12-16 2022-03-11 中科雨辰科技有限公司 一种用于更新知识图谱的数据处理系统
CN118016316A (zh) * 2024-04-10 2024-05-10 健数(长春)科技有限公司 知识图谱结合血常规检验数据的疾病筛率提升方法和系统
CN118016316B (zh) * 2024-04-10 2024-06-04 健数(长春)科技有限公司 知识图谱结合血常规检验数据的疾病筛率提升方法和系统

Similar Documents

Publication Publication Date Title
CN107862075A (zh) 一种基于医疗卫生大数据的知识图谱构建方法及装置
Smyth Evidence-Based Practice Manual for Nurses-E-Book: Evidence-Based Practice Manual for Nurses-E-Book
CN115148322A (zh) 临床医疗通用数据结构模型的临床数据储存方法和系统
Musa et al. Assessment of nurses' practice and potential barriers regarding the medical waste management at Hamad medical corporation in Qatar: a cross‑sectional study
Zhang et al. Management practice of allergic rhinitis in China during the COVID-19 pandemic
Lytvyn et al. Medical Content Processing in Intelligent System of District Therapist.
Lucena et al. Nursing interventions in the clinical practice of an intensive care unit
Jeong et al. Case development on nurses' ethical dilemmas with physicians' and nurses' decision making
Jayathissa et al. Development of Minimum Clinical Data Set for Master Patient index for Sri Lankan Context
Hambridge et al. Investigating the incidence and type of sharps injuries within the nursing student population in the UK
Rahurkar et al. Leveraging health information exchange to construct a registry for traumatic brain injury, spinal cord injury and stroke in Indiana
Subirats et al. An ontology for computer-based decision support in rehabilitation
Rodrigues et al. Use of the International Classification for Nursing Practice in the construction of a care protocol
Linz et al. Apheresis medicine in the era of advanced telehealth technologies: An American Society for Apheresis position paper part II: Principles of apheresis medical practice in a 21st century electronic medical practice environment
ES2893868T3 (es) Sistema de captación de pacientes y método de captación de pacientes
Kumar et al. Fuzzy logic applications in healthcare: A review-based study
Lancaster et al. Blood transfusion errors within a health system: A review of root cause analyses
JP2018533119A (ja) 臨床データを自動的に収集する患者の医療記録管理システム及び方法
Nebres et al. EXTENT OF HEMODIALYSIS NURSES’PRESENCE AS PERCEIVED BY PATIENTS
KR101910706B1 (ko) 그룹 기반 건강 데이터 기록 방법 및 장치
Abdel-Salam et al. Effect of evidence based guidelines on nurses’ performance and attitude regarding care of children undergoing plasmapheresis
Giannini et al. Electronic health records: from the management of patients to the research use of clinical data
Ali Develop health monitoring and management system to track health condition and nutrient balance for school students
Howard et al. Improving the quality and speed of access to operation notes
Andison et al. What nurses do: use of the ISO Reference Terminology Model for Nursing Action as a framework for analyzing MICU nursing practice patterns

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180330

RJ01 Rejection of invention patent application after publication