CN110379520A - 医疗知识图谱的挖掘方法及装置、计算机设备及可读介质 - Google Patents

医疗知识图谱的挖掘方法及装置、计算机设备及可读介质 Download PDF

Info

Publication number
CN110379520A
CN110379520A CN201910525764.5A CN201910525764A CN110379520A CN 110379520 A CN110379520 A CN 110379520A CN 201910525764 A CN201910525764 A CN 201910525764A CN 110379520 A CN110379520 A CN 110379520A
Authority
CN
China
Prior art keywords
spo
candidate
high frequency
case history
diagnosis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910525764.5A
Other languages
English (en)
Inventor
纪登林
徐伟建
罗雨
张峥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910525764.5A priority Critical patent/CN110379520A/zh
Publication of CN110379520A publication Critical patent/CN110379520A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Public Health (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Pathology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明提供一种医疗知识图谱的挖掘方法及装置、计算机设备及可读介质。所述方法包括:从预先采集的病历库中挖掘数个候选SPO,各所述候选SPO包括候选诊断疾病实体、所述候选诊断疾病实体对应的属性关系以及所述属性关系指向的候选相关实体;根据预设的SPO挖掘条件,从所述数个候选SPO中挖掘出多个高频SPO;判断各所述高频SPO是否能够通过寻证;若能,将对应的所述高频SPO作为所述医疗知识图谱的目标SPO。本发明的技术方案,可以自动化地进行医疗知识图谱的挖掘,全程中不需要人工参与,因此,与现有技术相比,医疗知识图谱挖掘过程省时、省力,从而能够有效地提高挖掘效率。

Description

医疗知识图谱的挖掘方法及装置、计算机设备及可读介质
【技术领域】
本发明涉及计算机应用技术领域,尤其涉及一种医疗知识图谱的挖掘方法及装置、计算机设备及可读介质。
【背景技术】
知识图谱作为一种新型的结构化的信息网络,能够在信息检索以及信息整合等领域起着越来越重要的角色。近年来,各个领域都在围绕知识图谱展开了一系列的研究。
知识图谱在结构上由一些相互连接的实体以及它们的属性关系构成。知识图谱在内容上可以由一条条知识组成,每条知识可以表示为一个主体-关系-客体(Subject-Predicate-Object;SPO)三元组。其中主体S和客体O分别为两个实体,P为主体S和客体O之间的属性关系。因此,通过挖掘所有的SPO三元组,便可以构成相应的知识图谱。例如,在医疗领域中,知识图谱作为一个新兴的研发方向也具有非常重要的研究意义,尤其是知识图谱的挖掘也显得尤为重要。现有的医疗知识图谱,通过预先建立实体词表,如疾病词表、症状词表、体征词表、检验词表等,通过词表匹配的方式,从病历数据源中挖掘实体;然后再由医学专家人工审核并标注实体间的属性关系,从而挖掘各个SPO三元组。
但是,对于庞大的病历数据源来说,采用上述现有方案挖掘医疗知识图谱的过程无法全自动化地进行,导致医疗知识图谱挖掘过程费时、费力,挖掘效率较低。
【发明内容】
本发明提供了一种医疗知识图谱的挖掘方法及装置、计算机设备及可读介质,用于提供一种省时、省力的医疗知识图谱挖掘方案,提高挖掘效率。
本发明提供一种医疗知识图谱的挖掘方法,所述方法包括:
从预先采集的病历库中挖掘数个候选SPO,各所述候选SPO包括候选诊断疾病实体、所述候选诊断疾病实体对应的属性关系以及所述属性关系指向的候选相关实体;
根据预设的SPO挖掘条件,从所述数个候选SPO中挖掘出多个高频SPO;
判断各所述高频SPO是否能够通过寻证;
若能,将对应的所述高频SPO作为所述医疗知识图谱的目标SPO。
本发明提供一种医疗知识图谱的挖掘装置,所述装置包括:
候选SPO挖掘模块,用于从预先采集的病历库中挖掘数个候选SPO,各所述候选SPO包括候选诊断疾病实体、所述候选诊断疾病实体对应的属性关系以及所述属性关系指向的候选相关实体;
高频SPO挖掘模块,用于根据预设的SPO挖掘条件,从所述数个候选SPO中挖掘出多个高频SPO;
检测模块,用于判断各所述高频SPO是否能够通过寻证;
确定模块,用于若所述检测模块确定所述高频SPO能够通过寻证,将对应的所述高频SPO作为所述医疗知识图谱的目标SPO。
本发明还提供一种计算机设备,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的医疗知识图谱的挖掘方法。
本发明还提供一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的医疗知识图谱的挖掘方法。
本发明的医疗知识图谱的挖掘方法及装置、计算机设备及可读介质,通过采用上述技术方案,可以自动化地进行医疗知识图谱的挖掘,全程中不需要人工参与,因此,与现有技术相比,医疗知识图谱挖掘过程省时、省力,从而能够有效地提高挖掘效率。
【附图说明】
图1为本发明的医疗知识图谱的挖掘方法实施例的流程图。
图2为本发明的医疗知识图谱的挖掘装置实施例一的结构图。
图3为本发明的医疗知识图谱的挖掘装置实施例二的结构图。
图4为本发明的计算机设备实施例的结构图。
图5为本发明提供的一种计算机设备的示例图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
图1为本发明的医疗知识图谱的挖掘方法实施例的流程图。如图1所示,本实施例的医疗知识图谱的挖掘方法,具体可以包括如下步骤:
S100、从预先采集的病历库中挖掘数个候选SPO,各候选SPO包括候选诊断疾病实体、候选诊断疾病实体对应的属性关系以及属性关系指向的候选相关实体;
本实施例的医疗知识图谱的挖掘方法的执行主体为医疗知识图谱的挖掘装置,该医疗知识图谱的挖掘装置可以为一个独立的电子实体,或者也可以为一个软件集成的应用。使用时,挖掘医疗知识图谱中的各个目标SPO,即实现医疗知识图谱的挖掘。
本实施例的病历库可以从各个医院的医疗管理系统中采集所有病人的病历集成而来。且为了保护用户个人隐私,本实施例中,需要对病历中的用户的身份信息如姓名脱敏,以保证该病历库单纯地包括病历信息,以用于医疗知识图谱的挖掘。
本实施例的病历库中的病历为半结构化数据。例如每一份病历中可以包括初步诊断、入院诊断、出院诊断、病人的主诉以及现病史、过敏史等等信息。例如病人第一次在门诊看病的时候,医生可以基于该病人的具体情况,在医疗管理系统中记录该病人的姓名、年龄、症状、体征、检查、检验等等,得到并记录初步诊断。对于需要进一步住院治疗的病人,在入院当天还需要根据病人更新的症状、体征、检查、检验等等,得到并记录入院诊断。例如若入院之后,需要手术或者其他治疗,还需要根据治疗中的情况进行更加精准地诊断。如手术的病人,可以直接取病理进行检验,以对病人的病情精确诊断。
本实施例的症状可以为脑袋疼、流鼻涕、打喷嚏等病人基于自己的体感描述的不舒服的装症状。而体征可以为医生基于病人描述的症状,总结的专业一点的体感特征,如头疼、流涕等等。
本实施例中的检查可以为肠镜、胃镜、喉镜等等各种借助于医疗器械实现对病人身体的某部分进行的检查。本实施例中的检验可以为从病人的身体中采集其代谢物或者血液等等,通过一定的生化实验所进行的检验,如尿常规、血常规以及其他的血液检验、尿液检验或者粪便检验等等。
本实施例中,病人的主诉可以为病人在就诊时的诉求,其中可以描述病人自身的体感,或者主动申请的一些相关的检查或者检验等;现病史可以为病人在就诊对已有疾病的描述。病人的过敏史可以为医生在医治过程中发现并记录在医疗管理系统中,或者也可以由病人就诊时主动告知医生,由医生在医疗管理系统中记录。
由上述可知,本实施例的病历中包括的信息非常丰富。且各医院的医疗管理系统结构类似,病历中包括的每一部分信息都有近乎固定的位置。因此,基于本实施例采集到的病历库中的病历,可以挖掘数个候选SPO。其中每个候选SPO包括候选诊断疾病实体即S、候选诊断疾病实体S对应的属性关系即P以及属性关系P指向的候选相关实体O。
例如,该步骤S100从预先采集的病历库中挖掘数个候选SPO,具体可以包括如下步骤:
(a1)从病历库的各病历中抽取候选诊断疾病实体;
例如,由上述病历记录的信息可以知道:在病历中,诊断疾病实体是有固定出现位置的,主要包括在出院诊断,入院诊断,初步诊断等位置,且随着病程的递进,诊断的疾病更加准确,例如出院诊断的准确性高于入院诊断的准确性,而入院诊断的准确性高于初步诊断的准确性。
因此,本实施例中,具体可以从病历库的各病历中固定位置的出院诊断、入院诊断或者初步诊断中抽取候选诊断疾病实体;或按照出院诊断的优先级大于入院诊断的优先级、入院诊断的优先级大于初步诊断的优先级,从病历库的各病历中、优先级最高的诊断中抽取候选诊断疾病实体。
当然,实际应用中,某些病历可能仅包括出院诊断、入院诊断以及初步诊断中的某一种或者两种。若仅包括其中一种诊断,则从包括的该种诊断中抽取候选诊断疾病实体。若包括两种诊断,从这两种诊断中优先级高的中抽取候选诊断疾病实体。
具体实现时,可以先对优先级最高的诊断进行分词,得到多个字段,然后采用词表匹配的方式或者字符串正则解析的方式,从多个字段中挖掘候选诊断疾病实体S。
其中词表匹配的方式中,可以预先设置有数个诊断疾病实体的诊断疾病词表。匹配时,验证每个字段是否属于诊断疾病词表中的诊断疾病实体,若属于,抽取该字段作为挖掘的候选诊断疾病实体S。该候选诊断疾病实体S的挖掘过程可以类似于命名实体识别(Named Entity Recognition;NER)的过程。字符串正则解析可以参考相关的正则解析方案,在此不再赘述。
(b1)从各病历中挖掘候选诊断疾病实体对应的各属性关系及各属性关系指向的候选相关实体;
由上述实施例可知,对于每一条病历,病历中可以记录有症状、体征、检查、检验等等信息。因此,本实施例中,具体可以从各病历的主诉和病史中挖掘候选诊断疾病实体S对应的各属性关系P及各属性关系P指向的候选相关实体O。具体地,可以参考自然语言理解(Natural Language Understanding;NLU)工具,实现对病历中的主诉和病史的理解,进而从中挖掘各属性关系P以及对应的候选相关实体O。可选地,本实施例中,对于每一种诊断疾病,也可以预先建立对应的属性关系词表,其中可以记录该诊断疾病对应的所有属性关系,然后采用NER的方式,识别每一个属性关系P,并采用NLU工具,获取每一个P指向的候选相关实体O。
(c1)将从同一病历中挖掘的一组候选诊断疾病实体、属性关系以及属性关系指向的候选实体,构成一个候选SPO,共挖掘得到数个候选SPO。
例如,本实施例的属性关系P可以为症状、体征、检查、检验等,每一个候选实体P可以指向一个、两个或者多个候选相关实体O。例如,候选诊断疾病实体S为感冒时,对应的属性关系P为症状时,对应的候选相关实体O可以有脑袋痛,此时感冒-症状-脑袋痛构成一组候选SPO。另外,对应的候选相关实体O还可以有流鼻涕,此时感冒-症状-流鼻涕构成一组候选SPO。即一组候选SPO仅包括一个S、一个P和一个O。同理,还可以挖掘出感冒-体征-流涕的候选SPO、感冒-检验-血常规的候选SPO等等。对于同一条病历,根据病历的丰富性,按照上述方式可以挖掘一个、两个或者多个候选SPO。基于病历库中的所有病历,可以共挖掘到数个候选SPO。
S101、根据预设的SPO挖掘条件,从数个候选SPO中挖掘出多个高频SPO;
由于病历库中的数据源比较庞大,单个频次的候选SPO并没有统计学意义,质量也无法保证。本实施例中,还可以根据预设的SPO挖掘条件,从数个候选SPO中挖掘出多个高频SPO,例如,本实施例在实现时,具体可以包括如下三种情况:
第一种情况:计算数个候选SPO中的各候选SPO在病历库中被挖掘出的频次;从数个候选SPO中挖掘频次大于预设频次阈值的多个候选SPO,作为多个高频SPO;或者将数个候选SPO频次按照从大到小排列,获取前预设百分比的多个候选SPO,作为多个高频SPO;例如可以取9/10分位值作为预设百分比的截断值,表明覆盖全部候选SPO的90%。
按照上述方式,可以从病历库中挖掘出数个候选SPO,且对于每一个候选SPO,在挖掘时可能被挖掘出来多次。具体地,可以计算每个候选SPO在病历库中被挖掘出的频次。然后可以从数个候选SPO中挖掘频次大于预设频次阈值的多个候选SPO,作为多个高频SPO。本实施例的预设频次阈值可以根据实际需求来设置,例如可以为50次、100次或者其他整数次数。
第二种情况:计算数个候选SPO中的各候选SPO的出现概率;各候选SPO的出现概率等于候选SPO被挖掘出的频次除以病历库对应的候选诊断疾病实体出现的总次数;从数个候选SPO中挖掘出现概率大于预设概率阈值的多个候选SPO,作为多个高频SPO;或者将数个候选SPO频次按照从大到小排列,取排序前预设百分比的多个候选SPO,作为所述多个高频SPO;
本实施例中,对于每个候选SPO,可以计算其出现概率,等于该候选SPO被挖掘出的频次除以病历库对应的候选诊断疾病实体S出现的总次数。本实施例中,从数个候选SPO中挖掘出现概率大于预设概率阈值的多个候选SPO,作为多个高频SPO。本实施例的预设概率阈值可以根据实际需求来设置,例如,可以为0.5、0.6或者其他大于0、小于1的其他概率阈值。或者也可以同上述第一种情况一样,将数个候选SPO频次按照从大到小排列,取排序前预设百分比的多个候选SPO,作为所述多个高频SPO。
第三种情况:计算数个候选SPO中的各候选SPO在病历库中被挖掘出的频次以及各候选SPO的出现概率,从数个候选SPO中挖掘频次大于预设频次阈值、且出现概率大于预设概率阈值的多个候选SPO,作为多个高频SPO。
上述第三种情况为上述第一种情况和第二种情况的结合,例如,具体可以从数个候选SPO中挖掘频次大于预设频次阈值、且出现概率大于预设概率阈值的多个候选SPO,作为多个高频SPO。
S102、判断各高频SPO是否能够通过寻证;若能,执行步骤S103;否则,若不能,执行步骤S104;
本实施例中,还需要对每个高频SPO进行寻证验证,以确定高频SPO是否为正确的。具体地,本实施例中,具体寻证验证时,可以采集权威医疗书籍来进行寻证验证。例如,可以在权威医疗书籍中验证每个高频SPO是否有证据支持,若有,则表明该高频SPO能够通过寻证,否则该高频SPO未能通过寻证。
S103、将对应的高频SPO作为医疗知识图谱的目标SPO,结束。
S104、向专家医疗系统发送携带对应的高频SPO的寻证请求,以供登录专家医疗系统的专家进行人工寻证;执行步骤S105;
S105、接收专家医疗系统返回的高频SPO人工寻证通过的信息;
S106、将接收到的寻证通过的高频SPO作为医疗知识图谱的目标SPO。
本实施例中,采用权威医疗书籍寻证未通过的高频SPO,可以再进行人工认证,具体地,可以将需要人工寻证的该高频SPO携带在寻证请求中,携带发送给专家医疗系统。而医疗专家可以登录该专家医疗系统,看到该寻证请求时,专家可以根据自身的专业知识,验证该SPO是否正确,若正确,可以触发专家医疗系统向医疗知识图谱的挖掘装置返回人工寻证通过的信息,对应地,医疗知识图谱的挖掘装置将对应的高频SPO作为医疗知识图谱的目标SPO。按照上述实施例的方式,可以获取到医疗知识图谱中的每一个目标SPO,从而构成该医疗知识图谱。
本实施例的医疗知识图谱的挖掘方法,通过采用上述技术方案,可以自动化地进行医疗知识图谱的挖掘,全程中不需要人工参与,因此,与现有技术相比,医疗知识图谱挖掘过程省时、省力,从而能够有效地提高挖掘效率。
图2为本发明的医疗知识图谱的挖掘装置实施例一的结构图。如图2所示,本实施例的医疗知识图谱的挖掘装置,具体可以包括:
候选SPO挖掘模块10用于从预先采集的病历库中挖掘数个候选SPO,各候选SPO包括候选诊断疾病实体、候选诊断疾病实体对应的属性关系以及属性关系指向的候选相关实体;
高频SPO挖掘模块11用于根据预设的SPO挖掘条件,从候选SPO挖掘模块10挖掘的数个候选SPO中挖掘出多个高频SPO;
检测模块12用于判断高频SPO挖掘模块11挖掘的各高频SPO是否能够通过寻证;
确定模块13用于若检测模块12确定高频SPO能够通过寻证,将对应的高频SPO作为医疗知识图谱的目标SPO。
本实施例的医疗知识图谱的挖掘装置,通过采用上述模块实现医疗知识图谱的挖掘的实现原理以及技术效果与上述相关方法实施例的实现相同,详细可以参考上述相关方法实施例的记载,在此不再赘述。
进一步可选地,上述图2所示的医疗知识图谱的挖掘装置中,候选SPO挖掘模块10用于:
从病历库的各病历中抽取候选诊断疾病实体;
从各病历中挖掘候选诊断疾病实体对应的各属性关系及各属性关系指向的候选相关实体;
将从同一病历中挖掘的一组候选诊断疾病实体、属性关系以及属性关系指向的候选实体,构成一个候选SPO,共挖掘得到数个候选SPO。
进一步可选地,上述图2所示的医疗知识图谱的挖掘装置中,候选SPO挖掘模块10具体用于:
从病历库的各病历中的出院诊断、入院诊断或者初步诊断中抽取候选诊断疾病实体;或
按照出院诊断的优先级大于入院诊断的优先级、入院诊断的优先级大于初步诊断的优先级,从病历库的各病历中、优先级最高的诊断中抽取候选诊断疾病实体。
进一步可选地,上述图2所示的医疗知识图谱的挖掘装置中,候选SPO挖掘模块10具体用于:
从各病历的主诉和病史中挖掘候选诊断疾病实体对应的各属性关系及各属性关系指向的候选相关实体。
进一步可选地,上述图2所示的医疗知识图谱的挖掘装置中,高频SPO挖掘模块11用于:
计算候选SPO挖掘模块10挖掘的数个候选SPO中的各候选SPO在病历库中被挖掘出的频次;从数个候选SPO中挖掘频次大于预设频次阈值的多个候选SPO,作为多个高频SPO,或者将数个候选SPO频次按照从大到小排列,取排序前预设百分比的多个候选SPO,作为多个高频SPO;
计算数个候选SPO中的各候选SPO的出现概率;各候选SPO的出现概率等于候选SPO被挖掘出的频次除以病历库对应的候选诊断疾病实体出现的总次数;从数个候选SPO中挖掘出现概率大于预设概率阈值的多个候选SPO,作为多个高频SPO;或者将数个候选SPO频次按照从大到小排列,取排序前预设百分比的多个候选SPO,作为多个高频SPO;或者
计算数个候选SPO中的各候选SPO在病历库中被挖掘出的频次以及各候选SPO的出现概率,从数个候选SPO中挖掘频次大于预设频次阈值、且出现概率大于预设概率阈值的多个候选SPO,作为多个高频SPO。
进一步可选地,上述图2所示的医疗知识图谱的挖掘装置中,检测模块12用于:
判断各高频SPO是否能够在预设的权威书籍上寻找到的证据;若能,确定能够通过寻找,否则不能通过寻证。
图3为本发明的医疗知识图谱的挖掘装置实施例二的结构图。如图3所示,本实施例的医疗知识图谱的挖掘装置,在上述图2所示实施例的技术方案的基础上,进一步更加详细地介绍本发明的技术方案。
如图3所示,本实施例的医疗知识图谱的挖掘装置,具体还包括发送模块14和接收模块15。
其中发送模块14用于若检测模块12确定高频SPO不能够通过寻证,向专家医疗系统发送携带对应的高频SPO的寻证请求,以供登录专家医疗系统的专家进行人工寻证;
接收模块15用于接收专家医疗系统返回的高频SPO人工寻证通过的信息;
确定模块13还用于将接收模块15接收到的寻证通过的高频SPO作为医疗知识图谱的目标SPO。
本实施例的医疗知识图谱的挖掘装置,通过采用上述模块实现医疗知识图谱的挖掘的实现原理以及技术效果与上述相关方法实施例的实现相同,详细可以参考上述相关方法实施例的记载,在此不再赘述。
图4为本发明的计算机设备实施例的结构图。如图4所示,本实施例的计算机设备,包括:一个或多个处理器30,以及存储器40,存储器40用于存储一个或多个程序,当存储器40中存储的一个或多个程序被一个或多个处理器30执行,使得一个或多个处理器30实现如上图1-图3所示实施例的医疗知识图谱的挖掘方法。图4所示实施例中以包括多个处理器30为例。
例如,图5为本发明提供的一种计算机设备的示例图。图5示出了适于用来实现本发明实施方式的示例性计算机设备12a的框图。图5显示的计算机设备12a仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,计算机设备12a以通用计算设备的形式表现。计算机设备12a的组件可以包括但不限于:一个或者多个处理器16a,系统存储器28a,连接不同系统组件(包括系统存储器28a和处理器16a)的总线18a。
总线18a表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机设备12a典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12a访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28a可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30a和/或高速缓存存储器32a。计算机设备12a可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34a可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18a相连。系统存储器28a可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明上述图1-图3各实施例的功能。
具有一组(至少一个)程序模块42a的程序/实用工具40a,可以存储在例如系统存储器28a中,这样的程序模块42a包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42a通常执行本发明所描述的上述图1-图3各实施例中的功能和/或方法。
计算机设备12a也可以与一个或多个外部设备14a(例如键盘、指向设备、显示器24a等)通信,还可与一个或者多个使得用户能与该计算机设备12a交互的设备通信,和/或与使得该计算机设备12a能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22a进行。并且,计算机设备12a还可以通过网络适配器20a与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20a通过总线18a与计算机设备12a的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备12a使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理器16a通过运行存储在系统存储器28a中的程序,从而执行各种功能应用以及数据处理,例如实现上述实施例所示的医疗知识图谱的挖掘方法。
本发明还提供一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例所示的医疗知识图谱的挖掘方法。
本实施例的计算机可读介质可以包括上述图5所示实施例中的系统存储器28a中的RAM30a、和/或高速缓存存储器32a、和/或存储系统34a。
随着科技的发展,计算机程序的传播途径不再受限于有形介质,还可以直接从网络下载,或者采用其他方式获取。因此,本实施例中的计算机可读介质不仅可以包括有形的介质,还可以包括无形的介质。
本实施例的计算机可读介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (16)

1.一种医疗知识图谱的挖掘方法,其特征在于,所述方法包括:
从预先采集的病历库中挖掘数个候选SPO,各所述候选SPO包括候选诊断疾病实体、所述候选诊断疾病实体对应的属性关系以及所述属性关系指向的候选相关实体;
根据预设的SPO挖掘条件,从所述数个候选SPO中挖掘出多个高频SPO;
判断各所述高频SPO是否能够通过寻证;
若能,将对应的所述高频SPO作为所述医疗知识图谱的目标SPO。
2.根据权利要求1所述的方法,其特征在于,从预先采集的病历库中挖掘数个候选SPO,包括:
从所述病历库的各病历中抽取候选诊断疾病实体;
从各所述病历中挖掘所述候选诊断疾病实体对应的各属性关系及各所述属性关系指向的候选相关实体;
将从同一所述病历中挖掘的一组所述候选诊断疾病实体、所述属性关系以及所述属性关系指向的候选实体,构成一个所述候选SPO,共挖掘得到所述数个候选SPO。
3.根据权利要求2所述的方法,其特征在于,从所述病历库的各病历中抽取候选诊断疾病实体,包括:
从所述病历库的各所述病历中的出院诊断、入院诊断或者初步诊断中抽取所述候选诊断疾病实体;或
按照出院诊断的优先级大于入院诊断的优先级、所述入院诊断的优先级大于初步诊断的优先级,从所述病历库的各所述病历中、优先级最高的诊断中抽取所述候选诊断疾病实体。
4.根据权利要求2所述的方法,其特征在于,从各所述病历中挖掘所述候选诊断疾病实体对应的各属性关系及各所述属性关系指向的候选相关实体,包括:
从各所述病历的主诉和病史中挖掘所述候选诊断疾病实体对应的各所述属性关系及各所述属性关系指向的候选相关实体。
5.根据权利要求1所述的方法,其特征在于,根据预设的SPO挖掘条件,从所述数个候选SPO中挖掘出多个高频SPO,包括:
计算所述数个候选SPO中的各所述候选SPO在所述病历库中被挖掘出的频次;从所述数个候选SPO中挖掘所述频次大于预设频次阈值的多个所述候选SPO,作为所述多个高频SPO,或者将所述数个候选SPO频次按照从大到小排列,取排序前预设百分比的多个所述候选SPO,作为所述多个高频SPO;
计算所述数个候选SPO中的各所述候选SPO的出现概率;各所述候选SPO的出现概率等于所述候选SPO被挖掘出的频次除以所述病历库对应的所述候选诊断疾病实体出现的总次数;从所述数个候选SPO中挖掘所述出现概率大于预设概率阈值的多个所述候选SPO,作为所述多个高频SPO;或者将所述数个候选SPO频次按照从大到小排列,取排序前预设百分比的多个所述候选SPO,作为所述多个高频SPO;或者
计算所述数个候选SPO中的各所述候选SPO在所述病历库中被挖掘出的频次以及各所述候选SPO的出现概率,从所述数个候选SPO中挖掘所述频次大于预设频次阈值、且所述出现概率大于预设概率阈值的多个所述候选SPO,作为所述多个高频SPO。
6.根据权利要求1所述的方法,其特征在于,判断各所述高频SPO是否能够通过寻证,包括:
判断各所述高频SPO是否能够在预设的权威书籍上寻找到的证据;若能,确定能够通过寻找,否则不能通过寻证。
7.根据权利要求6或者7所述的方法,其特征在于,若所述高频SPO不能够通过寻证,所述方法还包括:
向专家医疗系统发送携带对应的所述高频SPO的寻证请求,以供登录所述专家医疗系统的专家进行人工寻证;
接收所述专家医疗系统返回的所述高频SPO人工寻证通过的信息;
将接收到的寻证通过的所述高频SPO作为所述医疗知识图谱的目标SPO。
8.一种医疗知识图谱的挖掘装置,其特征在于,所述装置包括:
候选SPO挖掘模块,用于从预先采集的病历库中挖掘数个候选SPO,各所述候选SPO包括候选诊断疾病实体、所述候选诊断疾病实体对应的属性关系以及所述属性关系指向的候选相关实体;
高频SPO挖掘模块,用于根据预设的SPO挖掘条件,从所述数个候选SPO中挖掘出多个高频SPO;
检测模块,用于判断各所述高频SPO是否能够通过寻证;
确定模块,用于若所述检测模块确定所述高频SPO能够通过寻证,将对应的所述高频SPO作为所述医疗知识图谱的目标SPO。
9.根据权利要求8所述的装置,其特征在于,所述候选SPO挖掘模块,用于:
从所述病历库的各病历中抽取候选诊断疾病实体;
从各所述病历中挖掘所述候选诊断疾病实体对应的各属性关系及各所述属性关系指向的候选相关实体;
将从同一所述病历中挖掘的一组所述候选诊断疾病实体、所述属性关系以及所述属性关系指向的候选实体,构成一个所述候选SPO,共挖掘得到所述数个候选SPO。
10.根据权利要求9所述的装置,其特征在于,所述候选SPO挖掘模块,具体用于:
从所述病历库的各所述病历中的出院诊断、入院诊断或者初步诊断中抽取所述候选诊断疾病实体;或
按照出院诊断的优先级大于入院诊断的优先级、所述入院诊断的优先级大于初步诊断的优先级,从所述病历库的各所述病历中、优先级最高的诊断中抽取所述候选诊断疾病实体。
11.根据权利要求9所述的装置,其特征在于,所述候选SPO挖掘模块,具体用于:
从各所述病历的主诉和病史中挖掘所述候选诊断疾病实体对应的各所述属性关系及各所述属性关系指向的候选相关实体。
12.根据权利要求8所述的装置,其特征在于,所述高频SPO挖掘模块,用于:
计算所述数个候选SPO中的各所述候选SPO在所述病历库中被挖掘出的频次;从所述数个候选SPO中挖掘所述频次大于预设频次阈值的多个所述候选SPO,作为所述多个高频SPO,或者将所述数个候选SPO频次按照从大到小排列,取排序前预设百分比的多个所述候选SPO,作为所述多个高频SPO;
计算所述数个候选SPO中的各所述候选SPO的出现概率;各所述候选SPO的出现概率等于所述候选SPO被挖掘出的频次除以所述病历库对应的所述候选诊断疾病实体出现的总次数;从所述数个候选SPO中挖掘所述出现概率大于预设概率阈值的多个所述候选SPO,作为所述多个高频SPO;或者将所述数个候选SPO频次按照从大到小排列,取排序前预设百分比的多个所述候选SPO,作为所述多个高频SPO;或者
计算所述数个候选SPO中的各所述候选SPO在所述病历库中被挖掘出的频次以及各所述候选SPO的出现概率,从所述数个候选SPO中挖掘所述频次大于预设频次阈值、且所述出现概率大于预设概率阈值的多个所述候选SPO,作为所述多个高频SPO。
13.根据权利要求8所述的装置,其特征在于,所述检测模块,用于:
判断各所述高频SPO是否能够在预设的权威书籍上寻找到的证据;若能,确定能够通过寻找,否则不能通过寻证。
14.根据权利要求13或者14所述的装置,其特征在于,所述装置还包括:
发送模块,用于若所述高频SPO不能够通过寻证,向专家医疗系统发送携带对应的所述高频SPO的寻证请求,以供登录所述专家医疗系统的专家进行人工寻证;
接收模块,用于接收所述专家医疗系统返回的所述高频SPO人工寻证通过的信息;
所述确定模块,还用于将接收到的寻证通过的所述高频SPO作为所述医疗知识图谱的目标SPO。
15.一种计算机设备,其特征在于,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
16.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的方法。
CN201910525764.5A 2019-06-18 2019-06-18 医疗知识图谱的挖掘方法及装置、计算机设备及可读介质 Pending CN110379520A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910525764.5A CN110379520A (zh) 2019-06-18 2019-06-18 医疗知识图谱的挖掘方法及装置、计算机设备及可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910525764.5A CN110379520A (zh) 2019-06-18 2019-06-18 医疗知识图谱的挖掘方法及装置、计算机设备及可读介质

Publications (1)

Publication Number Publication Date
CN110379520A true CN110379520A (zh) 2019-10-25

Family

ID=68249073

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910525764.5A Pending CN110379520A (zh) 2019-06-18 2019-06-18 医疗知识图谱的挖掘方法及装置、计算机设备及可读介质

Country Status (1)

Country Link
CN (1) CN110379520A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111274391A (zh) * 2020-01-15 2020-06-12 北京百度网讯科技有限公司 一种spo的抽取方法、装置、电子设备及存储介质
CN111640511A (zh) * 2020-05-29 2020-09-08 北京百度网讯科技有限公司 医疗事实验证的方法、装置、电子设备及存储介质
CN112365987A (zh) * 2020-10-27 2021-02-12 平安科技(深圳)有限公司 诊断数据异常检测方法、装置、计算机设备及存储介质
CN113033179A (zh) * 2021-03-24 2021-06-25 北京百度网讯科技有限公司 知识获取方法、装置、电子设备及可读存储介质
CN113744886A (zh) * 2020-05-27 2021-12-03 中国科学院软件研究所 一种基于中医医案挖掘的中医辨证论治模式挖掘方法及系统
CN114242189A (zh) * 2021-12-22 2022-03-25 苏州大学附属第一医院 基于aPaaS的临床研究SPO质量管理方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103729402A (zh) * 2013-11-22 2014-04-16 浙江大学 一种基于图书目录的知识图谱的构建方法
CN106649878A (zh) * 2017-01-07 2017-05-10 陈翔宇 基于人工智能的物联网实体搜索方法及系统
CN107798136A (zh) * 2017-11-23 2018-03-13 北京百度网讯科技有限公司 基于深度学习的实体关系抽取方法、装置及服务器
CN108492887A (zh) * 2018-04-13 2018-09-04 合肥工业大学 医疗知识图谱构建方法及装置
CN109102855A (zh) * 2018-07-03 2018-12-28 北京康夫子科技有限公司 药物推荐方法
CN109559822A (zh) * 2018-11-12 2019-04-02 平安科技(深圳)有限公司 智能初诊方法、装置、计算机设备及存储介质
CN109669994A (zh) * 2018-12-21 2019-04-23 吉林大学 一种健康知识图谱的构建方法及系统
CN109670051A (zh) * 2018-12-14 2019-04-23 北京百度网讯科技有限公司 知识图谱挖掘方法、装置、设备和存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103729402A (zh) * 2013-11-22 2014-04-16 浙江大学 一种基于图书目录的知识图谱的构建方法
CN106649878A (zh) * 2017-01-07 2017-05-10 陈翔宇 基于人工智能的物联网实体搜索方法及系统
CN107798136A (zh) * 2017-11-23 2018-03-13 北京百度网讯科技有限公司 基于深度学习的实体关系抽取方法、装置及服务器
CN108492887A (zh) * 2018-04-13 2018-09-04 合肥工业大学 医疗知识图谱构建方法及装置
CN109102855A (zh) * 2018-07-03 2018-12-28 北京康夫子科技有限公司 药物推荐方法
CN109559822A (zh) * 2018-11-12 2019-04-02 平安科技(深圳)有限公司 智能初诊方法、装置、计算机设备及存储介质
CN109670051A (zh) * 2018-12-14 2019-04-23 北京百度网讯科技有限公司 知识图谱挖掘方法、装置、设备和存储介质
CN109669994A (zh) * 2018-12-21 2019-04-23 吉林大学 一种健康知识图谱的构建方法及系统

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111274391A (zh) * 2020-01-15 2020-06-12 北京百度网讯科技有限公司 一种spo的抽取方法、装置、电子设备及存储介质
CN111274391B (zh) * 2020-01-15 2023-09-01 北京百度网讯科技有限公司 一种spo的抽取方法、装置、电子设备及存储介质
CN113744886A (zh) * 2020-05-27 2021-12-03 中国科学院软件研究所 一种基于中医医案挖掘的中医辨证论治模式挖掘方法及系统
CN113744886B (zh) * 2020-05-27 2024-03-19 中国科学院软件研究所 一种基于中医医案挖掘的中医辨证论治模式挖掘方法及系统
CN111640511A (zh) * 2020-05-29 2020-09-08 北京百度网讯科技有限公司 医疗事实验证的方法、装置、电子设备及存储介质
CN111640511B (zh) * 2020-05-29 2023-08-04 北京百度网讯科技有限公司 医疗事实验证的方法、装置、电子设备及存储介质
CN112365987A (zh) * 2020-10-27 2021-02-12 平安科技(深圳)有限公司 诊断数据异常检测方法、装置、计算机设备及存储介质
CN112365987B (zh) * 2020-10-27 2023-06-06 平安科技(深圳)有限公司 诊断数据异常检测方法、装置、计算机设备及存储介质
CN113033179A (zh) * 2021-03-24 2021-06-25 北京百度网讯科技有限公司 知识获取方法、装置、电子设备及可读存储介质
CN113033179B (zh) * 2021-03-24 2024-05-24 北京百度网讯科技有限公司 知识获取方法、装置、电子设备及可读存储介质
CN114242189A (zh) * 2021-12-22 2022-03-25 苏州大学附属第一医院 基于aPaaS的临床研究SPO质量管理方法及系统
CN114242189B (zh) * 2021-12-22 2023-12-12 苏州大学附属第一医院 基于aPaaS的临床研究SPO质量管理方法及系统

Similar Documents

Publication Publication Date Title
CN110379520A (zh) 医疗知识图谱的挖掘方法及装置、计算机设备及可读介质
AU2020200288B2 (en) Systems and methods for anonymization of health data and transmission of health data for analysis across geographic regions
CN107610770B (zh) 用于自动化诊断的问题生成系统和方法
CN107766574A (zh) 数据查询方法及装置、数据存储方法及装置
US20130262140A1 (en) Patient cohort matching
CN109597801A (zh) 医疗数据标准化管理方法及系统、电子设备、存储介质
WO2021032055A1 (zh) 临床试验报告自动录入方法及装置、电子设备、存储介质
US20220328150A1 (en) Medical diagnostic platform
WO2021164640A1 (zh) 视网膜图像识别方法及装置、电子设备、存储介质
CN111564210A (zh) 智能导诊方法、装置、电子设备及存储介质
Dixon et al. What’s past is prologue: a scoping review of recent public health and global health informatics literature
US20190206529A1 (en) Evaluating Completeness and Data Quality of Electronic Medical Record Data Sources
CN110265099A (zh) 用于输出病历的方法和装置
US20120095948A1 (en) Cohort-based prediction of a future event
US20190198157A1 (en) Automatic Creation of Imaging Story Boards from Medical Imaging Studies
WO2023273455A1 (zh) 医疗知识图谱的构建方法、装置、设备及计算机可读介质
US20190197135A1 (en) Intelligently Organizing Displays of Medical Imaging Content for Rapid Browsing and Report Creation
US20130246067A1 (en) User interface for producing automated medical reports and a method for updating fields of such interface on the fly
CN114242258A (zh) 基于医学知识图谱的医疗数据探索方法及装置
CN110097936A (zh) 用于输出病历的方法和装置
CN113822872A (zh) 一种用于肝癌影像组学图像特征信息提取方法
CN110377698B (zh) 基于阅读理解的任务处理方法及装置、设备及可读介质
CN111128330A (zh) 电子病例报告表自动录入方法、装置以及相关设备
CN110060749B (zh) 基于sev-sdg-cnn的电子病历智能诊断方法
CN111063445A (zh) 基于医疗数据的特征提取方法及装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination