CN110189831A - 一种基于动态图序列的病历知识图谱构建方法及系统 - Google Patents

一种基于动态图序列的病历知识图谱构建方法及系统 Download PDF

Info

Publication number
CN110189831A
CN110189831A CN201910489974.3A CN201910489974A CN110189831A CN 110189831 A CN110189831 A CN 110189831A CN 201910489974 A CN201910489974 A CN 201910489974A CN 110189831 A CN110189831 A CN 110189831A
Authority
CN
China
Prior art keywords
case
entity
record data
medical
word segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910489974.3A
Other languages
English (en)
Other versions
CN110189831B (zh
Inventor
王晓黎
梁佳音
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN201910489974.3A priority Critical patent/CN110189831B/zh
Publication of CN110189831A publication Critical patent/CN110189831A/zh
Priority to ZA2019/06935A priority patent/ZA201906935B/en
Application granted granted Critical
Publication of CN110189831B publication Critical patent/CN110189831B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/20ICT specially adapted for the handling or processing of medical references relating to practices or guidelines
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/40ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Toxicology (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Medicinal Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioethics (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种基于动态图序列的病历知识图谱构建方法及系统。所述构建方法包括:获取医疗病历数据;所述医疗病历数据包括电子病历以及病人的特征数据;对所述预处理后的医疗病历数据进行预处理,确定预处理后的医疗病历数据;根据所述预处理后的医疗病历数据构建病例图;所述病例图为多个实体以及实体与实体之间的关系;所述实体包括药物、症状、疾病类别以及药物类别,所述实体与实体之间的关系包括“拥有属性”关系、“治疗”关系;引入时间维度,利用所述病例图定义演化图序列模型,确定病人在不同时间点的医疗病历数据构建的病历知识图谱。采用本发明所提供的构建方法及系统能够提高用户查询疾病类别的效率。

Description

一种基于动态图序列的病历知识图谱构建方法及系统
技术领域
本发明涉及病历知识图谱构建领域,特别是涉及一种基于动态图序列的病历知识图谱构建方法及系统。
背景技术
如今,人工智能已经成为新一轮科技革命和产业变革的核心驱动力,中国人工智能当前正处于行业应用大规模起量阶段,“人工智能(Artificial Intelligence,AI)+传统行业”加快融合,逐渐渗透到安防、医疗、零售、交通、制造、家居等众多领域。其中,医疗已成为AI行业最热门的研究和应用领域,2013年以来,医疗AI领域投融资热度也高于其他行业;中国政府2017年发布2030年人工智能计划,医疗是中国首批AI应用的四大重点领域之一,如何利用医疗数据,挖掘数据的深层价值,是未来信息科技发展的趋势。
知识图谱于2012年由谷歌首次提出并应用于谷歌搜索引擎,以提高用户查询的效率,并且被证明能够有效地表示真实世界的实体及其关系;知识图谱以结构化的形式描述客观世界中概念、实体及其之间的关系,将信息表达成更接近人类认知世界的形式,并以机器可读的形式存储数据,提供了一种更好的组织、管理和理解海量信息的能力;知识图谱中的节点主要包括实体节点、类别节点、属性节点,节点之间的连线则表示节点之间的关系,现在基于知识图谱的技术变得越来越流行,知识图谱技术在医学领域的应用将在解决高质量医疗资源供给与医疗服务需求不断增加之间的矛盾中发挥重要作用。
已有的采用图模型来表示复杂的医学数据的工作,它们可以更好地代表现实世界中的数据关系;然而,它们在实际应用中受到某些限制,因为其忽略了临床记录的时间特性;而将医学数据建模为时间序列数据的一些现有的工作,采用了几种先进的机器学习算法进行预测分析,但是未能捕获各种医学特征之间的显性和隐性关系,只将医疗数据提取为实体集合而忽略了各种实体特征之间的语义关系将会影响后续对医疗数据的研究结果,降低了用户查询疾病类别的效率。
发明内容
本发明的目的是提供一种基于动态图序列的病历知识图谱构建方法及系统,以解决用户查询疾病类别的效率低的问题。
为实现上述目的,本发明提供了如下方案:
一种基于动态图序列的病历知识图谱构建方法,包括:
获取医疗病历数据;所述医疗病历数据包括电子病历以及病人的特征数据;
对所述预处理后的医疗病历数据进行预处理,确定预处理后的医疗病历数据;
根据所述预处理后的医疗病历数据构建病例图;所述病例图为多个实体以及实体与实体之间的关系;所述实体包括药物、症状、疾病类别以及药物类别,所述实体与实体之间的关系包括“拥有属性”关系、“治疗”关系;
引入时间维度,利用所述病例图定义演化图序列模型,确定病人在不同时间点的医疗病历数据构建的病历知识图谱。
可选的,所述根据所述预处理后的医疗病历数据构建病例图,具体包括:
利用逆向最大匹配分词算法,对所述预处理后的医疗病历数据进行文本分词处理,并结合医学词典确定分词结果;
根据所述分词结果确定病例图中的实体节点;
对于未记录在所述医学词典内部的分词结果,利用医学的语义匹配技术进行处理,确定病例图中的实体节点;
对于未确定的分词结果,利用众包医学专家问答系统确定病例图中的实体节点。
可选的,所述利用逆向最大匹配分词算法,对所述预处理后的医疗病历数据进行文本分词处理,并结合医学词典确定分词结果,具体包括:
获取所述预处理后的医疗病历数据中的待切分字符串;
自所述待切分字符串的起始字符起,利用逆向最大匹配分词算法确定候选子串;
判断所述候选子串是否在所述医学词典中,得到第一判断结果;
若所述第一判断结果表示为所述候选子串在所述医学词典中,在所述待切分字符串中删除所述候选子串,确定删除后的待切分字符串,直到所述待切分字符串为空,确定分词结果;
若所述第一判断结果表示为所述候选子串不在所述医学词典中,删除所述候选子串的末尾的一个字,确定删除后的候选子串,并将所述删除后的候选子串重新与所述医学词典进行匹配,确定分词结果。
可选的,所述对于未记录在所述医学词典内部的分词结果,利用医学的语义匹配技术进行处理,确定病例图中的实体节点,具体包括:
获取所述未记录在所述医学词典内部的分词结果与在所述医学词典内部的实体之间的相似度以及相关度;
利用医学的语义匹配技术,根据所述相似度以及所述相关度确定病例图中的实体节点。
可选的,所述引入时间维度,利用所述病例图定义演化图序列模型,确定病人在不同时间点的医疗病历数据构建的病历知识图谱,具体包括:
引入时间维度,根据公式利用所述病例图定义演化图序列模型,确定病人在不同时间点的医疗病历数据构建的病历知识图谱;其中,是时间点j时的病例图,|Gi|表示图序列Gi中病例图的数量,i表示患者。
一种基于动态图序列的病历知识图谱构建系统,包括:
医疗病历数据获取模块,用于获取医疗病历数据;所述医疗病历数据包括电子病历以及病人的特征数据;
预处理模块,用于对所述预处理后的医疗病历数据进行预处理,确定预处理后的医疗病历数据;
病例图构建模块,用于根据所述预处理后的医疗病历数据构建病例图;所述病例图为多个实体以及实体与实体之间的关系;所述实体包括药物、症状、疾病类别以及药物类别,所述实体与实体之间的关系包括“拥有属性”关系、“治疗”关系;
病例知识图谱确定模块,用于引入时间维度,利用所述病例图定义演化图序列模型,确定病人在不同时间点的医疗病历数据构建的病历知识图谱。
可选的,所述病例图构建模块具体包括:
分词结果确定单元,用于利用逆向最大匹配分词算法,对所述预处理后的医疗病历数据进行文本分词处理,并结合医学词典确定分词结果;
第一病例图确定单元,用于根据所述分词结果确定病例图中的实体节点;
第二病例图确定单元,用于对于未记录在所述医学词典内部的分词结果,利用医学的语义匹配技术进行处理,确定病例图中的实体节点;
第三病例图确定单元,用于对于未确定的分词结果,利用众包医学专家问答系统确定病例图中的实体节点。
可选的,所述分词结果确定单元具体包括:
待切分字符串获取子单元,用于获取所述预处理后的医疗病历数据中的待切分字符串;
候选子串确定子单元,用于自所述待切分字符串的起始字符起,利用逆向最大匹配分词算法确定候选子串;
第一判断子单元,用于判断所述候选子串是否在所述医学词典中,得到第一判断结果;
删除后的待切分字符串确定子单元,用于若所述第一判断结果表示为所述候选子串在所述医学词典中,在所述待切分字符串中删除所述候选子串,确定删除后的待切分字符串,直到所述待切分字符串为空,确定分词结果;
删除后的候选子串确定子单元,用于若所述第一判断结果表示为所述候选子串不在所述医学词典中,删除所述候选子串的末尾的一个字,确定删除后的候选子串,并将所述删除后的候选子串重新与所述医学词典进行匹配,确定分词结果。
可选的,所述第二病例图确定单元具体包括:
相似度及相关度获取子单元,用于获取所述未记录在所述医学词典内部的分词结果与在所述医学词典内部的实体之间的相似度以及相关度;
病例图节点确定子单元,用于利用医学的语义匹配技术,根据所述相似度以及所述相关度确定病例图中的实体节点。
可选的,所述病历知识图谱构建模块具体包括:
病历知识图谱构建单元,用于引入时间维度,根据公式利用所述病例图定义演化图序列模型,确定病人在不同时间点的医疗病历数据构建的病历知识图谱;其中,是时间点j时的病例图,|Gi|表示图序列Gi中病例图的数量,i表示患者。
根据本发明提供的具体实施例,本发明公开了以下技术效果:本发明提供了一种基于动态图序列的病历知识图谱构建方法及系统,构建病历知识图谱体现医疗数据的关键实体以及实体之间的关系,将医疗病历数据建模成知识图谱,通过相似图搜索即可得到相似病历,进而可以通过相似病历确定疾病的类别;当将病人的病历建模成动态图序列时,可以通过相似图序列搜索进行病人的健康情况预测;对于缺失疾病标签的医疗病历,通过病历知识图谱,运用机器学习方法对缺失疾病标签的医疗病历按照疾病描述进行分类,建立了多个实体之间的对应关系,提高了用户查询疾病类别的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明所提供的基于动态图序列的病历知识图谱构建方法流程图;
图2为本发明所提供的电子病历示例图;
图3为本发明所提供的医学知识库本体图;
图4为本发明所提供的医疗知识图谱构建流程示意图;
图5为本发明所提供的语义分析结构化数据示例图;
图6为本发明所提供的逆向最大匹配算法的流程图;
图7为本发明所提供的大多数投票算法流程图;
图8为本发明所提供的病例图的本体示例图;
图9为本发明所提供的FP-tree算法流程图;
图10为本发明所提供的病人个性化知识图谱示例图;
图11为本发明所提供的病人演化图序列示例图;图11(a)为本发明所提供的关于β-内酰胺酶抑制剂的病人演化图序列示例图;图11(b)为本发明所提供的关于羧甲司坦口服溶液的病人演化图序列示例图;
图12为本发明所提供的基于动态图序列的病历知识图谱构建系统结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于动态图序列的病历知识图谱构建方法及系统,能够提高用户查询疾病类别的效率。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明所提供的基于动态图序列的病历知识图谱构建方法流程图,如图1所示,一种基于动态图序列的病历知识图谱构建方法,包括:
步骤101:获取医疗病历数据;所述医疗病历数据包括电子病历以及病人的特征数据。
本发明目前采集的数据有电子病历和健康数据,电子病历数据如图2所示,数据主要来源于实际医院的电子档案和健康定制平台手机APP收集到的健康数据。
典型的知识图的基本本体包括实体、类别、属性等,为了有效地对医学数据进行建模,提取了药物、症状、疾病、疾病类别和药物类别等实体,实体和实体之间还有相应的关系,对于每种类型的实体,进一步提取其具有代表性的属性,图3为本发明所提供的医学知识库本体图。
步骤102:对所述预处理后的医疗病历数据进行预处理,确定预处理后的医疗病历数据。
步骤103:根据所述预处理后的医疗病历数据构建病例图;所述病例图为多个实体以及实体与实体之间的关系;所述实体包括药物、症状、疾病类别以及药物类别,所述实体与实体之间的关系包括“拥有属性”关系、“治疗”关系。
如图4医疗知识图谱构建流程示意图所示:
首先,结合现有的专业医学词典,对健康数据文本进行分词和实体抽取:
文本分词采用逆向最大匹配分词算法,算法基本思想:利用专业的医学词典和医学数据中的字符串从左至右取待切分语句的m个字符作为匹配字段,m为医学专业词典中最长词条个数。查找专业医学词典并进行匹配。若匹配成功,则将这个匹配字段作为一个词切分出来,若匹配不成功,则将这个匹配字段的最右边的一个字去掉,剩下的字符串作为新的匹配字段,进行再次匹配,重复以上过程,直到切分出所有词为止。
由于部分提取到的实体无法与医学词典的内容匹配验证,对于这部分数据利用基于医学本体的语义匹配技术进行处理。
语义匹配技术的处理过程:Sim(x,y)表示两个任意概念之间的相似度,Rel(x,y)表示两个任意概念之间的相关度,Sim(x,y)∈[0,1],当Sim(x,y)=1时,表示两个概念完全相似,Rel(x,y)∈[0,1],当Rel(x,y)=1时,表示两个概念完全相关,Rel(x,y)=0时,表示两个概念之间完全不相关。
Weight(i)表示连接节点x和y最短路径上边的权重值,n表示为x和y之间的边数, 为可调节参数。为简化将权重值置为1。
CProperty(x,y)表示概念x和y中共同的对象属性;DProperty(x,y)表示概念x和y中不同的对象属性。处理完毕,剩余无法验证的部分将提交给专家问答系统,由系统专家用户进行判断。最后,所有处理的结果将被存入结构化的表格当中,如图5示例所示。
图6所示为逆向最大匹配算法的流程图,其主要步骤如下:
1)待切分字符串S1=“病人发烧两天,头晕且恶心”,输出结果S2=“”,最大词长MaxLen=10;
2)从S1左边开始,取出候选子串W=“病人发”;
3)判断W是否在字典中;
4)W不在字典中,将其末尾去掉一个字,W=“病人”,重新与词典匹配;
5)W在词典中,S2=S2+W+“/”,S1=S1-W;
6)直至S1为空停止算法。
对于一些无法确定的分词结果,设计出对应的是非判断问题提交给众包医学专家问答系统,通过大多数投票算法分析专家的反馈结果并确定最终的实体对象。例如:
Q1:肠易激综合症是一种疾病吗?
Q2:咳嗽是疾病的症状吗?
Q3:左氧氟沙星是一种药吗?
Q4:0.5g是药的一种剂量吗?
Q5:肺炎住院是病史的一种吗?
Q6:咳嗽是感冒的症状吗?
Q7:左氧氟沙星可以用来治疗肺部感染吗?
Q8:因肺炎住院可能是肺部感染的病史吗?
Q9:0.5g是左氧氟沙星的常规剂量的吗?
对于收集回的大量专家回答,使用多数表决原则决定每个问题的正确答案。每个问题每个专家可以只有一个答案。所以对于n多个不同的答案,最后正确答案的出现次数大于[n/2]次。计算是和否回答的频率,具有更高频率答案将作为正确答案存入的数据库。而对于是和否回答具有相同的频率的问题,将被重新提交回专家问答平台,收集更多的答案后将再次进行判断。
图7为大多数投票算法的流程图,其主要步骤如下:
1)将问题提交到专家问答平台;
2)专家对该问题投票表决;
3)统计答案‘是’的数目和‘否’的数目;
4)如果答案为‘是’的数目=答案为‘否’的数目,则重新提交到专家平台收集更多答案;
5)否则,如果答案为‘是’的数目>答案为‘否’的数目,则结果为‘是’,否则结果为‘否’;
6)输出结果。
完成上述过程后,结合国外现有的医学关系知识库(如UMLS)和英汉专业词典,用类似方法构建实体基本关系知识库,利用这些关系对健康数据抽取出来的实体进行链接。对于知识库中不包含的实体关系,通过机器学习分析出实体的关联性,来确定实体之间的关系,对于机器学习分析不能确定的关系再整理成众包问题提交给专家系统进行判断。最后,通过机器学习和众包系统反馈的结果实现所有实体链接,完成医疗知识图谱的构建。
病人个性化知识图谱构建:
一个病例图定义为一个六元组,g=(V,E,ΣV,ΣE,lV,lE),其中V是一个有限的节点集,E∈V×V是有向边的集合,ΣV是节点标签的有限字母表,ΣE是边标签的有限字母表,lV:V→ΣV是为节点指定标签的标记函数,而lE:V→ΣE是为边指定标签的标记函数。
在构建的医疗知识图谱的基础上,构建病例图作为每个患者的个性化知识图谱。首先收集患者的临床病历数据。然后,利用上述介绍的实体提取算法提取实体并将其表示为病例图中的节点。如果两个实体在知识图谱中存在联系,在它们之间添加一个有向边。病例图的本体示例图如图8所示。假设一个临床记录显示医生建议使用指定量的某药物来治疗某疾病,则使用两个属性“DOSE_VAL_RX(用药量)”和“DOSE_UNIT_RX(用药单位)”来表示该药物的剂量。在这种情况下,疾病实体和该药物实体以及两个属性用药量和用药单位表示为四个节点,从药物实体节点向这两个属性节点添加两个表示“HasAttribute(拥有属性)”关系的有向边,从药物实体节点向疾病实体节点添加一个表示“Treat(治疗)”关系的有向边。
假设一个临床记录显示医生建议使用指定量的某DRUG(药物):drug-A来治疗某DISEASE(疾病):disease-B,则使用两个属性“DOSE_VAL_RX(用药量)”:dose_val_C和“DOSE_UNIT_RX(用药单位)”:dose_unit_D来表示该药物的剂量。在这种情况下,疾病实体和该药物实体以及两个属性用药量和用药单位表示为四个节点,从药物实体节点向这两个属性节点添加两个表示“HasAttribute(拥有属性)”关系的有向边edge-A和edge-B,从药物实体节点向疾病实体节点添加一个表示“Treat(治疗)”关系的有向边edge-C。用六元组表示如下:
V={drug-A,disease-B,dose_val_C,dose_unit_D};
E={edge-A,edge-B,edge-C};
ΣV={DISEASE,DRUG,DOSE_VAL_RX,DOSE_UNIT_RX};
ΣE={HasAttribute,Treat};
lV:V→ΣV={drug-A→DRUG,disease-B→DISEASE,
dose_val_C→DOSE_VAL_RX,dose_unit_D→DOSE_UNIT_RX};
lE:E→∑E={edge-A→HasAttribute,edge-B→HasAttribute,edge-C→Treat}.
构建病人特征图的一个难点是如何确定实体之间的具体联系,医疗健康概念图一般只包含医学概念以及实例之间的同义、从属等基本层次关系,很少涉及更深入的不同实体类型的关系挖掘,比如“糖尿病”与“熬夜”这两个实体之间的联系在专业医疗知识图谱中是很难找到的。因此,采用传统的实体关系挖掘算法对具体病人的健康数据进行深入分析,得出可能的实体关联标签,对于挖掘算法不能很好地确定的实体关系,再进一步利用专家问答系统的众包原理对机器学习结果进行处理优化,从而得到准确的病人特征图模型。
关系挖掘算法使用FP-growth关联规则挖掘算法,挖掘医疗数据实体之间的关系。FP-Growth算法的基本思想:构建FP-tree,通过两次数据扫描,将原始数据中的事务压缩到一个FP-tree树,该FP-tree类似于前缀树,相同前缀的路径可以共用。接着递归挖掘FP-tree,通过FP-tree找出每个item的条件模式基,递归的挖掘条件FP-tree得到所有的频繁项集。FP-growth算法通过构造一个树结构来压缩数据记录,使得挖掘频繁项集只需要扫描两次数据记录,而且该算法不需要生成候选集合,FP-growth的算法流程如图9所示。
对于挖掘算法不能很好地确定的实体关系,再进一步利用专家问答系统的众包原理对机器学习结果进行处理优化,从而得到准确的病人个性化知识图谱,知识图谱示例如图10所示。
步骤104:引入时间维度,利用所述病例图定义演化图序列模型,确定病人在不同时间点的医疗病历数据构建的病历知识图谱。
病人动态特征图序列构建:
临床数据记录了患者每次就诊的病例信息,随着时间变化而不断演变,只有在时间背景下观察才有意义。本发明将临床数据抽象为演化图序列,其中每个病例图表示患者在每个时间点的特征情况。演化图序列模型的定义如下:
令i表示患者,其对应的演化图序列可定义为其中是时间点j时的病例图,|Gi|表示图序列Gi中病例图的数量,i表示患者。一个演化图序列示例如图11所示,患者分别在2016年4月5日和2016年4月20日就诊,则为这两次就诊记录分别构建一个病例图。图11(a)中包含以下七个节点和六个边:
一个标记为“肺炎”的“疾病”实体节点;
一个标记为“β-内酰胺酶抑制剂”的“药物”实体节点;
一个标记为“氧合指数”的“检查项目”实体节点;
一个标记为“碳质血症”的“检查项目”实体节点;
三个属性节点,一个标记为“L1”的“氧合指数”实体的属性节点,一个标记为“L2”的“碳质血症”实体的属性节点,和一个标记为“M1”的“β-内酰胺酶抑制剂”实体的属性节点;
一个标记为“治疗”的从“β-内酰胺酶抑制剂”药物实体节点指向“肺炎”疾病实体节点的有向边;
两个标记为“诊断”的从“氧合指数”和“碳质血症”检查项目实体节点指向“肺炎”疾病实体节点的有向边;
三个标记为“有值”的有向边,分别从“氧合指数”实体节点,“碳质血症”实体节点和“β-内酰胺酶抑制剂”实体节点指向各自的属性节点。
同一用户不同时间的数据可以表示为基于病人特征图的动态图序列结构,患者的一次收集的临床数据可能包含有关多种疾病的大量信息,本发明中的演化图序列主要关注一种疾病,并消除其他疾病的信息,因此每个演化图序列包含一组连续的仅与一种疾病相关的病例图,在图11中,两个病例图都是与“肺炎”相关。
图12为本发明所提供的基于动态图序列的病历知识图谱构建系统结构图,如图12所示,一种基于动态图序列的病历知识图谱构建系统,包括:
医疗病历数据获取模块1201,用于获取医疗病历数据;所述医疗病历数据包括电子病历以及病人的特征数据。
预处理模块1202,用于对所述预处理后的医疗病历数据进行预处理,确定预处理后的医疗病历数据。
病例图构建模块1203,用于根据所述预处理后的医疗病历数据构建病例图;所述病例图为多个实体以及实体与实体之间的关系;所述实体包括药物、症状、疾病类别以及药物类别,所述实体与实体之间的关系包括“拥有属性”关系、“治疗”关系。
所述病例图构建模块1203具体包括:分词结果确定单元,用于利用逆向最大匹配分词算法,对所述预处理后的医疗病历数据进行文本分词处理,并结合医学词典确定分词结果;第一病例图确定单元,用于根据所述分词结果确定病例图中的实体节点;第二病例图确定单元,用于对于未记录在所述医学词典内部的分词结果,利用医学的语义匹配技术进行处理,确定病例图中的实体节点;第三病例图确定单元,用于对于未确定的分词结果,利用众包医学专家问答系统确定病例图中的实体节点。
所述分词结果确定单元具体包括:待切分字符串获取子单元,用于获取所述预处理后的医疗病历数据中的待切分字符串;候选子串确定子单元,用于自所述待切分字符串的起始字符起,利用逆向最大匹配分词算法确定候选子串;第一判断子单元,用于判断所述候选子串是否在所述医学词典中,得到第一判断结果;删除后的待切分字符串确定子单元,用于若所述第一判断结果表示为所述候选子串在所述医学词典中,在所述待切分字符串中删除所述候选子串,确定删除后的待切分字符串,直到所述待切分字符串为空,确定分词结果;删除后的候选子串确定子单元,用于若所述第一判断结果表示为所述候选子串不在所述医学词典中,删除所述候选子串的末尾的一个字,确定删除后的候选子串,并将所述删除后的候选子串重新与所述医学词典进行匹配,确定分词结果。
所述第二病例图确定单元具体包括:相似度及相关度获取子单元,用于获取所述未记录在所述医学词典内部的分词结果与在所述医学词典内部的实体之间的相似度以及相关度;病例图节点确定子单元,用于利用医学的语义匹配技术,根据所述相似度以及所述相关度确定病例图中的实体节点。
病例知识图谱确定模块1204,用于引入时间维度,利用所述病例图定义演化图序列模型,确定病人在不同时间点的医疗病历数据构建的病历知识图谱。
所述病历知识图谱构建模块1204具体包括:病历知识图谱构建单元,用于引入时间维度,根据公式利用所述病例图定义演化图序列模型,确定病人在不同时间点的医疗病历数据构建的病历知识图谱;其中,是时间点j时的病例图,|Gi|表示图序列Gi中病例图的数量,i表示患者。
采用本发明所提供的基于动态图序列的病历知识图谱构建方法及系统,能够提高用户查询疾病类别的效率。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种基于动态图序列的病历知识图谱构建方法,其特征在于,包括:
获取医疗病历数据;所述医疗病历数据包括电子病历以及病人的特征数据;
对所述预处理后的医疗病历数据进行预处理,确定预处理后的医疗病历数据;
根据所述预处理后的医疗病历数据构建病例图;所述病例图为多个实体以及实体与实体之间的关系;所述实体包括药物、症状、疾病类别以及药物类别,所述实体与实体之间的关系包括“拥有属性”关系、“治疗”关系;
引入时间维度,利用所述病例图定义演化图序列模型,确定病人在不同时间点的医疗病历数据构建的病历知识图谱。
2.根据权利要求1所述的基于动态图序列的病历知识图谱构建方法,其特征在于,所述根据所述预处理后的医疗病历数据构建病例图,具体包括:
利用逆向最大匹配分词算法,对所述预处理后的医疗病历数据进行文本分词处理,并结合医学词典确定分词结果;
根据所述分词结果确定病例图中的实体节点;
对于未记录在所述医学词典内部的分词结果,利用医学的语义匹配技术进行处理,确定病例图中的实体节点;
对于未确定的分词结果,利用众包医学专家问答系统确定病例图中的实体节点。
3.根据权利要求2所述的基于动态图序列的病历知识图谱构建方法,其特征在于,所述利用逆向最大匹配分词算法,对所述预处理后的医疗病历数据进行文本分词处理,并结合医学词典确定分词结果,具体包括:
获取所述预处理后的医疗病历数据中的待切分字符串;
自所述待切分字符串的起始字符起,利用逆向最大匹配分词算法确定候选子串;
判断所述候选子串是否在所述医学词典中,得到第一判断结果;
若所述第一判断结果表示为所述候选子串在所述医学词典中,在所述待切分字符串中删除所述候选子串,确定删除后的待切分字符串,直到所述待切分字符串为空,确定分词结果;
若所述第一判断结果表示为所述候选子串不在所述医学词典中,删除所述候选子串的末尾的一个字,确定删除后的候选子串,并将所述删除后的候选子串重新与所述医学词典进行匹配,确定分词结果。
4.根据权利要求2所述的基于动态图序列的病历知识图谱构建方法,其特征在于,所述对于未记录在所述医学词典内部的分词结果,利用医学的语义匹配技术进行处理,确定病例图中的实体节点,具体包括:
获取所述未记录在所述医学词典内部的分词结果与在所述医学词典内部的实体之间的相似度以及相关度;
利用医学的语义匹配技术,根据所述相似度以及所述相关度确定病例图中的实体节点。
5.根据权利要求1所述的基于动态图序列的病历知识图谱构建方法,其特征在于,所述引入时间维度,根据所述病例图定义演化图序列模型,确定病人在不同时间点的医疗病历数据构建的病历知识图谱,具体包括:
引入时间维度,根据公式定义演化图序列模型,确定病人在不同时间点的医疗病历数据构建的病历知识图谱;其中,是时间点j时的病例图,|Gi|表示图序列Gi中病例图的数量,i表示患者。
6.一种基于动态图序列的病历知识图谱构建系统,其特征在于,包括:
医疗病历数据获取模块,用于获取医疗病历数据;所述医疗病历数据包括电子病历以及病人的特征数据;
预处理模块,用于对所述预处理后的医疗病历数据进行预处理,确定预处理后的医疗病历数据;
病例图构建模块,用于根据所述预处理后的医疗病历数据构建病例图;所述病例图为多个实体以及实体与实体之间的关系;所述实体包括药物、症状、疾病类别以及药物类别,所述实体与实体之间的关系包括“拥有属性”关系、“治疗”关系;
病例知识图谱确定模块,用于引入时间维度,利用所述病例图定义演化图序列模型,确定病人在不同时间点的医疗病历数据构建的病历知识图谱。
7.根据权利要求6所述的基于动态图序列的病历知识图谱构建系统,其特征在于,所述病例图构建模块具体包括:
分词结果确定单元,用于利用逆向最大匹配分词算法,对所述预处理后的医疗病历数据进行文本分词处理,并结合医学词典确定分词结果;
第一病例图确定单元,用于根据所述分词结果确定病例图中的实体节点;
第二病例图确定单元,用于对于未记录在所述医学词典内部的分词结果,利用医学的语义匹配技术进行处理,确定病例图中的实体节点;
第三病例图确定单元,用于对于未确定的分词结果,利用众包医学专家问答系统确定病例图中的实体节点。
8.根据权利要求7所述的基于动态图序列的病历知识图谱构建系统,其特征在于,所述分词结果确定单元具体包括:
待切分字符串获取子单元,用于获取所述预处理后的医疗病历数据中的待切分字符串;
候选子串确定子单元,用于自所述待切分字符串的起始字符起,利用逆向最大匹配分词算法确定候选子串;
第一判断子单元,用于判断所述候选子串是否在所述医学词典中,得到第一判断结果;
删除后的待切分字符串确定子单元,用于若所述第一判断结果表示为所述候选子串在所述医学词典中,在所述待切分字符串中删除所述候选子串,确定删除后的待切分字符串,直到所述待切分字符串为空,确定分词结果;
删除后的候选子串确定子单元,用于若所述第一判断结果表示为所述候选子串不在所述医学词典中,删除所述候选子串的末尾的一个字,确定删除后的候选子串,并将所述删除后的候选子串重新与所述医学词典进行匹配,确定分词结果。
9.根据权利要求7所述的基于动态图序列的病历知识图谱构建系统,其特征在于,所述第二病例图确定单元具体包括:
相似度及相关度获取子单元,用于获取所述未记录在所述医学词典内部的分词结果与在所述医学词典内部的实体之间的相似度以及相关度;
病例图节点确定子单元,用于利用医学的语义匹配技术,根据所述相似度以及所述相关度确定病例图中的实体节点。
10.根据权利要求6所述的基于动态图序列的病历知识图谱构建系统,其特征在于,所述病历知识图谱构建模块具体包括:
病历知识图谱构建单元,用于引入时间维度,根据公式利用所述病例图定义演化图序列模型,确定病人在不同时间点的医疗病历数据构建的病历知识图谱;其中,是时间点j时的病例图,|Gi|表示图序列Gi中病例图的数量,i表示患者。
CN201910489974.3A 2019-06-06 2019-06-06 一种基于动态图序列的病历知识图谱构建方法及系统 Active CN110189831B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910489974.3A CN110189831B (zh) 2019-06-06 2019-06-06 一种基于动态图序列的病历知识图谱构建方法及系统
ZA2019/06935A ZA201906935B (en) 2019-06-06 2019-10-22 Method and system for constructing medical knowledge graph based on dynamic graph sequence

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910489974.3A CN110189831B (zh) 2019-06-06 2019-06-06 一种基于动态图序列的病历知识图谱构建方法及系统

Publications (2)

Publication Number Publication Date
CN110189831A true CN110189831A (zh) 2019-08-30
CN110189831B CN110189831B (zh) 2021-03-02

Family

ID=67720602

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910489974.3A Active CN110189831B (zh) 2019-06-06 2019-06-06 一种基于动态图序列的病历知识图谱构建方法及系统

Country Status (2)

Country Link
CN (1) CN110189831B (zh)
ZA (1) ZA201906935B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111091883A (zh) * 2019-12-16 2020-05-01 东软集团股份有限公司 一种医疗文本处理方法、装置、存储介质及设备
CN111430037A (zh) * 2020-03-30 2020-07-17 安徽科大讯飞医疗信息技术有限公司 相似病历查找方法及系统
CN111599483A (zh) * 2020-05-29 2020-08-28 安徽科大讯飞医疗信息技术有限公司 一种病历集优化方法、装置、设备及存储介质
CN112071425A (zh) * 2020-09-04 2020-12-11 平安科技(深圳)有限公司 一种数据处理方法、装置、计算机设备及存储介质
CN112133391A (zh) * 2020-09-17 2020-12-25 吾征智能技术(北京)有限公司 一种基于人体异常眉毛的疾病认知系统
CN112687385A (zh) * 2019-10-18 2021-04-20 医渡云(北京)技术有限公司 一种疾病分期识别方法以及装置
CN113707297A (zh) * 2021-08-26 2021-11-26 平安国际智慧城市科技股份有限公司 医疗数据的处理方法、装置、设备及存储介质
CN113934824A (zh) * 2021-12-15 2022-01-14 之江实验室 一种基于多轮智能问答的相似病历匹配系统及方法
CN114596931A (zh) * 2022-05-10 2022-06-07 上海柯林布瑞信息技术有限公司 基于病历的医学实体和关系联合提取方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105138829A (zh) * 2015-08-13 2015-12-09 易保互联医疗信息科技(北京)有限公司 一种中文诊疗信息的自然语言处理方法及系统
CN107357924A (zh) * 2017-07-25 2017-11-17 为朔医学数据科技(北京)有限公司 一种精准医学知识图谱构建方法和装置
CN107591203A (zh) * 2017-10-25 2018-01-16 湖南网数科技有限公司 一种基于知识库的疾病预警方法及系统
CN107887036A (zh) * 2017-11-09 2018-04-06 北京纽伦智能科技有限公司 临床决策辅助系统的构建方法、装置及临床决策辅助系统
CN108427735A (zh) * 2018-02-28 2018-08-21 东华大学 基于电子病历的临床知识图谱构建方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105138829A (zh) * 2015-08-13 2015-12-09 易保互联医疗信息科技(北京)有限公司 一种中文诊疗信息的自然语言处理方法及系统
CN107357924A (zh) * 2017-07-25 2017-11-17 为朔医学数据科技(北京)有限公司 一种精准医学知识图谱构建方法和装置
CN107591203A (zh) * 2017-10-25 2018-01-16 湖南网数科技有限公司 一种基于知识库的疾病预警方法及系统
CN107887036A (zh) * 2017-11-09 2018-04-06 北京纽伦智能科技有限公司 临床决策辅助系统的构建方法、装置及临床决策辅助系统
CN108427735A (zh) * 2018-02-28 2018-08-21 东华大学 基于电子病历的临床知识图谱构建方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
BEYAN O D 等: "An RDF Based Semantic Approach to Model Temporal Relations in Health Records", 《SWAT4LS 2016》 *
YI ZENG 等: "Research of Improved FP-Growth Algorithm in Association Rules Mining", 《SCIENTIFIC PROGRAMMING》 *
吴桂芳 等: "基于本体的语义匹配技术研究", 《第二届中国指挥控制大会论文集一一发展中的指挥与控制》 *
杨锦锋 等: "电子病历命名实体识别和实体关系抽取研究综述", 《自动化学报》 *
陈德华 等: "一种面向临床领域时序知识图谱的链接预测模型", 《计算机研究与发展》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112687385A (zh) * 2019-10-18 2021-04-20 医渡云(北京)技术有限公司 一种疾病分期识别方法以及装置
CN111091883A (zh) * 2019-12-16 2020-05-01 东软集团股份有限公司 一种医疗文本处理方法、装置、存储介质及设备
CN111430037A (zh) * 2020-03-30 2020-07-17 安徽科大讯飞医疗信息技术有限公司 相似病历查找方法及系统
CN111430037B (zh) * 2020-03-30 2024-04-09 讯飞医疗科技股份有限公司 相似病历查找方法及系统
CN111599483B (zh) * 2020-05-29 2023-12-22 讯飞医疗科技股份有限公司 一种病历集优化方法、装置、设备及存储介质
CN111599483A (zh) * 2020-05-29 2020-08-28 安徽科大讯飞医疗信息技术有限公司 一种病历集优化方法、装置、设备及存储介质
CN112071425A (zh) * 2020-09-04 2020-12-11 平安科技(深圳)有限公司 一种数据处理方法、装置、计算机设备及存储介质
CN112133391A (zh) * 2020-09-17 2020-12-25 吾征智能技术(北京)有限公司 一种基于人体异常眉毛的疾病认知系统
CN112133391B (zh) * 2020-09-17 2024-01-26 吾征智能技术(北京)有限公司 一种基于人体异常眉毛的疾病认知系统
CN113707297A (zh) * 2021-08-26 2021-11-26 平安国际智慧城市科技股份有限公司 医疗数据的处理方法、装置、设备及存储介质
CN113707297B (zh) * 2021-08-26 2024-04-05 深圳平安智慧医健科技有限公司 医疗数据的处理方法、装置、设备及存储介质
CN113934824A (zh) * 2021-12-15 2022-01-14 之江实验室 一种基于多轮智能问答的相似病历匹配系统及方法
CN114596931B (zh) * 2022-05-10 2022-08-02 上海柯林布瑞信息技术有限公司 基于病历的医学实体和关系联合提取方法和装置
CN114596931A (zh) * 2022-05-10 2022-06-07 上海柯林布瑞信息技术有限公司 基于病历的医学实体和关系联合提取方法和装置

Also Published As

Publication number Publication date
CN110189831B (zh) 2021-03-02
ZA201906935B (en) 2020-09-30

Similar Documents

Publication Publication Date Title
CN110189831A (zh) 一种基于动态图序列的病历知识图谱构建方法及系统
CN111414393B (zh) 一种基于医学知识图谱的语义相似病例检索方法及设备
CN106844723B (zh) 基于问答系统的医学知识库构建方法
CN111159223B (zh) 一种基于结构化嵌入的交互式代码搜索方法及装置
JP5904559B2 (ja) シナリオ生成装置、及びそのためのコンピュータプログラム
CN106126577A (zh) 一种基于数据源划分矩阵的加权关联规则挖掘方法
CN112487202B (zh) 融合知识图谱与bert的中文医学命名实体识别方法、装置
CN113707297A (zh) 医疗数据的处理方法、装置、设备及存储介质
CN116682553B (zh) 一种融合知识与患者表示的诊断推荐系统
WO2015093540A1 (ja) フレーズペア収集装置、及びそのためのコンピュータプログラム
WO2015093539A1 (ja) 複雑述語テンプレート収集装置、及びそのためのコンピュータプログラム
CN112667799A (zh) 一种基于语言模型和实体匹配的医疗问答系统构建方法
Wang et al. Automatic diagnosis with efficient medical case searching based on evolving graphs
CN113569023A (zh) 一种基于知识图谱的中文医药问答系统及方法
CN115293161A (zh) 基于自然语言处理和药品知识图谱的合理用药系统及方法
Safee et al. Hybrid search approach for retrieving Medical and Health Science knowledge from Quran
CN114077673A (zh) 一种基于btbc模型的知识图谱构建方法
CN113764112A (zh) 一种在线医疗问答方法
CN117316466A (zh) 一种基于知识图谱与自然语言处理技术的临床决策方法、系统及设备
CN110299194B (zh) 基于综合特征表示与改进宽深度模型的相似病例推荐方法
CN116227594A (zh) 面向多源数据的医疗行业高可信度知识图谱的构建方法
CN115831380A (zh) 一种基于医疗知识图谱的智能医疗数据管理系统及方法
CN114360715A (zh) 体质辨识方法、装置、电子设备及存储介质
KR102448275B1 (ko) 생물 종 동정을 활용한 생물학적 정보 추론 장치 및 방법
Maghawry et al. WEIGHTED ENTITY-LINKING AND INTEGRATION ALGORITHM FOR MEDICAL KNOWLEDGE GRAPH GENERATION

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant