CN111382275A - 医疗知识图谱的构建方法、装置、介质及电子设备 - Google Patents
医疗知识图谱的构建方法、装置、介质及电子设备 Download PDFInfo
- Publication number
- CN111382275A CN111382275A CN201811624303.5A CN201811624303A CN111382275A CN 111382275 A CN111382275 A CN 111382275A CN 201811624303 A CN201811624303 A CN 201811624303A CN 111382275 A CN111382275 A CN 111382275A
- Authority
- CN
- China
- Prior art keywords
- entity
- relationship
- medical knowledge
- information
- entities
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims abstract description 35
- 238000003745 diagnosis Methods 0.000 claims abstract description 120
- 238000000034 method Methods 0.000 claims abstract description 70
- 238000011282 treatment Methods 0.000 claims abstract description 41
- 238000004140 cleaning Methods 0.000 claims abstract description 14
- 201000010099 disease Diseases 0.000 claims description 54
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 54
- 208000024891 symptom Diseases 0.000 claims description 22
- 239000003814 drug Substances 0.000 claims description 16
- 238000007689 inspection Methods 0.000 claims description 14
- 229940079593 drug Drugs 0.000 claims description 11
- 238000001356 surgical procedure Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 2
- 239000000243 solution Substances 0.000 description 15
- 238000012545 processing Methods 0.000 description 13
- 230000009286 beneficial effect Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 12
- 238000004422 calculation algorithm Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 6
- 230000002349 favourable effect Effects 0.000 description 6
- 238000012549 training Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000007418 data mining Methods 0.000 description 4
- 238000005065 mining Methods 0.000 description 4
- 206010011224 Cough Diseases 0.000 description 3
- 206010035664 Pneumonia Diseases 0.000 description 3
- 239000008267 milk Substances 0.000 description 3
- 210000004080 milk Anatomy 0.000 description 3
- 235000013336 milk Nutrition 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 201000011510 cancer Diseases 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- HYAFETHFCAUJAY-UHFFFAOYSA-N pioglitazone Chemical compound N1=CC(CC)=CC=C1CCOC(C=C1)=CC=C1CC1C(=O)NC(=O)S1 HYAFETHFCAUJAY-UHFFFAOYSA-N 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 201000011602 pyloric antrum cancer Diseases 0.000 description 2
- 238000003908 quality control method Methods 0.000 description 2
- 239000008354 sodium chloride injection Substances 0.000 description 2
- 208000001072 type 2 diabetes mellitus Diseases 0.000 description 2
- 208000002177 Cataract Diseases 0.000 description 1
- 230000003187 abdominal effect Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000000172 allergic effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 208000010668 atopic eczema Diseases 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000000586 desensitisation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 208000028659 discharge Diseases 0.000 description 1
- 206010013781 dry mouth Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 206010017758 gastric cancer Diseases 0.000 description 1
- 230000002496 gastric effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- XZWYZXLIPXDOLR-UHFFFAOYSA-N metformin Chemical compound CN(C)C(=N)NC(N)=N XZWYZXLIPXDOLR-UHFFFAOYSA-N 0.000 description 1
- 229960003105 metformin Drugs 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000010827 pathological analysis Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 229960005095 pioglitazone Drugs 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000002980 postoperative effect Effects 0.000 description 1
- 238000010882 preoperative diagnosis Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 210000002784 stomach Anatomy 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 210000003462 vein Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本公开提供了一种医疗知识图谱的构建方法、装置、介质及电子设备。该方法包括获取临床数据集,所述临床数据集包括:多条就诊记录;在所述就诊记录中计算主诊断信息,并基于所述主诊断信息进行数据清洗;从清洗后的数据中提取实体,根据至少两类实体确定实体关系对以及所述实体关系对中实体之间的关系权重;根据所述实体关系对和所述实体关系对中实体之间的关系权重构建医疗知识图谱。本技术方案通过设置多个数据源有利于获取不同实体的灵活性,进一步有利于准确地获取实体信息,进而有利于提供构建医疗知识图谱的准确性。且,构建医学知识图谱的过程支持冷启动,无需依赖于既有医学知识图谱。
Description
技术领域
本公开涉及数据处理技术领域,具体而言,涉及一种医疗知识图谱的构建方法、医疗知识图谱的构建装置、计算机可读介质及电子设备。
背景技术
医学知识图谱技术是能够使得计算机算法系统理解医学知识的关键技术。示例性的,计算机算法系统就可以基于医学知识图谱技术实现辅助诊疗、病历质控、智能导诊、自动化核保等多种医学任务。如何建立医学知识图谱是相关工作人员关心的问题。
医学知识一般来源于以下两方面:一方面为文献知识,通过学习教科书、临床指南、专著与论文等获得;另一方面为经验知识,在临床诊疗工作中积累经验观察等获得的真实世界临床数据。两者之间是相辅相成的关系。近年来,医疗行业对于经验知识的价值有了进一步认识,并以“真实世界数据”(Real World Data,简称:RWD)这一专有名词来描述这种真实世界临床数据,并且基于真实世界数据来修正诊疗方法。
进一步地,计算机算法系统需要文献知识和真实世界数据来构建医学知识图谱。文献知识图谱的相关研究开始的较早,目前业界已经有一些初步的成果。但对于如何从临床产生的真实世界数据生成知识图谱,目前还处于发展的早期。
现有技术提供的方法中,从临床产生的真实世界数据确定知识图谱的算法强依赖于既有医学知识图谱,而不适用于只有真实世界数据的冷启动情况。示例性的,相关的现有技术只有在存在一份“现有医学知识图谱”的情况下才能使用,导致使用场景受限,也不能适用于冷启动状况。然而,一般很难获得完美的既有医学知识图谱,假如工程项目启动时刻所具备的医学知识图谱知识存在误差,其实体对齐的算法准确度会受到较大影响,生成的知识图谱误差更大。
可见,利用现有技术提供的方法确定的医疗知识图谱准确性有待提高。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开实施例的目的在于提供一种医疗知识图谱的构建方法、医疗知识图谱的构建装置、计算机可读介质及电子设备,进而至少在一定程度上克服了利用现有技术提供的方法确定的医疗知识图谱准确性有待提高的问题。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开实施例的第一方面,提供了一种医疗知识图谱的构建方法,包括:
获取临床数据集,所述临床数据集包括:多条就诊记录;
在所述就诊记录中计算主诊断信息,并基于所述主诊断信息进行数据清洗;
从清洗后的数据中提取实体,根据至少两类实体确定实体关系对以及所述实体关系对中实体之间的关系权重;
根据所述实体关系对和所述实体关系对中实体之间的关系权重构建医疗知识图谱。
在本公开的一种实施例中,基于前述方案,所述在所述就诊记录中计算主诊断信息,包括:
在所述就诊记录中提取诊断类型,根据诊断类型中的顺位信息确定主诊断信息;
其中,所述主诊断信息为所述就诊记录中的主要疾病信息。
在本公开的一种实施例中,基于前述方案,所述基于所述主诊断信息进行数据清洗,包括:
获取属于同一患者且属于同一主诊断信息的目标就诊记录,在所述目标就诊记录中并获取就诊时间最早的首诊记录。
在本公开的一种实施例中,基于前述方案,所述从清洗后的数据中提取类实体,根据至少两类实体确定实体关系对以及所述实体关系对中实体之间的关系权重,包括:
基于预先设置的结构化标准疾病名称表,确定与所述主诊断信息关联的疾病名称实体;
在所述就诊记录中获取与所述主诊断信息相关的非诊断信息实体,和/或,在所述首诊记录中提取非诊断信息实体,其中,所述非诊断信息实体包括但不限于:用药信息实体、手术信息实体、症状信息实体、病史信息实体、检验检查信息实体中的一种或多种;
在所述就诊记录中,获取患者信息实体,所述患者信息实体包括但不限于:性别实体、年龄实体、生理参数实体中的一种或多种;
根据所述疾病名称实体、所述非诊断实体以及所述患者信息实体中至少两类实体之间的关系,确定实体关系对;
将任一所述实体关系对作为目标关系对,并根据所述目标关系对的频次确定所述目标关系对中包含的实体之间的关系权重。
在本公开的一种实施例中,基于前述方案,上述方法还包括:
获取既有医学知识图谱;
将任一所述实体关系对作为目标关系对,并根据所述目标关系对的频次确定所述目标关系对中包含的实体之间的关系权重;
基于所述关系权重,通过所述目标关系对调整所述既有医学知识图谱。
在本公开的一种实施例中,基于前述方案,基于所述关系权重,通过所述目标关系对调整所述既有医学知识图谱,包括:
对于所述目标关系对,判断所述既有医学知识图谱中是否存在相同的实体关系对;
若所述既有医学知识图谱中存在相同的实体关系对,则根据所述目标关系对的关系权重,更新所述既有医学知识图谱的相同的实体关系对的权重。
在本公开的一种实施例中,基于前述方案,上述方法还包括:
若所述既有医学知识图谱中未存在相同的实体关系对,则:
获取参考门限值,并判断所述目标关系对的关系权重是否高于所述参考门限值;
若所述目标关系对的关系权重低于所述参考门限值,则舍弃所述目标关系对。
根据本公开实施例的第二方面,提供了一种医疗知识图谱的构建装置,包括:
临床数据集获取模块,用于获取临床数据集,所述临床数据集包括:多条就诊记录;
数据清洗模块,用于在所述就诊记录中计算主诊断信息,并基于所述主诊断信息进行数据清洗;
实体获取模块,用于从清洗后的数据中提取实体,根据至少两类实体确定实体关系对以及所述实体关系对中实体之间的关系权重;
医学知识图谱构建模块,用于根据所述实体关系对和所述实体关系对中实体之间的关系权重构建医疗知识图谱。
根据本公开实施例的第三方面,提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述实施例第一方面中所述的医疗知识图谱的构建方法。
根据本公开实施例的第四方面,提供一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述实施例第一方面所述的医疗知识图谱的构建方法。
本公开实施例提供的技术方案可以包括以下有益效果:
在本公开的一些实施例中,从临床数据集的多条就诊记录中获取主诊断信息,进而基于主诊断信息进行数据清洗。其中,获取主诊断信息以及基于主诊断信息进行数据清洗有利于有效地减少干扰数据,达到结合医学逻辑提取与构建医疗知识图谱相关的有效数据的目的,从而构建有效实体关系对,进而有利于提高所构建医疗知识图谱的准确性。
同时,以将清洗后的数据作为获取实体的一个数据源,获取实体的数据源还包括上述主诊断信息、就诊记录等。通过设置多个数据源有利于获取不同实体的灵活性,进一步有利于准确地获取实体信息,进而也有利于提高所构建医疗知识图谱的准确性。
另外,基于海量真实世界数据进行挖掘获取主诊断信息相关的各个实体进一步根据实体之间的关联关系确定实体关系对,有利于获取与各个疾病关联关系全面的知识网络,从而有利于提供构建医疗知识图谱的准确性。并且,本技术方案基于海量临床数据(即真实世界数据)进行数据挖掘,便可以完成对医学知识图谱的构建,可见,本技术方案中构建医学知识图谱的过程支持冷启动,无需依赖于既有医学知识图谱。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出了根据本公开的实施例的医疗知识图谱的构建方法的流程示意图;
图2示出了根据本公开的实施例的主诊断信息的处理方法的流程示意图;
图3示出了根据本公开的实施例的非诊断实体的获取方法的流程示意图;
图4示出了根据本公开的实施例的实体关系对和关系权重的确定方法的流程示意图;
图5示出了根据本公开的实施例的医学知识图谱的局部结构示意图;
图6示出了根据本公开的再一实施例的医疗知识图谱的构建方法的流程示意图;
图7示出了根据本公开的实施例的医疗知识图谱的构建装置的结构示意图;
图8示意性示出一种用于实现上述医学知识图谱的构建方法的计算机可读存储介质;以及,
图9示意性示出一种用于实现上述医学知识图谱的构建方法的电子设备示例框图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
如上文提供的现有技术方案中,由于需从临床产生的真实世界数据确定知识图谱的算法强依赖于既有医学知识图谱,而不适用于只有真实世界数据的冷启动情况。然而,鉴于一般很难获得完美的既有医学知识图谱,假如工程项目启动时刻所具备的医学知识图谱知识存在误差,其实体对齐的算法准确度会受到较大影响,生成的知识图谱误差较大的问题。
现有技术还提供了相关的医疗知识图谱的构建方法,该技术方案提供的实体间关联强度的计算方法为Z=x/y方式计算实体之间的关联权重。但是,此种方法与实际情况背离,从而导致错误知识。例如会出现常用辅助药物(如,氯化钠注射液)频繁出现在几乎每一种疾病的每一次治疗中,这就产生“氯化钠注射液”与每种疾病都是关系最强的结论,但是此结论在医学常识上是不成立的。
现有技术还提供了相关的医疗知识图谱的构建方法,该技术方案提供的算法强依赖于人工标注的训练数据量,导致工程实施成本过高。例如技术方案中需进行的“匹配分类操作”,以及进行人工标注部分数据的实体与实体之间的关系,训练机器学习分类器实现分类。根据机器学习算法的一般规律,只有训练集数据与总体数据处于独立同分布,且训练集数据包含了总体数据的所有类别的情况下,才可能得到较好的结果。但是,面对浩如烟海的医学知识,为了得到满足要求的训练集,只能人工标注大量数据,这在工程上的实施成本过高。
可见,现有技术虽然提供了多种相关的医疗知识图谱的构建方法,但是均存在不同程度的问题。
图1示出了根据本公开的实施例的医疗知识图谱的构建方法的流程示意图。本实施例提供的医疗知识图谱的构建方法,至少在一定程度上克服了利用现有技术提供的方法确定的医疗知识图谱准确性较低的问题。
其中,本实施例提供的医疗知识图谱的构建方法的执行主体可以是具有计算处理功能的设备,比如服务器等。
参考图1,本实施例提供的医疗知识图谱的构建方法,包括:
步骤S101,获取临床数据集,所述临床数据集包括:多条就诊记录;
步骤S102,在所述就诊记录中计算主诊断信息,并基于所述主诊断信息进行数据清洗;
步骤S103,从清洗后的数据中提取实体,根据至少两类实体确定实体关系对以及所述实体关系对中实体之间的关系权重;以及,
步骤S104,根据所述实体关系对和所述实体关系对中实体之间的关系权重构建医疗知识图谱。
在图1所示实施例的技术方案中,从临床数据集的多条就诊记录中获取主诊断信息,进而基于主诊断信息进行数据清洗。其中,获取主诊断信息以及基于主诊断信息进行数据清洗有利于有效地去除干扰数据,达到结合医学逻辑提取与构建医疗知识图谱相关的有效数据的目的,从而构建有效实体关系对,进而有利于提高所构建医疗知识图谱的准确性。同时,以将清洗后的数据作为获取实体的一个数据源,获取实体的数据源还包括上述主诊断信息、就诊记录等。通过设置多个数据源有利于获取不同实体的灵活性,进一步有利于准确地获取实体信息,进而也有利于提高所构建医疗知识图谱的准确性。
另外,本技术方案基于海量临床数据(即真实世界数据)进行数据挖掘,便可以完成对医学知识图谱的构建,可见,本技术方案中构建医学知识图谱的过程支持冷启动,无需依赖于既有医学知识图谱。
以下对图1中所示的各个步骤的实现细节进行详细阐述:
在示例性的实施例中,在步骤S101中获取包括多条就诊记录的临床数据集的具体实施方式,可以是利用电子病历中的结构化信息,以获取结构化的临床数据集。
其中,示例性的,上述电子病历包括:脱敏后的患者信息表、症状表、检查表、检验表、医嘱表、诊断表、手术表、病案首页表等记录表。为了提高构建医疗知识图谱所包含知识面的完整性,将上述各个电子病历信息作为原始数据源。并进一步地,通过步骤S102计算主诊断的方式大幅减少干扰数据,达到结合医学逻辑提取与构建医疗知识图谱相关的有效数据的目的,从而构建有效实体关系对,进而有利于提高所构建医疗知识图谱的准确性。
在示例性的实施例中,为了便于对就诊记录的后期处理,上述每一条就诊记录由唯一的就诊标识来进行区分。为了便于对就诊记录进行针对同一患者的处理,还可以在每一条就诊记录中设置患者标识,也就是说,属于同一患者的就诊记录包含有相同的患者标识。
相较于相关技术中一般使用自然语言处理(Natural Language Processing,简称:NLP)的方式从病历原始文本提取实体。本实施例提供的技术方案使用结构化信息的处理方法获取包含治疗记录的临床数据集,进而根据治疗记录获取各种实体,具有减少噪声的作用,例如从症状表提取症状名称的准确度远远高于从一般开放文本提取。同时,这些结构化信息是电子病历系统原生的,因此本实施例提供的而技术方案获取的各个实体贴近临床实际,有利于提高构建医学知识图谱的准确度。
在示例性的实施例中,步骤S101中获取的每条诊断记录均包含唯一的诊断标识,以通过诊断标识区分不同的诊断记录,从而有利于提高以下各个步骤中的实体提取的便利性。
继续参考图1,在步骤S101中获取包含多条就诊记录的临床数据集之后,可以在步骤S102获取主诊断信息并在步骤S103中获取各种实体。
在示例性的实施例中,步骤S103中的各种实体可以包括:与主诊断信息关联的疾病名称实体、非诊断信息实体和患者信息实体等三类实体。
其中,上述主诊断信息为所述就诊记录中的主要疾病信息。上述主诊断信息的作用可以是对数据进行清洗,将清洗后的数据作为用于获取实体的一个数据源,上述主诊断信息的作用还可以是用于获取实体等。当然,主诊断信息的作用不限于上述两种。
在示例性的实施例中,步骤S102中在上述就诊记录中计算主诊断信息的具体实施方式,可以是在上述就诊记录中提取诊断类型,并根据诊断类型中的顺位信息确定主诊断信息,进一步地,可以根据主诊断信息确定与所述主诊断信息关联的疾病名称实体。
具体地,在示例性的实施例中,图2示出了根据本公开的实施例的主诊断信息的处理方法的流程示意图。以下结合图2对步骤S102的计算主诊断信息,以及根据主诊断信息确定与所述主诊断信息关联的疾病名称实体的具体实现方式进行说明。
参考图2,根据本公开的实施例的主诊断信息的处理方法,包括步骤S201和步骤S202。
在步骤S201中,在所述就诊记录中提取诊断类型,根据诊断类型中的顺位信息确定主诊断信息。
在示例性的实施例中,对于每一次就诊记录,计算其主诊断信息。所谓“主诊断信息”,指的是每一就诊记录中,患者此次就诊所患有的所有疾病中哪一种是最主要的疾病。本实施例提供的技术方案中,通过对每一次就诊获取主诊断信息的方式,在每次就诊信息中消除了无用疾病信息的干扰,有利于提高主要疾病的治疗脉络的清晰度,从而有利于提高医疗知识图谱的构建准确度。
在示例性的实施例中,对于每一就诊记录,计算主诊断信息的方法可以包括:在诊记录中提取医生给出的诊断类型,其中,诊断类型可以是:死亡诊断、出院诊断、术后诊断、病理诊断、术前诊断、入院诊断、门诊诊断、或其他与诊断相关的医疗记录信息等。根据上述针对类型下的诊断顺位信息确定主诊断信息。
示例性的,根据死亡诊断中列出的导致患者死亡的顺位的各个病因中,一般第一个病因即为主诊断信息。
在步骤S202中,基于预先设置的结构化标准疾病名称表,确定与所述主诊断信息关联的疾病名称实体。
在示例性的实施例中,提取到就诊记录中的主诊断信息之后,可以在步骤S202中对主诊断信息的标准化,以使得获取到标准的疾病名称实体,从而有利于提高构建医学知识图谱的标准化与准确度。
在示例性的实施例中,在国际疾病分类(international Classification ofdiseases,简称:ICD)的疾病命名标准中搜索主诊断信息相关节点,生成与主诊断信息关联的诊断名称列表。其中,诊断名称列表包括疾病名称。例如,在步骤S201中获取某个患者的主诊断信息为:胃窦恶性肿瘤。然后,在步骤S202中根据ICD的疾病命名标准确定上述主诊断信息对应的ICD编码为C16.301。进而,可以确定此就诊记录中与主诊断信息关联的诊断名称列表:C16.3-幽门窦恶性肿瘤、C16-胃恶性肿瘤。从而,从此就诊记录获取的疾病名称实体为:幽门窦恶性肿瘤和胃恶性肿瘤。
在图2所示实施例提供的技术方案中,对于同一个患者一次就诊中被诊断的多种疾病,识别主诊断信息,从而在每次就诊信息中消除了无用疾病信息的干扰,有利于提高主要疾病的治疗脉络的清晰度,从而有利于提高医疗知识图谱的构建准确度。进一步地,提取到就诊记录中的主诊断信息之后,通过对主诊断信息的标准化,以使得获取到标准的疾病名称实体,从而有利于提高构建医学知识图谱的标准化与准确度。
在示例性的实施例中,据前所述,对于步骤S201中确定的主诊断信息,还可以用来进行数据清洗。此处数据清洗的作用包括:一方面,进一步减少干扰数据,达到结合医学逻辑提取与构建医疗知识图谱相关的有效数据的目的,从而构建有效实体关系对,进而有利于提高所构建医疗知识图谱的准确性。另一方面,以将清洗后的数据作为获取实体的一个数据源,获取实体的数据源还包括上述主诊断信息、就诊记录等。通过设置多个数据源有利于获取不同实体的灵活性,进一步有利于准确地获取实体信息,进而也有利于提高所构建医疗知识图谱的准确性。
具体地,在示例性的实施例中,图3示出了根据本公开的实施例的非诊断实体的获取方法的流程示意图。以下结合图3对步骤S102的基于主诊断信息进行数据清洗,以及确定非诊断信息实体的具体实现方式进行说明。
需要注意的是,本实施例是在图2所示实施例的基础上进行的。例如,本实施例中的技术特征“主诊断信息”与图2所示实施例中的“主诊断信息”相同。
参考图3,根据本公开的实施例的非诊断信息实体的获取方法包括步骤S301和步骤S303,即,分别将就诊记录和主诊断记录作为获取非诊断实体信息的数据源。在本实施例中,与上述主诊断信息相关的非诊断实体可以是疾病/疾病列表的症状信息、治疗信息、检查信息等等。
其中,本实施例中非诊断实体的获取包括两部分,具体包括步骤S301的直接在就诊记录中获取的第一非诊断实体,以及步骤S303的在首诊记录中获取的第二非诊断实体。也就是说,基于不同的分配策略,对于与主诊断信息相关的多种类型的非诊断信息实体,可以分别从两个数据源分别获取不同类型的非诊断实体。也就是说,本技术方案分别从“就诊记录”和“首诊记录”两方面进行数据挖掘,相比现有技术不加区分的对所有病历以均等重要性处理,本实施例提供的技术方案更加贴合医学逻辑,从而有利于提高医学知识图谱的构建准确度。
具体地,可参照以下各个步骤及其具体实施方式的说明。
在步骤S301中,在所述就诊记录中获取与所述主诊断信息相关的第一非诊断信息实体。
在示例性的实施例中,上述第一非诊断信息实体可以包括:用药信息实体和/或手术信息实体。在就诊记录中获取与主诊断信息相关的第一非诊断信息实体的具体实施方式,可以是:从医嘱表提取医生开立的药品医嘱中药品组合和药品实体;从手术表提取手术名称实体;从病案首页或就诊表提取患者的就诊科室实体;以及,从其他数据表提取其他相关实体信息。
在步骤S302中,获取属于同一患者且属于同一主诊断信息的目标就诊记录,在所述目标就诊记录中并获取就诊时间最早的首诊记录。
在示例性的实施例中,可以根据就诊记录中的患者信息,将属于同一患者的就诊记录进行分组,其中,每组对应于一个患者。然后,获取每一组就诊记录中的主诊断作为目标就诊记录,并将属于针对同一主诊断对应的疾病的就诊记录按照时间先后顺序进行排列。最后,获取针就诊时间最早的记录,即为此疾病的首诊记录。
在示例性的实施例中,获取上述首诊记录的过程是基于主诊断信息进行数据清洗的一种具体实施方式。上述首诊记录是结合医学逻辑提取的与构建医疗知识图谱相关的有效数据。相较于主诊断信息,首诊记录提供了一个更小范围的数据源,而从首诊记录中获取实体信息并进一步构建有效实体关系对,有利于提高所构建医疗知识图谱的准确性。
在示例性的实施例中,基于主诊断信息进行数据清洗的另一种具体实施方式,包括:将主诊断信息按照就诊类型归类。示例性的,可以归为:门诊类、急诊类、住院类、体检类等多个不同就诊类型的信息。从而获取实体信息时可以根据就诊类型在对应类型的主诊断信息中获取,有利于提供获取实体信息的效率。
当然,基于主诊断信息进行数据清洗的方式不只限于上述列举的两种。例如,还可以是根据其他分类标准将主诊断信息进行分类等。以下步骤S303为在上述首诊记录中获取实体的实施例,可以作为基于主诊断进行数据清洗得到的数据源中获取实体的一种示例性说明。
在步骤S303中,在所述首诊记录中提取第二非诊断信息实体。
在示例性的实施例中,所述第二非诊断信息实体可以包括:症状信息实体、病史信息实体、检验检查信息实体中的一种或多种。在首诊记录中获取与主诊断信息相关的第二非诊断信息实体的具体实施方式,可以是:对于每一份首诊记录,提取出如下信息:从症状表提取患者的阳性症状和阴性症状实体;从病案首页提取患者现病史、既往史、个人史、家族史、过敏史实体;从检验检查表提取检验、检查实体,实体中包含项目名称和对应结果;以及,从其他数据表提取其他相关实体信息。
需要说明的是,非诊断实体的获取途径包括:所有的就诊记录和首诊记录两种。具体地,在步骤S301对应的所有的就诊记录中获取的第一非诊断实体的类型,与在步骤S303对应的首诊记录中获取的第二非诊断实体的类型之间的差异,可以根据实际情况的需要进行合理的调整。例如,用药信息实体也可以在步骤S303中获取第二非诊断实体时获取,等等。
同时,基于大量病历的分析结果显示,患者由于一种疾病多次就诊中,第一次就诊(即首诊记录)的症状、检验检查结果最具有代表性,随后随着医生的药物、医学处置、手术等治疗手段,病情逐渐好转,其症状减轻,检验检查结果向正常值回归。因此,症状信息实体、病史信息实体、检验检查信息实体一般在首诊记录中获取,而用药信息实体、手术信息实体一般在直接就诊记录中获取。
图3所示实施例提供的技术方案中,通过设置非诊断实体的获取途径包括:所有的就诊记录和首诊记录,可以从不同的数据源中获取非诊断实体。并且可以根据实际的配置策略的不同,在所有的就诊记录对应的数据源中获取不同类型的第一非诊断实体,在首诊记录对应的数据源中获取不同类型的第二非诊断实体。同时,合理处理首诊记录和复诊过程中症状、检验、检查数据的变化,抽取具有代表性的非诊断实体,从而实现更准确的知识挖掘的目的。进一步,提取实体的颗粒度更细,不仅包含有检验项目,还可以包含检验结果的数据,例如与正常值相比,偏高还是偏低等。
在示例性的实施例中,图4示出了根据本公开的实施例的实体关系对和关系权重的确定方法的流程示意图。以下结合图3对步骤S103的具体实现方式进行说明。
参考图4,该实施例的医疗知识图谱的构建方法包括步骤S401-步骤S405。具体的,步骤S401-步骤S403分别用户获取以下三类实体:与主诊断信息关联的疾病名称实体、与主诊断信息相关的非诊断信息实体,以及患者信息实体。其中,步骤S401-步骤S403的执行顺序不做限定,例如,可以骤S401-步骤S403的执行顺序依次可以是:步骤S401、步骤S402和步骤S403,还可以是:步骤S403、步骤S402和步骤S401等。
在步骤S401中,基于预先设置的结构化标准疾病名称表,确定与所述主诊断信息关联的疾病名称实体。
在示例性的实施例中,步骤S401的具体实施方式可以参考步骤S202的具体实施方式,在此不再赘述。
在步骤S402中,在所述就诊记录中获取与所述主诊断信息相关的非诊断信息实体,和/或,在所述首诊记录中提取非诊断信息实体。
其中,所述非诊断信息实体包括但不限于:用药信息实体、手术信息实体、症状信息实体、病史信息实体、检验检查信息实体中的一种或多种。
在示例性的实施例中,步骤S402的具体实施方式可以参考步骤S301和/或步骤S303的具体实施方式,在此不再赘述。
在步骤S403中,在所述就诊记录中,获取患者信息实体,所述患者信息实体包括但不限于:性别实体、年龄实体、生理参数实体中的一种或多种。
在示例性的实施例中,对于脱敏后、不可追踪到原始病患的患者信息实体列表,包含:患者性别、患者年龄、患者生理参数(如:身高、体重等),以及其他必要的患者基本信息,进而确定对应的患者信息实体,依次为:性别实体、年龄实体、生理参数实体等。
在步骤S404中,根据所述疾病名称实体、所述非诊断实体以及所述患者信息实体中至少两类实体之间的关系,确定实体关系对。
在示例性的实施例中,将上述步骤S401中获取的与主诊断信息关联的疾病名称实体,上述步骤S402获取的与主诊断信息相关的非诊断实体,以及,上述步骤S403获取的患者信息实体,三者按照就诊标识进行合并,对于每一个就诊标识(即就诊记录),确定了“诊断实体列表”、“非诊断实体列表”,“患者信息实体列表”三个列表。进一步地,根据实体之间的关联关系在这些列表之间生成实体与实体之间的实体关系对。
示例性的,图5示出了根据本公开的实施例的医学知识图谱的局部结构示意图。参考图5,示出了与主诊断信息关联的疾病名称实体为“2型糖尿病”相关的实体关系,并根据实体关系对构建局部的医学知识图谱。
参考图5,与主诊断信息关联的疾病名称实体为“2型糖尿病”50,与主诊断信息相关的非诊断实体包括:用药信息实体“二甲双胍”511、用药信息实体“吡格列酮”512、手术信息实体“白内障超声乳化抽吸术”513、症状信息实体“口干”514、症状信息实体“多次”515、检验检查信息实体“腹部超声检查”516;同时,患者信息实体包括:性别实体“男”521、年龄实体“80周岁”522、生理参数实体中的身高实体“176厘米”523,以及生理参数实体中的体重实体“70千克”524。
示例性的,包括用于表达一个实体与另一个实体的直接关系的一阶实体关系对,以及二阶实体关系对等高阶实体关系对。其中,一阶实体关系对可以用标准“主语-谓词-宾语”结构表达,例如“疾病实体-相关症状-症状实体”。同时,基于其他限制条件,在知识图谱构建过程中还可以统计二阶或更高阶条件关系对,以增加知识表达能力,提高构建医学知识图谱的准确度。
示例性的,二阶或高阶实体关系对可以是:在同时具有疾病名称实体“肺炎”和患者信息实体“年龄3个月”两个实体存在的条件下,症状信息实体(属于非诊断信息实体)“咳奶”才存在。单独用疾病名称实体“肺炎”的情况下存在“咳奶”,或单独用患者信息实体“年龄3个月”的情况下存在“咳奶”表达不够精确。根据医学知识可以知道,不是所有肺炎患者都可能出现咳奶症状。因此,使用二阶或高阶实体关系对有利于进一步提高医学知识图谱的准确性,使其更准确地实现辅助诊疗、病历质控、智能导诊、自动化核保等多种医学任务。
继续参考图4,在步骤S404中确定实体关系对之后,在步骤S405中,将任一所述实体关系对作为目标关系对,并根据所述目标关系对的频次确定所述目标关系对中包含的实体之间的关系权重。
在示例性的实施例中,将步骤S404中生成的实体关系对进行合并,并统计相同实体关系对的出现次数。并根据目标关系对的频次确定组成目标关系对的实体之间的关系权重。例如,对于<实体1:类型1-实体2:类型2>构成的实体关系对,通过用于信息检索与数据挖掘的常用加权技术(term frequency–inverse document frequency,简称:TF-IDF)的计算来综合考虑实体关系对中起点和终点的关联性,通过关系权重计算模型按照实际数据特点训练和调整区分实体1与实体2属于强关系,还是属于弱关系。
继续参考图1,在确定实体关系对和关系权重之后,在步骤S104中,根据所述实体关系对和所述实体关系对中实体之间的关系权重构建医疗知识图谱。即,在步骤S404的基础上,进一步地,基于上述各个目标关系对以及目标关系对对应的关系权重,构建医学知识图谱。
在本示例性的实施例提供的技术方案中,如果不存在既有医学知识图谱,则将上述生成的实体关系对导入数据库则可以形成医学知识图谱,从而完成医学知识图谱的构建。也就是说,本技术方案中构建医学知识图谱的过程支持冷启动,无需依赖于既有医学知识图谱。
在示例性的实施例中,图6示出了根据本公开的再一实施例的医疗知识图谱的构建方法的流程示意图。需要说明的是,本实施例是在以上各个实施例的基础上进行的。例如,本实施例中的技术特征“实体关系对”与上述各个实施例中的“实体关系对”相同。
参考图6,该实施例的医疗知识图谱的构建方法包括步骤S601和步骤S607。
在示例性的实施例中,根据所述疾病名称实体、所述非诊断实体以及所述患者信息实体之间的关系,确定实体关系对之后,在步骤S601中,获取既有医学知识图谱。
其中,既有医学知识图谱可以是从文献知识或其他知识库获得的既有医学知识图谱。
在步骤S602中,将任一所述实体关系对作为目标关系对,并根据所述目标关系对的频次确定所述目标关系对中包含的实体之间的关系权重。
在示例性的实施例中,步骤S602的具体实施方式可以参考步骤S405的具体实施方式,在此不再赘述。
进一步地,基于上述关系权重,通过上述目标关系对调整既有医学知识图谱。
在示例性的实施例中,上述基于所述关系权重,通过所述目标关系对调整所述既有医学知识图谱的具体实施方式可以包括以下步骤S603-步骤S607。
在步骤S603中,对于所述目标关系对,判断所述既有医学知识图谱中是否存在相同的实体关系对。
在示例性的实施例中,在既有医学知识图谱中寻找是否存在目标关系对。若所述既有医学知识图谱中存在相同的实体关系对,则执行步骤S604;若所述既有医学知识图谱中未存在相同的实体关系对,则执行步骤S605-步骤S607。
在步骤S604中,根据所述目标关系对的关系权重,更新所述既有医学知识图谱的相同的实体关系对的权重。从而使得调整后的医学知识图谱具有更高的准确度,更加符合实际医学需求。
在步骤S605中,获取参考门限值,并判断所述目标关系对的关系权重是否高于所述参考门限值。
在示例性的实施例中,获取上述参考门限值的方式可以是:将所有的同类型的关系权重汇总成权重数据集,取权重数据集的统计指标(例如均值或中位数)作为参考门限。
在示例性的实施例中,若所述目标关系对的关系权重低于所述参考门限值,说明既有医学知识图谱不存在同样的关系,且数据挖掘出来的权重低于参考门限,则执行步骤S606:舍弃所述目标关系对。
在示例性的实施例中,若所述目标关系对的关系权重不低于所述参考门限值,说明既有医学知识图谱不存在同样的关系,且数据挖掘出来的权重高于参考门限,则执行步骤S607:对所述目标关系对进一步验证。以将数据挖掘出来的关系存入“候选知识列表”,转人工进一步分析整理。
在图6所示示例性中,说明本技术方案不仅适用于冷启动的情况,还适用于存在既有医学知识图谱的情况,通过知识图谱融合的方式对既有医学知识图谱进行调整。具体地,通过本技术方案提供的上述知识挖掘过程,其挖掘的结果可以反哺既有医学知识图谱,包括更新既有医学知识图谱中实体关系对中的关系权重,还包括发现既有医学知识图谱尚未包含的实体关系对。通过本技术方案对既有医学知识图谱的调整,使得调整后的医学知识图谱具有更高的准确度,更加符合实际医学需求。
同时,通过以上各个实施例提供的技术方案可见,本技术方案中无需通过人工标注大量数据,从而避免相关技术提供的构建方法在工程上的实施成本过高的问题。另外,本技术方案采用临床产生的真实世界数据获取结构化的临床数据集,进而根据其中的就诊记录确定各种实体,根据实体间关系确定实体关系对以及确定对应的频次,从而构建医学知识图谱。可见,本技术方案也不存在相关技术提供的构建方法与实际情况背离而导致错误知识的问题。
以下介绍本公开的装置实施例,可以用于执行本公开上述的医疗知识图谱的构建方法。
图7示出了根据本公开的实施例的医疗知识图谱的构建装置的结构示意图,参考图7,本实施例提供的一种医疗知识图谱的构建装置700,包括:临床数据集获取模块701、数据清洗模块702、实体获取模块703和医学知识图谱构建模块704。
其中,临床数据集获取模块701,用于获取临床数据集,所述临床数据集包括:多条就诊记录;
数据清洗模块702,用于在所述就诊记录中计算主诊断信息,并基于所述主诊断信息进行数据清洗;
实体获取模块703,用于从清洗后的数据中提取实体,根据至少两类实体确定实体关系对以及所述实体关系对中实体之间的关系权重;以及,
医学知识图谱构建模块704,用于根据所述实体关系对和所述实体关系对中实体之间的关系权重构建医疗知识图谱。
在示例性的实施例中,基于前述方案,上述数据清洗模块702,包括:主诊断信息单元和疾病名称实体确定单元。
其中,上述主诊断信息单元用于在所述就诊记录中提取诊断类型,根据诊断类型中的顺位信息确定主诊断信息;其中,所述主诊断信息为所述就诊记录中的主要疾病信息。
在示例性的实施例中,基于前述方案,上述数据清洗模块702,还包括:首诊记录获取单元。
其中,上述首诊记录获取单元用于获取属于同一患者且属于同一主诊断信息的目标就诊记录,在所述目标就诊记录中并获取就诊时间最早的首诊记录。
在示例性的实施例中,基于前述方案,根据所述就诊记录,上述实体获取模块703,包括:第一实体获取单元、第二实体获取单元、第三实体获取单元、实体关系对获取单元和关系权重获取单元。
其中,上述第一实体获取单元用于:基于预先设置的结构化标准疾病名称表,确定与所述主诊断信息关联的疾病名称实体;
上述第二实体获取单元用于:在所述就诊记录中获取与所述主诊断信息相关的非诊断信息实体,和/或,在所述首诊记录中提取非诊断信息实体,其中,所述非诊断信息实体包括但不限于:用药信息实体、手术信息实体、症状信息实体、病史信息实体、检验检查信息实体中的一种或多种;
上述第三实体获取单元用于:在所述就诊记录中,获取患者信息实体,所述患者信息实体包括但不限于:性别实体、年龄实体、生理参数实体中的一种或多种;
上述实体关系对获取单元用于:根据所述疾病名称实体、所述非诊断实体以及所述患者信息实体中至少两类实体之间的关系,确定实体关系对;
上述关系权重获取单元用于:将任一所述实体关系对作为目标关系对,并根据所述目标关系对的频次确定所述目标关系对中包含的实体之间的关系权重。
在示例性的实施例中,基于前述方案,上述医疗知识图谱的构建装置700,还包括:患者信息实体获取模块。
其中,上述患者信息实体获取模块用于:在所述就诊记录中,获取患者信息实体,所述患者信息实体包括但不限于:性别实体、年龄实体、生理参数实体中的一种或多种。
其中,上述医疗知识图谱构建模块704,具体用于:
根据所述疾病名称实体、所述非诊断实体以及所述患者信息实体之间的关系,确定实体关系对,以根据所述实体关系对构建医疗知识图谱。
在示例性的实施例中,基于前述方案,上述医疗知识图谱的构建装置700,还包括:既有医学知识图谱获取模块、关系权重获取模块和调整模块。
其中,上述既有医学知识图谱获取模块用于:获取既有医学知识图谱;
上述关系权重获取模块用于:将任一所述实体关系对作为目标关系对,并根据所述目标关系对的频次确定所述目标关系对中包含的实体之间的关系权重;以及,
上述调整模块用于:基于所述关系权重,通过所述目标关系对调整所述既有医学知识图谱。
在示例性的实施例中,基于前述方案,上述调整模块,包括:第一判断单元和更新单元。
其中,上述第一判断单元用于:对于所述目标关系对,判断所述既有医学知识图谱中是否存在相同的实体关系对;
若所述既有医学知识图谱中存在相同的实体关系对,则上述更新单元用于:根据所述目标关系对的关系权重,更新所述既有医学知识图谱的相同的实体关系对的权重。
在示例性的实施例中,基于前述方案,上述调整模块,还包括:第二判断单元和舍弃单元。
若所述既有医学知识图谱中未存在相同的实体关系对,则:
上述第二判断单元用于:获取参考门限值,并判断所述目标关系对的关系权重是否高于所述参考门限值;
若所述目标关系对的关系权重低于所述参考门限值,则上述舍弃单元用于舍弃所述目标关系对。
由于本公开的示例实施例的医疗知识图谱的构建装置的各个功能模块与上述医疗知识图谱的构建方法的示例实施例的步骤对应,因此对于本公开装置实施例中未披露的细节,请参照本公开上述的医疗知识图谱的构建方法的实施例。
此外,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。
所属技术领域的技术人员能够理解,本公开的各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
在本公开的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本公开的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。
参考图8所示,描述了根据本公开的实施方式的用于实现上述方法的程序产品800,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本公开的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
在本公开的示例性实施例中,还提供了一种能够实现上述方法的电子设备。
下面参照图9来描述根据本公开的这种实施方式的电子设备900。图9显示的电子设备900仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图9所示,电子设备900以通用计算设备的形式表现。电子设备900的组件可以包括但不限于:上述至少一个处理单元910、上述至少一个存储单元920、连接不同系统组件(包括存储单元920和处理单元910)的总线930。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元910执行,使得所述处理单元910执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。例如,所述处理单元910可以执行如图1中所示的步骤S101:获取临床数据集,所述临床数据集包括:多条就诊记录;步骤S102:在所述就诊记录中计算主诊断信息,并基于所述主诊断信息进行数据清洗;步骤S103:从清洗后的数据中提取实体,根据至少两类实体确定实体关系对以及所述实体关系对中实体之间的关系权重;步骤S104:根据所述实体关系对和所述实体关系对中实体之间的关系权重构建医疗知识图谱。
存储单元920可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)9201和/或高速缓存存储单元9202,还可以进一步包括只读存储单元(ROM)9203。
存储单元920还可以包括具有一组(至少一个)程序模块9205的程序/实用工具9204,这样的程序模块9205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线930可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备900也可以与一个或多个外部设备1100(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备900交互的设备通信,和/或与使得该电子设备900能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口950进行。并且,电子设备900还可以通过网络适配器960与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器960通过总线930与电子设备900的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备900使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。
此外,上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
Claims (10)
1.一种医疗知识图谱的构建方法,其特征在于,包括:
获取临床数据集,所述临床数据集包括:多条就诊记录;
在所述就诊记录中计算主诊断信息,并基于所述主诊断信息进行数据清洗;
从清洗后的数据中提取实体,根据至少两类实体确定实体关系对以及所述实体关系对中实体之间的关系权重;
根据所述实体关系对和所述实体关系对中实体之间的关系权重构建医疗知识图谱。
2.根据权利要求1所述的医疗知识图谱的构建方法,其特征在于,所述在所述就诊记录中计算主诊断信息,包括:
在所述就诊记录中提取诊断类型,根据诊断类型中的顺位信息确定主诊断信息;
其中,所述主诊断信息为所述就诊记录中的主要疾病信息。
3.根据权利要求1所述的医疗知识图谱的构建方法,其特征在于,所述基于所述主诊断信息进行数据清洗,包括:
获取属于同一患者且属于同一主诊断信息的目标就诊记录,在所述目标就诊记录中并获取就诊时间最早的首诊记录。
4.根据权利要求3所述的医疗知识图谱的构建方法,其特征在于,所述从清洗后的数据中提取类实体,根据至少两类实体确定实体关系对以及所述实体关系对中实体之间的关系权重,包括:
基于预先设置的结构化标准疾病名称表,确定与所述主诊断信息关联的疾病名称实体;
在所述就诊记录中获取与所述主诊断信息相关的非诊断信息实体,和/或,在所述首诊记录中提取非诊断信息实体,其中,所述非诊断信息实体包括但不限于:用药信息实体、手术信息实体、症状信息实体、病史信息实体、检验检查信息实体中的一种或多种;
在所述就诊记录中,获取患者信息实体,所述患者信息实体包括但不限于:性别实体、年龄实体、生理参数实体中的一种或多种;
根据所述疾病名称实体、所述非诊断实体以及所述患者信息实体中至少两类实体之间的关系,确定实体关系对;
将任一所述实体关系对作为目标关系对,并根据所述目标关系对的频次确定所述目标关系对中包含的实体之间的关系权重,根据所述实体关系对和所述关系权重构建医疗知识图谱。
5.根据权利要求1所述的医疗知识图谱的构建方法,其特征在于,还包括:
获取既有医学知识图谱;
将任一所述实体关系对作为目标关系对,并根据所述目标关系对的频次确定所述目标关系对中包含的实体之间的关系权重;
基于所述关系权重,通过所述目标关系对调整所述既有医学知识图谱。
6.根据权利要求5所述的医疗知识图谱的构建方法,其特征在于,基于所述关系权重,通过所述目标关系对调整所述既有医学知识图谱,包括:
对于所述目标关系对,判断所述既有医学知识图谱中是否存在相同的实体关系对;
若所述既有医学知识图谱中存在相同的实体关系对,则根据所述目标关系对的关系权重,更新所述既有医学知识图谱的相同的实体关系对的权重。
7.根据权利要求6所述的医疗知识图谱的构建方法,其特征在于,还包括:
若所述既有医学知识图谱中未存在相同的实体关系对,则:
获取参考门限值,并判断所述目标关系对的关系权重是否高于所述参考门限值;
若所述目标关系对的关系权重低于所述参考门限值,则舍弃所述目标关系对。
8.一种医疗知识图谱的构建装置,其特征在于,包括:
临床数据集获取模块,用于获取临床数据集,所述临床数据集包括:多条就诊记录;
数据清洗模块,用于在所述就诊记录中计算主诊断信息,并基于所述主诊断信息进行数据清洗;
实体获取模块,用于从清洗后的数据中提取实体,根据至少两类实体确定实体关系对以及所述实体关系对中实体之间的关系权重;
医学知识图谱构建模块,用于根据所述实体关系对和所述实体关系对中实体之间的关系权重构建医疗知识图谱。
9.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1至7中任一项所述的医疗知识图谱的构建方法。
10.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至7中任一项所述的医疗知识图谱的构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811624303.5A CN111382275A (zh) | 2018-12-28 | 2018-12-28 | 医疗知识图谱的构建方法、装置、介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811624303.5A CN111382275A (zh) | 2018-12-28 | 2018-12-28 | 医疗知识图谱的构建方法、装置、介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111382275A true CN111382275A (zh) | 2020-07-07 |
Family
ID=71216382
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811624303.5A Pending CN111382275A (zh) | 2018-12-28 | 2018-12-28 | 医疗知识图谱的构建方法、装置、介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111382275A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111899828A (zh) * | 2020-07-31 | 2020-11-06 | 青岛百洋智能科技股份有限公司 | 一种知识图谱驱动的乳腺癌诊疗方案推荐系统 |
CN112150298A (zh) * | 2020-09-28 | 2020-12-29 | 建信金融科技有限责任公司 | 数据处理方法、系统、设备及可读介质 |
CN112509692A (zh) * | 2020-12-01 | 2021-03-16 | 北京百度网讯科技有限公司 | 用于匹配医学表达的方法、装置、电子设备及存储介质 |
CN112732940A (zh) * | 2021-01-15 | 2021-04-30 | 医渡云(北京)技术有限公司 | 基于模型的医学知识图谱的推理方法、装置、设备及介质 |
CN112786205A (zh) * | 2020-12-31 | 2021-05-11 | 医渡云(北京)技术有限公司 | 基于数据模型的症候群预警方法、装置、介质及设备 |
CN112836512A (zh) * | 2021-01-27 | 2021-05-25 | 山东众阳健康科技集团有限公司 | 基于自然语义处理和知识图谱的icd-11编码检索方法 |
CN113077873A (zh) * | 2021-05-06 | 2021-07-06 | 井颐医疗信息技术(杭州)有限公司 | 一种中医临床决策支持系统及方法 |
CN113282761A (zh) * | 2021-05-27 | 2021-08-20 | 平安科技(深圳)有限公司 | 科室信息的推送方法、装置、设备以及存储介质 |
CN113571179A (zh) * | 2021-07-09 | 2021-10-29 | 清华大学 | 基于知识图谱的指标提取方法和装置 |
CN114388109A (zh) * | 2021-11-29 | 2022-04-22 | 杭州火树科技有限公司 | 主手术识别方法、装置、计算机设备和存储介质 |
CN114579626A (zh) * | 2022-03-09 | 2022-06-03 | 北京百度网讯科技有限公司 | 数据处理方法、数据处理装置、电子设备和介质 |
CN114937504A (zh) * | 2022-05-12 | 2022-08-23 | 好人生(上海)健康科技有限公司 | 一种基于慢病大数据生成健康管理知识图谱的方法和装置 |
CN115033708A (zh) * | 2022-05-20 | 2022-09-09 | 阿里巴巴(北京)软件服务有限公司 | 一种医疗知识图谱的构建方法、设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105701342A (zh) * | 2016-01-12 | 2016-06-22 | 西北工业大学 | 基于代理的直觉模糊理论医疗诊断模型的构建方法及装置 |
CN107145744A (zh) * | 2017-05-08 | 2017-09-08 | 合肥工业大学 | 医学知识图谱的构建方法、装置及辅助诊断方法 |
CN107609163A (zh) * | 2017-09-15 | 2018-01-19 | 南京深数信息科技有限公司 | 医学知识图谱的生成方法、存储介质及服务器 |
CN107799160A (zh) * | 2017-10-26 | 2018-03-13 | 医渡云(北京)技术有限公司 | 用药辅助决策方法及装置、存储介质、电子设备 |
CN108389614A (zh) * | 2018-03-02 | 2018-08-10 | 西安交通大学 | 基于图像分割与卷积神经网络构建医学影像图谱的方法 |
CN108388580A (zh) * | 2018-01-24 | 2018-08-10 | 平安医疗健康管理股份有限公司 | 融合医学知识及应用病例的动态知识图谱更新方法 |
CN108461151A (zh) * | 2017-12-15 | 2018-08-28 | 北京大学深圳研究生院 | 一种知识图谱的逻辑增强方法及装置 |
-
2018
- 2018-12-28 CN CN201811624303.5A patent/CN111382275A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105701342A (zh) * | 2016-01-12 | 2016-06-22 | 西北工业大学 | 基于代理的直觉模糊理论医疗诊断模型的构建方法及装置 |
CN107145744A (zh) * | 2017-05-08 | 2017-09-08 | 合肥工业大学 | 医学知识图谱的构建方法、装置及辅助诊断方法 |
CN107609163A (zh) * | 2017-09-15 | 2018-01-19 | 南京深数信息科技有限公司 | 医学知识图谱的生成方法、存储介质及服务器 |
CN107799160A (zh) * | 2017-10-26 | 2018-03-13 | 医渡云(北京)技术有限公司 | 用药辅助决策方法及装置、存储介质、电子设备 |
CN108461151A (zh) * | 2017-12-15 | 2018-08-28 | 北京大学深圳研究生院 | 一种知识图谱的逻辑增强方法及装置 |
CN108388580A (zh) * | 2018-01-24 | 2018-08-10 | 平安医疗健康管理股份有限公司 | 融合医学知识及应用病例的动态知识图谱更新方法 |
CN108389614A (zh) * | 2018-03-02 | 2018-08-10 | 西安交通大学 | 基于图像分割与卷积神经网络构建医学影像图谱的方法 |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111899828A (zh) * | 2020-07-31 | 2020-11-06 | 青岛百洋智能科技股份有限公司 | 一种知识图谱驱动的乳腺癌诊疗方案推荐系统 |
CN112150298A (zh) * | 2020-09-28 | 2020-12-29 | 建信金融科技有限责任公司 | 数据处理方法、系统、设备及可读介质 |
CN112150298B (zh) * | 2020-09-28 | 2022-12-09 | 建信金融科技有限责任公司 | 数据处理方法、系统、设备及可读介质 |
CN112509692A (zh) * | 2020-12-01 | 2021-03-16 | 北京百度网讯科技有限公司 | 用于匹配医学表达的方法、装置、电子设备及存储介质 |
CN112509692B (zh) * | 2020-12-01 | 2024-05-28 | 北京百度网讯科技有限公司 | 用于匹配医学表达的方法、装置、电子设备及存储介质 |
CN112786205A (zh) * | 2020-12-31 | 2021-05-11 | 医渡云(北京)技术有限公司 | 基于数据模型的症候群预警方法、装置、介质及设备 |
CN112786205B (zh) * | 2020-12-31 | 2022-02-11 | 医渡云(北京)技术有限公司 | 基于数据模型的症候群预警方法、装置、介质及设备 |
CN112732940A (zh) * | 2021-01-15 | 2021-04-30 | 医渡云(北京)技术有限公司 | 基于模型的医学知识图谱的推理方法、装置、设备及介质 |
CN112836512A (zh) * | 2021-01-27 | 2021-05-25 | 山东众阳健康科技集团有限公司 | 基于自然语义处理和知识图谱的icd-11编码检索方法 |
CN113077873B (zh) * | 2021-05-06 | 2022-11-22 | 井颐医疗信息技术(杭州)有限公司 | 一种中医临床决策支持系统及方法 |
CN113077873A (zh) * | 2021-05-06 | 2021-07-06 | 井颐医疗信息技术(杭州)有限公司 | 一种中医临床决策支持系统及方法 |
CN113282761A (zh) * | 2021-05-27 | 2021-08-20 | 平安科技(深圳)有限公司 | 科室信息的推送方法、装置、设备以及存储介质 |
CN113571179A (zh) * | 2021-07-09 | 2021-10-29 | 清华大学 | 基于知识图谱的指标提取方法和装置 |
CN113571179B (zh) * | 2021-07-09 | 2023-01-31 | 清华大学 | 基于知识图谱的指标提取方法和装置 |
CN114388109A (zh) * | 2021-11-29 | 2022-04-22 | 杭州火树科技有限公司 | 主手术识别方法、装置、计算机设备和存储介质 |
CN114579626A (zh) * | 2022-03-09 | 2022-06-03 | 北京百度网讯科技有限公司 | 数据处理方法、数据处理装置、电子设备和介质 |
CN114579626B (zh) * | 2022-03-09 | 2023-08-11 | 北京百度网讯科技有限公司 | 数据处理方法、数据处理装置、电子设备和介质 |
CN114937504A (zh) * | 2022-05-12 | 2022-08-23 | 好人生(上海)健康科技有限公司 | 一种基于慢病大数据生成健康管理知识图谱的方法和装置 |
CN115033708A (zh) * | 2022-05-20 | 2022-09-09 | 阿里巴巴(北京)软件服务有限公司 | 一种医疗知识图谱的构建方法、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111382275A (zh) | 医疗知识图谱的构建方法、装置、介质及电子设备 | |
US11200968B2 (en) | Verifying medical conditions of patients in electronic medical records | |
Pezoulas et al. | Medical data quality assessment: On the development of an automated framework for medical data curation | |
CN107799160B (zh) | 用药辅助决策方法及装置、存储介质、电子设备 | |
CN109670054B (zh) | 知识图谱构建方法、装置、存储介质及电子设备 | |
EP3977343A1 (en) | Systems and methods of clinical trial evaluation | |
US20160042134A1 (en) | Method of calculating a score of a medical suggestion as a support in medical decision making | |
CN113345577B (zh) | 诊疗辅助信息的生成方法、模型训练方法、装置、设备以及存储介质 | |
US20140122126A1 (en) | Clinical information processing | |
US10565315B2 (en) | Automated mapping of service codes in healthcare systems | |
WO2003040965A2 (en) | Patient data mining | |
CN110827941A (zh) | 电子病历信息校正方法及系统 | |
US20150106125A1 (en) | Automated Mapping of Service Codes in Healthcare Systems | |
US11288296B2 (en) | Device, system, and method for determining information relevant to a clinician | |
US11527312B2 (en) | Clinical report retrieval and/or comparison | |
US20200303071A1 (en) | Implementation of machine-learning based query construction and pattern identification through visualization in user interfaces | |
McKay et al. | Assessing the uniformity of uveitis clinical concepts and associated ICD-10 codes across health care systems sharing the same electronic health records system | |
CN116580802A (zh) | 信息处理方法、装置、设备、存储介质和程序产品 | |
Chandra et al. | Natural language Processing and Ontology based Decision Support System for Diabetic Patients | |
CN110993116A (zh) | 诊疗数据提取方法及装置、电子设备、存储介质 | |
CN110610766A (zh) | 基于症状特征权重推导疾病概率的装置和存储介质 | |
US20150339602A1 (en) | System and method for modeling health care costs | |
US11488695B2 (en) | Expression of clinical logic with positive and negative explainability | |
CN111916202A (zh) | 基于强化学习的临床决策支持设备及方法 | |
CN109522422A (zh) | 医疗文献推送方法、系统、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200707 |
|
RJ01 | Rejection of invention patent application after publication |