CN111767410B - 临床医疗知识图谱的构建方法、装置、设备及存储介质 - Google Patents

临床医疗知识图谱的构建方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111767410B
CN111767410B CN202010615467.2A CN202010615467A CN111767410B CN 111767410 B CN111767410 B CN 111767410B CN 202010615467 A CN202010615467 A CN 202010615467A CN 111767410 B CN111767410 B CN 111767410B
Authority
CN
China
Prior art keywords
information
entity
medical
knowledge graph
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010615467.2A
Other languages
English (en)
Other versions
CN111767410A (zh
Inventor
宋文鸿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Ping An Smart Healthcare Technology Co ltd
Original Assignee
Shenzhen Ping An Smart Healthcare Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Ping An Smart Healthcare Technology Co ltd filed Critical Shenzhen Ping An Smart Healthcare Technology Co ltd
Priority to CN202010615467.2A priority Critical patent/CN111767410B/zh
Publication of CN111767410A publication Critical patent/CN111767410A/zh
Application granted granted Critical
Publication of CN111767410B publication Critical patent/CN111767410B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明涉及大数据技术领域,应用于智慧医疗领域中,揭露了一种临床医疗知识图谱的构建方法、装置、设备及存储介质,用于提高临床知识图谱的准确度。临床医疗知识图谱的构建方法包括:对电子病历文本信息命名实体识别,得到医疗实体信息、医疗实体分句信息和医疗实体属性信息;根据医疗实体信息、医疗实体分句信息、医疗实体属性信息生成目标三元组信息和目标实体属性键值对信息;根据目标三元组信息和目标实体属性键值对信息生成并抽样审核待审核的临床医疗知识图谱;当审核结果小于预置阈值时,优化待审核的临床医疗知识图谱,得到全科临床医疗知识图谱。本发明还涉及区块链技术,全科临床医疗知识图谱可存储于区块链节点中。

Description

临床医疗知识图谱的构建方法、装置、设备及存储介质
技术领域
本发明涉及大数据技术的知识图谱绘制领域,尤其涉及一种临床医疗知识图谱的构建方法、装置、设备及存储介质。
背景技术
在医疗信息化高速发展、人工智能技术在医疗行业大规模应用的时代,医疗行业的各种信息系统中积累了庞大的数据,既包括结构化信息,例如,各种医疗系统中的数据库中保存的就诊、检查或者检验信息。也包括非结构化信息,例如,各种病历文书归档的文本信息。随着人工智能的大量应用,为确保人工智能相关应用的精确度和可信度,需要大量的结构化的医疗知识来做好底层支撑,目前能最好提供这种知识支撑的就是知识图谱,医疗知识图谱的覆盖率和精确度可以直接决定了人工智能应用发展。
在现有的技术中,构建知识图谱的过程,就是将积累的大量复杂信息转化成有用知识的一个过程。对结构化信息只需通过一些简单映射或者转化手段,就能自动化形成知识图谱,但是针对非结构化的电子病历文本信息,这些来源于疾病治疗过程中的诊断数据,对临床医疗具有重要的指导作用,若仅采用简单映射或者转化方式提取知识图谱,很难充分利用非结构化的电子病历文本信息,而且存在缺乏海量数据的实践检验,也会导致构建的全科临床医疗知识图谱准确度低、覆盖范围有限的问题。
发明内容
本发明的主要目的在于解决现有的构建知识图谱方式缺乏海量数据的实践检验,存在全科临床医疗知识图谱准确度低和覆盖范围有限的问题。
为实现上述目的,本发明第一方面提供了一种临床医疗知识图谱的构建方法,包括:获取目标科室对应的电子病历文本信息,并通过已训练的深度学习模型对所述对应的电子病历文本信息进行命名实体识别,得到医疗实体信息、医疗实体分句信息和医疗实体属性信息;将所述医疗实体信息和所述医疗实体分句信息按照预设三元组规则添加实体之间的关系,得到目标三元组信息;采用所述医疗实体信息对所述医疗实体属性信息添加实体属性关系,得到目标实体属性键值对信息;将所述目标三元组信息和所述目标实体属性键值对信息导入到Neo4j图数据库中,得到待审核的临床医疗知识图谱;按照所述目标科室对所述待审核的临床医疗知识图谱进行抽样审核,得到审核结果;当所述审核结果小于预置阈值时,迭代优化所述待审核的临床医疗知识图谱,得到已优化的临床医疗知识图谱,并对所述已优化的临床医疗知识图谱进行重复抽样审核,当检测到重复抽样审核通过时,基于所述已优化的临床医疗知识图谱生成全科临床医疗知识图谱。
可选的,在本发明第一方面的第一种实现方式中,所述获取目标科室对应的电子病历文本信息,并通过已训练的深度学习模型对所述对应的电子病历文本信息进行命名实体识别,得到医疗实体信息、医疗实体分句信息和医疗实体属性信息,包括:获取目标科室对应的科室标识,所述目标科室用于指示待诊断患者挂号的科室;按照所述对应的科室标识查询预设电子病历文档库,得到目标科室对应的电子病历文本信息,所述预设电子病历文档库用于存储多个单科科室的电子病历文本;通过已训练的深度学习模型对所述对应的电子病历文本信息进行命名实体识别,得到医疗实体信息和医疗实体分句信息,并将所述医疗实体信息和所述医疗实体分句信息保存到电子病历结构化实体信息表中,所述已训练的深度学习模型为BILSTM_CRF模型;按照预设实体属性提取规则从所述医疗实体信息和所述医疗实体分句信息中提取医疗实体属性信息,并将所述医疗实体属性信息保存到电子病历实体属性表中。
可选的,在本发明第一方面的第二种实现方式中,所述将所述医疗实体信息和所述医疗实体分句信息按照预设三元组规则添加实体之间的关系,得到目标三元组信息,包括:从所述电子病历结构化实体信息表中获取所述医疗实体信息和所述医疗实体分句信息,并判断所述医疗实体信息和所述医疗实体分句信息中是否包括疾病实体信息;若所述医疗实体信息和所述医疗实体分句信息中包括疾病实体信息,则对所述疾病实体信息按照预设三元组规则添加实体之间的关系,得到第一实体关系三元组;若所述医疗实体信息和所述医疗实体分句信息中均不包括疾病实体信息,则获取至少一个诊断实体信息,对所述至少一个诊断实体信息进行实体连接,得到第二实体关系三元组;将所述第一实体关系三元组或者所述第二实体关系三元组设置为目标三元组信息,并将所述目标三元组信息导入到预设三元组信息表中。
可选的,在本发明第一方面的第三种实现方式中,所述采用所述医疗实体信息对所述医疗实体属性信息添加实体属性关系,得到目标实体属性键值对信息,包括:从所述电子病历实体属性表中查询所述医疗实体属性信息;按照所述医疗实体信息对所述医疗实体属性信息添加实体属性关系,得到目标实体属性键值对信息,所述实体属性关系包括部位属性和大小属性;将所述目标实体属性键值对信息写入到预设键值对信息表中。
可选的,在本发明第一方面的第四种实现方式中,所述按照所述目标科室对所述待审核的临床医疗知识图谱进行抽样审核,得到审核结果,包括:按照所述目标科室对所述待审核的临床医疗知识图谱设置对应的审批事项和对应的审批信息,所述对应的审批信息包括审批层级、审批类型和目标审批人;按照所述审批层级和所述审批类型将所述审批事项分发至目标审批人对应的审批终端;接收所述审批终端发送的审批结果,并按照所述审批结果更新所述待审核的临床医疗知识图谱对应的审批状态;根据所述审批状态统计审核结果,所述审批结果的取值范围为大于或者等于0,并且小于或者等于1。
可选的,在本发明第一方面的第五种实现方式中,所述当所述审核结果小于预置阈值时,迭代优化所述待审核的临床医疗知识图谱,得到已优化的临床医疗知识图谱,并对所述已优化的临床医疗知识图谱进行重复抽样审核,当检测到重复抽样审核通过时,基于所述已优化的临床医疗知识图谱生成全科临床医疗知识图谱,包括:当所述审核结果小于预置阈值时,对所述目标科室重构三元组关系生成规则,得到重构的三元组关系生成规则;根据所述重构的三元组关系生成规则迭代优化所述目标三元组信息,得到已优化的三元组信息;采用所述已优化的三元组信息迭代优化所述待审核的临床医疗知识图谱,得到已优化的临床医疗知识图谱;对已优化的临床医疗知识图谱进行重复抽样审核,得到优化审核结果,直到所述优化审核结果大于或者等于预置阈值时,确定重复抽样审核通过,并将所述已优化的临床医疗知识图谱更新到预设的临床医疗知识图谱中,得到全科临床医疗知识图谱;将所述全科临床医疗知识图谱发布到目标终端,以使得所述目标终端应用所述全科临床医疗知识图谱。
可选的,在本发明第一方面的第六种实现方式中,在所述获取目标科室对应的电子病历文本信息,并通过已训练的深度学习模型对所述对应的电子病历文本信息进行命名实体识别,得到医疗实体信息、医疗实体分句信息和医疗实体属性信息之前,所述临床医疗知识图谱的构建方法还包括:获取各单科科室对应的电子病历文本集,并对所述对应的电子病历文本集进行文本标注,得到已标注的命名实体语料集;采用所述已标注的命名实体语料集对初始深度学习的神经网络进行训练,得到所述已训练的深度学习模型。
本发明第二方面提供了一种临床医疗知识图谱的构建装置,包括:识别模块,用于获取目标科室对应的电子病历文本信息,并通过已训练的深度学习模型对所述对应的电子病历文本信息进行命名实体识别,得到医疗实体信息、医疗实体分句信息和医疗实体属性信息;第一添加模块,用于将所述医疗实体信息和所述医疗实体分句信息按照预设三元组规则添加实体之间的关系,得到目标三元组信息;第二添加模块,用于采用所述医疗实体信息对所述医疗实体属性信息添加实体属性关系,得到目标实体属性键值对信息;导入模块,用于将所述目标三元组信息和所述目标实体属性键值对信息导入到Neo4j图数据库中,得到待审核的临床医疗知识图谱;审核模块,用于按照所述目标科室对所述待审核的临床医疗知识图谱进行抽样审核,得到审核结果;发布模块,当所述审核结果小于预置阈值时,用于迭代优化所述待审核的临床医疗知识图谱,得到已优化的临床医疗知识图谱,并对所述已优化的临床医疗知识图谱进行重复抽样审核,当检测到重复抽样审核通过时,基于所述已优化的临床医疗知识图谱生成全科临床医疗知识图谱。
可选的,在本发明第二方面的第一种实现方式中,所述识别模块具体用于:获取目标科室对应的科室标识,所述目标科室用于指示待诊断患者挂号的科室;按照所述对应的科室标识查询预设电子病历文档库,得到目标科室对应的电子病历文本信息,所述预设电子病历文档库用于存储多个单科科室的电子病历文本;通过已训练的深度学习模型对所述对应的电子病历文本信息进行命名实体识别,得到医疗实体信息和医疗实体分句信息,并将所述医疗实体信息和所述医疗实体分句信息保存到电子病历结构化实体信息表中,所述已训练的深度学习模型为BILSTM_CRF模型;按照预设实体属性提取规则从所述医疗实体信息和所述医疗实体分句信息中提取医疗实体属性信息,并将所述医疗实体属性信息保存到电子病历实体属性表中。
可选的,在本发明第二方面的第二种实现方式中,所述第一添加模块具体用于:从所述电子病历结构化实体信息表中获取所述医疗实体信息和所述医疗实体分句信息,并判断所述医疗实体信息和所述医疗实体分句信息中是否包括疾病实体信息;若所述医疗实体信息和所述医疗实体分句信息中包括疾病实体信息,则对所述疾病实体信息按照预设三元组规则添加实体之间的关系,得到第一实体关系三元组;若所述医疗实体信息和所述医疗实体分句信息中均不包括疾病实体信息,则获取至少一个诊断实体信息,对所述至少一个诊断实体信息进行实体连接,得到第二实体关系三元组;将所述第一实体关系三元组或者所述第二实体关系三元组设置为目标三元组信息,并将所述目标三元组信息导入到预设三元组信息表中。
可选的,在本发明第二方面的第三种实现方式中,所述第二添加模块具体用于:从所述电子病历实体属性表中查询所述医疗实体属性信息;按照所述医疗实体信息对所述医疗实体属性信息添加实体属性关系,得到目标实体属性键值对信息,所述实体属性关系包括部位属性和大小属性;将所述目标实体属性键值对信息写入到预设键值对信息表中。
可选的,在本发明第二方面的第四种实现方式中,所述审核模块具体用于:按照所述目标科室对所述待审核的临床医疗知识图谱设置对应的审批事项和对应的审批信息,所述对应的审批信息包括审批层级、审批类型和目标审批人;按照所述审批层级和所述审批类型将所述审批事项分发至目标审批人对应的审批终端;接收所述审批终端发送的审批结果,并按照所述审批结果更新所述待审核的临床医疗知识图谱对应的审批状态;根据所述审批状态统计审核结果,所述审批结果的取值范围为大于或者等于0,并且小于或者等于1。
可选的,在本发明第二方面的第五种实现方式中,所述发布模块具体用于:当所述审核结果小于预置阈值时,对所述目标科室重构三元组关系生成规则,得到重构的三元组关系生成规则;根据所述重构的三元组关系生成规则迭代优化所述目标三元组信息,得到已优化的三元组信息;采用所述已优化的三元组信息迭代优化所述待审核的临床医疗知识图谱,得到已优化的临床医疗知识图谱;对已优化的临床医疗知识图谱进行重复抽样审核,得到优化审核结果,直到所述优化审核结果大于或者等于预置阈值时,确定重复抽样审核通过,并将所述已优化的临床医疗知识图谱更新到预设的临床医疗知识图谱中,得到全科临床医疗知识图谱;将所述全科临床医疗知识图谱发布到目标终端,以使得所述目标终端应用所述全科临床医疗知识图谱。
可选的,在本发明第二方面的第六种实现方式中,所述临床医疗知识图谱的构建装置还包括:标注模块,用于获取各单科科室对应的电子病历文本集,并对所述对应的电子病历文本集进行文本标注,得到已标注的命名实体语料集;训练模块,用于采用所述已标注的命名实体语料集对初始深度学习的神经网络进行训练,得到所述已训练的深度学习模型。
本发明第三方面提供了一种临床医疗知识图谱的构建设备,包括:存储器和至少一个处理器,所述存储器中存储有指令;所述至少一个处理器调用所述存储器中的所述指令,以使得所述临床医疗知识图谱的构建设备执行上述的临床医疗知识图谱的构建方法。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的临床医疗知识图谱的构建方法。
本发明提供的技术方案中,获取目标科室对应的电子病历文本信息,并通过已训练的深度学习模型对所述对应的电子病历文本信息进行命名实体识别,得到医疗实体信息、医疗实体分句信息和医疗实体属性信息;将所述医疗实体信息和所述医疗实体分句信息按照预设三元组规则添加实体之间的关系,得到目标三元组信息;采用所述医疗实体信息对所述医疗实体属性信息添加实体属性关系,得到目标实体属性键值对信息;将所述目标三元组信息和所述目标实体属性键值对信息导入到Neo4j图数据库中,得到待审核的临床医疗知识图谱;按照所述目标科室对所述待审核的临床医疗知识图谱进行抽样审核,得到审核结果;当所述审核结果小于预置阈值时,迭代优化所述待审核的临床医疗知识图谱,得到已优化的临床医疗知识图谱,并对所述已优化的临床医疗知识图谱进行重复抽样审核,当检测到重复抽样审核通过时,基于所述已优化的临床医疗知识图谱生成全科临床医疗知识图谱。本发明实施例中,通过深度学习模型识别已归档的电子病历文本信息,并利用预设的实体关系构建规则结合Neo4j图数据库,采用Neo4j图数据库提高了临床医疗知识图谱的访问与运行效率;创建并审核各单科科室对应的临床医疗知识图谱,基于审核通过的临床医疗知识图谱构建全科临床医疗知识图谱,提高了构建全科临床医疗知识图谱的准确性和覆盖范围。
附图说明
图1为本发明实施例中临床医疗知识图谱的构建方法的一个实施例示意图;
图2为本发明实施例中临床医疗知识图谱的构建方法的另一个实施例示意图;
图3为本发明实施例中临床医疗知识图谱的构建装置的一个实施例示意图;
图4为本发明实施例中临床医疗知识图谱的构建装置的另一个实施例示意图;
图5为本发明实施例中临床医疗知识图谱的构建设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种临床医疗知识图谱的构建方法、装置、设备及存储介质,用于利用非结构化电子病历信息分科室构建临床医疗知识图谱,提高医疗知识图谱中知识的广度和准确度。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中临床医疗知识图谱的构建方法的一个实施例包括:
101、获取目标科室对应的电子病历文本信息,并通过已训练的深度学习模型对对应的电子病历文本信息进行命名实体识别,得到医疗实体信息、医疗实体分句信息和医疗实体属性信息。
其中,目标科室包括肿瘤科、乳腺科和骨科,目标科室也可以为其他单科科室,例如神经外科和心胸外科,具体此处不做限定,也就是,目标科室为医院单科科室。电子病历文本信息为一种非结构化的文本信息,包括疾病信息、症状信息、检查信息和治疗信息。
具体的,服务器从预设数据库表中查询目标科室对应的电子病历文本文件路径;服务器按照对应的电子病历文本文件路径加载电子病历文本文件,并从电子病历文本文件中读取对应的电子病历文本信息;通过已训练的深度学习模型从非结构化的电子病历中提取医疗实体信息和医疗实体分句信息,医疗实体信息为按照预设实体类型提取的实体信息,预设实体类型包括疾病类型、症状类型、检查类型、治疗类型、药物类型和手术类型。进一步地,服务器根据预设实体属性提取规则从医疗实体分句信息中获取医疗实体属性信息。此外,服务器在进行命名实体识别之前,还可以对对应的电子病历文本信息进行分词与词性标注处理,具体此处不做限定。
可以理解的是,本发明的执行主体可以为临床医疗知识图谱的构建装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。
102、将医疗实体信息和医疗实体分句信息按照预设三元组规则添加实体之间的关系,得到目标三元组信息。
其中,实体之间的关系是指不同的实体之间的关联关系,实体之间的关联关系包括一对一、一对多和多对多。具体的,服务器获取医疗实体信息和医疗实体分句信息后,服务器获取预设三元组规则,并按照预设三元组规则对医疗实体信息添加实体之间的关系,得到目标三元组信息。例如,服务器获取的医疗实体分句信息包含疾病实体和其他实体,且都是阳性(阳性用于表示肯定或者有;阴性则表示没有),服务器将自动添加疾病实体跟其他类型实体的关系。例如:医疗实体分句信息为“我院PET-CT示滤泡淋巴瘤双侧扁桃体切除术后,双侧扁头体窝代谢较活跃,疑术后改变”。
该医疗实体分句信息对应的医疗实体信息如下所示:
手术类实体(OPR):双侧扁桃体切除术;
疾病实体(DIS):滤泡淋巴瘤;
检查实体(CHK):PET-CT;
进一步地,服务器添加实体之间的关系为:“PET-CT”is_chk_of“滤泡淋巴瘤”,以及“双侧扁桃体切除术”is_opr_of“滤泡淋巴瘤”。其中,is_chk_of和is_opr_of为预设三元组规则,与手术类实体、疾病实体和检查实体构成了目标三元组信息。
103、采用医疗实体信息对医疗实体属性信息添加实体属性关系,得到目标实体属性键值对信息。
进一步地,服务器从预设数据库表中获取医疗实体属性信息,结合医疗实体信息,自动生成对应的实体属性键值对信息。例如:医疗实体分句信息为左乳内下可触及直径约4厘米肿块,左腋窝可触及直径约1厘米淋巴结数个。服务器确定对应的医疗实体信息对医疗实体属性信息如下所示:
症状实体(SYN):肿块;
属性:(部位)左乳内下,(大小)4厘米;
则服务器添加实体属性关系后,得到的目标实体属性键值对信息如下所示:
部位(positiion):左乳内下;大小(size):4厘米。
104、将目标三元组信息和目标实体属性键值对信息导入到Neo4j图数据库中,得到待审核的临床医疗知识图谱。
进一步地,服务器调用预设Java接口将已生成的目标三元组信息和实体属性键值对信息进行数据去重处理,得到已去重的实体关系信息,并将所述已去重的实体关系信息加载到Neo4j图数据库中,形成待审核的临床医疗知识图谱。待审核的临床医疗知识图谱包括节点和边。其中,节点为对应的医疗实体信息,由一个全局唯一标识表示,边用于指示用于连接两个节点。服务器采用属性描述节点和边的特性,因此,临床医疗知识图谱就是将所有不同种类的医疗实体信息连接在一起,且不同医疗实体信息具有对应的医疗实体属性的一个关系网络。同时,数据去重处理还需要考虑词语变形和同义词变化的情形,例如,MTD与最大耐受剂量是同义词,以使得待审核的临床医疗知识图谱更准确。
需要说明的是,Neo4j图数据库采用节点和边分别存储实体和关系。节点用于表示实体对象,例如药品、疾病、症状、检查、手术名称均可作为图数据库中的节点。边是指图中连接节点的有向线条,用于表示不同节点之间的关系。例如,将药品、疾病、症状、检查、手术名称之间的医疗实体关系都可以作为图数据库中的边。节点对应有属性值,节点和节点通过边关联,属性用于描述节点或者边的特性。例如疾病对应的症状的部位和大小都是属性。
可以理解的是,Neo4j图数据库采用原生图存储和处理待审核的临床医疗知识图谱,提供优化的关系遍历执行效率,相比较关系数据库,数据表的查询效率显著提升。
105、按照目标科室对待审核的临床医疗知识图谱进行抽样审核,得到审核结果。
其中,抽样审核的目的是使得待审核的临床医疗知识图谱更为准确,以便于提高临床医疗知识图谱实际应用的准确性。可选的,服务器将待审核的临床医疗知识图谱上传到图谱数据质控服务器,该图谱数据质控服务器用于对待审核的临床医疗知识图谱进行保存和管理;服务器获取预设的纠错知识库,并根据预设的纠错知识库对待审核的临床医疗知识图谱进行抽样检查,得到审核结果;服务器根据审核结果确定待审核的临床医疗知识图谱的正确率,并基于正确率对待审核的临床医疗知识图谱进行进一步地迭代优化处理。
可以理解的是,服务器采用该种方式对非结构化的电子病历文本信息进行检错、整合、分析,充分利用了智能医疗环境下的大量数据及人工智能处理技术,减少了病历质控的成本;同时通过构建纠错知识库,提高了待审核的临床医疗知识图谱的质检质量。
106、当审核结果小于预置阈值时,迭代优化待审核的临床医疗知识图谱,得到已优化的临床医疗知识图谱,并对已优化的临床医疗知识图谱进行重复抽样审核,当检测到重复抽样审核通过时,基于已优化的临床医疗知识图谱到目标终端生成全科临床医疗知识图谱。
当审核结果小于预置阈值时,也就是目标科室(属于单科科室)对应的待审核的临床医疗知识图谱被审核的准确率小于预置阈值(例如,95%),服务器针对该单科科室进一步细化三元组关系生成规则,重新生成三元组信息,循环执行步骤102至步骤105,直到目标科室最终对应的临床医疗知识图谱(已优化的临床医疗知识图谱)重复审核通过时,得到已优化的临床医疗知识图谱;服务器获取已生成的临床医疗知识图谱;服务器将已优化的临床医疗知识图谱与已生成的临床医疗知识图谱进行结合,得到全科临床医疗知识图谱;然后服务器调用预设接口将目标科室对应的待审核的临床医疗知识图谱发布到目标终端中,形成一个全科临床医疗知识图谱。
进一步地,全科临床医疗知识图谱可采用图数据库集群方式进行存储,各图数据库集群可存储于容器中,例如,LXC容器、mesos容器或者docker容器,均可为图数据库集群分配存储空间,以使得目标终端在应用全科临床医疗知识图谱时,提高全科临床医疗知识图谱应用的可靠性。
可以理解的是,按照单科科室抽取预设数量的医疗实体信息,依据审核结果确定医疗实体关系是否准确,若审核结果超过预置阈值,则确定待审核的临床医疗知识图谱符合预设使用条件,发布到目标终端(例如试用环境供给其他应用系统试用),目标终端包括临床辅助诊断系统。因此,利用非结构化电子病历信息分科室构建全科临床医疗知识图谱,提高全科临床医疗知识图谱的知识广度和准确度,并在全科临床医疗知识图谱的基础上,搭建临床辅助诊断或者合理用药人工智能应用,用于提高各种人工智能应用的准确度。
本发明实施例中,通过深度学习模型识别已归档的电子病历文本信息,并利用预设的实体关系构建规则结合Neo4j图数据库中,采用Neo4j图数据库提高了临床医疗知识图谱的访问与运行效率;创建并审核各单科科室对应的临床医疗知识图谱,基于审核通过的临床医疗知识图谱构建全科临床医疗知识图谱,提高了构建全科临床医疗知识图谱的准确性和覆盖范围。本方案可应用于智慧医疗领域中,从而推动智慧城市的建设。
请参阅图2,本发明实施例中临床医疗知识图谱的构建方法的另一个实施例包括:
201、获取目标科室对应的科室标识,目标科室用于指示待诊断患者挂号的科室。
其中,对应的科室标识用于区分不同的单科科室(待诊断患者挂号的科室),例如,A01代表肿瘤科、A02代表乳腺科和A03代表骨科,科室标识可采用英文字母、数字以及预设字符进行表示,预设字符包括下划线。进一步地,服务器从预设数据库表中读取目标科室对应的科室标识。
可选的,在201步骤之前,首先,服务器获取各单科科室(多个目标科室)对应的电子病历文本集,并对对应的电子病历文本集进行文本标注,得到已标注的命名实体语料集;服务器获取预设数量的单一科室(如:肿瘤科)的电子病历,并按照疾病、症状、检查、检验、用药、手术等实体类型进行文本标注,得到标准化的BIO格式的语料,也就是,得到电子病历标注数据。因此,服务器对对应的电子病历文本信息进行数据清洗、分词和标注,形成已标注的第一命名实体语料集。其次,服务器采用已标注的命名实体语料集对初始深度学习的神经网络进行训练,得到已训练的深度学习模型。例如,服务器利用标注好的语料对BILSTM_CRF深度学习神经网络进行训练出得到已训练的深度学习模型,也就是BILSTM_CRF模型。其次读取已标注的训练数据,依据文本的字符特征构建字向量,以字向量构建文本特征向量作为整个模型的输入;最后经过文本的预处理操作后,得到由字向量构建的文本特征向量,再利用神经网络模型进行进一步的特征抽取以及分类操作,获得非结构化文本中的实体信息。
需要说明的是,已训练的深度学习模型还可以为其其他深度学习模型,具体此处不做限定。利用BILSTM_CRF深度学习网络按照预设迭代次数重新训练模型,最终针对每个单科科室生成一个覆盖率和准确率都较好的模型。然后对文本进行分句、分词、词性标注、命名实体识别、依存句法分析处理,结合命名实体词库和关键词词库构建实体语料库。
202、按照对应的科室标识查询预设电子病历文档库,得到目标科室对应的电子病历文本信息,预设电子病历文档库用于存储多个单科科室的电子病历文本。
具体的,服务器按照对应的科室标识查询预设电子病历文档库,得到电子病历文本对应的路径信息;服务器按照对应的路径信息读取电子病历文本;服务器从电子病历文本中解析得到目标科室对应的电子病历文本信息。
203、通过已训练的深度学习模型对对应的电子病历文本信息进行命名实体识别,得到医疗实体信息和医疗实体分句信息,并将医疗实体信息和医疗实体分句信息保存到电子病历结构化实体信息表中,已训练的深度学习模型为BILSTM_CRF模型。
服务器可采用BILSTM_CRF模型对对应的电子病历文本信息进行命名实体识别,得到医疗实体信息和医疗实体分句信息。例如,服务器获取的医疗实体信息和医疗实体分句信息如下所示:
实体名称:非霍奇金淋巴瘤;
实体位置:(15,21);
实体阴阳性:阳性;
实体的分句内容:转诊我院,我院病理会诊结果示非霍奇金淋巴瘤,B细胞性。其中,对应的医疗实体信息包括实体名称、实体位置信息和实体的阴阳性。进一步地,服务器将医疗实体信息和医疗实体分句信息保存到电子病历结构化实体信息表中,以使得医疗实体信息和医疗实体分句信息被重复利用。
204、按照预设实体属性提取规则从医疗实体信息和医疗实体分句信息中提取医疗实体属性信息,并将医疗实体属性信息保存到电子病历实体属性表中。
其中,预设实体属性提取规则为预先根据具体的电子病历内容,设置预设的实体属性提取规则,该预设的实体属性提取规则包括属性就近规则。具体的,服务器按照标点符号对电子病历内容信息进行语句划分,得到N个句子,其中,N为正整数,标点符号包括句号和感叹号等;服务器利用正则表达式和每个句子从文本电子病历中截取对应的初始实体属性信息,对应的初始属性信息包括属性名称和属性值,比如,大小属性、时刻属性以及长短属性;服务器对对应的初始实体属性信息于预设实体数据表进行匹配,得到每个句子中的所有实体,并判断各实体位置与各属性位置之间的距离,服务器将属性赋值给距离最近的实体,得到医疗实体属性信息,并将对应的医疗实体属性信息保存到电子病历实体属性表中。
205、将医疗实体信息和医疗实体分句信息按照预设三元组规则添加实体之间的关系,得到目标三元组信息。
其中,预设三元组规则为根据预先选定的实体类别,预先设置的自定义的三元组构建规则,而实体类别包括疾病实体信息、症状实体信息以及诊断实体信息。可选的,服务器从电子病历结构化实体信息表中获取医疗实体信息和医疗实体分句信息,并判断医疗实体信息和医疗实体分句信息中是否包括疾病实体信息;若医疗实体信息和医疗实体分句信息中包括疾病实体信息,则服务器按照预设三元组规则添加实体之间的关系;若医疗实体信息和医疗实体分句信息中不包括疾病实体信息,则服务器获取至少一个诊断实体信息,对至少一个诊断实体信息进行实体连接;服务器将已添加实体之间的关系的疾病实体信息或者已进行实体连接的诊断实体信息设置为目标三元组信息,并将目标三元组信息导入到预设三元组信息表中。
需要说明的是,在医疗实体分句信息中,以疾病实体信息为根结点;若服务器未检测到疾病(DIS)实体信息,则服务器获取医疗实体分句信息中的诊断实体信息;若存在多个诊断实体信息,则按照多个诊断实体信息进行处理,症状实体信息为疾病实体信息或者诊断实体信息的下一层结点。例如,医疗实体分句信息为“左乳内下可触及直径约4厘米肿块,左腋窝可触及直径约1厘米淋巴结数个;服务器获取症状类型实体以及入院诊断结果”,服务器获取的医疗实体信息为症状类型实体(SYN):肿块。
由于该医疗实体分句信息中不存在疾病实体信息,但是电子病历文本信息的入院诊断结果是:左乳癌,因此,服务器添加实体之间的关系为:“肿块”is_syn_of“左乳癌”,其中,is_syn_of为实体连接关系。
206、采用医疗实体信息对医疗实体属性信息添加实体属性关系,得到目标实体属性键值对信息。
其中,实体属性关系用于指示医疗实体信息中各实体的属性,包括属性名称和属性值,属性值可以采用字符、字符串、整数或者字符串型进行表示。可选的,服务器从电子病历实体属性表中查询医疗实体属性信息;服务器采用医疗实体信息对医疗实体属性信息添加实体属性关系,得到目标实体属性键值对,实体属性关系包括部位属性和大小属性;服务器将实体键值属性对写入到预设键值对信息表中。
207、将目标三元组信息和目标实体属性键值对信息导入到Neo4j图数据库中,得到待审核的临床医疗知识图谱。
该步骤207与步骤104的描述相似,具体此处不再赘述。
208、按照目标科室对待审核的临床医疗知识图谱进行抽样审核,得到审核结果。
其中,抽样审核用于提高待审核的临床医疗知识图谱的准确性。可选的,服务器按照目标科室对待审核的临床医疗知识图谱设置对应的审批事项和对应的审批信息,对应的审批信息包括审批层级、审批类型和目标审批人;服务器按照审批层级和审批类型将审批事项分发至目标审批人对应的审批终端;服务器接收审批终端发送的审批结果,并根据审批结果更新待审核的临床医疗知识图谱的审批状态;服务器根据审批状态统计审核结果,审批结果的取值范围为大于或者等于0,并且小于或者等于1。因此,审批结果用于确定待审核的临床医疗知识图谱的准确性,当审核结果大于或者等于预置阈值时,服务器调用预设接口将待审核的临床医疗知识图谱发布到目标终端中,例如,预置阈值为0.940(94%)审批结果为0.94(94%)、0.977(97.7%)者1.0(100%),服务器确定审核结果大于或者等于预置阈值,也就是服务器确定待审核的临床医疗知识图谱的准确性高;当审核结果小于预置阈值时,服务器确定待审核的临床医疗知识图谱的准确性低,服务器执行步骤209。
209、当审核结果小于预置阈值时,迭代优化待审核的临床医疗知识图谱,得到已优化的临床医疗知识图谱,并对已优化的临床医疗知识图谱进行重复抽样审核,当检测到重复抽样审核通过时,基于已优化的临床医疗知识图谱生成全科临床医疗知识图谱。
其中,预置阈值的取值范围为0至1之间,其中,当预置阈值为0.968(96.8%),而审核结果为0、0.109、0.500、0.959或者0.967时,服务器确定审核结果小于预置阈值,因此,服务器确定待审核的临床医疗知识图谱未通过审核,仍需要迭代优化并重复抽样审核,直到重复抽样审核通过时,服务器停止优化和审核处理。可选的,当审核结果小于预置阈值时,服务器对目标科室重构三元组关系生成规则,得到重构的三元组关系生成规则;服务器根据重构的三元组关系生成规则迭代优化目标三元组信息,得到已优化的三元组信息;服务器采用已优化的三元组信息迭代优化待审核的临床医疗知识图谱,得到已优化的临床医疗知识图谱;服务器对已优化的临床医疗知识图谱进行抽样审核,得到优化审核结果,直到优化审核结果大于或者等于预置阈值时,确定重复抽样审核通过,并将已优化的临床医疗知识图谱更新到预设的临床医疗知识图谱中,得到全科临床医疗知识图谱,其中,预设的临床医疗知识图谱为预先设置并且审核通过的各单科科室各自对应的临床医疗知识图谱;服务器发布全科临床医疗知识图谱到目标终端,以使得目标终端应用全科临床医疗知识图谱。进一步地,将全科临床医疗知识图谱存储于区块链数据库中,具体此处不做限定。
进一步地,服务器从电子病历结构化实体信息表和电子病历实体属性表中获取对应的实体数据(医疗实体信息、医疗实体分句信息和医疗实体属性信息);服务器将对应的实体数据进行语料加工,得到已重新标注的命名实体语料集;服务器根据已重新标注的命名实体语料集对已训练的深度学习模型按照预设次数进行迭代优化。用于提高已训练的深度学习模型的识别准确率。需要说明的是,服务器在构建全科临床医疗知识图谱以后,服务器按照预设间隔对全科临床医疗知识图谱进行数据更新处理。并从全科临床医疗知识图谱中获取相同疾病不同的诊断方案,以提供临床参考。
本发明实施例中,通过深度学习模型识别已归档的电子病历文本信息,并利用预设的实体关系构建规则结合Neo4j图数据库,创建并审核各单科科室对应的临床医疗知识图谱,采用Neo4j图数据库提高了临床医疗知识图谱的访问与运行效率;基于审核通过的临床医疗知识图谱构建全科临床医疗知识图谱,提高了构建全科临床医疗知识图谱的准确性和覆盖范围。本方案可应用于智慧医疗领域中,从而推动智慧城市的建设。
上面对本发明实施例中临床医疗知识图谱的构建方法进行了描述,下面对本发明实施例中临床医疗知识图谱的构建装置进行描述,请参阅图3,本发明实施例中临床医疗知识图谱的构建装置的一个实施例包括:
识别模块301,用于获取目标科室对应的电子病历文本信息,并通过已训练的深度学习模型对对应的电子病历文本信息进行命名实体识别,得到医疗实体信息、医疗实体分句信息和医疗实体属性信息;第一添加模块302,用于将医疗实体信息和医疗实体分句信息按照预设三元组规则添加实体之间的关系,得到目标三元组信息;第二添加模块303,用于采用医疗实体信息对医疗实体属性信息添加实体属性关系,得到目标实体属性键值对信息;导入模块304,用于将目标三元组信息和目标实体属性键值对信息导入到Neo4j图数据库中,得到待审核的临床医疗知识图谱;审核模块305,用于按照目标科室对待审核的临床医疗知识图谱进行抽样审核,得到审核结果;发布模块306,当审核结果小于预置阈值时,用于迭代优化待审核的临床医疗知识图谱,得到已优化的临床医疗知识图谱,并对已优化的临床医疗知识图谱进行重复抽样审核,当检测到重复抽样审核通过时,发布已优化的临床医疗知识图谱到目标终端,以使得目标终端构建全科临床医疗知识图谱。
本发明实施例中,通过深度学习模型识别已归档的电子病历文本信息,并利用预设的实体关系构建规则结合Neo4j图数据库,采用Neo4j图数据库提高了临床医疗知识图谱的访问与运行效率;创建并审核各单科科室对应的临床医疗知识图谱,基于审核通过的临床医疗知识图谱构建全科临床医疗知识图谱,提高了构建全科临床医疗知识图谱的准确性和覆盖范围。本方案可应用于智慧医疗领域中,从而推动智慧城市的建设。
请参阅图4,本发明实施例中临床医疗知识图谱的构建装置的另一个实施例包括:
识别模块301,用于获取目标科室对应的电子病历文本信息,并通过已训练的深度学习模型对对应的电子病历文本信息进行命名实体识别,得到医疗实体信息、医疗实体分句信息和医疗实体属性信息;第一添加模块302,用于将医疗实体信息和医疗实体分句信息按照预设三元组规则添加实体之间的关系,得到目标三元组信息;第二添加模块303,用于采用医疗实体信息对医疗实体属性信息添加实体属性关系,得到目标实体属性键值对信息;导入模块304,用于将目标三元组信息和目标实体属性键值对信息导入到Neo4j图数据库中,得到待审核的临床医疗知识图谱;审核模块305,用于按照目标科室对待审核的临床医疗知识图谱进行抽样审核,得到审核结果;发布模块306,当审核结果小于预置阈值时,用于迭代优化待审核的临床医疗知识图谱,得到已优化的临床医疗知识图谱,并对已优化的临床医疗知识图谱进行重复抽样审核,当检测到重复抽样审核通过时,发布已优化的临床医疗知识图谱到目标终端,得到全科临床医疗知识图谱。
可选的,识别模块301还可以具体用于:获取目标科室对应的科室标识,目标科室用于指示待诊断患者挂号的科室;按照对应的科室标识查询预设电子病历文档库,得到目标科室对应的电子病历文本信息,预设电子病历文档库用于存储多个单科科室的电子病历文本;通过已训练的深度学习模型对对应的电子病历文本信息进行命名实体识别,得到医疗实体信息和医疗实体分句信息,并将医疗实体信息和医疗实体分句信息保存到电子病历结构化实体信息表中,已训练的深度学习模型为BILSTM_CRF模型;按照预设实体属性提取规则从医疗实体信息和医疗实体分句信息中提取医疗实体属性信息,并将医疗实体属性信息保存到电子病历实体属性表中。
可选的,第一添加模块302还可以具体用于:从电子病历结构化实体信息表中获取医疗实体信息和医疗实体分句信息,并判断医疗实体信息和医疗实体分句信息中是否包括疾病实体信息;若医疗实体信息和医疗实体分句信息中包括疾病实体信息,则对疾病实体信息按照预设三元组规则添加实体之间的关系,得到第一实体关系三元组;若医疗实体信息和医疗实体分句信息中均不包括疾病实体信息,则获取至少一个诊断实体信息,对至少一个诊断实体信息进行实体连接,得到第二实体关系三元组;将第一实体关系三元组或者第二实体关系三元组设置为目标三元组信息,并将目标三元组信息导入到预设三元组信息表中。
可选的,第二添加模块303还可以具体用于:从电子病历实体属性表中查询医疗实体属性信息;按照医疗实体信息对医疗实体属性信息添加实体属性关系,得到目标实体属性键值对信息,实体属性关系包括部位属性和大小属性;将目标实体属性键值对信息写入到预设键值对信息表中。
可选的,审核模块305还可以具体用于:按照目标科室对待审核的临床医疗知识图谱设置对应的审批事项和对应的审批信息,对应的审批信息包括审批层级、审批类型和目标审批人;按照审批层级和审批类型将审批事项分发至目标审批人对应的审批终端;接收审批终端发送的审批结果,并按照审批结果更新待审核的临床医疗知识图谱对应的审批状态;根据审批状态统计审核结果,审批结果的取值范围为大于或者等于0,并且小于或者等于1。
可选的,发布模块306还可以具体用于:当审核结果小于预置阈值时,对目标科室重构三元组关系生成规则,得到重构的三元组关系生成规则;根据重构的三元组关系生成规则迭代优化目标三元组信息,得到已优化的三元组信息;采用已优化的三元组信息迭代优化待审核的临床医疗知识图谱,得到已优化的临床医疗知识图谱;对已优化的临床医疗知识图谱进行重复抽样审核,得到优化审核结果,直到优化审核结果大于或者等于预置阈值时,确定重复抽样审核通过,并将已优化的临床医疗知识图谱更新到预设的临床医疗知识图谱中,得到全科临床医疗知识图谱;并将全科临床医疗知识图谱发布到目标终端,以使得目标终端构建全科临床医疗知识图谱。
可选的,临床医疗知识图谱的构建装置还包括:标注模块307,用于获取各单科科室对应的电子病历文本集,并对对应的电子病历文本集进行文本标注,得到已标注的命名实体语料集;训练模块308,用于采用已标注的命名实体语料集对初始深度学习的神经网络进行训练,得到已训练的深度学习模型。
本发明实施例中,通过深度学习模型识别已归档的电子病历文本信息,并利用预设的实体关系构建规则结合Neo4j图数据库,采用Neo4j图数据库提高了临床医疗知识图谱的访问与运行效率;创建并审核各单科科室对应的临床医疗知识图谱,基于审核通过的临床医疗知识图谱构建全科临床医疗知识图谱,提高了构建全科临床医疗知识图谱的准确性和覆盖范围。本方案可应用于智慧医疗领域中,从而推动智慧城市的建设。
上面图3和图4从模块化的角度对本发明实施例中的临床医疗知识图谱的构建装置进行详细描述,下面从硬件处理的角度对本发明实施例中临床医疗知识图谱的构建设备进行详细描述。
图5是本发明实施例提供的一种临床医疗知识图谱的构建设备的结构示意图,该临床医疗知识图谱的构建设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)510(例如,一个或一个以上处理器)和存储器520,一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对临床医疗知识图谱的构建设备500中的一系列指令操作。更进一步地,处理器510可以设置为与存储介质530通信,在临床医疗知识图谱的构建设备500上执行存储介质530中的一系列指令操作。
临床医疗知识图谱的构建设备500还可以包括一个或一个以上电源540,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口560,和/或,一个或一个以上操作系统531,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图5示出的临床医疗知识图谱的构建设备结构并不构成对临床医疗知识图谱的构建设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种临床医疗知识图谱的构建设备,所述临床医疗知识图谱的构建设备包括存储器和处理器,存储器中存储有指令,所述指令被处理器执行时,使得处理器执行上述各实施例中的所述临床医疗知识图谱的构建方法的步骤。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述临床医疗知识图谱的构建方法的步骤。进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种临床医疗知识图谱的构建方法,其特征在于,所述临床医疗知识图谱的构建方法包括:
获取目标科室对应的电子病历文本信息,并通过已训练的深度学习模型对所述对应的电子病历文本信息进行命名实体识别,得到医疗实体信息、医疗实体分句信息和医疗实体属性信息;
将所述医疗实体信息和所述医疗实体分句信息按照预设三元组规则添加实体之间的关系,得到目标三元组信息,所述将所述医疗实体信息和所述医疗实体分句信息按照预设三元组规则添加实体之间的关系,得到目标三元组信息,包括:
从所述电子病历结构化实体信息表中获取所述医疗实体信息和所述医疗实体分句信息,并判断所述医疗实体信息和所述医疗实体分句信息中是否包括疾病实体信息;
若所述医疗实体信息和所述医疗实体分句信息中包括疾病实体信息,则对所述疾病实体信息按照预设三元组规则添加实体之间的关系,得到第一实体关系三元组;
若所述医疗实体信息和所述医疗实体分句信息中均不包括疾病实体信息,则获取至少一个诊断实体信息,对所述至少一个诊断实体信息进行实体连接,得到第二实体关系三元组;
将所述第一实体关系三元组或者所述第二实体关系三元组设置为目标三元组信息,并将所述目标三元组信息导入到预设三元组信息表中;
采用所述医疗实体信息对所述医疗实体属性信息添加实体属性关系,得到目标实体属性键值对信息;
将所述目标三元组信息和所述目标实体属性键值对信息导入到Neo4j图数据库中,得到待审核的临床医疗知识图谱;
按照所述目标科室对所述待审核的临床医疗知识图谱进行抽样审核,得到审核结果;
当所述审核结果小于预置阈值时,迭代优化所述待审核的临床医疗知识图谱,得到已优化的临床医疗知识图谱,并对所述已优化的临床医疗知识图谱进行重复抽样审核,当检测到重复抽样审核通过时,基于所述已优化的临床医疗知识图谱生成全科临床医疗知识图谱。
2.根据权利要求1所述的临床医疗知识图谱的构建方法,其特征在于,所述获取目标科室对应的电子病历文本信息,并通过已训练的深度学习模型对所述对应的电子病历文本信息进行命名实体识别,得到医疗实体信息、医疗实体分句信息和医疗实体属性信息,包括:
获取目标科室对应的科室标识,所述目标科室用于指示待诊断患者挂号的科室;
按照所述对应的科室标识查询预设电子病历文档库,得到目标科室对应的电子病历文本信息,所述预设电子病历文档库用于存储多个单科科室的电子病历文本;
通过已训练的深度学习模型对所述对应的电子病历文本信息进行命名实体识别,得到医疗实体信息和医疗实体分句信息,并将所述医疗实体信息和所述医疗实体分句信息保存到电子病历结构化实体信息表中,所述已训练的深度学习模型为BILSTM_CRF模型;
按照预设实体属性提取规则从所述医疗实体信息和所述医疗实体分句信息中提取医疗实体属性信息,并将所述医疗实体属性信息保存到电子病历实体属性表中。
3.根据权利要求2所述的临床医疗知识图谱的构建方法,其特征在于,所述采用所述医疗实体信息对所述医疗实体属性信息添加实体属性关系,得到目标实体属性键值对信息,包括:
从所述电子病历实体属性表中查询所述医疗实体属性信息;
按照所述医疗实体信息对所述医疗实体属性信息添加实体属性关系,得到目标实体属性键值对信息,所述实体属性关系包括部位属性和大小属性;
将所述目标实体属性键值对信息写入到预设键值对信息表中。
4.根据权利要求1所述的临床医疗知识图谱的构建方法,其特征在于,所述按照所述目标科室对所述待审核的临床医疗知识图谱进行抽样审核,得到审核结果,包括:
按照所述目标科室对所述待审核的临床医疗知识图谱设置对应的审批事项和对应的审批信息,所述对应的审批信息包括审批层级、审批类型和目标审批人;
按照所述审批层级和所述审批类型将所述审批事项分发至目标审批人对应的审批终端;
接收所述审批终端发送的审批结果,并按照所述审批结果更新所述待审核的临床医疗知识图谱对应的审批状态;
根据所述审批状态统计审核结果,所述审批结果的取值范围为大于或者等于0,并且小于或者等于1。
5.根据权利要求1所述的临床医疗知识图谱的构建方法,其特征在于,所述当所述审核结果小于预置阈值时,迭代优化所述待审核的临床医疗知识图谱,得到已优化的临床医疗知识图谱,并对所述已优化的临床医疗知识图谱进行重复抽样审核,当检测到重复抽样审核通过时,基于所述已优化的临床医疗知识图谱生成全科临床医疗知识图谱,包括:
当所述审核结果小于预置阈值时,对所述目标科室重构三元组关系生成规则,得到重构的三元组关系生成规则;
根据所述重构的三元组关系生成规则迭代优化所述目标三元组信息,得到已优化的三元组信息;
采用所述已优化的三元组信息迭代优化所述待审核的临床医疗知识图谱,得到已优化的临床医疗知识图谱;
对已优化的临床医疗知识图谱进行重复抽样审核,得到优化审核结果,直到所述优化审核结果大于或者等于预置阈值时,确定重复抽样审核通过,并将所述已优化的临床医疗知识图谱更新到预设的临床医疗知识图谱中,得到全科临床医疗知识图谱;
将所述全科临床医疗知识图谱发布到目标终端,以使得所述目标终端应用所述全科临床医疗知识图谱。
6.根据权利要求1-5中任意一项所述的临床医疗知识图谱的构建方法,其特征在于,在所述获取目标科室对应的电子病历文本信息,并通过已训练的深度学习模型对所述对应的电子病历文本信息进行命名实体识别,得到医疗实体信息、医疗实体分句信息和医疗实体属性信息之前,所述临床医疗知识图谱的构建方法还包括:
获取各单科科室对应的电子病历文本集,并对所述对应的电子病历文本集进行文本标注,得到已标注的命名实体语料集;
采用所述已标注的命名实体语料集对初始深度学习的神经网络进行训练,得到所述已训练的深度学习模型。
7.一种临床医疗知识图谱的构建装置,其特征在于,所述临床医疗知识图谱的构建装置包括:
识别模块,用于获取目标科室对应的电子病历文本信息,并通过已训练的深度学习模型对所述对应的电子病历文本信息进行命名实体识别,得到医疗实体信息、医疗实体分句信息和医疗实体属性信息;
第一添加模块,用于将所述医疗实体信息和所述医疗实体分句信息按照预设三元组规则添加实体之间的关系,得到目标三元组信息,所述将所述医疗实体信息和所述医疗实体分句信息按照预设三元组规则添加实体之间的关系,得到目标三元组信息,包括:
从所述电子病历结构化实体信息表中获取所述医疗实体信息和所述医疗实体分句信息,并判断所述医疗实体信息和所述医疗实体分句信息中是否包括疾病实体信息;
若所述医疗实体信息和所述医疗实体分句信息中包括疾病实体信息,则对所述疾病实体信息按照预设三元组规则添加实体之间的关系,得到第一实体关系三元组;
若所述医疗实体信息和所述医疗实体分句信息中均不包括疾病实体信息,则获取至少一个诊断实体信息,对所述至少一个诊断实体信息进行实体连接,得到第二实体关系三元组;
将所述第一实体关系三元组或者所述第二实体关系三元组设置为目标三元组信息,并将所述目标三元组信息导入到预设三元组信息表中;
第二添加模块,用于采用所述医疗实体信息对所述医疗实体属性信息添加实体属性关系,得到目标实体属性键值对信息;
导入模块,用于将所述目标三元组信息和所述目标实体属性键值对信息导入到Neo4j图数据库中,得到待审核的临床医疗知识图谱;
审核模块,用于按照所述目标科室对所述待审核的临床医疗知识图谱进行抽样审核,得到审核结果;
发布模块,当所述审核结果小于预置阈值时,用于迭代优化所述待审核的临床医疗知识图谱,得到已优化的临床医疗知识图谱,并对所述已优化的临床医疗知识图谱进行重复抽样审核,当检测到重复抽样审核通过时,基于所述已优化的临床医疗知识图谱生成全科临床医疗知识图谱。
8.一种临床医疗知识图谱的构建设备,其特征在于,所述临床医疗知识图谱的构建设备包括:存储器和至少一个处理器,所述存储器中存储有指令;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述临床医疗知识图谱的构建设备执行如权利要求1-6中任意一项所述的临床医疗知识图谱的构建方法。
9.一种计算机可读存储介质,其上存储有指令,其特征在于,所述指令被处理器执行时实现如权利要求1-6中任意一项所述的临床医疗知识图谱的构建方法。
CN202010615467.2A 2020-06-30 2020-06-30 临床医疗知识图谱的构建方法、装置、设备及存储介质 Active CN111767410B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010615467.2A CN111767410B (zh) 2020-06-30 2020-06-30 临床医疗知识图谱的构建方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010615467.2A CN111767410B (zh) 2020-06-30 2020-06-30 临床医疗知识图谱的构建方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111767410A CN111767410A (zh) 2020-10-13
CN111767410B true CN111767410B (zh) 2023-05-30

Family

ID=72724224

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010615467.2A Active CN111767410B (zh) 2020-06-30 2020-06-30 临床医疗知识图谱的构建方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111767410B (zh)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112530550A (zh) * 2020-12-10 2021-03-19 武汉联影医疗科技有限公司 影像报告生成方法、装置、计算机设备和存储介质
CN112259180B (zh) * 2020-10-21 2023-06-27 平安科技(深圳)有限公司 一种基于异构医学知识图谱的疾病预测方法及相关设备
CN112242187B (zh) * 2020-10-26 2023-06-27 平安科技(深圳)有限公司 基于知识图谱表征学习的医疗方案推荐系统及方法
CN112329964B (zh) * 2020-11-24 2024-03-29 北京百度网讯科技有限公司 用于推送信息的方法、装置、设备以及存储介质
CN112507701B (zh) * 2020-11-30 2024-03-15 北京百度网讯科技有限公司 待纠错医疗数据的识别方法、装置、设备和存储介质
CN112749277B (zh) * 2020-12-30 2023-08-04 杭州依图医疗技术有限公司 医学数据的处理方法、装置及存储介质
CN112699230A (zh) * 2020-12-31 2021-04-23 北京万方数据股份有限公司 一种恶性肿瘤诊疗知识获取方法及装置
CN113220895B (zh) * 2021-04-23 2024-02-02 北京大数医达科技有限公司 基于强化学习的信息处理方法、装置、终端设备
CN113128231B (zh) * 2021-04-25 2024-09-24 深圳市慧择时代科技有限公司 一种数据质检方法、装置、存储介质和电子设备
CN113268975A (zh) * 2021-05-26 2021-08-17 深圳泰莱生物科技有限公司 一种基于自然语言处理算法的人体临床信息评估方法
CN113643825B (zh) * 2021-06-25 2023-08-01 合肥工业大学 基于临床关键特征信息的医疗案例知识库构建方法和系统
CN113571179B (zh) * 2021-07-09 2023-01-31 清华大学 基于知识图谱的指标提取方法和装置
CN113657102B (zh) * 2021-08-17 2023-05-30 北京百度网讯科技有限公司 信息抽取方法、装置、设备及存储介质
CN113657325B (zh) * 2021-08-24 2024-04-12 北京百度网讯科技有限公司 用于确定标注样式信息的方法、装置、介质及程序产品
CN113656601A (zh) * 2021-08-30 2021-11-16 平安医疗健康管理股份有限公司 医患匹配方法、装置、设备及存储介质
CN113823371A (zh) * 2021-09-18 2021-12-21 上海保链科技有限公司 医疗数据结构化处理方法、装置及设备
CN113643821B (zh) * 2021-10-13 2022-02-11 浙江大学 一种多中心知识图谱联合决策支持方法与系统
CN113935486B (zh) * 2021-12-16 2022-03-04 中科雨辰科技有限公司 一种知识图谱的建立方法、计算机设备和存储介质
CN114218955A (zh) * 2021-12-28 2022-03-22 上海柯林布瑞信息技术有限公司 基于医疗知识图谱的辅助参考信息的确定方法及系统
CN114386418A (zh) * 2022-01-10 2022-04-22 新华智云科技有限公司 知识图谱中重复实体的去重方法
CN114496234B (zh) * 2022-04-18 2022-07-19 浙江大学 一种基于认知图谱的全科患者个性化诊疗方案推荐系统
CN115312186B (zh) * 2022-08-09 2023-06-09 北京至真互联网技术有限公司 一种糖尿病视网膜病变辅助筛查系统
CN115658924B (zh) * 2022-11-14 2023-06-09 智慧眼科技股份有限公司 诊疗知识图谱构建方法及其应用方法、装置和存储介质
CN117133397B (zh) * 2023-10-27 2024-02-20 广州国家实验室 电子病历数据增强方法、系统、电子设备和存储介质
CN117391643B (zh) * 2023-12-13 2024-04-05 山东贝森医院管理咨询有限公司 一种基于知识图谱的医保单据审核方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016101351A1 (zh) * 2014-12-26 2016-06-30 深圳市前海安测信息技术有限公司 基于网络医院的全科医生辅助诊疗系统及方法
CN110866836A (zh) * 2019-11-14 2020-03-06 支付宝(杭州)信息技术有限公司 计算机执行的医疗保险立案审核方法和装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106557653B (zh) * 2016-11-15 2017-09-22 合肥工业大学 一种移动医疗智能导医系统及其方法
CN110209827B (zh) * 2018-02-07 2023-09-19 腾讯科技(深圳)有限公司 搜索方法、装置、计算机可读存储介质和计算机设备
CN108492887B (zh) * 2018-04-13 2020-09-22 合肥工业大学 医疗知识图谱构建方法及装置
CN109670054B (zh) * 2018-12-26 2020-11-10 医渡云(北京)技术有限公司 知识图谱构建方法、装置、存储介质及电子设备
CN110781309A (zh) * 2019-07-01 2020-02-11 厦门美域中央信息科技有限公司 一种基于模式匹配的实体并列关系相似度计算方法
CN110929040A (zh) * 2019-10-30 2020-03-27 清华大学 针对特定医疗领域的知识图谱构建方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016101351A1 (zh) * 2014-12-26 2016-06-30 深圳市前海安测信息技术有限公司 基于网络医院的全科医生辅助诊疗系统及方法
CN110866836A (zh) * 2019-11-14 2020-03-06 支付宝(杭州)信息技术有限公司 计算机执行的医疗保险立案审核方法和装置

Also Published As

Publication number Publication date
CN111767410A (zh) 2020-10-13

Similar Documents

Publication Publication Date Title
CN111767410B (zh) 临床医疗知识图谱的构建方法、装置、设备及存储介质
CN112037920A (zh) 医疗知识图谱构建方法、装置、设备及存储介质
CN110704631B (zh) 医疗知识图谱的构建方法及装置
CN112883157B (zh) 一种多源异构医疗数据的标准化方法及装置
CN114818720B (zh) 一种专病数据集构建方法、装置、电子设备及存储介质
US20210375488A1 (en) System and methods for automatic medical knowledge curation
JP2019514128A (ja) 明確な照合情報を持たない識別不能のヘルスケアデータベースの病院マッチング
CN116737879A (zh) 知识库查询方法、装置、电子设备及存储介质
CN111986759A (zh) 电子病历的解析方法、系统、计算机设备与可读存储介质
CN113161001A (zh) 一种基于改进lda的过程路径挖掘方法
CN111460173A (zh) 一种甲状腺癌的疾病本体模型的构建方法
CN113064960A (zh) 一种精确搜索与患者病情相似病例的方法
CN113343680B (zh) 一种基于多类型病历文本的结构化信息提取方法
Zhang et al. Aggregating large-scale databases for PubMed author name disambiguation
Satti et al. Semantic bridge for resolving healthcare data interoperability
CN113689924A (zh) 相似病历检索方法、装置、电子设备及可读存储介质
Li et al. Improved deep belief network model and its application in named entity recognition of Chinese electronic medical records
CN117236300A (zh) 一种基于pdf的crf采集表的自动生成方法、装置及设备
Satti et al. Unsupervised semantic mapping for healthcare data storage schema
CN112667781A (zh) 一种恶性肿瘤文献获取方法及装置
CN109522331B (zh) 以个人为中心的区域化多维度健康数据处理方法及介质
Izquierdo et al. A platform for keyword search and its application for covid-19 pandemic data
Kapoor et al. Infrastructure tools to support an effective radiation oncology learning health system
CN115295165A (zh) 一种用于医学的知识图谱系统及其决策辅助方法
Tran et al. Scaling out and evaluation of obsecan, an automated section annotator for semi-structured clinical documents, on a large VA clinical corpus

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20221009

Address after: Room 2601 (Unit 07), Qianhai Free Trade Building, No. 3048, Xinghai Avenue, Nanshan Street, Qianhai Shenzhen-Hong Kong Cooperation Zone, Shenzhen, Guangdong 518000

Applicant after: Shenzhen Ping An Smart Healthcare Technology Co.,Ltd.

Address before: 1-34 / F, Qianhai free trade building, 3048 Xinghai Avenue, Mawan, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong 518000

Applicant before: Ping An International Smart City Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant