CN116610819B - 医学知识图谱生成方法、装置、电子设备及存储介质 - Google Patents

医学知识图谱生成方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN116610819B
CN116610819B CN202310871659.3A CN202310871659A CN116610819B CN 116610819 B CN116610819 B CN 116610819B CN 202310871659 A CN202310871659 A CN 202310871659A CN 116610819 B CN116610819 B CN 116610819B
Authority
CN
China
Prior art keywords
medical
entity
entities
triples
knowledge graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310871659.3A
Other languages
English (en)
Other versions
CN116610819A (zh
Inventor
苏志鹄
李丽
王实
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Huimeiyun Technology Co ltd
Original Assignee
Beijing Huimeiyun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Huimeiyun Technology Co ltd filed Critical Beijing Huimeiyun Technology Co ltd
Priority to CN202310871659.3A priority Critical patent/CN116610819B/zh
Publication of CN116610819A publication Critical patent/CN116610819A/zh
Application granted granted Critical
Publication of CN116610819B publication Critical patent/CN116610819B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/027Frames
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明涉及一种医学知识图谱生成方法、装置、电子设备及存储介质,该方法包括:获取具有医学实体的医学病历文本,并对其进行预处理,以构建医学语料库。调用自然语言处理大模型对医学语料库中的医学实体进行识别,以提取医学实体以及医学实体之间的第一实体关系。基于医学实体以及医学实体之间的第一实体关系,获取多个互相关联的第一三元组,第一三元组由医学实体以及医学实体之间的第一实体关系共同组成。基于多个互相关联的第一三元组,获取资源描述框架图,资源描述框架图由多个互相关联的第一三元组组成,用于构建医学知识图谱。基于医学知识图谱中不同医学实体之间的关联度,调用大语言模型对不同医学实体进行推理,以生成第二实体关系。

Description

医学知识图谱生成方法、装置、电子设备及存储介质
技术领域
本发明涉及医疗辅助技术领域,特别是涉及一种医学知识图谱生成方法、装置、电子设备及存储介质。
背景技术
随着医学健康领域的发展,医学相关的知识体量越来越大。同时随着数字化进程不断加快,互联网以及各种信息系统中产生了海量与医疗有关的数据信息,构建医学知识图谱是更好地组织和利用这些信息的有效方式。知识图谱是结构化的语义知识库,用于描述物理世界中的概念及其相互关系,其基本组成单位是“实体-关系-实体”三元组,以及实体及其相关属性-值对,实体间通过关系相互联结,构成网状的知识结构。
目前,现有技术中主要通过传统的机械学习模型来进行实体识别和关系抽取,然后通过RDF规范来构建知识图谱。由于传统的机器学习在语义理解、逻辑推理等方面的能力与当前的类似chatGPT等大语言模型的能力具有较大的差距,因此基于AI生成的知识图谱质量较差,则需要投入较多的人力来进行知识图谱质量的校验和修正。并且,其所构建完成的知识图谱覆盖面不够广,丰度也较低,且知识图谱构建和更新完善的成本较高。
因此,传统的医学知识图谱生成方式所生成的知识图谱质量较差,需要投入人力物力对生成的知识图谱进行校验和修正,维护成本较高。
发明内容
基于此,有必要针对上述技术问题,提供一种能够保证生成知识图谱质量且成本较低的医学知识图谱生成方法、装置、电子设备及存储介质。
本发明提供了一种医学知识图谱生成方法,所述方法包括:
获取第一文本数据,并对所述第一文本数据进行预处理,以构建医学语料库,所述第一文本数据为具有医学实体的医学病历文本;
调用自然语言处理大模型对所述医学语料库中的医学实体进行识别,以提取所述医学实体以及医学实体之间的第一实体关系;
基于所述医学实体以及医学实体之间的第一实体关系,获取多个互相关联的第一三元组,所述第一三元组由所述医学实体以及医学实体之间的第一实体关系共同组成;
基于所述多个互相关联的第一三元组,获取资源描述框架图,所述资源描述框架图由所述多个互相关联的第一三元组组成,用于构建医学知识图谱;
基于所述医学知识图谱中不同医学实体之间的关联度,调用大语言模型对所述不同医学实体进行推理,以生成第二实体关系。
在其中一个实施例中,所述医学实体至少包括第一医学实体和第二医学实体,且所述第一医学实体与第二医学实体之间具有第一实体关系;
所述调用自然语言处理大模型对所述医学语料库中的医学实体进行识别,以提取所述医学实体以及医学实体之间的第一实体关系,包括:
基于所述医学语料库,获取第一病历文本,所述第一病历文本至少包含所述第一医学实体、第二医学实体以及所述第一医学实体与第二医学实体之间的第一实体关系;
调用自然语言处理大模型对所述第一病历文本进行识别,以提取所述第一医学实体、第二医学实体以及所述第一医学实体与第二医学实体之间的第一实体关系;
其中,所述第一医学实体、第二医学实体以及第一实体关系共同构成所述第一三元组。
在其中一个实施例中,所述基于所述医学实体以及医学实体之间的第一实体关系,获取多个互相关联的第一三元组,所述第一三元组由所述医学实体以及医学实体之间的第一实体关系共同组成,包括:
获取多个不同第一三元组中的医学实体之间的第一关联度;
判断所述第一关联度是否超过第一阈值;若是,则
获取所述多个互相关联的第一三元组。
在其中一个实施例中,所述基于所述多个互相关联的第一三元组,获取资源描述框架图,所述资源描述框架图由所述多个互相关联的第一三元组组成,用于构建医学知识图谱,包括:
基于所述多个互相关联的第一三元组,获取多组互相关联的第一三元组,其中,每组互相关联的第一三元组用于获取一个所述资源描述框架图;
基于所述多组互相关联的第一三元组,获取多个资源描述框架图;
基于所述多个资源描述框架图,构建所述医学知识图谱,其中,所述医学知识图谱由所述多个资源描述框架图构成。
在其中一个实施例中,所述基于所述医学知识图谱中不同医学实体之间的关联度,调用大语言模型对所述不同医学实体进行推理,以生成第二实体关系,包括:
调用所述大语言模型对所述医学知识图谱中不同医学实体进行语义分析;
基于所述语义分析,获取所述医学知识图谱中不同医学实体之间的第二关联度,所述第二关联度用于表征所述不同医学实体之间的语义相关性;
其中,所述语义相关性包括但不仅限于所述不同医学实体之间的相似度、语义同义性、层级关系、语义反义性以及推理路径上的间接关系。
在其中一个实施例中,所述获取所述医学知识图谱中不同医学实体之间的第二关联度,之后包括:
判断所述第二关联度是否超过第二阈值;若是,则
生成所述不同医学实体之间的第二实体关系,以获取多个第二三元组;
其中,所述第二三元组与所述第一三元组之间的第一关联度超过所述第一阈值,用于增加所述医学知识图谱中三元组的数量,以实现所述医学知识图谱的自动扩展。
在其中一个实施例中,所述基于所述医学知识图谱中不同医学实体之间的关联度,调用大语言模型对所述不同医学实体进行推理,以生成第二实体关系,之后包括:
基于所述不同医学实体以及所述不同医学实体之间的第二实体关系,获取多个所述第二三元组;
判断所述第二三元组与所述第一三元组之间的第一关联度是否超过所述第一阈值;若是,则
保留所述第二三元组至所述医学知识图谱。
本发明还提供了一种医学知识图谱生成装置,所述装置包括:
数据处理模块,用于获取第一文本数据,并对所述第一文本数据进行预处理,以构建医学语料库,所述第一文本数据为具有医学实体的医学病历文本;
文本识别模块,用于调用自然语言处理大模型对所述医学语料库中的医学实体进行识别,以提取所述医学实体以及医学实体之间的第一实体关系;
第一获取模块,用于基于所述医学实体以及医学实体之间的第一实体关系,获取多个互相关联的第一三元组,所述第一三元组由所述医学实体以及医学实体之间的第一实体关系共同组成;
第二获取模块,用于基于所述多个互相关联的第一三元组,获取资源描述框架图,所述资源描述框架图由所述多个互相关联的第一三元组组成,用于构建医学知识图谱;
知识图谱生成模块,用于基于所述医学知识图谱中不同医学实体之间的关联度,调用大语言模型对所述不同医学实体进行推理,以生成第二实体关系。
本发明还提供了一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述的医学知识图谱生成方法。
本发明还提供了一种计算机存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述的医学知识图谱生成方法。
上述医学知识图谱生成方法、装置、电子设备及存储介质,通过获取大量具有医学实体的医学病例文本数据,并对其进行预处理后构建医学语料库。随后,通过调用自然语言处理大模型对预先构建好的医学语料库中的医学实体进行识别,来提取医学实体以及医学实体之间的实体关系。基于提取出来的医学实体以及医学实体之间的实体关系获取多个互相关联的三元组,然后根据得到的多个互相关联的三元组,获取由多个互相关联的三元组构成的资源描述框架图,通过资源描述框架图构建医学知识图谱。在医学知识图谱初步构建完成后,根据医学知识图谱中不同医学实体之间的关联度,调用大语言模型对不同医学实体进行关系推理,进而生成新的实体关系,新的实体关系可以结合医学实体生成新的三元组,这样一来,在原医学知识图谱中就会自动推理生成更多新的三元组,实现医学知识图谱的扩展和丰度更高的医学知识图谱的生成。因此,该方法能够充分利用大语言模型的推理能力,对医学知识图谱进行最大程度的补充和完善,摆脱了传统知识图谱生成方式中大量人工对知识图谱质量的校验和修改,在保证医学知识图谱质量的同时,节约了成本。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的医学知识图谱生成方法流程示意图之一;
图2为本发明提供的具体实施例中医学知识图谱生成方法流程示意图;
图3为本发明提供的医学知识图谱生成方法流程示意图之二;
图4为本发明提供的医学知识图谱生成方法流程示意图之三;
图5为本发明提供的医学知识图谱生成方法流程示意图之四;
图6为本发明提供的医学知识图谱生成方法流程示意图之五;
图7为本发明提供的医学知识图谱生成方法流程示意图之六;
图8为本发明提供的医学知识图谱生成装置结构示意图;
图9为本发明提供的计算机设备的内部结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地说明,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图9描述本发明的医学知识图谱生成方法、装置、电子设备及存储介质。
如图1所示,在一个实施例中,一种医学知识图谱生成方法,包括以下步骤:
步骤S110,获取第一文本数据,并对第一文本数据进行预处理,以构建医学语料库,第一文本数据为具有医学实体的医学病历文本。
其中,第一文本数据为包括但不仅限于各种来源的文章、网页、书籍、论文以及互联网公开的医学病历数据(包含医学相关的检查以及检验报告等),通过对大量的医学病历数据进行预处理,例如信息脱敏处理,预处理后的医学病历数据用于构建较大型的医学语料库,为后续医学知识图谱的建立奠定基础。
具体的,结合图2所示,服务器通过获取大量的医学病历文本数据,并对其进行简单的预处理,进而完成医学语料库的构建。
步骤S120,调用自然语言处理大模型对医学语料库中的医学实体进行识别,以提取医学实体以及医学实体之间的第一实体关系。
具体的,服务器基于步骤S110中构建好的医学语料库,通过大模型自然语言处理技术对文本中的医学实体进行识别和分类,例如诊断、临床表现、检验、检查、时间、部位、方位等。 并在已经识别出来的医学实体之间,使用大语言模型技术抽取各个医学实体之间的实体关系,即第一实体关系。
步骤S130,基于医学实体以及医学实体之间的第一实体关系,获取多个互相关联的第一三元组,第一三元组由所述医学实体以及医学实体之间的第一实体关系共同组成。
具体的,服务器基于步骤S120中提取的医学实体以及各个医学实体之间的实体关系,将其表示为符合RDF(Resource Description Framework,资源描述框架图)表示规范的形式,即三元组(subject-predicate-object)的形式。其中,三元组由主语(Subject)、谓语(Predicate)和宾语(Object)三部分构成,主语和宾语都是医学实体,谓语表示它们之间的实体关系,例如,文本数据:“患者发热3天,加重2天”,那么该文本数据的三元组为:[发热,持续时间,3天]; [发热,性质,加重];[发热,持续时间,2天]。
步骤S140,基于多个互相关联的第一三元组,获取资源描述框架图,资源描述框架图由多个互相关联的第一三元组组成,用于构建医学知识图谱。
具体的,服务器基于步骤S130中得到的多个相互关联的三元组,例如,三元组[发热,持续时间,3天]; [发热,性质,加重];[发热,持续时间,2天]均来自同一个文本数据“患者发热3天,加重2天”,那么“[发热,持续时间,3天]; [发热,性质,加重];[发热,持续时间,2天]”这三个三元组即为相互关联的三元组,服务器基于相互关联的多个三元组,即可获取由多个相互关联的三元组构成的资源描述框架图,资源描述框架图用于构建医学知识图谱。
步骤S150,基于医学知识图谱中不同医学实体之间的关联度,调用大语言模型对不同医学实体进行推理,以生成第二实体关系。
具体的,服务器基于医学知识图谱中不同医学实体之间的关联度,调用大语言模型对不同医学实体进行推理,利用大语言模型的推理特性生成原本不存在实体关系的医学实体之间的实体关系,这样一来,更多的医学实体之间具有实体关系,就会产生更多的三元组,更多的三元组可以提高资源描述框架图的丰度,进而实现由资源描述框架图构建的医学知识图谱的扩展。
需要说明的是,大语言模型对知识图谱中的知识推理主要包括以下几个方面:
1)类比推理:如果图谱中存在A与B的关系,且C与A高度相似,通过计算医学实体之间的相似度,即可推理C也与B具有相似关系。
2)同义推理:如果图谱中存在A与B的关系,而A同义于C,通过判断医学实体语义之间的同义性,即可推理C也与B存在相同关系。
3)上位推理:如果图谱中存在A是B的上位概念,且B与C有关系,通过构建医学实体语义概念上的层次关系,即可推理A也与C存在关系。
4)反义推理:如果图谱中存在A与B的关系,且A反义于C,通过判断医学实体语义之间的反义性,即可推理C与B不存在关系或存在相反关系。
5) 组合推理:如果存在A与B的关系以及B与C的关系,通过transitively(传递性)推理路径上的所有医学实体和关系,即可推理A与C也存在关系。
6)约束推理:如果根据实体类型、关系特性等对关系进行约束,通过定义schema(模式)约束和推理规则,则可以推理符合约束条件的隐含关系。
7)统计推理:如果某个实体关系在已有知识图谱中高频出现,通过构建实体关系的统计模型,则可以统计学习该关系,并进行相似推理。
进一步需要说明的是,通过自然语言处理技术,大语言模型进行医学实体识别、实体关系抽取以及知识表示,提供了更加精准和准确的语义理解,进而提高了知识图谱生成的效果。此外,大模型也可以在知识推理方面发挥作用,对已有的知识进行推理,发现其中的潜在关系和规律,进一步扩展医学知识图谱。
上述医学知识图谱生成方法,通过获取大量具有医学实体的医学病例文本数据,并对其进行预处理后构建医学语料库。随后,通过调用自然语言处理大模型对预先构建好的医学语料库中的医学实体进行识别,来提取医学实体以及医学实体之间的实体关系。基于提取出来的医学实体以及医学实体之间的实体关系获取多个互相关联的三元组,然后根据得到的多个互相关联的三元组,获取由多个互相关联的三元组构成的资源描述框架图,通过资源描述框架图构建医学知识图谱。在医学知识图谱初步构建完成后,根据医学知识图谱中不同医学实体之间的关联度,调用大语言模型对不同医学实体进行关系推理,进而生成新的实体关系,新的实体关系可以结合医学实体生成新的三元组,这样一来,在原医学知识图谱中就会自动推理生成更多新的三元组,实现医学知识图谱的扩展和丰度更高的医学知识图谱的生成。因此,该方法能够充分利用大语言模型的推理能力,对医学知识图谱进行最大程度的补充和完善,摆脱了传统知识图谱生成方式中大量人工对知识图谱质量的校验和修改,在保证医学知识图谱质量的同时,节约了成本。
如图3所示,在一个实施例中,本发明提供的医学知识图谱生成方法,调用自然语言处理大模型对医学语料库中的医学实体进行识别,以提取医学实体以及医学实体之间的第一实体关系,包括以下步骤:
需要说明的是,医学实体至少需要包含两个医学实体作为三元组的主语和宾语,以及这两个医学实体之间的实体关系作为谓语。
步骤S122,基于医学语料库,获取第一病历文本,第一病历文本至少包含第一医学实体、第二医学实体以及第一医学实体与第二医学实体之间的第一实体关系。
具体的,服务器基于大量医学病历文本数据构建的医学语料库,获取一个病历文本,例如“患者发热3天”。
步骤S124,调用自然语言处理大模型对第一病历文本进行识别,以提取第一医学实体、第二医学实体以及第一医学实体与第二医学实体之间的第一实体关系。
具体的,基于步骤S122中得到的病历文本,例如“患者发热3天”,服务器调用自然语言处理大模型对该病历文本进行识别,即可得到“发热”作为主语,即第一医学实体,“3天”作为宾语,即第二医学实体,而二者的实体关系通过自然语言处理大模型的语义理解可以得知“3天”为患者“发热”的“持续时间”,那么“持续时间”即为二者的实体关系,即第一实体关系。
需要说明的是,[发热,持续时间,3天]即构成了一个三元组。
如图4所示,在一个实施例中,本发明提供的医学知识图谱生成方法,基于医学实体以及医学实体之间的第一实体关系,获取多个互相关联的第一三元组,第一三元组由所述医学实体以及医学实体之间的第一实体关系共同组成,包括以下步骤:
步骤S132,获取多个不同第一三元组中的医学实体之间的第一关联度。
具体的,服务器获取多个不同三元组中的医学实体之间的关联度。
步骤S134,判断第一关联度是否超过第一阈值。
具体的,服务器判断步骤S132中得到的不同三元组中的医学实体之间的关联度是否超过设定阈值。假设来自同一句医学文本的医学实体之间是相互关联的,那么其所组成的多个三元组即为相互关联的多个三元组,且每个三元组之间的关联度则会超过设定阈值,即第一阈值。若有的医学实体来自不同的医学文本且含义与当前医学实体完全不同,那么来自其他医学文本的是医学实体则会与当前医学实体关联度较低,通过判断完成三元组的筛选。
其中,关联度用于表征医学实体之间的相关性或者多个医学实体是否来自同一个医学文本或者语义相近的医学文本。
步骤S136,获取多个互相关联的第一三元组。
具体的,当步骤S134的判断结果显示医学实体之间的关联度超过了设定阈值,即第一阈值,则说明对应的医学实体来自同一个医学文本或者来自含义相近的医学文本,且具备构成当前三元组的资格,服务器则会得到多个互相关联的三元组,即第一三元组。
如图5所示,在一个实施例中,本发明提供的医学知识图谱生成方法,基于多个互相关联的第一三元组,获取资源描述框架图,资源描述框架图由所述多个互相关联的第一三元组组成,用于构建医学知识图谱,包括以下步骤:
步骤S142,基于多个互相关联的第一三元组,获取多组互相关联的第一三元组,其中,每组互相关联的第一三元组用于获取一个资源描述框架图。
具体的,服务器基于上述得到的多个互相关联的三元组,通过同样的方式对其他医学病历文本进行分析处理,以获取多组互相关联的三元组,每组互相关联的三元组可以构成一个资源描述框架图,同理,多组互相关联的三元组可以构成多个资源描述框架图。
步骤S144,基于多个资源描述框架图,构建医学知识图谱,其中,医学知识图谱由多个资源描述框架图构成。
具体的,服务器基于多个资源描述框架图,构建由多个资源描述框架图构成的医学知识图谱。
其中,资源描述框架图英文缩写为RDF(Resource Description Framework)。
如图6所示,在一个实施例中,本发明提供的医学知识图谱生成方法,基于医学知识图谱中不同医学实体之间的关联度,调用大语言模型对不同医学实体进行推理,以生成第二实体关系,包括以下步骤:
步骤S152,调用大语言模型对医学知识图谱中不同医学实体进行语义分析。
具体的,服务器调用大语言模型对医学知识图谱中的不同医学实体进行语义分析。
步骤S154,基于语义分析,获取医学知识图谱中不同医学实体之间的第二关联度,第二关联度用于表征不同医学实体之间的语义相关性。
具体的,服务器基于步骤S152中的语义分析,获取医学知识图谱中不同医学实体之间的关联度,即第二关联度,第二关联度用于表征不同医学实体之间的语义相关性,以便后续进行知识推理。
需要说明的是,语义相关性包括但不仅限于不同医学实体之间的相似度、语义同义性、层级关系、语义反义性以及推理路径上的间接关系。
步骤S156,判断第二关联度是否超过第二阈值。
具体的,服务器判断步骤S154中得到的关联度是否超过设定阈值,即第二阈值。
步骤S158,生成不同医学实体之间的第二实体关系,以获取多个第二三元组。
具体的,当步骤S156中的判断结果显示医学知识图谱中不同的医学实体之间的关联度超过设定阈值,则说明在最初建立的医学知识图谱中无实体关系的医学实体之间具有关联性,并且可以建立实体关系,服务器则会自动生成不同医学实体之间新的实体关系,即第二实体关系,进而获取多个新的三元组,即第二三元组,以拓展医学知识图谱。
如图7所示,在一个实施例中,本发明提供的医学知识图谱生成方法,基于医学知识图谱中不同医学实体之间的关联度,调用大语言模型对不同医学实体进行推理,以生成第二实体关系,之后包括以下步骤:
步骤S710,基于不同医学实体以及不同医学实体之间的第二实体关系,获取多个第二三元组。
具体的,服务器基于不同医学实体以及不同医学实体之间通过推理生成的第二推理关系,获取多个新的三元组。
步骤S720,判断第二三元组与第一三元组之间的第一关联度是否超过第一阈值。
具体的,服务器判断步骤S710中得到的多个新的三元组与原三元组之间的关联度是否超过设定阈值,即第一阈值。
步骤S730,保留第二三元组至医学知识图谱。
具体的,当步骤S720中的判断结果显示新的三元组与原三元组之间的关联度超过设定阈值,则说明新的三元组与原三元组为相互关联的三元组,新三元组结合原三元组即可共同组成同一个资源描述框架图,服务器就会就该新的三元组保留至医学知识图谱所在的数据库,以实现资源描述框架图的扩展,进而实现医学知识图谱的扩展。
下面对本发明提供的医学知识图谱生成装置进行描述,下文描述的医学知识图谱生成装置与上文描述的医学知识图谱生成方法可相互对应参照。
如图8所示,在一个实施例中,一种医学知识图谱生成装置,包括数据处理模块810、文本识别模块820、第一获取模块830、第二获取模块840以及知识图谱生成模块850。
数据处理模块810用于获取第一文本数据,并对第一文本数据进行预处理,以构建医学语料库,第一文本数据为具有医学实体的医学病历文本。
文本识别模块820用于调用自然语言处理大模型对医学语料库中的医学实体进行识别,以提取医学实体以及医学实体之间的第一实体关系。
第一获取模块830用于基于医学实体以及医学实体之间的第一实体关系,获取多个互相关联的第一三元组,第一三元组由所述医学实体以及医学实体之间的第一实体关系共同组成。
第二获取模块840用于基于多个互相关联的第一三元组,获取资源描述框架图,资源描述框架图由多个互相关联的第一三元组组成,用于构建医学知识图谱。
知识图谱生成模块850用于基于医学知识图谱中不同医学实体之间的关联度,调用大语言模型对不同医学实体进行推理,以生成第二实体关系。
在本实施例中,本发明提供的医学知识图谱生成装置,文本识别模块具体用于:
基于医学语料库,获取第一病历文本,第一病历文本至少包含第一医学实体、第二医学实体以及第一医学实体与第二医学实体之间的第一实体关系。
调用自然语言处理大模型对第一病历文本进行识别,以提取第一医学实体、第二医学实体以及第一医学实体与第二医学实体之间的第一实体关系。
其中,第一医学实体、第二医学实体以及第一实体关系共同构成第一三元组。
在本实施例中,本发明提供的医学知识图谱生成装置,第一获取模块具体用于:
获取多个不同第一三元组中的医学实体之间的第一关联度。
判断第一关联度是否超过第一阈值。若是,则
获取多个互相关联的第一三元组。
在本实施例中,本发明提供的医学知识图谱生成装置,第二获取模块具体用于:
基于多个互相关联的第一三元组,获取多组互相关联的第一三元组,其中,每组互相关联的第一三元组用于获取一个资源描述框架图。
基于多组互相关联的第一三元组,获取多个资源描述框架图。
基于多个资源描述框架图,构建医学知识图谱,其中,医学知识图谱由多个资源描述框架图构成。
在本实施例中,本发明提供的医学知识图谱生成装置,知识图谱生成模块具体用于:
调用大语言模型对医学知识图谱中不同医学实体进行语义分析。
基于语义分析,获取医学知识图谱中不同医学实体之间的第二关联度,第二关联度用于表征不同医学实体之间的语义相关性。
其中,语义相关性包括但不仅限于不同医学实体之间的相似度、语义同义性、层级关系、语义反义性以及推理路径上的间接关系。
判断第二关联度是否超过第二阈值。若是,则
生成不同医学实体之间的第二实体关系,以获取多个第二三元组。
其中,第二三元组与第一三元组之间的第一关联度超过第一阈值,用于增加医学知识图谱中三元组的数量,以实现医学知识图谱的自动扩展。
在本实施例中,本发明提供的医学知识图谱生成装置,还包括关联度筛选模块,用于:
基于不同医学实体以及不同医学实体之间的第二实体关系,获取多个第二三元组。
判断第二三元组与所述第一三元组之间的第一关联度是否超过第一阈值。若是,则
保留第二三元组至医学知识图谱。
图9示例了一种电子设备的实体结构示意图,该电子设备可以是智能终端,其内部结构图可以如图9所示。该电子设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现医学知识图谱生成方法,该方法包括:
获取第一文本数据,并对第一文本数据进行预处理,以构建医学语料库,第一文本数据为具有医学实体的医学病历文本;
调用自然语言处理大模型对医学语料库中的医学实体进行识别,以提取医学实体以及医学实体之间的第一实体关系;
基于医学实体以及医学实体之间的第一实体关系,获取多个互相关联的第一三元组,第一三元组由医学实体以及医学实体之间的第一实体关系共同组成;
基于多个互相关联的第一三元组,获取资源描述框架图,资源描述框架图由多个互相关联的第一三元组组成,用于构建医学知识图谱;
基于医学知识图谱中不同医学实体之间的关联度,调用大语言模型对不同医学实体进行推理,以生成第二实体关系。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
另一方面,本发明还提供了一种计算机存储介质,存储有计算机程序,计算机程序被处理器执行时实现医学知识图谱生成方法,该方法包括:
获取第一文本数据,并对第一文本数据进行预处理,以构建医学语料库,第一文本数据为具有医学实体的医学病历文本;
调用自然语言处理大模型对医学语料库中的医学实体进行识别,以提取医学实体以及医学实体之间的第一实体关系;
基于医学实体以及医学实体之间的第一实体关系,获取多个互相关联的第一三元组,第一三元组由医学实体以及医学实体之间的第一实体关系共同组成;
基于多个互相关联的第一三元组,获取资源描述框架图,资源描述框架图由多个互相关联的第一三元组组成,用于构建医学知识图谱;
基于医学知识图谱中不同医学实体之间的关联度,调用大语言模型对不同医学实体进行推理,以生成第二实体关系。
又一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令时实现医学知识图谱生成方法,该方法包括:
获取第一文本数据,并对第一文本数据进行预处理,以构建医学语料库,第一文本数据为具有医学实体的医学病历文本;
调用自然语言处理大模型对医学语料库中的医学实体进行识别,以提取医学实体以及医学实体之间的第一实体关系;
基于医学实体以及医学实体之间的第一实体关系,获取多个互相关联的第一三元组,第一三元组由医学实体以及医学实体之间的第一实体关系共同组成;
基于多个互相关联的第一三元组,获取资源描述框架图,资源描述框架图由多个互相关联的第一三元组组成,用于构建医学知识图谱;
基于医学知识图谱中不同医学实体之间的关联度,调用大语言模型对不同医学实体进行推理,以生成第二实体关系。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。
作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双倍数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (7)

1.一种医学知识图谱生成方法,其特征在于,所述方法包括:
获取第一文本数据,并对所述第一文本数据进行预处理,以构建医学语料库,所述第一文本数据为具有医学实体的医学病历文本;
调用自然语言处理大模型对所述医学语料库中的医学实体进行识别,以提取所述医学实体以及医学实体之间的第一实体关系;
基于所述医学实体以及医学实体之间的第一实体关系,获取多个互相关联的第一三元组,所述第一三元组由所述医学实体以及医学实体之间的第一实体关系共同组成;
基于所述多个互相关联的第一三元组,获取资源描述框架图,所述资源描述框架图由所述多个互相关联的第一三元组组成,用于构建医学知识图谱;
基于所述医学知识图谱中不同医学实体之间的关联度,调用大语言模型对所述不同医学实体进行推理,以生成第二实体关系;
所述基于所述医学实体以及医学实体之间的第一实体关系,获取多个互相关联的第一三元组,所述第一三元组由所述医学实体以及医学实体之间的第一实体关系共同组成,包括:
获取多个不同第一三元组中的医学实体之间的第一关联度;
判断所述第一关联度是否超过第一阈值;若是,则
获取所述多个互相关联的第一三元组;
所述基于所述医学知识图谱中不同医学实体之间的关联度,调用大语言模型对所述不同医学实体进行推理,以生成第二实体关系,包括:
调用所述大语言模型对所述医学知识图谱中不同医学实体进行语义分析;
基于所述语义分析,获取所述医学知识图谱中不同医学实体之间的第二关联度,所述第二关联度用于表征所述不同医学实体之间的语义相关性;
其中,所述语义相关性包括但不仅限于所述不同医学实体之间的相似度、语义同义性、层级关系、语义反义性以及推理路径上的间接关系;
所述获取所述医学知识图谱中不同医学实体之间的第二关联度,之后包括:
判断所述第二关联度是否超过第二阈值;若是,则
生成所述不同医学实体之间的第二实体关系,以获取多个第二三元组;
其中,所述第二三元组与所述第一三元组之间的第一关联度超过所述第一阈值,用于增加所述医学知识图谱中三元组的数量,以实现所述医学知识图谱的自动扩展。
2.根据权利要求1所述的医学知识图谱生成方法,其特征在于,所述医学实体至少包括第一医学实体和第二医学实体,且所述第一医学实体与第二医学实体之间具有第一实体关系;
所述调用自然语言处理大模型对所述医学语料库中的医学实体进行识别,以提取所述医学实体以及医学实体之间的第一实体关系,包括:
基于所述医学语料库,获取第一病历文本,所述第一病历文本至少包含所述第一医学实体、第二医学实体以及所述第一医学实体与第二医学实体之间的第一实体关系;
调用自然语言处理大模型对所述第一病历文本进行识别,以提取所述第一医学实体、第二医学实体以及所述第一医学实体与第二医学实体之间的第一实体关系;
其中,所述第一医学实体、第二医学实体以及第一实体关系共同构成所述第一三元组。
3.根据权利要求1所述的医学知识图谱生成方法,其特征在于,所述基于所述多个互相关联的第一三元组,获取资源描述框架图,所述资源描述框架图由所述多个互相关联的第一三元组组成,用于构建医学知识图谱,包括:
基于所述多个互相关联的第一三元组,获取多组互相关联的第一三元组,其中,每组互相关联的第一三元组用于获取一个所述资源描述框架图;
基于所述多组互相关联的第一三元组,获取多个资源描述框架图;
基于所述多个资源描述框架图,构建所述医学知识图谱,其中,所述医学知识图谱由所述多个资源描述框架图构成。
4.根据权利要求1所述的医学知识图谱生成方法,其特征在于,所述基于所述医学知识图谱中不同医学实体之间的关联度,调用大语言模型对所述不同医学实体进行推理,以生成第二实体关系,之后包括:
基于所述不同医学实体以及所述不同医学实体之间的第二实体关系,获取多个所述第二三元组;
判断所述第二三元组与所述第一三元组之间的第一关联度是否超过所述第一阈值;若是,则
保留所述第二三元组至所述医学知识图谱。
5.一种医学知识图谱生成装置,其特征在于,所述装置包括:
数据处理模块,用于获取第一文本数据,并对所述第一文本数据进行预处理,以构建医学语料库,所述第一文本数据为具有医学实体的医学病历文本;
文本识别模块,用于调用自然语言处理大模型对所述医学语料库中的医学实体进行识别,以提取所述医学实体以及医学实体之间的第一实体关系;
第一获取模块,用于基于所述医学实体以及医学实体之间的第一实体关系,获取多个互相关联的第一三元组,所述第一三元组由所述医学实体以及医学实体之间的第一实体关系共同组成;
第二获取模块,用于基于所述多个互相关联的第一三元组,获取资源描述框架图,所述资源描述框架图由所述多个互相关联的第一三元组组成,用于构建医学知识图谱;
知识图谱生成模块,用于基于所述医学知识图谱中不同医学实体之间的关联度,调用大语言模型对所述不同医学实体进行推理,以生成第二实体关系;
所述基于所述医学实体以及医学实体之间的第一实体关系,获取多个互相关联的第一三元组,所述第一三元组由所述医学实体以及医学实体之间的第一实体关系共同组成,包括:
获取多个不同第一三元组中的医学实体之间的第一关联度;
判断所述第一关联度是否超过第一阈值;若是,则
获取所述多个互相关联的第一三元组;
所述基于所述医学知识图谱中不同医学实体之间的关联度,调用大语言模型对所述不同医学实体进行推理,以生成第二实体关系,包括:
调用所述大语言模型对所述医学知识图谱中不同医学实体进行语义分析;
基于所述语义分析,获取所述医学知识图谱中不同医学实体之间的第二关联度,所述第二关联度用于表征所述不同医学实体之间的语义相关性;
其中,所述语义相关性包括但不仅限于所述不同医学实体之间的相似度、语义同义性、层级关系、语义反义性以及推理路径上的间接关系;
所述获取所述医学知识图谱中不同医学实体之间的第二关联度,之后包括:
判断所述第二关联度是否超过第二阈值;若是,则
生成所述不同医学实体之间的第二实体关系,以获取多个第二三元组;
其中,所述第二三元组与所述第一三元组之间的第一关联度超过所述第一阈值,用于增加所述医学知识图谱中三元组的数量,以实现所述医学知识图谱的自动扩展。
6.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述的方法的步骤。
7.一种计算机存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。
CN202310871659.3A 2023-07-17 2023-07-17 医学知识图谱生成方法、装置、电子设备及存储介质 Active CN116610819B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310871659.3A CN116610819B (zh) 2023-07-17 2023-07-17 医学知识图谱生成方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310871659.3A CN116610819B (zh) 2023-07-17 2023-07-17 医学知识图谱生成方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN116610819A CN116610819A (zh) 2023-08-18
CN116610819B true CN116610819B (zh) 2023-09-19

Family

ID=87680389

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310871659.3A Active CN116610819B (zh) 2023-07-17 2023-07-17 医学知识图谱生成方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN116610819B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116775911B (zh) * 2023-08-22 2023-11-03 北京六元空间信息科技有限责任公司 基于问卷和大模型的医学队列随访对话辅助方法及系统
CN117198505A (zh) * 2023-08-23 2023-12-08 深圳大学 一种用于临床医学决策辅助的深度学习语言模型微调方法
CN117056493B (zh) * 2023-09-07 2024-07-16 四川大学 基于病历知识图谱的大语言模型医疗问答系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112542223A (zh) * 2020-12-21 2021-03-23 西南科技大学 一种从中文电子病历构建医疗知识图谱的半监督学习方法
CN113688255A (zh) * 2021-09-02 2021-11-23 大连理工大学 一种基于中文电子病历的知识图谱构建方法
CN114913953A (zh) * 2022-07-19 2022-08-16 北京惠每云科技有限公司 医学实体关系的识别方法、装置、电子设备及存储介质
CN115408537A (zh) * 2022-08-26 2022-11-29 常州桐树生物科技有限公司 基于精准医疗知识图谱的隐藏关系计算方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021281A (zh) * 2016-04-29 2016-10-12 京东方科技集团股份有限公司 医学知识图谱的构建方法、其装置及其查询方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112542223A (zh) * 2020-12-21 2021-03-23 西南科技大学 一种从中文电子病历构建医疗知识图谱的半监督学习方法
CN113688255A (zh) * 2021-09-02 2021-11-23 大连理工大学 一种基于中文电子病历的知识图谱构建方法
CN114913953A (zh) * 2022-07-19 2022-08-16 北京惠每云科技有限公司 医学实体关系的识别方法、装置、电子设备及存储介质
CN115408537A (zh) * 2022-08-26 2022-11-29 常州桐树生物科技有限公司 基于精准医疗知识图谱的隐藏关系计算方法和系统

Also Published As

Publication number Publication date
CN116610819A (zh) 2023-08-18

Similar Documents

Publication Publication Date Title
CN116610819B (zh) 医学知识图谱生成方法、装置、电子设备及存储介质
CN110176315B (zh) 医疗问答方法及系统、电子设备、计算机可读介质
Lei et al. Semi-supervised question retrieval with gated convolutions
US20210295162A1 (en) Neural network model training method and apparatus, computer device, and storage medium
US9275115B2 (en) Correlating corpus/corpora value from answered questions
CN109408821B (zh) 一种语料生成方法、装置、计算设备及存储介质
Albraikan et al. Optimal deep learningbased cyberattack detection and classification technique on social networks
Hannagan et al. Protein analysis meets visual word recognition: A case for string kernels in the brain
CN116631643A (zh) 医疗知识图谱构建方法、装置、电子设备及存储介质
CN111435410B (zh) 用于医疗文本的关系抽取方法及其装置
Sumi et al. Improving classification accuracy using combined filter+ wrapper feature selection technique
CN113010657A (zh) 基于解答文本的答案处理方法和答案推荐方法
CN112201359A (zh) 基于人工智能的重症问诊数据识别方法及装置
CN110808095A (zh) 诊断结果识别、模型训练的方法、计算机设备及存储介质
CN114238715A (zh) 基于社会救助的问答系统、构建方法、计算机设备及介质
Illig et al. A comparison of content-based tag recommendations in folksonomy systems
Khan et al. Computational approach for detection of diabetes from ocular scans
Tan et al. Alignment of biomedical ontologies using life science literature
WO2021139271A1 (zh) 基于fm模型的医学热点的预测方法、装置和计算机设备
CN116049434A (zh) 电力施工安全知识图谱的构建方法、装置及电子设备
Montenegro et al. Disentangled representation learning for privacy-preserving case-based explanations
Sawczyn et al. Fact-checking: Relevance assessment of references in the Polish political domain
Sun et al. Effective rule mining of sparse data based on transfer learning
Tang [Retracted] Analysis of English Multitext Reading Comprehension Model Based on Deep Belief Neural Network
Rathnayaka et al. Intelligent System for Skin Disease Detection of Dogs with Ontology Based Clinical Information Extraction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant