CN116631643A - 医疗知识图谱构建方法、装置、电子设备及存储介质 - Google Patents
医疗知识图谱构建方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116631643A CN116631643A CN202310905417.1A CN202310905417A CN116631643A CN 116631643 A CN116631643 A CN 116631643A CN 202310905417 A CN202310905417 A CN 202310905417A CN 116631643 A CN116631643 A CN 116631643A
- Authority
- CN
- China
- Prior art keywords
- disease
- disease type
- knowledge graph
- treatment
- name
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims abstract description 48
- 201000010099 disease Diseases 0.000 claims abstract description 232
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 232
- 238000011282 treatment Methods 0.000 claims abstract description 167
- 238000000034 method Methods 0.000 claims abstract description 22
- 238000011269 treatment regimen Methods 0.000 claims abstract description 14
- 239000003814 drug Substances 0.000 claims description 76
- 229940079593 drug Drugs 0.000 claims description 54
- 238000001356 surgical procedure Methods 0.000 claims description 30
- 238000004590 computer program Methods 0.000 claims description 16
- 229940126585 therapeutic drug Drugs 0.000 claims description 7
- 230000001225 therapeutic effect Effects 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 abstract description 5
- 238000012545 processing Methods 0.000 abstract description 4
- 206010020772 Hypertension Diseases 0.000 description 35
- SNIOPGDIGTZGOP-UHFFFAOYSA-N Nitroglycerin Chemical compound [O-][N+](=O)OCC(O[N+]([O-])=O)CO[N+]([O-])=O SNIOPGDIGTZGOP-UHFFFAOYSA-N 0.000 description 30
- 239000000006 Nitroglycerin Substances 0.000 description 30
- 229960003711 glyceryl trinitrate Drugs 0.000 description 30
- 238000010586 diagram Methods 0.000 description 8
- 239000000203 mixture Substances 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 208000006820 Arthralgia Diseases 0.000 description 1
- 229930186147 Cephalosporin Natural products 0.000 description 1
- 206010057190 Respiratory tract infections Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 229940124587 cephalosporin Drugs 0.000 description 1
- 150000001780 cephalosporins Chemical class 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 208000020029 respiratory tract infectious disease Diseases 0.000 description 1
- 206010039073 rheumatoid arthritis Diseases 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Epidemiology (AREA)
- Pathology (AREA)
- Databases & Information Systems (AREA)
- Primary Health Care (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明涉及一种医疗知识图谱构建方法、装置、电子设备及存储介质,该方法包括:获取临床指南文本,临床指南文本中至少包括疾病类型及其对应的治疗方案。调用语言表示模型对临床指南文本进行识别,以提取临床指南文本中的疾病类型和治疗方案。基于疾病类型和治疗方案,构建Prompt提示对话框,以获取第一任务指令,第一任务指令用于指令大模型判断疾病类型和治疗方案之间是否存在实体关系。当疾病类型和治疗方案之间存在实体关系时,基于疾病类型和治疗方案,构建医疗知识图谱。该方法在处理海量数据并进行复杂的计算和预测的过程中,通过Prompt提示对话框获取相应的任务指令,避免了大模型对复杂信息文本的直接识别判断。
Description
技术领域
本发明涉及医疗技术领域,特别是涉及一种医疗知识图谱构建方法、装置、电子设备及存储介质。
背景技术
知识图谱在医疗领域的应用是较为广泛的,知识图谱是结构化的语义知识库,用于描述物理世界中的概念及其相互关系,其基本组成单位是“实体-关系-实体”三元组,以及实体及其相关属性-值对,实体间通过关系相互联结,构成网状的知识结构。在医疗领域,知识图谱多是通过提取用户问题中的关键词作为知识点,并在数据库内部进行一对一的实体映射来找出知识点的对应项,然后将对应项作为答案反馈给用户。
目前,构建医疗领域知识图谱实体和关系抽取的主要通过人工制定一些规则来识别文本中的实体和关系,以及使用已标注好的数据集训练模型来自动识别实体和关系,以及使用神经网络模型进行实体和关系的抽取,如使用LSTM或Transformer等模型。最终构建的医疗知识图谱主要用于描述特定疾病与其常见症状之间的关系,例如关节疼痛和类风湿性关节炎;或者用于展示药物与其所治疗的疾病之间的关系,例如头孢菌素和呼吸道感染;或者用于描述身体不同部位和器官之间的联系,例如心脏和肺部之间的关系。然而,传统的通过人工制定规则来识别文本中的实体和关系的方式虽然可解释性较强,但是需要大量的人力参与规则制定和维护,且覆盖面较窄。传统的基于机器学习来识别实体和关系的方式虽然能够自动化地对文本进行标注并能够适应新文本数据,但是其需要大量的已标注数据集,最终模型的表现取决于数据质量。传统的基于深度学习来识别实体和关系的方式虽然能够处理复杂的语境和文本结构,但是其需要大量的计算资源和数据集,且最终模型预测的结果较难解释。
综上所述,传统的医疗知识图谱构建方式易受模型训练数据集或者人工规则的限制,较难在海量数据中复杂的计算和预测中准确地挖掘和分析医疗领域的数据。
发明内容
基于此,有必要针对上述技术问题,提供一种能够在处理海量数据并进行复杂的计算和预测的过程中,准确挖掘和分析医疗领域数据文本的医疗知识图谱构建方法、装置、电子设备及存储介质。
本发明提供了一种医疗知识图谱构建方法,所述方法包括:
获取临床指南文本,所述临床指南文本中至少包括疾病类型及其对应的治疗方案;
调用语言表示模型对所述临床指南文本进行识别,以提取所述临床指南文本中的疾病类型和治疗方案;
基于所述疾病类型和治疗方案,构建Prompt提示对话框,以获取第一任务指令,所述第一任务指令用于指令大模型判断所述疾病类型和治疗方案之间是否存在实体关系;
当所述疾病类型和治疗方案之间存在实体关系时,基于所述疾病类型和治疗方案,构建医疗知识图谱。
在其中一个实施例中,所述调用语言表示模型对所述临床指南文本进行识别,以提取所述临床指南文本中的疾病类型和治疗方案,包括:
调用所述语言表示模型对所述临床指南文本进行实体识别,以获取所述临床指南文本中的医疗实体,其中,所述医疗实体至少包括疾病名称、药品名称以及手术名称;
基于所述医疗实体,获取所述疾病名称及其对应的药品名称和手术名称。
在其中一个实施例中,所述基于所述疾病类型和治疗方案,构建Prompt提示对话框,以获取第一任务指令,包括:
基于所述Prompt提示对话框,接收所述第一任务指令;
基于所述第一任务指令,调用所述大模型判断所述疾病类型和治疗方案之间是否存在实体关系;若是,则
保留所述疾病类型和治疗方案,以构建所述医疗知识图谱;若否,则
丢弃所述疾病类型和治疗方案。
在其中一个实施例中,所述治疗方案至少包括治疗药物和治疗手术,所述当所述疾病类型和治疗方案之间存在实体关系时,基于所述疾病类型和治疗方案,构建医疗知识图谱,包括:
当所述疾病类型的治疗方案为治疗药物时,基于所述疾病类型和治疗药物,构建所述疾病类型和治疗药物之间的医疗三元组知识图谱,且所述医疗三元组知识图谱由疾病名称、药品名称以及疾病名称与药品名称之间的对应关系组成;
其中,所述疾病名称具有疾病标签,所述药品名称具有药品标签,且所述疾病标签和药品标签之间具有对应关系。
在其中一个实施例中,所述当所述疾病类型和治疗方案之间存在实体关系时,基于所述疾病类型和治疗方案,构建医疗知识图谱,还包括:
当所述疾病类型的治疗方案为治疗手术时,基于所述疾病类型和治疗手术,构建所述疾病类型和治疗手术之间的医疗三元组知识图谱,且所述医疗三元组知识图谱由疾病名称、手术名称以及疾病名称与手术名称之间的对应关系组成;
其中,所述疾病名称具有疾病标签,所述手术名称具有手术标签,且所述疾病标签与手术标签之间具有对应关系。
在其中一个实施例中,所述方法还包括:
基于所述疾病类型和治疗方案,获取多个所述Prompt提示对话框,以生成多个所述第一任务指令,其中,每一个第一任务指令中待判断的疾病名称及其对应的治疗方案文本不同;
基于每一个所述第一任务指令,调用所述大模型判断不同的疾病名称及其对应的治疗方案文本之间是否具有实体关系。
在其中一个实施例中,所述调用所述大模型判断不同的疾病名称及其对应的治疗方案文本之间是否具有实体关系,之后包括:
基于所述大模型对不同的疾病名称及其对应的治疗方案文本之间的实体关系的判断结果,保留具有实体关系的治疗方案及其对应的治疗方案文本,以构建所述医疗知识图谱;
其中,所述不同的疾病名称及其对应的治疗方案文本均来自同一个临床指南文本。
本发明还提供了一种医疗知识图谱构建装置,所述装置包括:
第一获取模块,用于获取临床指南文本,所述临床指南文本中至少包括疾病类型及其对应的治疗方案;
文本识别模块,用于调用语言表示模型对所述临床指南文本进行识别,以提取所述临床指南文本中的疾病类型和治疗方案;
第二获取模块,用于基于所述疾病类型和治疗方案,构建Prompt提示对话框,以获取第一任务指令,所述第一任务指令用于指令大模型判断所述疾病类型和治疗方案之间是否存在实体关系;
知识图谱构建模块,用于当所述疾病类型和治疗方案之间存在实体关系时,基于所述疾病类型和治疗方案,构建医疗知识图谱。
本发明还提供了一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述的医疗知识图谱构建方法。
本发明还提供了一种计算机存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述的医疗知识图谱构建方法。
上述医疗知识图谱构建方法、装置、电子设备及存储介质,通过获取包含治病类型及其对应治疗方案的临床指南文本,调用语言表示模型对该临床指南文本进行识别,以提取临床指南文本中的医疗实体,即疾病类型及其相应的治疗方案。随后,基于语言表示模型提取出来的疾病类型及其相应的治疗方案,构建相应的Prompt提示对话框,以获取相应的任务指令,通过该任务指令指令大模型判断疾病类型及其相应的治疗方案之间是否存在实体关系,最后在该疾病类型及其相应的治疗方案之间存在实体关系时,基于疾病类型及其相应的治疗方案以及疾病类型与治疗方案之间的实体关系构建疾病-关系-治疗方案的医疗知识图谱。该方法通过Prompt提示对话框获取相应的任务指令,使得大模型根据任务指令对医疗实体以及实体关系进行判断,避免了大模型对复杂信息文本的直接识别判断,只需要判断任务指令中医疗实体之间是否具有实体关系即可,Prompt提示对话框的构建能够更好的提示大模型。因此,该方法在处理海量数据并进行复杂的计算和预测的过程中,也能够准确挖掘和分析医疗领域数据文本。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的医疗知识图谱构建方法流程示意图之一;
图2为本发明提供的具体实施例中医疗知识图谱构建方法流程示意图;
图3为本发明提供的医疗知识图谱构建方法流程示意图之二;
图4为本发明提供的医疗知识图谱构建方法流程示意图之三;
图5为本发明提供的医疗知识图谱构建方法流程示意图之四;
图6为本发明提供的医疗知识图谱构建方法流程示意图之五;
图7为本发明提供的医疗知识图谱构建装置结构示意图;
图8为本发明提供的计算机设备的内部结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地说明,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图8描述本发明的医疗知识图谱构建方法、装置、电子设备及存储介质。
如图1所示,在一个实施例中,一种医疗知识图谱构建方法,包括以下步骤:
步骤S110,获取临床指南文本,临床指南文本中至少包括疾病类型及其对应的治疗方案。
其中,临床指南文本为包含疾病类型及其对应的治疗方案的自然语言文本,例如“硝酸甘油是治疗高血压的一种药物”,则该临床指南文本中包含的疾病类型则为“高血压”,治疗方案则为“硝酸甘油”。
具体的,结合图2所示,服务器获取“硝酸甘油是治疗高血压的一种药物”的临床指南文本。
步骤S120,调用语言表示模型对临床指南文本进行识别,以提取临床指南文本中的疾病类型和治疗方案。
其中,语言表示模型(BERT,英文全称为Bidirectional EncoderRepresentations from Transformers),用于从医学文本中识别出具有特定意义的实体文本,例如疾病、药品、手术名称以及治疗方案等。
具体的,服务器调用语言表示模型对步骤S110中得到的“硝酸甘油是治疗高血压的一种药物”文本进行识别,提取出该文本中的“硝酸甘油”、“药物”作为治疗方案,“高血压”作为疾病类型。
步骤S130,基于疾病类型和治疗方案,构建Prompt提示对话框,以获取第一任务指令,第一任务指令用于指令大模型判断疾病类型和治疗方案之间是否存在实体关系。
具体的,服务器基于步骤S120中得到的实体文本,即“硝酸甘油”、“药物”以及“高血压”,构建Prompt提示对话框,由于治疗方案存在两个实体文本“硝酸甘油”和“药物”,此时Prompt提示对话框则会发出两个任务指令,分别是Prompt.1:在这段话中“硝酸甘油是治疗高血压的一种药物”抽取药品实体“硝酸甘油”与疾病实体“高血压”是否存在“药品-疾病”关系,回答“是”或者“不是”。Prompt.2:在这段话中“硝酸甘油是治疗高血压的一种药物”抽取药品实体“药物”与疾病实体“高血压”是否存在“药品-疾病”关系,回答“是”或者“不是”。
步骤S140,当疾病类型和治疗方案之间存在实体关系时,基于疾病类型和治疗方案,构建医疗知识图谱。
具体的,服务器将步骤S130中得到的Prompt.1和Prompt.2全部发送给大模型,由大模型判断Prompt.1和Prompt.2中的内容是否存在“药品-疾病”关系,即实体关系。当Prompt.1:在这段话中“硝酸甘油是治疗高血压的一种药物”抽取药品实体“硝酸甘油”与疾病实体“高血压”是否存在“药品-疾病”关系,回答“是”或者“不是”,在大模型的判断结果中显示“是”,服务器则基于药品实体“硝酸甘油”与疾病实体“高血压”以及“药品-疾病”关系构建医疗知识图谱(硝酸甘油,药品-疾病,高血压)。
上述医疗知识图谱构建方法,通过获取包含治病类型及其对应治疗方案的临床指南文本,调用语言表示模型对该临床指南文本进行识别,以提取临床指南文本中的医疗实体,即疾病类型及其相应的治疗方案。随后,基于语言表示模型提取出来的疾病类型及其相应的治疗方案,构建相应的Prompt提示对话框,以获取相应的任务指令,通过该任务指令指令大模型判断疾病类型及其相应的治疗方案之间是否存在实体关系,最后在该疾病类型及其相应的治疗方案之间存在实体关系时,基于疾病类型及其相应的治疗方案以及疾病类型与治疗方案之间的实体关系构建疾病-关系-治疗方案的医疗知识图谱。该方法通过Prompt提示对话框获取相应的任务指令,使得大模型根据任务指令对医疗实体以及实体关系进行判断,避免了大模型对复杂信息文本的直接识别判断,只需要判断任务指令中医疗实体之间是否具有实体关系即可,Prompt提示对话框的构建能够更好的提示大模型。因此,该方法在处理海量数据并进行复杂的计算和预测的过程中,也能够准确挖掘和分析医疗领域数据文本。
如图3所示,在一个实施例中,本发明提供的医疗知识图谱构建方法,调用语言表示模型对临床指南文本进行识别,以提取临床指南文本中的疾病类型和治疗方案,包括以下步骤:
步骤S122,调用语言表示模型对临床指南文本进行实体识别,以获取临床指南文本中的医疗实体,其中,医疗实体至少包括疾病名称、药品名称以及手术名称。
具体的,服务器调用语言表示模型对临床指南文本“硝酸甘油是治疗高血压的一种药物”进行识别,得到“硝酸甘油”、“高血压”以及“药物”这三个医疗实体。
步骤S124,基于医疗实体,获取疾病名称及其对应的药品名称和手术名称。
具体的,服务器基于步骤S122中得到的“硝酸甘油”、“高血压”以及“药物”这三个医疗实体,即可获取临床指南文本中的疾病名称“高血压”,以及药品名称“硝酸甘油”和“药物”,手术名称同理。
如图4所示,在一个实施例中,本发明提供的医疗知识图谱构建方法,基于疾病类型和治疗方案,构建Prompt提示对话框,以获取第一任务指令,包括以下步骤:
步骤S132,基于Prompt提示对话框,接收第一任务指令。
具体的,服务器基于Prompt提示对话框,接收相应的任务指令,即Prompt.1:在这段话中“硝酸甘油是治疗高血压的一种药物”抽取药品实体“硝酸甘油”与疾病实体“高血压”是否存在“药品-疾病”关系,回答“是”或者“不是”。Prompt.2:在这段话中“硝酸甘油是治疗高血压的一种药物”抽取药品实体“药物”与疾病实体“高血压”是否存在“药品-疾病”关系,回答“是”或者“不是”。
步骤S134,基于第一任务指令,调用大模型判断疾病类型和治疗方案之间是否存在实体关系。
具体的,服务器基于步骤S132中得到的Prompt.1和Prompt.2,调用大模型判断“硝酸甘油”与“高血压”之间是否具有“药品-疾病”关系以及“药物”与“高血压”之间是否具有“药品-疾病”关系。
步骤S136,保留疾病类型和治疗方案,以构建医疗知识图谱。
具体的,基于步骤S134中的判断结果,当判断Prompt.1:在这段话中“硝酸甘油是治疗高血压的一种药物”抽取药品实体“硝酸甘油”与疾病实体“高血压”是否存在“药品-疾病”关系,回答“是”或者“不是”时,大模型输出的判断结果为“是”,则保留Prompt.1中“硝酸甘油”、“高血压”以及“药品-疾病”关系,以构建医疗知识图谱。
步骤S138,丢弃疾病类型和治疗方案。
具体的,基于步骤S134中的判断结果,当判断Prompt.2:在这段话中“硝酸甘油是治疗高血压的一种药物”抽取药品实体“药物”与疾病实体“高血压”是否存在“药品-疾病”关系,回答“是”或者“不是”时,大模型输出的判断结果为“不是”,此时则丢弃Prompt.2中的“药物”、“高血压”以及“药品-疾病”关系。
如图5所示,在一个实施例中,本发明提供的医疗知识图谱构建方法,当疾病类型和治疗方案之间存在实体关系时,基于疾病类型和治疗方案,构建医疗知识图谱,包括以下步骤:
步骤S142,当疾病类型的治疗方案为治疗药物时,基于疾病类型和治疗药物,构建疾病类型和治疗药物之间的医疗三元组知识图谱,且医疗三元组知识图谱由疾病名称、药品名称以及疾病名称与药品名称之间的对应关系组成。
具体的,当疾病类型的治疗方案为治疗药物时,基于疾病类型和治疗药物,构建疾病类型和药物之间的医疗三元组知识图谱,且该医疗三元组知识图谱由疾病名称、药品名称以及疾病名称与药品名称之间的对应关系组成,例如“硝酸甘油,药品-疾病,高血压”。
步骤S144,当疾病类型的治疗方案为治疗手术时,基于疾病类型和治疗手术,构建疾病类型和治疗手术之间的医疗三元组知识图谱,且医疗三元组知识图谱由疾病名称、手术名称以及疾病名称与手术名称之间的对应关系组成。
具体的,当疾病类型的治疗方案为治疗手术时,服务器基于疾病类型和治疗手术,构建疾病类型和治疗手术之间的医疗三元组知识图谱,且该医疗三元组知识图谱由疾病名称、手术名称以及疾病名称与手术名称之间的对应关系组成。
如图6所示,在一个实施例中,本发明提供的医疗知识图谱构建方法,还包括以下步骤:
步骤S610,基于疾病类型和治疗方案,获取多个Prompt提示对话框,以生成多个第一任务指令,其中,每一个第一任务指令中待判断的疾病名称及其对应的治疗方案文本不同。
具体的,服务器基于疾病类型和治疗方案,获取多个Prompt提示对话框,以生成多个任务指令,例如Prompt.1和Prompt.2即为两个不同的任务指令,该两个不同的任务指令指令大模型的判断内容也是不相同的。
步骤S620,基于每一个第一任务指令,调用大模型判断不同的疾病名称及其对应的治疗方案文本之间是否具有实体关系。
具体的,服务器基于每一个任务指令的不同判断内容,调用大模型对不同任务指令中的内容进行判断,所得到的判断结果可能是不同的,因为不排除其他药物或者治疗方式对同一种疾病的治疗效果。例如大模型对Prompt.1:在这段话中“硝酸甘油是治疗高血压的一种药物”抽取药品实体“硝酸甘油”与疾病实体“高血压”是否存在“药品-疾病”关系,回答“是”或者“不是”的判断结果为“是”。而对Prompt.2:在这段话中“硝酸甘油是治疗高血压的一种药物”抽取药品实体“药物”与疾病实体“高血压”是否存在“药品-疾病”关系,回答“是”或者“不是”的判断结果为“不是”。
步骤S630,基于大模型对不同的疾病名称及其对应的治疗方案文本之间的实体关系的判断结果,保留具有实体关系的治疗方案及其对应的治疗方案文本,以构建医疗知识图谱。
具体的,服务器基于步骤S620中大模型对不同的任务指令内容的判断结果,保留大模型输出为“是”的任务指令内容中的医疗实体及其实体关系,以构建医疗知识图谱。
下面对本发明提供的医疗知识图谱构建装置进行描述,下文描述的医疗知识图谱构建装置与上文描述的医疗知识图谱构建方法可相互对应参照。
如图7所示,在一个实施例中,一种医疗知识图谱构建装置,包括第一获取模块710、文本识别模块720、第二获取模块730以及知识图谱构建模块740。
第一获取模块710用于获取临床指南文本,临床指南文本中至少包括疾病类型及其对应的治疗方案。
文本识别模块720用于调用语言表示模型对临床指南文本进行识别,以提取临床指南文本中的疾病类型和治疗方案。
第二获取模块730用于基于疾病类型和治疗方案,构建Prompt提示对话框,以获取第一任务指令,第一任务指令用于指令大模型判断疾病类型和治疗方案之间是否存在实体关系。
知识图谱构建模块740用于当疾病类型和治疗方案之间存在实体关系时,基于疾病类型和治疗方案,构建医疗知识图谱。
在本实施例中,本发明提供的医疗知识图谱构建装置,文本识别模块具体用于:
调用语言表示模型对临床指南文本进行实体识别,以获取临床指南文本中的医疗实体,其中,医疗实体至少包括疾病名称、药品名称以及手术名称。
基于医疗实体,获取疾病名称及其对应的药品名称和手术名称。
在本实施例中,本发明提供的医疗知识图谱构建装置,第二获取模块具体用于:
基于Prompt提示对话框,接收第一任务指令。
基于第一任务指令,调用大模型判断所述疾病类型和治疗方案之间是否存在实体关系。若是,则
保留疾病类型和治疗方案,以构建医疗知识图谱。若否,则
丢弃疾病类型和治疗方案。
在本实施例中,本发明提供的医疗知识图谱构建装置,知识图谱构建模块,具体用于:
当疾病类型的治疗方案为治疗药物时,基于疾病类型和治疗药物,构建疾病类型和治疗药物之间的医疗三元组知识图谱,且医疗三元组知识图谱由疾病名称、药品名称以及疾病名称与药品名称之间的对应关系组成。
其中,疾病名称具有疾病标签,药品名称具有药品标签,且疾病标签和药品标签之间具有对应关系。
当疾病类型的治疗方案为治疗手术时,基于疾病类型和治疗手术,构建疾病类型和治疗手术之间的医疗三元组知识图谱,且医疗三元组知识图谱由疾病名称、手术名称以及疾病名称与手术名称之间的对应关系组成。
其中,疾病名称具有疾病标签,手术名称具有手术标签,且疾病标签与手术标签之间具有对应关系。
在本实施例中,本发明提供的医疗知识图谱构建装置,还包括实体筛选模块,用于:
基于疾病类型和治疗方案,获取多个Prompt提示对话框,以生成多个第一任务指令,其中,每一个第一任务指令中待判断的疾病名称及其对应的治疗方案文本不同。
基于每一个第一任务指令,调用大模型判断不同的疾病名称及其对应的治疗方案文本之间是否具有实体关系。
基于大模型对不同的疾病名称及其对应的治疗方案文本之间的实体关系的判断结果,保留具有实体关系的治疗方案及其对应的治疗方案文本,以构建医疗知识图谱。
其中,不同的疾病名称及其对应的治疗方案文本均来自同一个临床指南文本。
图8示例了一种电子设备的实体结构示意图,该电子设备可以是智能终端,其内部结构图可以如图8所示。该电子设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现医疗知识图谱构建方法,该方法包括:
获取临床指南文本,临床指南文本中至少包括疾病类型及其对应的治疗方案;
调用语言表示模型对临床指南文本进行识别,以提取临床指南文本中的疾病类型和治疗方案;
基于疾病类型和治疗方案,构建Prompt提示对话框,以获取第一任务指令,第一任务指令用于指令大模型判断疾病类型和治疗方案之间是否存在实体关系;
当疾病类型和治疗方案之间存在实体关系时,基于疾病类型和治疗方案,构建医疗知识图谱。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
另一方面,本发明还提供了一种计算机存储介质,存储有计算机程序,计算机程序被处理器执行时实现医疗知识图谱构建方法,该方法包括:
获取临床指南文本,临床指南文本中至少包括疾病类型及其对应的治疗方案;
调用语言表示模型对临床指南文本进行识别,以提取临床指南文本中的疾病类型和治疗方案;
基于疾病类型和治疗方案,构建Prompt提示对话框,以获取第一任务指令,第一任务指令用于指令大模型判断疾病类型和治疗方案之间是否存在实体关系;
当疾病类型和治疗方案之间存在实体关系时,基于疾病类型和治疗方案,构建医疗知识图谱。
又一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令时实现医疗知识图谱构建方法,该方法包括:
获取临床指南文本,临床指南文本中至少包括疾病类型及其对应的治疗方案;
调用语言表示模型对临床指南文本进行识别,以提取临床指南文本中的疾病类型和治疗方案;
基于疾病类型和治疗方案,构建Prompt提示对话框,以获取第一任务指令,第一任务指令用于指令大模型判断疾病类型和治疗方案之间是否存在实体关系;
当疾病类型和治疗方案之间存在实体关系时,基于疾病类型和治疗方案,构建医疗知识图谱。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。
作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双倍数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种医疗知识图谱构建方法,其特征在于,所述方法包括:
获取临床指南文本,所述临床指南文本中至少包括疾病类型及其对应的治疗方案;
调用语言表示模型对所述临床指南文本进行识别,以提取所述临床指南文本中的疾病类型和治疗方案;
基于所述疾病类型和治疗方案,构建Prompt提示对话框,以获取第一任务指令,所述第一任务指令用于指令大模型判断所述疾病类型和治疗方案之间是否存在实体关系;
当所述疾病类型和治疗方案之间存在实体关系时,基于所述疾病类型和治疗方案,构建医疗知识图谱。
2.根据权利要求1所述的医疗知识图谱构建方法,其特征在于,所述调用语言表示模型对所述临床指南文本进行识别,以提取所述临床指南文本中的疾病类型和治疗方案,包括:
调用所述语言表示模型对所述临床指南文本进行实体识别,以获取所述临床指南文本中的医疗实体,其中,所述医疗实体至少包括疾病名称、药品名称以及手术名称;
基于所述医疗实体,获取所述疾病名称及其对应的药品名称和手术名称。
3.根据权利要求1所述的医疗知识图谱构建方法,其特征在于,所述基于所述疾病类型和治疗方案,构建Prompt提示对话框,以获取第一任务指令,包括:
基于所述Prompt提示对话框,接收所述第一任务指令;
基于所述第一任务指令,调用所述大模型判断所述疾病类型和治疗方案之间是否存在实体关系;若是,则
保留所述疾病类型和治疗方案,以构建所述医疗知识图谱;若否,则
丢弃所述疾病类型和治疗方案。
4.根据权利要求1所述的医疗知识图谱构建方法,其特征在于,所述治疗方案至少包括治疗药物和治疗手术,所述当所述疾病类型和治疗方案之间存在实体关系时,基于所述疾病类型和治疗方案,构建医疗知识图谱,包括:
当所述疾病类型的治疗方案为治疗药物时,基于所述疾病类型和治疗药物,构建所述疾病类型和治疗药物之间的医疗三元组知识图谱,且所述医疗三元组知识图谱由疾病名称、药品名称以及疾病名称与药品名称之间的对应关系组成;
其中,所述疾病名称具有疾病标签,所述药品名称具有药品标签,且所述疾病标签和药品标签之间具有对应关系。
5.根据权利要求4所述的医疗知识图谱构建方法,其特征在于,所述当所述疾病类型和治疗方案之间存在实体关系时,基于所述疾病类型和治疗方案,构建医疗知识图谱,还包括:
当所述疾病类型的治疗方案为治疗手术时,基于所述疾病类型和治疗手术,构建所述疾病类型和治疗手术之间的医疗三元组知识图谱,且所述医疗三元组知识图谱由疾病名称、手术名称以及疾病名称与手术名称之间的对应关系组成;
其中,所述疾病名称具有疾病标签,所述手术名称具有手术标签,且所述疾病标签与手术标签之间具有对应关系。
6.根据权利要求1所述的医疗知识图谱构建方法,其特征在于,所述方法还包括:
基于所述疾病类型和治疗方案,获取多个所述Prompt提示对话框,以生成多个所述第一任务指令,其中,每一个第一任务指令中待判断的疾病名称及其对应的治疗方案文本不同;
基于每一个所述第一任务指令,调用所述大模型判断不同的疾病名称及其对应的治疗方案文本之间是否具有实体关系。
7.根据权利要求6所述的医疗知识图谱构建方法,其特征在于,所述调用所述大模型判断不同的疾病名称及其对应的治疗方案文本之间是否具有实体关系,之后包括:
基于所述大模型对不同的疾病名称及其对应的治疗方案文本之间的实体关系的判断结果,保留具有实体关系的治疗方案及其对应的治疗方案文本,以构建所述医疗知识图谱;
其中,所述不同的疾病名称及其对应的治疗方案文本均来自同一个临床指南文本。
8.一种医疗知识图谱构建装置,其特征在于,所述装置包括:
第一获取模块,用于获取临床指南文本,所述临床指南文本中至少包括疾病类型及其对应的治疗方案;
文本识别模块,用于调用语言表示模型对所述临床指南文本进行识别,以提取所述临床指南文本中的疾病类型和治疗方案;
第二获取模块,用于基于所述疾病类型和治疗方案,构建Prompt提示对话框,以获取第一任务指令,所述第一任务指令用于指令大模型判断所述疾病类型和治疗方案之间是否存在实体关系;
知识图谱构建模块,用于当所述疾病类型和治疗方案之间存在实体关系时,基于所述疾病类型和治疗方案,构建医疗知识图谱。
9.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310905417.1A CN116631643A (zh) | 2023-07-24 | 2023-07-24 | 医疗知识图谱构建方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310905417.1A CN116631643A (zh) | 2023-07-24 | 2023-07-24 | 医疗知识图谱构建方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116631643A true CN116631643A (zh) | 2023-08-22 |
Family
ID=87636925
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310905417.1A Pending CN116631643A (zh) | 2023-07-24 | 2023-07-24 | 医疗知识图谱构建方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116631643A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117436441A (zh) * | 2023-12-14 | 2024-01-23 | 浙江口碑网络技术有限公司 | 基于大语言模型的文本结构识别方法 |
CN117995426A (zh) * | 2024-04-07 | 2024-05-07 | 北京惠每云科技有限公司 | 医疗知识图谱构建方法、装置、电子设备及存储介质 |
CN117995427A (zh) * | 2024-04-07 | 2024-05-07 | 北京惠每云科技有限公司 | 医疗知识库构建方法、装置、电子设备及存储介质 |
CN118039138A (zh) * | 2024-04-12 | 2024-05-14 | 北京惠每云科技有限公司 | 基于大模型的可控路径预问诊方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7383196B1 (en) * | 2000-03-14 | 2008-06-03 | Epic Systems Corporation | Method for operating active clinical guidelines |
CN114398402A (zh) * | 2021-12-31 | 2022-04-26 | 北京华彬立成科技有限公司 | 结构化信息提取和检索方法、装置、电子设备和存储介质 |
CN115774873A (zh) * | 2021-09-08 | 2023-03-10 | 深信服科技股份有限公司 | 一种跨站脚本攻击的检测方法、装置、设备及存储介质 |
CN116313120A (zh) * | 2022-12-30 | 2023-06-23 | 讯飞医疗科技股份有限公司 | 模型预训练方法、医学应用任务处理方法及其相关装置 |
-
2023
- 2023-07-24 CN CN202310905417.1A patent/CN116631643A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7383196B1 (en) * | 2000-03-14 | 2008-06-03 | Epic Systems Corporation | Method for operating active clinical guidelines |
CN115774873A (zh) * | 2021-09-08 | 2023-03-10 | 深信服科技股份有限公司 | 一种跨站脚本攻击的检测方法、装置、设备及存储介质 |
CN114398402A (zh) * | 2021-12-31 | 2022-04-26 | 北京华彬立成科技有限公司 | 结构化信息提取和检索方法、装置、电子设备和存储介质 |
CN116313120A (zh) * | 2022-12-30 | 2023-06-23 | 讯飞医疗科技股份有限公司 | 模型预训练方法、医学应用任务处理方法及其相关装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117436441A (zh) * | 2023-12-14 | 2024-01-23 | 浙江口碑网络技术有限公司 | 基于大语言模型的文本结构识别方法 |
CN117995426A (zh) * | 2024-04-07 | 2024-05-07 | 北京惠每云科技有限公司 | 医疗知识图谱构建方法、装置、电子设备及存储介质 |
CN117995427A (zh) * | 2024-04-07 | 2024-05-07 | 北京惠每云科技有限公司 | 医疗知识库构建方法、装置、电子设备及存储介质 |
CN118039138A (zh) * | 2024-04-12 | 2024-05-14 | 北京惠每云科技有限公司 | 基于大模型的可控路径预问诊方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116631643A (zh) | 医疗知识图谱构建方法、装置、电子设备及存储介质 | |
CN108986908B (zh) | 问诊数据处理方法、装置、计算机设备和存储介质 | |
CN110909137A (zh) | 基于人机交互的信息推送方法、装置和计算机设备 | |
CN107609163B (zh) | 医学知识图谱的生成方法、存储介质及服务器 | |
WO2020048264A1 (zh) | 药品数据处理方法、装置、计算机设备和存储介质 | |
CN109815333B (zh) | 信息获取方法、装置、计算机设备和存储介质 | |
CN109635122A (zh) | 智能疾病问询方法、装置、设备及存储介质 | |
US20220076167A1 (en) | Method for model deployment, terminal device, and non-transitory computer-readable storage medium | |
CN109215754A (zh) | 病历数据处理方法、装置、计算机设备和存储介质 | |
CN107808124A (zh) | 电子装置、医疗文本实体命名的识别方法及存储介质 | |
KR20190085098A (ko) | 키워드 추출 방법, 컴퓨터 장치, 및 저장 매체 | |
CN109887596A (zh) | 基于知识图谱的慢阻肺疾病诊断方法、装置和计算机设备 | |
CN112084789B (zh) | 文本处理方法、装置、设备及存储介质 | |
CN112036154A (zh) | 基于问诊对话的电子病历生成方法、装置和计算机设备 | |
CN110472049B (zh) | 疾病筛查文本分类方法、计算机设备和可读存储介质 | |
CN116610819B (zh) | 医学知识图谱生成方法、装置、电子设备及存储介质 | |
CN113204942A (zh) | 病案编码方法、装置、终端设备及可读存储介质 | |
CN114756659A (zh) | 语言模型训练方法、装置、设备及存储介质 | |
CN113724830A (zh) | 基于人工智能的用药风险检测方法及相关设备 | |
CN110491519A (zh) | 一种医学数据的检验方法 | |
CN112231556A (zh) | 基于对话场景的用户画像方法、装置、设备及介质 | |
CN111429991A (zh) | 药品预测方法、装置、计算机设备及存储介质 | |
CN115579153A (zh) | 问诊评价方法、问诊评价装置、电子设备和可读存储介质 | |
CN115759052A (zh) | 一种文本纠错方法、装置、电子设备及存储介质 | |
CN111063452A (zh) | 药物匹配方法、计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20230822 |