CN117995427A - 医疗知识库构建方法、装置、电子设备及存储介质 - Google Patents
医疗知识库构建方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN117995427A CN117995427A CN202410406779.0A CN202410406779A CN117995427A CN 117995427 A CN117995427 A CN 117995427A CN 202410406779 A CN202410406779 A CN 202410406779A CN 117995427 A CN117995427 A CN 117995427A
- Authority
- CN
- China
- Prior art keywords
- medical
- prompt
- library
- paragraph
- text data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 87
- 238000009411 base construction Methods 0.000 title claims abstract description 56
- 239000013598 vector Substances 0.000 claims abstract description 88
- 230000011218 segmentation Effects 0.000 claims abstract description 24
- 238000004590 computer program Methods 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 9
- 239000000284 extract Substances 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000003340 mental effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Landscapes
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明涉及医疗知识库构建方法、装置、电子设备及存储介质,包括:获取医学文本数据,根据医学场景对提示对话框优化,以构建Prompt模板库。对医学文本数据进行段落切分,得到第一段落,从Prompt模板库中获取与第一段落医学场景对应的第一Prompt模板构建第一提示对话框。调用大语言模型对第一提示对话框处理输出第一段落的第一文本数据。构建医学文本数据的标量库和向量库,通过检索召回与第一文本数据相似度超过第一阈值的第二段落。从Prompt模板库提取与第二段落的医学场景相对应的第二Prompt模板,根据第二Prompt模板构建第二提示对话框作为大语言模型的输入,输出第二段落与第一段落的答案文本。
Description
技术领域
本发明涉及医学知识库构建技术领域,特别是涉及一种医疗知识库构建方法、装置、电子设备及存储介质。
背景技术
医学知识库是将医学期刊文献、医学指南、医学教材、药品说明书等可信的医学知识提炼以要点的形式向医生和医疗从业人员提供知识服务,是医生和医疗从业人员医疗、学习过程中使用较多的工具。
随着医学研究的不断发展,医疗文献数量庞大,研究人员、医生和决策者需要从这些文献中获取最新的、有用的信息。因此,在医疗领域,建立一个包含丰富信息的知识库对于支持医学研究、临床实践和医学决策至关重要,而这样的知识库需要不断更新,来反映最新的医学知识。但是现有的医学文献检索方法中所检索到的医学知识通常整篇展示,或者检索出大量的医学文献文本,这就导致了用户在获取所需医学知识的过程中需要浏览的文本数据较多,降低了所需医学知识获取的效率,且由于大量的医学文献被检索出来的过程中缺少严格的信息过滤,较易导致信息过载的问题产生。
因此,现有的医学文献检索方法由于不具备更加完善的知识库,其医疗知识检索效率较低且较易产生信息过载的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高医疗知识检索效率且能够避免信息过载问题的医疗知识库构建方法、装置、电子设备及存储介质。
本发明提供了一种医疗知识库构建方法,所述方法包括:
获取医学文本数据,并根据不同医学场景对提示对话框进行优化,以构建Prompt模板库,所述Prompt模板库适用于所述不同医学场景中的任一医学场景;
对所述医学文本数据进行段落切分,得到第一段落,并从所述Prompt模板库中获取与所述第一段落的医学场景相对应的第一Prompt模板,以构建第一提示对话框;
调用大语言模型对所述第一提示对话框进行处理,以输出所述第一段落对应的第一文本数据,所述第一文本数据为所述第一段落的标准化文本;
构建所述医学文本数据的标量库和向量库,并对所述标量库和向量库进行检索,以召回与所述第一文本数据相似度超过第一阈值的多个第二段落,所述标量库和向量库包括单篇医学文本库和整体医学文本库;
从所述Prompt模板库提取与每个所述第二段落的医学场景相对应的第二Prompt模板,并根据所述第二Prompt模板构建第二提示对话框,所述第二提示对话框用于作为所述大语言模型的输入,以输出所述第二段落与第一段落之间的答案文本。
在其中一个实施例中,所述获取医学文本数据,并根据不同医学场景对提示对话框进行优化,以构建Prompt模板库,包括:
从公开网站获取医学文献,基于所述医学文献获取所述医学文本数据,并对所述医学文本数据进行分析,以获取多个不同的医学场景;
基于每个所述医学场景对提示对话框进行优化,得到多个适用于所述不同医学场景的Prompt模板,并根据所述多个适用于所述不同医学场景的Prompt模板构建所述Prompt模板库。
在其中一个实施例中,所述对所述医学文本数据进行段落切分,得到第一段落,并从所述Prompt模板库中获取与所述第一段落的医学场景相对应的第一Prompt模板,以构建第一提示对话框,包括:
对所述医学文本数据进行段落切分,以获取多个段落,所述多个段落包括所述第一段落;
从所述Prompt模板库中提取与所述多个段落中的每个段落的医学场景相对应的Prompt模板,得到多个Prompt模板,所述多个Prompt模板包括所述第一Prompt模板;
基于所述多个Prompt模板,构建所述多个段落中的每个段落相对应的提示对话框,得到多个提示对话框,所述多个提示对话框包括所述第一提示对话框。
在其中一个实施例中,所述调用大语言模型对所述第一提示对话框进行处理,以输出所述第一段落对应的第一文本数据,包括:
调用大语言模型对所述多个提示对话框进行处理,以输出与所述多个段落中的每个段落相对应文本数据,得到多个文本数据,所述多个文本数据包括所述第一文本数据。
在其中一个实施例中,所述构建所述医学文本数据的标量库和向量库,并对所述标量库和向量库进行检索,以召回与所述第一文本数据相似度超过第一阈值的多个第二段落,包括:
调用开源模型对所述第一文本数据进行处理,以生成所述第一段落对应的嵌入层;
根据所述第一段落对应的嵌入层,构建所述向量库以及与所述向量库相对应的标量库,所述标量库用于对所述医学文本数据和医学文本数据中的实体进行存储。
在其中一个实施例中,所述构建所述医学文本数据的标量库和向量库,并对所述标量库和向量库进行检索,以召回与所述第一文本数据相似度超过第一阈值的多个第二段落,还包括:
调用Faiss对所述向量库进行向量检索,以召回与所述第一文本数据之间的相似度排名超过第二阈值的多个文本向量,每个文本向量对应有唯一的文本数据以及实体组;
按照标量实体对所述多个文本向量对应的实体组进行过滤,以获取命中的标量实体分值超过第三阈值的多个实体组,所述多个实体组为所述多个第二段落中对应的实体组。
在其中一个实施例中,所述从所述Prompt模板库提取与每个所述第二段落的医学场景相对应的第二Prompt模板,并根据所述第二Prompt模板构建第二提示对话框,之后包括:
调用大语言模型对所述第二提示对话框进行处理,以输出所述第二提示对话框对应的答案文本数据;
根据所述第二提示对话框对应的答案文本数据获取所述第二段落与第一段落之间对应的标准化答案文本。
本发明还提供了一种医疗知识库构建装置,所述装置包括:
模板库构建模块,用于获取医学文本数据,并根据不同医学场景对提示对话框进行优化,以构建Prompt模板库,所述Prompt模板库适用于所述不同医学场景中的任一医学场景;
段落切分模块,用于对所述医学文本数据进行段落切分,得到第一段落,并从所述Prompt模板库中获取与所述第一段落的医学场景相对应的第一Prompt模板,以构建第一提示对话框;
模型处理模块,用于调用大语言模型对所述第一提示对话框进行处理,以输出所述第一段落对应的第一文本数据,所述第一文本数据为所述第一段落的标准化文本;
数据召回模块,用于构建所述医学文本数据的标量库和向量库,并对所述标量库和向量库进行检索,以召回与所述第一文本数据相似度超过第一阈值的多个第二段落,所述标量库和向量库包括单篇医学文本库和整体医学文本库;
文本标准化模块,用于从所述Prompt模板库提取与每个所述第二段落的医学场景相对应的第二Prompt模板,并根据所述第二Prompt模板构建第二提示对话框,所述第二提示对话框用于作为所述大语言模型的输入,以输出所述第二段落与第一段落之间的答案文本。
本发明还提供了一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述的医疗知识库构建方法。
本发明还提供了一种计算机存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述的医疗知识库构建方法。
本发明还提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述的医疗知识库构建方法。
上述医疗知识库构建方法、装置、电子设备及存储介质,通过获取医学文本数据,并根据不同医学场景对提示对话框进行优化,来构建适用于任一医学场景的Prompt模板库。随后,对医学文本数据进行段落切分,得到目标段落,并从Prompt模板库中获取与该目标段落的医学场景相对应的Prompt模板,来完成对应提示对话框的构建。然后,调用大语言模型对构建的该提示对话框进行处理,以输出目标段落对应的标准化文本。构建医学文本数据的标量库和向量库,并对标量库和向量库进行检索,以召回与目标段落对应的标准化文本相似度超过设定阈值的多个文献段落。最后,从Prompt模板库提取与每个文献段落的医学场景相对应的Prompt模板,并根据该Prompt模板构建相应的提示对话框,作为大语言模型的输入,以输出文献段落与目标段落之间的标准化答案文本。该方法结合向量检索和标量检索,并集成了大语言模型的深度理解,经过层层检索,将目标段落和文献段落都进行标准化处理,减少了最终检索结果的数量,能够有效避免信息过载的情况发生,实现了多维的医疗信息检索,提高了医疗知识检索的效率。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的医疗知识库构建方法流程示意图之一;
图2为本发明提供的具体实施例中医疗知识库构建方法的知识库构建整体流程示意图;
图3为本发明提供的具体实施例中医疗知识库构建方法的医疗知识检索过程示意图;
图4为本发明提供的医疗知识库构建方法流程示意图之二;
图5为本发明提供的医疗知识库构建方法流程示意图之三;
图6为本发明提供的医疗知识库构建方法流程示意图之四;
图7为本发明提供的医疗知识库构建方法流程示意图之五;
图8为本发明提供的医疗知识库构建方法流程示意图之六;
图9为本发明提供的医疗知识库构建装置结构示意图;
图10为本发明提供的计算机设备的内部结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地说明,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图10描述本发明的医疗知识库构建方法、装置、电子设备及存储介质。
如图1所示,在一个实施例中,一种医疗知识库构建方法,包括以下步骤:
步骤S110,获取医学文本数据,并根据不同医学场景对提示对话框进行优化,以构建Prompt模板库,Prompt模板库适用于不同医学场景中的任一医学场景。
具体的,服务器获取大量公开的医学文献中的医学文本数据,并根据医学文本数据中的不同场景对提示对话框进行优化,来完成对适用于不同医学场景中的任一医学场景的Prompt模板库。
结合图2和图3所示,在具体的实施例中,本发明提供的医疗知识库构建方法,首先从公开网站获取医学文献,如PMC,其次,针对不同场景优化Prompt(提示对话框),并根据优化后的Prompt(提示对话框)构建Prompt模板库。
步骤S120,对医学文本数据进行段落切分,得到第一段落,并从Prompt模板库中获取与第一段落的医学场景相对应的第一Prompt模板,以构建第一提示对话框。
具体的,服务器对步骤S110中得到的医学文本数据进行段落切分,段落切分后可以得到多个段落,其中以该多个段落中的其中一个段落,即第一段落为例,从Prompt模板库中获取与第一段落的医学场景相对应的Prompt模板,即第一Prompt模板,来完成与第一段落相对应的第一提示对话框的构建。
结合图2和图3所示,在具体的实施例中,本发明提供的医疗知识库构建方法,将医学文献按照段落进行切分,从Prompt模板库中选择相应的Prompt,构建翻译Prompt(提示对话框),使用大模型生成质量较高的中文内容。
步骤S130,调用大语言模型对第一提示对话框进行处理,以输出第一段落对应的第一文本数据,第一文本数据为第一段落的标准化文本。
具体的,服务器调用大语言模型对步骤S120中构建的第一提示对话框进行处理,以输出第一段落对应的文本数据,即第一文本数据,该第一文本数据为第一段落的标准化文本。
步骤S140,构建医学文本数据的标量库和向量库,并对标量库和向量库进行检索,以召回与第一文本数据相似度超过第一阈值的多个第二段落,标量库和向量库包括单篇医学文本库和整体医学文本库。
具体的,服务器构建医学文本数据对应的标量库和向量库,并对该标量库和向量库进行检索,以召回与第一文本数据相似度超过设定阈值的多个文献段落,即第二段落,其中标量库和向量库包括单篇医学文本库和整体医学文本库,用户可根据需求选择相应的医学文本库范围。
结合图2和图3所示,本发明提供的医疗知识库构建方法,通过调用开源模型生成段落embedding(嵌入层)来构建向量库,并构建与该向量库相对应的标量库,该标量库用于存储文献原文以及文献原文中对应的关键实体。
步骤S150,从Prompt模板库提取与每个第二段落的医学场景相对应的第二Prompt模板,并根据第二Prompt模板构建第二提示对话框,第二提示对话框用于作为大语言模型的输入,以输出第二段落与第一段落之间的答案文本。
具体的,服务器从Prompt模板库中提取与每个第二段落的医学场景相对应的Prompt模板,即第二Prompt模板,并根据第二Prompt模板构建对应第二段落的提示对话框,即第二提示对话框,该第二提示对话框可作为大语言模型的输入,进而输出第二段落与第一段落之间的答案文本,即文献段落与目标段落之间的检索关系文本。
结合图2和图3所示,在具体的实施例中,本发明提供的医疗知识库构建方法,采用Faiss进行向量检索,召回前10个文献段落,然后按照标量实体进行过滤,命中的标量实体越多分值越高,最后保留前三个文献段落。使用召回的文献段落构建Prompt提示对话框,并输入到大模型,生成准确的答案,也可以指定单篇文献进行问答。其中,Faiss是一个用于高效相似性搜索和聚类的开源库。
在本实施例中,Prompt模板库例如表1所示:
表1
表1中的Prompt对比如下:
(1)Zero-shot Prompt(零样本提示):
特点:零-shot提示意味着在模型看到具体示例之前,它需要在没有直接训练样本的情况下进行推理或生成。
应用: 适用于一些通用性问题,模型需要从先验知识中推断答案。
(2)Few-shot Prompt(少样本提示):
特点:少样本提示允许在输入中提供少量示例,以帮助模型更好地理解任务或问题。
应用:适用于具有一些上下文信息的任务,通过提供示例可以更准确地定位和理解用户意图。
(3)Few-shot&CoT Prompt(少样本与思维链提示):
特点:少样本与思维链提示结合了少样本提示和思维链提示,引导模型根据先前的上下文进行推理。
应用:在处理对话或连续性任务时非常有效,使模型能够理解先前的上下文并进行更连贯的生成或回答。
在本实施例中,引入了大型预训练语言模型(大模型、大语言模型,LLA,LargeLanguage Model),通过Prompt模板设计和知识增强,提高了问答系统对医学问题的理解和回答准确性,用户能够得到更专业、详细的解答。另外,还能够实现PMC官网文献的自动下载、翻译以及格式调整,极大地提高了文献处理效率,保证了检索信息的一致性和及时性。不仅支持整体医学文献库检索,还支持单篇文献库检索,能够更加聚焦用户关注的医学文献,有效提升医学科研效率。
上述医疗知识库构建方法,通过获取医学文本数据,并根据不同医学场景对提示对话框进行优化,来构建适用于任一医学场景的Prompt模板库。随后,对医学文本数据进行段落切分,得到目标段落,并从Prompt模板库中获取与该目标段落的医学场景相对应的Prompt模板,来完成对应提示对话框的构建。然后,调用大语言模型对构建的该提示对话框进行处理,以输出目标段落对应的标准化文本。构建医学文本数据的标量库和向量库,并对标量库和向量库进行检索,以召回与目标段落对应的标准化文本相似度超过设定阈值的多个文献段落。最后,从Prompt模板库提取与每个文献段落的医学场景相对应的Prompt模板,并根据该Prompt模板构建相应的提示对话框,作为大语言模型的输入,以输出文献段落与目标段落之间的标准化答案文本。该方法结合向量检索和标量检索,并集成了大语言模型的深度理解,经过层层检索,将目标段落和文献段落都进行标准化处理,减少了最终检索结果的数量,能够有效避免信息过载的情况发生,实现了多维的医疗信息检索,提高了医疗知识检索的效率。
如图4所示,在一个实施例中,本发明提供的医疗知识库构建方法,获取医学文本数据,并根据不同医学场景对提示对话框进行优化,以构建Prompt模板库,具体包括以下步骤:
步骤S112,从公开网站获取医学文献,基于医学文献获取医学文本数据,并对医学文本数据进行分析,以获取多个不同的医学场景。
具体的,服务器从公开网站(如PMC)获取医学文献,基于医学文献获取医学文本数据,并对该医学文本数据进行分析,以获取该医学文本数据中的多个不同的医学场景。
步骤S124,基于每个医学场景对提示对话框进行优化,得到多个适用于不同医学场景的Prompt模板,并根据多个适用于不同医学场景的Prompt模板构建Prompt模板库。
具体的,服务器基于每个医学场景对提示对话框(Prompt)进行优化,得到多个适用于不同医学场景的Prompt模板,并根据这些模板构建最终的Prompt模板库。
如图5所示,在一个实施例中,本发明提供的医疗知识库构建方法,对医学文本数据进行段落切分,得到第一段落,并从Prompt模板库中获取与第一段落的医学场景相对应的第一Prompt模板,以构建第一提示对话框,具体包括以下步骤:
步骤S122,对医学文本数据进行段落切分,以获取多个段落,多个段落包括第一段落。
具体的,服务器对医学文本数据进行段落切分,以获取多个段落,第一段落是该多个段落的其中之一。
步骤S124,从Prompt模板库中提取与多个段落中的每个段落的医学场景相对应的Prompt模板,得到多个Prompt模板,多个Prompt模板包括第一Prompt模板。
具体的,服务器从Prompt模板库中提取多个段落中的每个段落的医学场景相对应的Prompt模板,得到多个Prompt模板,其中第一段落的第一Prompt模板是该多个Prompt模板的其中之一。
步骤S126,基于多个Prompt模板,构建多个段落中的每个段落相对应的提示对话框,得到多个提示对话框,多个提示对话框包括第一提示对话框。
具体的,服务器基于步骤S124中得到的多个Prompt模板,构建对应多个段落中的每个段落相对应的提示对话框,得到多个提示对话框,其中第一对话框是该多个提示对话框的其中之一。
如图6所示,在一个实施例中,本发明提供的医疗知识库构建方法,构建医学文本数据的标量库和向量库,并对标量库和向量库进行检索,以召回与第一文本数据相似度超过第一阈值的多个第二段落,具体包括以下步骤:
步骤S142,调用开源模型对第一文本数据进行处理,以生成第一段落对应的嵌入层。
具体的,服务器调用开源模型对第一文本数据进行处理,以生成第一段落对应的嵌入层(embedding)。
步骤S144,根据第一段落对应的嵌入层,构建向量库以及与向量库相对应的标量库,标量库用于对医学文本数据和医学文本数据中的实体进行存储。
具体的,服务器根据步骤S142中得到的第一段落对应的嵌入层,构建相应的向量库以及与该向量库相对应的标量库,该标量库用于存储医学文本数据以及医学文本数据中的关键实体。
如图7所示,在一个实施例中,本发明提供的医疗知识库构建方法,构建医学文本数据的标量库和向量库,并对标量库和向量库进行检索,以召回与第一文本数据相似度超过第一阈值的多个第二段落,具体还包括以下步骤:
步骤S146,调用Faiss对向量库进行向量检索,以召回与第一文本数据之间的相似度排名超过第二阈值的多个文本向量,每个文本向量对应有唯一的文本数据以及实体组。
具体的,服务器调用Faiss对向量库进行向量检索,以召回与第一文本数据之间相似度排名超过设定阈值的多个文本向量,其中每个文本向量均对应有唯一的文本数据以及关键实体组。
步骤S148,按照标量实体对多个文本向量对应的实体组进行过滤,以获取命中的标量实体分值超过第三阈值的多个实体组,多个实体组为多个第二段落中对应的实体组。
具体的,服务器按照标量实体对步骤S146中得到的多个文本向量对应的关键实体组进行实体过滤,以获取命中的标量实体分值超过设定阈值的多个关键实体组,命中的标量实体越多分值越高,且过滤出的满足设定阈值的多个关键实体组为召回的与第一文本数据相似度满足设定预期的多个第二段落中的关键实体组。
如图8所示,在一个实施例中,本发明提供的医疗知识库构建方法,从Prompt模板库提取与每个第二段落的医学场景相对应的第二Prompt模板,并根据第二Prompt模板构建第二提示对话框,之后包括以下步骤:
步骤S810,调用大语言模型对第二提示对话框进行处理,以输出第二提示对话框对应的答案文本数据。
具体的,服务器调用大语言模型对第二提示对话框进行处理,以输出第二提示对话框对应的答案文本数据。
步骤S820,根据第二提示对话框对应的答案文本数据获取第二段落与第一段落之间对应的标准化答案文本。
具体的,服务器根据步骤S810中得到的第二提示对话框对应的答案文本数据获取第二段落与第一段落之间的标准化答案文本,即文献段落与目标段落之间的标准化关系答案文本。
下面对本发明提供的医疗知识库构建装置进行描述,下文描述的医疗知识库构建装置与上文描述的医疗知识库构建方法可相互对应参照。
如图9所示,在一个实施例中,一种医疗知识库构建装置,包括模板库构建模块910、段落切分模块920、模型处理模块930、数据召回模块940以及文本标准化模块950。
模板库构建模块910用于获取医学文本数据,并根据不同医学场景对提示对话框进行优化,以构建Prompt模板库,Prompt模板库适用于不同医学场景中的任一医学场景。
段落切分模块920用于对医学文本数据进行段落切分,得到第一段落,并从Prompt模板库中获取与第一段落的医学场景相对应的第一Prompt模板,以构建第一提示对话框。
模型处理模块930用于调用大语言模型对第一提示对话框进行处理,以输出第一段落对应的第一文本数据,第一文本数据为第一段落的标准化文本。
数据召回模块940用于构建医学文本数据的标量库和向量库,并对标量库和向量库进行检索,以召回与第一文本数据相似度超过第一阈值的多个第二段落,标量库和向量库包括单篇医学文本库和整体医学文本库。
文本标准化模块950用于从Prompt模板库提取与每个第二段落的医学场景相对应的第二Prompt模板,并根据第二Prompt模板构建第二提示对话框,第二提示对话框用于作为大语言模型的输入,以输出第二段落与第一段落之间的答案文本。
在本实施例中,本发明提供的医疗知识库构建装置,模板库构建模块具体用于:
从公开网站获取医学文献,基于医学文献获取医学文本数据,并对医学文本数据进行分析,以获取多个不同的医学场景。
基于每个医学场景对提示对话框进行优化,得到多个适用于不同医学场景的Prompt模板,并根据多个适用于不同医学场景的Prompt模板构建Prompt模板库。
在本实施例中,本发明提供的医疗知识库构建装置,段落切分模块具体用于:
对医学文本数据进行段落切分,以获取多个段落,多个段落包括第一段落。
从Prompt模板库中提取与多个段落中的每个段落的医学场景相对应的Prompt模板,得到多个Prompt模板,多个Prompt模板包括第一Prompt模板。
基于多个Prompt模板,构建多个段落中的每个段落相对应的提示对话框,得到多个提示对话框,多个提示对话框包括第一提示对话框。
在本实施例中,本发明提供的医疗知识库构建装置,模型处理模块具体用于:
调用大语言模型对多个提示对话框进行处理,以输出与多个段落中的每个段落相对应文本数据,得到多个文本数据,多个文本数据包括第一文本数据。
在本实施例中,本发明提供的医疗知识库构建装置,数据召回模块具体用于:
调用开源模型对第一文本数据进行处理,以生成第一段落对应的嵌入层。
根据第一段落对应的嵌入层,构建向量库以及与向量库相对应的标量库,标量库用于对医学文本数据和医学文本数据中的实体进行存储。
在本实施例中,本发明提供的医疗知识库构建装置,数据召回模块具体还用于:
调用Faiss对向量库进行向量检索,以召回与第一文本数据之间的相似度排名超过第二阈值的多个文本向量,每个文本向量对应有唯一的文本数据以及实体组。
按照标量实体对多个文本向量对应的实体组进行过滤,以获取命中的标量实体分值超过第三阈值的多个实体组,多个实体组为多个第二段落中对应的实体组。
在本实施例中,本发明提供的医疗知识库构建装置,还包括模型处理子模块,用于:
调用大语言模型对第二提示对话框进行处理,以输出第二提示对话框对应的答案文本数据。
根据第二提示对话框对应的答案文本数据获取第二段落与第一段落之间对应的标准化答案文本。
图10示例了一种电子设备的实体结构示意图,该电子设备可以是智能终端,其内部结构图可以如图10所示。该电子设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现医疗知识库构建方法,该方法包括:
获取医学文本数据,并根据不同医学场景对提示对话框进行优化,以构建Prompt模板库,Prompt模板库适用于不同医学场景中的任一医学场景;
对医学文本数据进行段落切分,得到第一段落,并从Prompt模板库中获取与第一段落的医学场景相对应的第一Prompt模板,以构建第一提示对话框;
调用大语言模型对第一提示对话框进行处理,以输出第一段落对应的第一文本数据,第一文本数据为第一段落的标准化文本;
构建医学文本数据的标量库和向量库,并对标量库和向量库进行检索,以召回与第一文本数据相似度超过第一阈值的多个第二段落,标量库和向量库包括单篇医学文本库和整体医学文本库;
从Prompt模板库提取与每个第二段落的医学场景相对应的第二Prompt模板,并根据第二Prompt模板构建第二提示对话框,第二提示对话框用于作为大语言模型的输入,以输出第二段落与第一段落之间的答案文本。
本领域技术人员可以理解,图10中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
另一方面,本发明还提供了一种计算机存储介质,存储有计算机程序,计算机程序被处理器执行时实现医疗知识库构建方法,该方法包括:
获取医学文本数据,并根据不同医学场景对提示对话框进行优化,以构建Prompt模板库,Prompt模板库适用于不同医学场景中的任一医学场景;
对医学文本数据进行段落切分,得到第一段落,并从Prompt模板库中获取与第一段落的医学场景相对应的第一Prompt模板,以构建第一提示对话框;
调用大语言模型对第一提示对话框进行处理,以输出第一段落对应的第一文本数据,第一文本数据为第一段落的标准化文本;
构建医学文本数据的标量库和向量库,并对标量库和向量库进行检索,以召回与第一文本数据相似度超过第一阈值的多个第二段落,标量库和向量库包括单篇医学文本库和整体医学文本库;
从Prompt模板库提取与每个第二段落的医学场景相对应的第二Prompt模板,并根据第二Prompt模板构建第二提示对话框,第二提示对话框用于作为大语言模型的输入,以输出第二段落与第一段落之间的答案文本。
又一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令时实现医疗知识库构建方法,该方法包括:
获取医学文本数据,并根据不同医学场景对提示对话框进行优化,以构建Prompt模板库,Prompt模板库适用于不同医学场景中的任一医学场景;
对医学文本数据进行段落切分,得到第一段落,并从Prompt模板库中获取与第一段落的医学场景相对应的第一Prompt模板,以构建第一提示对话框;
调用大语言模型对第一提示对话框进行处理,以输出第一段落对应的第一文本数据,第一文本数据为第一段落的标准化文本;
构建医学文本数据的标量库和向量库,并对标量库和向量库进行检索,以召回与第一文本数据相似度超过第一阈值的多个第二段落,标量库和向量库包括单篇医学文本库和整体医学文本库;
从Prompt模板库提取与每个第二段落的医学场景相对应的第二Prompt模板,并根据第二Prompt模板构建第二提示对话框,第二提示对话框用于作为大语言模型的输入,以输出第二段落与第一段落之间的答案文本。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。
作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双倍数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种医疗知识库构建方法,其特征在于,所述方法包括:
获取医学文本数据,并根据不同医学场景对提示对话框进行优化,以构建Prompt模板库,所述Prompt模板库适用于所述不同医学场景中的任一医学场景;
对所述医学文本数据进行段落切分,得到第一段落,并从所述Prompt模板库中获取与所述第一段落的医学场景相对应的第一Prompt模板,以构建第一提示对话框;
调用大语言模型对所述第一提示对话框进行处理,以输出所述第一段落对应的第一文本数据,所述第一文本数据为所述第一段落的标准化文本;
构建所述医学文本数据的标量库和向量库,并对所述标量库和向量库进行检索,以召回与所述第一文本数据相似度超过第一阈值的多个第二段落,所述标量库和向量库包括单篇医学文本库和整体医学文本库;
从所述Prompt模板库提取与每个所述第二段落的医学场景相对应的第二Prompt模板,并根据所述第二Prompt模板构建第二提示对话框,所述第二提示对话框用于作为所述大语言模型的输入,以输出所述第二段落与第一段落之间的答案文本。
2.根据权利要求1所述的医疗知识库构建方法,其特征在于,所述获取医学文本数据,并根据不同医学场景对提示对话框进行优化,以构建Prompt模板库,包括:
从公开网站获取医学文献,基于所述医学文献获取所述医学文本数据,并对所述医学文本数据进行分析,以获取多个不同的医学场景;
基于每个所述医学场景对提示对话框进行优化,得到多个适用于所述不同医学场景的Prompt模板,并根据所述多个适用于所述不同医学场景的Prompt模板构建所述Prompt模板库。
3.根据权利要求1所述的医疗知识库构建方法,其特征在于,所述对所述医学文本数据进行段落切分,得到第一段落,并从所述Prompt模板库中获取与所述第一段落的医学场景相对应的第一Prompt模板,以构建第一提示对话框,包括:
对所述医学文本数据进行段落切分,以获取多个段落,所述多个段落包括所述第一段落;
从所述Prompt模板库中提取与所述多个段落中的每个段落的医学场景相对应的Prompt模板,得到多个Prompt模板,所述多个Prompt模板包括所述第一Prompt模板;
基于所述多个Prompt模板,构建所述多个段落中的每个段落相对应的提示对话框,得到多个提示对话框,所述多个提示对话框包括所述第一提示对话框。
4.根据权利要求3所述的医疗知识库构建方法,其特征在于,所述调用大语言模型对所述第一提示对话框进行处理,以输出所述第一段落对应的第一文本数据,包括:
调用大语言模型对所述多个提示对话框进行处理,以输出与所述多个段落中的每个段落相对应文本数据,得到多个文本数据,所述多个文本数据包括所述第一文本数据。
5.根据权利要求1所述的医疗知识库构建方法,其特征在于,所述构建所述医学文本数据的标量库和向量库,并对所述标量库和向量库进行检索,以召回与所述第一文本数据相似度超过第一阈值的多个第二段落,包括:
调用开源模型对所述第一文本数据进行处理,以生成所述第一段落对应的嵌入层;
根据所述第一段落对应的嵌入层,构建所述向量库以及与所述向量库相对应的标量库,所述标量库用于对所述医学文本数据和医学文本数据中的实体进行存储。
6.根据权利要求5所述的医疗知识库构建方法,其特征在于,所述构建所述医学文本数据的标量库和向量库,并对所述标量库和向量库进行检索,以召回与所述第一文本数据相似度超过第一阈值的多个第二段落,还包括:
调用Faiss对所述向量库进行向量检索,以召回与所述第一文本数据之间的相似度排名超过第二阈值的多个文本向量,每个文本向量对应有唯一的文本数据以及实体组;
按照标量实体对所述多个文本向量对应的实体组进行过滤,以获取命中的标量实体分值超过第三阈值的多个实体组,所述多个实体组为所述多个第二段落中对应的实体组。
7.根据权利要求1至6任一项所述的医疗知识库构建方法,其特征在于,所述从所述Prompt模板库提取与每个所述第二段落的医学场景相对应的第二Prompt模板,并根据所述第二Prompt模板构建第二提示对话框,之后包括:
调用大语言模型对所述第二提示对话框进行处理,以输出所述第二提示对话框对应的答案文本数据;
根据所述第二提示对话框对应的答案文本数据获取所述第二段落与第一段落之间对应的标准化答案文本。
8.一种医疗知识库构建装置,其特征在于,所述装置包括:
模板库构建模块,用于获取医学文本数据,并根据不同医学场景对提示对话框进行优化,以构建Prompt模板库,所述Prompt模板库适用于所述不同医学场景中的任一医学场景;
段落切分模块,用于对所述医学文本数据进行段落切分,得到第一段落,并从所述Prompt模板库中获取与所述第一段落的医学场景相对应的第一Prompt模板,以构建第一提示对话框;
模型处理模块,用于调用大语言模型对所述第一提示对话框进行处理,以输出所述第一段落对应的第一文本数据,所述第一文本数据为所述第一段落的标准化文本;
数据召回模块,用于构建所述医学文本数据的标量库和向量库,并对所述标量库和向量库进行检索,以召回与所述第一文本数据相似度超过第一阈值的多个第二段落,所述标量库和向量库包括单篇医学文本库和整体医学文本库;
文本标准化模块,用于从所述Prompt模板库提取与每个所述第二段落的医学场景相对应的第二Prompt模板,并根据所述第二Prompt模板构建第二提示对话框,所述第二提示对话框用于作为所述大语言模型的输入,以输出所述第二段落与第一段落之间的答案文本。
9.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410406779.0A CN117995427A (zh) | 2024-04-07 | 2024-04-07 | 医疗知识库构建方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410406779.0A CN117995427A (zh) | 2024-04-07 | 2024-04-07 | 医疗知识库构建方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117995427A true CN117995427A (zh) | 2024-05-07 |
Family
ID=90901096
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410406779.0A Pending CN117995427A (zh) | 2024-04-07 | 2024-04-07 | 医疗知识库构建方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117995427A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106326640A (zh) * | 2016-08-12 | 2017-01-11 | 上海交通大学医学院附属瑞金医院卢湾分院 | 一种医疗语音控制系统及其控制方法 |
CN116631643A (zh) * | 2023-07-24 | 2023-08-22 | 北京惠每云科技有限公司 | 医疗知识图谱构建方法、装置、电子设备及存储介质 |
WO2023161630A1 (en) * | 2022-02-22 | 2023-08-31 | Unlikely Artificial Intelligence Limited | Computer implemented methods for the automated analysis or use of data, including use of a large language model |
CN117573843A (zh) * | 2024-01-15 | 2024-02-20 | 图灵人工智能研究院(南京)有限公司 | 一种基于知识校准和检索增强的医疗辅助问答方法及系统 |
WO2024039984A1 (en) * | 2022-08-16 | 2024-02-22 | Upsight Security Inc. | Anti-malware behavioral graph engines, systems and methods |
-
2024
- 2024-04-07 CN CN202410406779.0A patent/CN117995427A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106326640A (zh) * | 2016-08-12 | 2017-01-11 | 上海交通大学医学院附属瑞金医院卢湾分院 | 一种医疗语音控制系统及其控制方法 |
WO2023161630A1 (en) * | 2022-02-22 | 2023-08-31 | Unlikely Artificial Intelligence Limited | Computer implemented methods for the automated analysis or use of data, including use of a large language model |
WO2024039984A1 (en) * | 2022-08-16 | 2024-02-22 | Upsight Security Inc. | Anti-malware behavioral graph engines, systems and methods |
CN116631643A (zh) * | 2023-07-24 | 2023-08-22 | 北京惠每云科技有限公司 | 医疗知识图谱构建方法、装置、电子设备及存储介质 |
CN117573843A (zh) * | 2024-01-15 | 2024-02-20 | 图灵人工智能研究院(南京)有限公司 | 一种基于知识校准和检索增强的医疗辅助问答方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11544474B2 (en) | Generation of text from structured data | |
CN109933785B (zh) | 用于实体关联的方法、装置、设备和介质 | |
WO2018145098A1 (en) | Systems and methods for automatic semantic token tagging | |
KR20180048624A (ko) | 질의 응답 시스템의 훈련 장치 및 그것을 위한 컴퓨터 프로그램 | |
CN112328762A (zh) | 基于文本生成模型的问答语料生成方法和装置 | |
CN113157863B (zh) | 问答数据处理方法、装置、计算机设备及存储介质 | |
CN117235226A (zh) | 一种基于大语言模型的问题应答方法及装置 | |
CN112434533B (zh) | 实体消歧方法、装置、电子设备及计算机可读存储介质 | |
WO2021190662A1 (zh) | 医学文献排序方法、装置、电子设备及存储介质 | |
CN113722438A (zh) | 基于句向量模型的句向量生成方法、装置及计算机设备 | |
CN111859916A (zh) | 古诗关键词提取、诗句生成方法、装置、设备及介质 | |
US11379527B2 (en) | Sibling search queries | |
CN111859950A (zh) | 一种自动化生成讲稿的方法 | |
CN114449310A (zh) | 视频剪辑方法、装置、计算机设备及存储介质 | |
CN111831624A (zh) | 数据表创建方法、装置、计算机设备及存储介质 | |
CN117995427A (zh) | 医疗知识库构建方法、装置、电子设备及存储介质 | |
CN115525757A (zh) | 合同摘要的生成方法和装置、合同关键信息提取模型的训练方法 | |
US20220180215A1 (en) | System and computer network for knowledge search and analysis | |
CN115238124A (zh) | 视频人物检索方法、装置、设备和存储介质 | |
CN114265924A (zh) | 一种根据问句检索关联表格的方法与装置 | |
CN114238715A (zh) | 基于社会救助的问答系统、构建方法、计算机设备及介质 | |
AT&T | ||
CN112148855A (zh) | 一种智能客服问题检索方法、终端以及存储介质 | |
CN113342980B (zh) | Ppt文本挖掘的方法、装置、计算机设备及存储介质 | |
CN117891930B (zh) | 基于知识图谱增强大语言模型的图书知识问答方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination |