CN116737879A - 知识库查询方法、装置、电子设备及存储介质 - Google Patents

知识库查询方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN116737879A
CN116737879A CN202310735042.9A CN202310735042A CN116737879A CN 116737879 A CN116737879 A CN 116737879A CN 202310735042 A CN202310735042 A CN 202310735042A CN 116737879 A CN116737879 A CN 116737879A
Authority
CN
China
Prior art keywords
input sequence
knowledge base
target
word
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310735042.9A
Other languages
English (en)
Inventor
王俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202310735042.9A priority Critical patent/CN116737879A/zh
Publication of CN116737879A publication Critical patent/CN116737879A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及医疗数据处理领域,揭露一种知识库查询方法,包括:将类型数据转换为文本序列并构建出目标知识库;将初始输入序列通过预设提示层进行特征处理,生成候选输入序列;利用候选输入序列的第二单词替换初始输入序列的第一单词生成目标输入序列,计算目标输入序列与目标知识库中各个文本序列的相似度生成相似度集合;从相似度集合选取预设数量文本序列作为上下文信息,将目标输入序列和上下文信息组合,以对大语言模型微调并输出查询结果。本发明应用在医疗数据处理领域中,将目标知识库中的所有类型数据转换为统一的文本序列,利用提示层实现了大语言模型充分利用对目标知识库的已有条件,提高了大语言模型的查询结果的准确率。

Description

知识库查询方法、装置、电子设备及存储介质
技术领域
本发明涉及医疗数据处理领域,尤其涉及一种知识库查询方法、装置、电子设备及存储介质。
背景技术
在数字医疗领域中,将大语言模型(LLM)应用到医疗机构的知识库(KB)进行结合,以实现线上医疗智能客服、线上问诊等应用场景。
例如,患者在家中通过智能终端向医疗机构A发起病情咨询请求,医疗机构A通过专门的线上病情问询系统(LLM+KB)进行回复和解答,包括文字、语音、图片等多种形式,实现患者病情信息的收集和记录,以便医疗机构A进行后续的诊断和治疗。
大语言模型是一种利用深度神经网络学习自然语言的概率分布的模型,可以用于各种自然语言处理任务,能够根据给定的上下文或条件生成连贯和有意义的文本的LLM。知识库是一种存储结构化或半结构化知识的数据库,可以用于提供事实性、专业或领域相关的知识。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
大语言模型在预训练阶段,主要使用无标注的自然语言文本数据和基于概率分布的采样或贪婪策略来选择下一个词,容易忽略了知识库的已有条件(结构化或半结构化的知识数据和检索能力),导致大语言模型对知识库内的专业领域知识的理解和利用不充分,出现大语言模型生成的查询结果的准确率较低的问题。
因此,如何快速地提高大语言模型充分利用目标知识库的已有条件,以提高查询结果的准确率是一个亟待解决的问题。
发明内容
鉴于以上内容,有必要提供一种知识库查询方法,其目的在于提高大语言模型充分利用目标知识库的已有条件,以提高大语言模型的查询结果的准确率。
本发明提供的知识库查询方法,包括:
获取初始知识库的数据集中至少一个类型数据,将所述类型数据转换为对应的文本序列,基于所有的文本序列构建出目标知识库;
当监测到预设大语言模型接收到查询所述目标知识库的初始输入序列时,将所述初始输入序列的第一单词通过预设提示层进行特征处理,生成候选输入序列;
利用所述候选输入序列的第二单词替换所述初始输入序列的第一单词,以将所述初始输入序列更新为目标输入序列,计算所述目标输入序列的第一向量与所述目标知识库中各个文本序列的第二向量之间的相似度,生成相似度集合;
基于预设的相似度选取策略,从所述目标知识库中选取预设的数量文本序列作为根据所述目标输入序列查询得到的上下文信息,将所述目标输入序列和所述上下文信息进行组合,以对所述大语言模型进行微调并输出查询结果。
可选的,所述基于所有的文本序列构建出目标知识库,包括:
将各个文本序列写入所述初始知识库的文件中;
调用预设函数,在所述文件中对各个所述文本序列添加换行符,生成所述目标知识库。
可选的,在所述将所述初始输入序列的第一单词通过预设提示层进行特征处理,生成候选输入序列之前,所述方法还包括:
在所述大语言模型的第一连接层前面添加所述提示层,并定义所述提示层的学习参数,以使所述提示层获取所述大语言模型的初始输入序列。
可选的,所述将所述初始输入序列的第一单词通过预设提示层进行特征处理,生成候选输入序列,包括:
将所述初始输入序列中排序第一位的单词,作为所述第一单词;
将所述第一单词的向量输入所述提示层进行特征处理,生成第一特征向量;
融合所述第一特征向量与所述第一单词的向量,生成所述候选输入序列。
可选的,所述利用所述候选输入序列的第二单词替换所述初始输入序列的第一单词,以将所述初始输入序列更新为目标输入序列,包括:
将所述候选输入序列中排序第一位的单词,作为所述第二单词;
利用所述第二单词替换所述第一单词得到所述目标输入序列。
可选的,所述基于预设的相似度选取策略,从所述目标知识库中选取预设的数量文本序列作为根据所述目标输入序列查询得到的上下文信息,包括:
对所述相似度集合中各个相似度的数值按照从大到小进行排序,选取排序中前K个数值对应的文本序列选取排序中前K个数值对应的文本序列,作为根据所述目标输入序列查询得到的上下文信息。
可选的,所述将所述目标输入序列和所述上下文信息进行组合,以对所述大语言模型进行微调并输出查询结果,包括:
将所述目标输入序列和所述上下文信息填充至预置的模板中;
分别对所述目标输入序列和所述上下文信息在所述模板的位置进行插入标记,基于插入标记后的模板对所述大语言模型进行微调,生成所述查询结果。
为了解决上述问题,本发明还提供一种知识库查询装置,所述装置包括:
转换和构建模块,用于获取初始知识库的数据集中至少一个类型数据,将所述类型数据转换为对应的文本序列,基于所有的文本序列构建出目标知识库;
监测和处理模块,用于当监测到预设大语言模型接收到查询所述目标知识库的初始输入序列时,将所述初始输入序列的第一单词通过预设提示层进行特征处理,生成候选输入序列;
替换和计算模块,用于利用所述候选输入序列的第二单词替换所述初始输入序列的第一单词,以将所述初始输入序列更新为目标输入序列,计算所述目标输入序列的第一向量与所述目标知识库中各个文本序列的第二向量之间的相似度,生成相似度集合;
选取和组合模块,用于基于预设的相似度选取策略,从所述目标知识库中选取预设的数量文本序列作为根据所述目标输入序列查询得到的上下文信息,将所述目标输入序列和所述上下文信息进行组合,以对所述大语言模型进行微调并输出查询结果。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的知识库查询程序,所述知识库查询程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述知识库查询方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有知识库查询程序,所述知识库查询程序可被一个或者多个处理器执行,以实现上述知识库查询方法。
相较现有技术,本发明获取初始知识库的数据集中至少一个类型数据,将类型数据转换为对应的文本序列,基于所有的文本序列构建出目标知识库;当监测到预设大语言模型接收到查询目标知识库的初始输入序列时,将初始输入序列的第一单词通过预设提示层进行特征处理,生成候选输入序列;利用候选输入序列的第二单词替换初始输入序列的第一单词,以将初始输入序列更新为目标输入序列,计算目标输入序列的第一向量与目标知识库中各个文本序列的第二向量之间的相似度,生成相似度集合;基于预设的相似度选取策略,从目标知识库中选取预设的数量文本序列作为根据目标输入序列查询得到的上下文信息,将目标输入序列和上下文信息进行组合,以对大语言模型进行微调并输出查询结果。本发明将目标知识库中的所有类型数据转换为统一的文本序列,利用额外的提示层对大语言模型的微调,实现大语言模型对目标知识库的已有条件进行充分利用,提高了大语言模型的查询结果的准确率。
本发明可以应用在医疗数据处理等领域中,使医疗机构的知识库能够被大语言模型充分利用,帮助医务工作者或病患快速查询得到回复和解答。
附图说明
图1为本发明一实施例提供的知识库查询方法的流程示意图;
图2为本发明一实施例提供的知识库查询装置的模块示意图;
图3为本发明一实施例提供的实现知识库查询方法的电子设备的结构示意图;
本发明目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
本发明可以应用在医疗数据处理等领域中,使医疗机构的知识库能够被大语言模型充分利用,帮助医务工作者或病患快速查询得到回复和解答。
现有技术中,大语音模型在微调阶段通常使用与目标任务相关的小规模标注数据,而忽略了与目标领域或场景相关的知识数据,导致模型缺乏对特定领域或场景的适应和优化。
本发明的核心思想是利用目标知识库作为额外的数据源,在不改变原始大语音模型参数的情况下,通过引入可学习的提示层(Soft Prompt)来实现对大语音模型的微调,从而实现大语言模型对目标知识库的已有条件进行充分利用,将大语言模型的知识和目标知识库的知识相结合,提高了大语言模型的查询结果的准确率。
参照图1所示,为本发明一实施例提供的知识库查询方法的流程示意图。该方法由电子设备执行。
本实施例中,知识库查询方法包括:
S1、获取初始知识库的数据集中至少一个类型数据,将所述类型数据转换为对应的文本序列,基于所有的文本序列构建出目标知识库;
本实施例中,初始知识库的数据集是指某个领域的数据集合,可以是医疗机构领域的数据集合。
本发明将以下的例子H进行全文举例说明:
例如,从医疗机构A的初始知识库(数据库)中获取预设数量(例如10万)的历史门诊数据,这些历史门诊数据包括以下内容:
1.患者基本信息:包括姓名、性别、年龄、身份证号码、联系方式等。
2.病历信息:包括病史、诊断结果、治疗方案、用药情况等。
3.检查结果:包括各种检查项目的结果,如血常规、尿常规、血糖、心电图、CT、MRI等。
4.检验结果:包括各种检验项目的结果,如血液生化、免疫学检测、微生物检测等。
5.医疗费用:包括挂号费、检查费、治疗费、药品费等。
6.医生信息:包括医生姓名、职称、执业证书号码等。
7.医疗设备信息:包括医疗设备的品牌、型号、使用情况等。
8.医疗机构A管理信息:包括医疗机构A的名称、地址、法人代表、营业执照等。
这些历史门诊数据的类型包括三元组、属性图及表格等。
数据集也可以是其它领域的数据集合,在此并不作限定。
在一个实施例中,所述类型数据包括三元组、属性图节点、表格行,所述将所述类型数据转换为对应的文本序列,包括:
若所述类型数据为三元组,则将所述三元组中的实体和关系转换为文本序列。
数据集为D={d1,d2,...,dN},其中每个di是一个文档或一个数据项。需要将每个di转换为一个或多个文本序列其中每个sij是一个由若干单词组成的字符串。
如果di是一个三元组(e1,r,e2),其中e1和e2是实体,r是关系,则将三元组转换为一个文本序列si={e1和e2的关系是r}。
在一个实施例中,所述方法还包括:
若所述类型数据为属性图节点,则将所述属性图节点中的实体、属性和值转换为文本序列。
如果di是一个属性图,其节点(e,a,v),其中e是实体,a是属性,v是值,则将属性图转换为一个文本序列si={e的a是v}。
在一个实施例中,所述方法还包括:
若所述类型数据为表格行,则将所述表格行中的每行的单元格值转换为文本序列。
如果di是一个表格行(c1,c2,...,cK),其中ck是第k列对应的单元格值,则将表格行转换为一个文本序列si={第一列:c1,第二列:c2,...,第K列:cK}。
为了方便后续处理,本发明将初始知识库的每个元素(如实体、属性、关系等)转换为对应的文本表示,并将初始知识库中的每条信息(如三元组、属性图节点、表格行等)转换为一个文本序列。
在一个实施例中,在所述基于所有的文本序列构建出目标知识库之前,所述方法还包括:
将所有的文本序列添加至预设列表中,得到文本序列列表。
在一个实施例中,所述基于所有的文本序列构建出目标知识库,包括:
将各个文本序列写入所述初始知识库的文件中;
调用预设函数,在所述文件中对各个所述文本序列添加换行符,生成所述目标知识库。
遍历文本序列列表中各个文本序列,将各个文本序列写入初始知识库的文件中,每个文本序列占该文件中的一行,并在行的末尾添加换行符;
通过调用预设函数,将初始知识库的文件进行更新,生成目标知识库。
在其它实施例中,可以采用多种形式来表示知识库,例如列表、字典、数据库等。为了方便后续处理,将目标知识库以列表形式存储在内存中或以文件形式存储在硬盘上。
延续上述的例子H,通过将医疗机构A的初始知识库的历史门诊数据和医疗数据生成文本序列,从而构建出医疗领域的目标知识库。
在步骤S1中,通过将初始知识库中所有类型数据转换为对应的文本序列,并基于所有文本序列构建目标知识库。可以使目标知识库中的每个元素和信息转换为统一的文本序列格式,能够方便地进行后续大语音模型进行充分处理,从而提高目标知识库的利用效率。
S2、当监测到预设大语言模型接收到查询所述目标知识库的初始输入序列时,将所述初始输入序列的第一单词通过预设提示层进行特征处理,生成候选输入序列;
大语言模型(LLM)是一种利用深度神经网络学习自然语言的概率分布的模型,可以用于各种自然语言处理任务,如文本生成、文本摘要、机器翻译、问答等。
大语言模型通常使用大规模的无标注文本数据进行预训练(例如,通过网络学习各个领域的数据进行预训练),以捕捉通用的语言知识和规律,然后根据不同的任务进行微调,以适应特定的领域和场景。
提示层(Soft Prompt)是一种可学习的参数层,其作用是根据大语言模型接收的初始输入序列生成一个第一特征向量(软提示向量),并将第一特征向量与初始输入序列的向量相加,从而改变大语言模型的输入表示。
软提示向量可以看作是一种隐式的文本前缀,能够引导大语言模型根据特定领域任务(例如上述的医疗领域)生成合适的查询结果。
提示层可以有多种形式,例如线性变换、多层感知机、卷积神经网络等。
本发明不需要改变大语言模型(原始LLM)的参数,只需要引入一个额外的提示层,就可以实现对大语言模型的微调。可以大大降低系统计算开销和存储开销,同时避免灾难性遗忘现象,保留大语言模型的通用知识。
延续上述的例子H,医疗机构A将预训练好的大语言模型应用到医疗机构的目标知识库进行业务处理,医疗机构A对大语言模型输入初始输入序列为-“什么是白血病”;
通过预先设置在大语言模型的第一连接层(embeddin glayer)前面的提示层,对初始输入序列中排序第一的单词“什么”进行特征处理,生成候选输入序列。
在一个实施例中,在所述将所述初始输入序列的第一单词通过预设提示层进行特征处理,生成候选输入序列之前,所述方法还包括:
在所述大语言模型的第一连接层前面添加所述提示层,并定义所述提示层的学习参数,以使所述提示层获取所述大语言模型的初始输入序列。
第一连接层通常是一个嵌入层,用于将输入的离散化的词语或字符转换为连续的向量表示。这个嵌入层的参数通常是需要在训练过程中进行学习的。
定义提示层的学习参数的维度(例如768维度),还要创建提示层的分词器和大语言模型的模型对象。
分词器用于将用户输入的初始输入序列(文本)进行分词,以便于后续的处理和分析。在提示层中,分词器可以帮助系统更好地理解用户的输入,从而提供更加准确和有用的提示信息。
在一个实施例中,所述将所述初始输入序列的第一单词通过预设提示层进行特征处理,生成候选输入序列,包括:
将所述初始输入序列中排序第一位的单词,作为所述第一单词;
将所述第一单词的向量输入所述提示层进行特征处理,生成第一特征向量;
融合所述第一特征向量与所述第一单词的向量,生成所述候选输入序列。
单词(中文单词)一般由一个或多个汉字组成,例如:感冒、药品、人类基因组计划等。
根据从前到后的顺序,读取初始输入序列中排序在第一(即前面第一个)的单词,作为第一单词,将处理后得到的第一特征向量与第一单词的向量进行相加,生成候选输入序列。
在步骤S2中,将初始输入序列的第一单词通过预设提示层进行特征处理,生成候选输入序列。可以提高输入序列的准确率和可靠性,从而提高知识库查询的效率和精度。
S3、利用所述候选输入序列的第二单词替换所述初始输入序列的第一单词,以将所述初始输入序列更新为目标输入序列,计算所述目标输入序列的第一向量与所述目标知识库中各个文本序列的第二向量之间的相似度,生成相似度集合;
本实施例中,利用候选输入序列中排序第一的单词(第二单词)对初始输入序列的第一单词进行替换,以使将初始输入序列更新为目标输入序列;
从目标知识库的文件中获取各个文本序列,将大语言模型作为一个编码器,对目标输入序列和各个文本序列进行编码处理,得到目标输入序列的第一向量和各个文本序列的第二向量,计算目标输入序列的第一向量与各个文本序列的第二向量之间的相似度,将计算后得到的相似度添加到相似度列表,基于相似度列表生成相似度集合。
延续上述的例子H,医疗机构A对大语言模型输入初始输入序列为-“什么是白血病”,通过计算目标知识库中各个文本序列与目标输入序列之间的相似度,得到相似度集合;
在目标知识库中可能存储有这些文本序列,分别为-“白血病是一种造血系统恶性肿瘤”,“白血病的主要症状有发热、出血、贫血、感染等”,“白血病的常用治疗方法有化疗、放疗、靶向治疗和造血干细胞移植等”,。
在一个实施例中,所述利用所述候选输入序列的第二单词替换所述初始输入序列的第一单词,以将所述初始输入序列更新为目标输入序列,包括:
将所述候选输入序列中排序第一位的单词,作为所述第二单词;
利用所述第二单词替换所述第一单词得到所述目标输入序列。
读取输入序列中排序在第一(即前面第一个)的单词,作为第二单词。
将第二单词替换掉第一单词在初始输入序列中的位置,将替换位置后的初始输入序列作为目标输入序列。
利用候选输入序列中的第二单词替换初始输入序列中的第一单词,从而实现将初始输入序列更新为目标输入序列。能够提高输入序列的准确率和连贯性,为用户提供更加便捷的输入体验。可广泛应用于语音识别、自然语言处理等领域。
在一个实施例中,所述计算所述目标输入序列的第一向量与所述目标知识库中各个文本序列的第二向量之间的相似度,生成相似度集合,包括:
利用所述大语言模型对所述目标输入序列进行编码处理,得到所述目标输入序列的第一向量表示;
利用所述大语言模型对各个所述文本序列进行编码处理,得到各个所述文本序列对应的第二向量表示;
计算所述第一向量表示与各个所述第二向量表示之间相似度,将计算得到的相似度添加至相似度列表中,生成所述相似度集合。
在步骤S3中,计算目标输入序列的第一向量与目标知识库中各个文本序列的第二向量之间的相似度,生成相似度集合。可以有效提高文本匹配的准确率和效率,为文本处理领域提供了一种新的解决方案。
本发明不需要改变大语言模型(原始LLM)的参数,只需要引入一个额外的提示层,就可以实现对大语言模型的微调和充分利用目标知识库的已有条件。可以大大降低系统计算开销和存储开销,同时避免灾难性遗忘现象,保留大语言模型的通用知识。
解决现有技术中,大语言模型在预训练阶段,主要使用无标注的自然语言文本数据和基于概率分布的采样或贪婪策略来选择下一个词,容易忽略了知识库的已有条件(结构化或半结构化的知识数据和检索能力),导致大语言模型对知识库内的专业领域知识的理解和利用不充分,出现大语言模型生成的查询结果的准确率较低的问题。
S4、基于预设的相似度选取策略,从所述目标知识库中选取预设的数量文本序列作为根据所述目标输入序列查询得到的上下文信息,将所述目标输入序列和所述上下文信息进行组合,以对所述大语言模型进行微调并输出查询结果。
本实施例中,本发明利用大语言模型本身作为编码器,将目标输入序列和目标知识库中的文本序列都转换为向量表示,并根据余弦相似度选取最相关的信息作为上下文信息。可以利用大语言模型预训练时学习到的语义知识,提高检索的准确率和效率。
基于相似度集合的选取策略,选取预设数量文本序列作为目标输入序列进行检索的上下文信息。
延续上述的例子H,医疗机构A对大语言模型输入初始输入序列为-“什么是白血病”,通过从目标知识库中选取与目标输入序列相似度最高的文本序列;
可能这些相似度最高的文本序列分别为-“白血病是一种造血系统恶性肿瘤”,“白血病的主要症状有发热、出血、贫血、感染等”,“白血病的常用治疗方法有化疗、放疗、靶向治疗和造血干细胞移植等”,从而将这些相似度最高的文本序列作为上下文信息。
将上下文信息和目标输入序列填充至预置的模板中进行组合,以生成完整提示(模板),根据模板的调用函数,将模板的内容生成大语言模型的查询结果。
在一个实施例中,所述基于预设的相似度选取策略,从所述目标知识库中选取预设的数量文本序列作为根据所述目标输入序列查询得到的上下文信息,包括:
对所述相似度集合中各个相似度的数值按照从大到小进行排序,选取排序中前K个数值对应的文本序列选取排序中前K个数值对应的文本序列,作为根据所述目标输入序列查询得到的上下文信息。
相似度集合的选取策略可以是按数值从大到小,也可以是按数值从小到大。
对相似度集合中各个相似度的数值按数值从高到低进行排序,从排序中选取前K个数值(例如,排序在前的10个)对应的文本序列,将这些选取后的文本序列去除末尾的换行符并添加至上下文信息列表,将该上下文信息列表作为目标输入序列进行检索的上下文信息。
能够快速有效地从目标知识库中选取与目标输入序列相似度最高的文本序列作为上下文信息,从而提高文本检索的准确率和效率。可广泛应用于文本检索、信息检索等领域。
在一个实施例中,所述方法还包括:
选取所述相似度集合中相似度的数值大于第一阈值对应的文本序列,作为所述目标输入序列进行检索的上下文信息。
在其它实施例中,相似度集合的选取策略还可以包括:选取相似度集合中相似度的数值大于第一阈值(例如,0.8)对应的文本序列,作为目标输入序列进行检索的上下文信息。
在一个实施例中,所述将所述目标输入序列和所述上下文信息进行组合,以对所述大语言模型进行微调并输出查询结果,包括:
将所述目标输入序列和所述上下文信息填充至预置的模板中;
分别对所述目标输入序列和所述上下文信息在所述模板的位置进行插入标记,基于插入标记后的模板对所述大语言模型进行微调,生成所述查询结果。
本发明利用一个预定义的模板,在上下文信息和目标输入序列之间插入预定义的标记,形成一个完整提示,并将完整提示作为大语音模型的输入,从而输出查询结果,相当于对大语音模型的初始输入序列进行多次微调(候选输入序列-目标输入序列-完整提示),才输出查询结果。
这样可以利用提示层生成的特征向量对在大语音模型进行微调,提高大语音模型生成的质量和准确率。
在一个实施例中,所述分别对所述目标输入序列和所述上下文信息在所述模板的位置进行插入标记,基于插入标记后的模板对所述大语言模型进行微调,生成所述查询结果,包括:
对所述目标输入序列在所述模板的位置前面插入第一标记;
对所述上下文信息在所述模板的位置前面插入第二标记;
根据所述模板的调用函数,将插入所述第一标记和所述第二标记的模板生成完整提示;
将所述完整提示转换为张量表示并作为所述大语言模型的输入,对所述大语言模型进行微调,生成所述查询结果。
先将上下文信息中的各个文本序列用分号连接,并在末尾添加句号,再将上下文信息和目标输入序列填充至预置的模板中。
例如,用分号连接并在末尾添加句号的方式为-“白血病是一种造血系统恶性肿瘤”,“白血病的主要症状有发热、出血、贫血、感染等”,“白血病的常用治疗方法有化疗、放疗、靶向治疗和造血干细胞移植等”。
在模板中目标输入序列和上下文信息的位置前面插入标记,例如,插入标记为-已知信息:{context_text}问题是:{input_text};
从而生成插入标记后的模板为-已知信息:{“白血病是一种造血系统恶性肿瘤”,“白血病的主要症状有发热、出血、贫血、感染等”,“白血病的常用治疗方法有化疗、放疗、靶向治疗和造血干细胞移植等”},问题是:{什么是白血病}。
基于插入标记后的模板作为返回的完整提示,根据模板的调用函数将完整提示转换为张量表示,该张量表示作为大语言模型的输入,利用该张量表示对大语言模型进行微调,输出查询结果。
在步骤S4中,将上下文信息和目标输入序列填充至预置的模板中,以生成完整的提示。通过插入标记的方式,使得模板中目标输入序列和上下文信息的位置可以动态调整。该技术可以应用于大语言模型的查询结果生成中,提高模型生成文本的准确率和流畅度。
如图2所示,为本发明一实施例提供的知识库查询装置的模块示意图。
本发明所述知识库查询装置100可以安装于电子设备中。根据实现的功能,所述知识库查询装置100可以包括转换和构建模块110、监测和处理模块120、替换和计算模块130及选取和组合模块140。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
转换和构建模块110,用于获取初始知识库的数据集中至少一个类型数据,将所述类型数据转换为对应的文本序列,基于所有的文本序列构建出目标知识库。
监测和处理模块120,用于当监测到预设大语言模型接收到查询所述目标知识库的初始输入序列时,将所述初始输入序列的第一单词通过预设提示层进行特征处理,生成候选输入序列。
替换和计算模块130,用于利用所述候选输入序列的第二单词替换所述初始输入序列的第一单词,以将所述初始输入序列更新为目标输入序列,计算所述目标输入序列的第一向量与所述目标知识库中各个文本序列的第二向量之间的相似度,生成相似度集合。
选取和组合模块140,用于基于预设的相似度选取策略,从所述目标知识库中选取预设的数量文本序列作为根据所述目标输入序列查询得到的上下文信息,将所述目标输入序列和所述上下文信息进行组合,以对所述大语言模型进行微调并输出查询结果。
在一个实施例中,所述基于所有的文本序列构建出目标知识库,包括:
将各个文本序列写入所述初始知识库的文件中;
调用预设函数,在所述文件中对各个所述文本序列添加换行符,生成所述目标知识库。
在一个实施例中,在所述将所述初始输入序列的第一单词通过预设提示层进行特征处理,生成候选输入序列之前,所述方法还包括:
在所述大语言模型的第一连接层前面添加所述提示层,并定义所述提示层的学习参数,以使所述提示层获取所述大语言模型的初始输入序列。
在一个实施例中,所述将所述初始输入序列的第一单词通过预设提示层进行特征处理,生成候选输入序列,包括:
将所述初始输入序列中排序第一位的单词,作为所述第一单词;
将所述第一单词的向量输入所述提示层进行特征处理,生成第一特征向量;
融合所述第一特征向量与所述第一单词的向量,生成所述候选输入序列。
在一个实施例中,所述利用所述候选输入序列的第二单词替换所述初始输入序列的第一单词,以将所述初始输入序列更新为目标输入序列,包括:
将所述候选输入序列中排序第一位的单词,作为所述第二单词;
利用所述第二单词替换所述第一单词得到所述目标输入序列。
在一个实施例中,所述基于预设的相似度选取策略,从所述目标知识库中选取预设的数量文本序列作为根据所述目标输入序列查询得到的上下文信息,包括:
对所述相似度集合中各个相似度的数值按照从大到小进行排序,选取排序中前K个数值对应的文本序列选取排序中前K个数值对应的文本序列,作为根据所述目标输入序列查询得到的上下文信息。
在一个实施例中,所述将所述目标输入序列和所述上下文信息进行组合,以对所述大语言模型进行微调并输出查询结果,包括:
将所述目标输入序列和所述上下文信息填充至预置的模板中;
分别对所述目标输入序列和所述上下文信息在所述模板的位置进行插入标记,基于插入标记后的模板对所述大语言模型进行微调,生成所述查询结果。
如图3所示,为本发明一实施例提供的实现知识库查询方法的电子设备的结构示意图。
在本实施例中,电子设备1包括,但不仅限于,可通过系统总线相互通信连接的存储器11、处理器12、网络接口13,该存储器11中存储有知识库查询程序10,所述知识库查询程序10可被所述处理器12执行。图3仅示出了具有组件11-13以及知识库查询程序10的电子设备1,本领域技术人员可以理解的是,图3示出的结构并不构成对电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
其中,存储器11包括内存及至少一种类型的可读存储介质。内存为电子设备1的运行提供缓存;可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等的非易失性存储介质。在一些实施例中,可读存储介质可以是电子设备1的内部存储单元;在另一些实施例中,该非易失性存储介质也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。本实施例中,存储器11的可读存储介质通常用于存储安装于电子设备1的操作系统和各类应用软件,例如存储本发明一实施例中的知识库查询程序10的代码等。此外,存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器12在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述电子设备1的总体操作,例如执行与其他设备进行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据,例如运行知识库查询程序10等。
网络接口13可包括无线网络接口或有线网络接口,该网络接口13用于在所述电子设备1与终端(图中未画出)之间建立通信连接。
可选的,所述电子设备1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选的,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的知识库查询程序10是多个指令的组合,在所述处理器12中运行时,可以实现:
获取初始知识库的数据集中至少一个类型数据,将所述类型数据转换为对应的文本序列,基于所有的文本序列构建出目标知识库;
当监测到预设大语言模型接收到查询所述目标知识库的初始输入序列时,将所述初始输入序列的第一单词通过预设提示层进行特征处理,生成候选输入序列;
利用所述候选输入序列的第二单词替换所述初始输入序列的第一单词,以将所述初始输入序列更新为目标输入序列,计算所述目标输入序列的第一向量与所述目标知识库中各个文本序列的第二向量之间的相似度,生成相似度集合;
基于预设的相似度选取策略,从所述目标知识库中选取预设的数量文本序列作为根据所述目标输入序列查询得到的上下文信息,将所述目标输入序列和所述上下文信息进行组合,以对所述大语言模型进行微调并输出查询结果。
具体地,所述处理器12对上述知识库查询程序10的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以是非易失性的,也可以是非易失性的。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
所述计算机可读存储介质上存储有知识库查询程序10,所述知识库查询程序10可被一个或者多个处理器执行,本发明计算机可读存储介质具体实施方式与上述知识库查询方法各实施例基本相同,在此不作赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种知识库查询方法,其特征在于,所述方法包括:
获取初始知识库的数据集中至少一个类型数据,将所述类型数据转换为对应的文本序列,基于所有的文本序列构建出目标知识库;
当监测到预设大语言模型接收到查询所述目标知识库的初始输入序列时,将所述初始输入序列的第一单词通过预设提示层进行特征处理,生成候选输入序列;
利用所述候选输入序列的第二单词替换所述初始输入序列的第一单词,以将所述初始输入序列更新为目标输入序列,计算所述目标输入序列的第一向量与所述目标知识库中各个文本序列的第二向量之间的相似度,生成相似度集合;
基于预设的相似度选取策略,从所述目标知识库中选取预设的数量文本序列作为根据所述目标输入序列查询得到的上下文信息,将所述目标输入序列和所述上下文信息进行组合,以对所述大语言模型进行微调并输出查询结果。
2.如权利要求1所述的知识库查询方法,其特征在于,所述基于所有的文本序列构建出目标知识库,包括:
将各个文本序列写入所述初始知识库的文件中;
调用预设函数,在所述文件中对各个所述文本序列添加换行符,生成所述目标知识库。
3.如权利要求1所述的知识库查询方法,其特征在于,在所述将所述初始输入序列的第一单词通过预设提示层进行特征处理,生成候选输入序列之前,所述方法还包括:
在所述大语言模型的第一连接层前面添加所述提示层,并定义所述提示层的学习参数,以使所述提示层获取所述大语言模型的初始输入序列。
4.如权利要求1所述的知识库查询方法,其特征在于,所述将所述初始输入序列的第一单词通过预设提示层进行特征处理,生成候选输入序列,包括:
将所述初始输入序列中排序第一位的单词,作为所述第一单词;
将所述第一单词的向量输入所述提示层进行特征处理,生成第一特征向量;
融合所述第一特征向量与所述第一单词的向量,生成所述候选输入序列。
5.如权利要求1或4所述的知识库查询方法,其特征在于,所述利用所述候选输入序列的第二单词替换所述初始输入序列的第一单词,以将所述初始输入序列更新为目标输入序列,包括:
将所述候选输入序列中排序第一位的单词,作为所述第二单词;
利用所述第二单词替换所述第一单词得到所述目标输入序列。
6.如权利要求1所述的知识库查询方法,其特征在于,所述基于预设的相似度选取策略,从所述目标知识库中选取预设的数量文本序列作为根据所述目标输入序列查询得到的上下文信息,包括:
对所述相似度集合中各个相似度的数值按照从大到小进行排序,选取排序中前K个数值对应的文本序列选取排序中前K个数值对应的文本序列,作为根据所述目标输入序列查询得到的上下文信息。
7.如权利要求1所述的知识库查询方法,其特征在于,所述将所述目标输入序列和所述上下文信息进行组合,以对所述大语言模型进行微调并输出查询结果,包括:
将所述目标输入序列和所述上下文信息填充至预置的模板中;
分别对所述目标输入序列和所述上下文信息在所述模板的位置进行插入标记,基于插入标记后的模板对所述大语言模型进行微调,生成所述查询结果。
8.一种知识库查询装置,其特征在于,所述装置包括:
转换和构建模块,用于获取初始知识库的数据集中至少一个类型数据,将所述类型数据转换为对应的文本序列,基于所有的文本序列构建出目标知识库;
监测和处理模块,用于当监测到预设大语言模型接收到查询所述目标知识库的初始输入序列时,将所述初始输入序列的第一单词通过预设提示层进行特征处理,生成候选输入序列;
替换和计算模块,用于利用所述候选输入序列的第二单词替换所述初始输入序列的第一单词,以将所述初始输入序列更新为目标输入序列,计算所述目标输入序列的第一向量与所述目标知识库中各个文本序列的第二向量之间的相似度,生成相似度集合;
选取和组合模块,用于基于预设的相似度选取策略,从所述目标知识库中选取预设的数量文本序列作为根据所述目标输入序列查询得到的上下文信息,将所述目标输入序列和所述上下文信息进行组合,以对所述大语言模型进行微调并输出查询结果。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的知识库查询程序,所述知识库查询程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一项所述的知识库查询方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有知识库查询程序,所述知识库查询程序可被一个或者多个处理器执行,以实现如权利要求1至7任一项所述的知识库查询方法。
CN202310735042.9A 2023-06-20 2023-06-20 知识库查询方法、装置、电子设备及存储介质 Pending CN116737879A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310735042.9A CN116737879A (zh) 2023-06-20 2023-06-20 知识库查询方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310735042.9A CN116737879A (zh) 2023-06-20 2023-06-20 知识库查询方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN116737879A true CN116737879A (zh) 2023-09-12

Family

ID=87918201

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310735042.9A Pending CN116737879A (zh) 2023-06-20 2023-06-20 知识库查询方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN116737879A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117235238A (zh) * 2023-11-13 2023-12-15 广东蘑菇物联科技有限公司 问答方法、装置、存储介质及计算机设备
CN117577350A (zh) * 2023-11-20 2024-02-20 北京壹永科技有限公司 医疗大语言模型的训练及推理的方法、装置、设备及介质
CN117609444A (zh) * 2023-11-08 2024-02-27 天讯瑞达通信技术有限公司 一种基于大模型的搜索问答方法
CN118170892A (zh) * 2024-05-13 2024-06-11 山东第一医科大学附属省立医院(山东省立医院) 体检报告影像学检查辅助解读方法及装置
CN118312577A (zh) * 2024-03-27 2024-07-09 北京衔远有限公司 知识库的自动构建方法、装置、电子设备及存储介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117609444A (zh) * 2023-11-08 2024-02-27 天讯瑞达通信技术有限公司 一种基于大模型的搜索问答方法
CN117235238A (zh) * 2023-11-13 2023-12-15 广东蘑菇物联科技有限公司 问答方法、装置、存储介质及计算机设备
CN117235238B (zh) * 2023-11-13 2024-03-08 广东蘑菇物联科技有限公司 问答方法、装置、存储介质及计算机设备
CN117577350A (zh) * 2023-11-20 2024-02-20 北京壹永科技有限公司 医疗大语言模型的训练及推理的方法、装置、设备及介质
CN117577350B (zh) * 2023-11-20 2024-06-11 北京壹永科技有限公司 医疗大语言模型的训练及推理的方法、装置、设备及介质
CN118312577A (zh) * 2024-03-27 2024-07-09 北京衔远有限公司 知识库的自动构建方法、装置、电子设备及存储介质
CN118170892A (zh) * 2024-05-13 2024-06-11 山东第一医科大学附属省立医院(山东省立医院) 体检报告影像学检查辅助解读方法及装置

Similar Documents

Publication Publication Date Title
CN116737879A (zh) 知识库查询方法、装置、电子设备及存储介质
CN107341264B (zh) 一种支持自定义实体的电子病历检索系统及方法
CN112329964B (zh) 用于推送信息的方法、装置、设备以及存储介质
CN110502621A (zh) 问答方法、问答装置、计算机设备及存储介质
CN110534185B (zh) 标注数据获取方法、分诊方法、装置、存储介质及设备
CN110516260A (zh) 实体推荐方法、装置、存储介质及设备
US11397855B2 (en) Data standardization rules generation
CN112883157B (zh) 一种多源异构医疗数据的标准化方法及装置
CN112154509A (zh) 具有用于文本注释的演变领域特异性词典特征的机器学习模型
CN116682553A (zh) 一种融合知识与患者表示的诊断推荐系统
WO2022222943A1 (zh) 科室推荐方法、装置、电子设备及存储介质
CN110265098A (zh) 一种病例管理方法、装置、计算机设备及可读存储介质
CN107545023B (zh) 文本型指标的提取方法和装置
CN112447300A (zh) 基于图神经网络的医疗查询方法、装置、计算机设备及存储介质
CN109857736A (zh) 医院异构系统的数据编码统一化方法及系统、设备、介质
CN112599213B (zh) 一种分类编码确定方法、装置、设备及存储介质
CN109830285B (zh) 一种医学影像文件处理方法和装置
CN107545934B (zh) 数值型指标的提取方法和装置
CN110321426B (zh) 摘要抽取方法、装置及计算机设备
CN112151187B (zh) 信息查询方法、装置、计算机设备和存储介质
CN110795526A (zh) 一种用于检索系统的数学公式索引创建方法与系统
CN116721778B (zh) 一种医学术语标准化方法、系统、设备及介质
CN111026877A (zh) 基于概率软逻辑的知识验证模型构建与分析方法
CN113658720A (zh) 匹配诊断名称和icd编码的方法、装置、电子设备和存储介质
US20090234852A1 (en) Sub-linear approximate string match

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination