CN118069817A - 基于知识图谱的生成式问答方法、设备和存储介质 - Google Patents

基于知识图谱的生成式问答方法、设备和存储介质 Download PDF

Info

Publication number
CN118069817A
CN118069817A CN202410466545.5A CN202410466545A CN118069817A CN 118069817 A CN118069817 A CN 118069817A CN 202410466545 A CN202410466545 A CN 202410466545A CN 118069817 A CN118069817 A CN 118069817A
Authority
CN
China
Prior art keywords
node
question
determining
target
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410466545.5A
Other languages
English (en)
Inventor
赵玮
孟祥飞
康波
庞晓磊
傅浩
吴晓菲
聂鹏飞
张森乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Supercomputer Center In Tianjin
Original Assignee
National Supercomputer Center In Tianjin
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Supercomputer Center In Tianjin filed Critical National Supercomputer Center In Tianjin
Priority to CN202410466545.5A priority Critical patent/CN118069817A/zh
Publication of CN118069817A publication Critical patent/CN118069817A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据处理技术领域,公开了一种基于知识图谱的生成式问答方法、设备和存储介质。该方法通过提问文本和知识图谱确定各源节点,并确定目标节点类型,基于目标节点类型、所有源节点和知识图谱,确定各目标节点,实现多维度的意图判别以及目标节点的初筛,大幅缩小精细化筛选的范围,进而针对每一个目标节点,结合对应的节点关联信息判断其是否与提问文本关联,以实现对所有目标节点的精细化筛选,提高对提问文本的意图判别的准确性,进而根据所有目标节点对应的节点关联信息确定问答辅助信息,将其与提问文本一并输入至大语言模型中,得到回答文本,实现多维度的精细化意图判别,极大提高了问答准确性,解决现有技术中假阳率高的问题。

Description

基于知识图谱的生成式问答方法、设备和存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于知识图谱的生成式问答方法、设备和存储介质。
背景技术
随着自然语言处理技术的快速发展,大规模语言模型在理解人类意图和快速响应等方面都取得了较为突出的表现。大语言模型被逐渐应用到生成式问答中。
然而,当前基于大语言模型的生成式问答,往往缺乏事实性依据,导致回答不符合客观事实或所答非所问。除此之外,依赖全部辅助知识向量做意图预测和模型问答,存在预测耗时较长,且易出现假阳率高的情况。
有鉴于此,特提出本发明。
发明内容
为了解决上述技术问题,本发明提供了一种基于知识图谱的生成式问答方法、设备和存储介质,实现多维度的精细化意图判别,提高问答的准确性,解决问答耗时较长以及假阳率高的问题。
本发明实施例提供了一种基于知识图谱的生成式问答方法,该方法包括:
获取提问文本,并基于所述提问文本和预先构建的知识图谱确定各源节点;
基于所述提问文本确定目标节点类型,并根据所述目标节点类型、所有源节点以及所述知识图谱,确定各目标节点;
针对每一个目标节点,基于所述目标节点对应的节点关联信息判断所述目标节点是否与所述提问文本关联,若否,则剔除所述目标节点,若是,则保留所述目标节点;
根据所有目标节点对应的节点关联信息确定问答辅助信息,将所述问答辅助信息与所述提问文本输入至预先训练的大语言模型中,得到与所述提问文本对应的回答文本。
本发明实施例提供了一种电子设备,所述电子设备包括:
处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行任一实施例所述的基于知识图谱的生成式问答方法的步骤。
本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行任一实施例所述的基于知识图谱的生成式问答方法的步骤。
本发明实施例具有以下技术效果:
通过获取提问文本,基于提问文本和预先构建的知识图谱确定各源节点,并根据提问文本确定目标节点类型,基于目标节点类型、所有源节点和知识图谱,确定各目标节点,实现多维度的意图判别以及目标节点的初步筛选,大幅缩小后续精细化筛选的范围,进而针对每一个目标节点,结合对应的节点关联信息判断目标节点是否与提问文本关联,以剔除不关联的目标节点,实现对所有目标节点的精细化筛选,提高对提问文本的意图判别的准确性,进而根据所有目标节点对应的节点关联信息确定问答辅助信息,将其与提问文本一并输入至大语言模型中,得到回答文本,以实现多维度的精细化意图判别,该方法通过初步筛选和精细化筛选,极大提高了问答准确性,解决现有技术中假阳率高的问题,并且两次筛选可以剔除与提问的意图不相关的节点,从而减少输入到大语言模型中的不相关信息,提高模型的问答效率,解决现有技术问答耗时较长的问题。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的一种基于知识图谱的生成式问答方法的流程图;
图2是本发明实施例二提供的一种电子设备的结构示意图;
图3是本发明实施例三提供的一种生成式问答方法的应用流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行清楚、完整的描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施例,都属于本发明所保护的范围。
本发明实施例提供的基于知识图谱的生成式问答方法,主要适用于根据用户录入的提问文本,生成与该提问文本对应的回答文本的情况,例如,根据用户针对疾病所录入的症状描述文本,生成对应的疾病判断结果。本发明实施例提供的基于知识图谱的生成式问答方法可以计算机等电子设备执行。
实施例一
图1是本发明实施例一提供的一种基于知识图谱的生成式问答方法的流程图。参见图1,该基于知识图谱的生成式问答方法具体包括:
S110、获取提问文本,并基于提问文本和预先构建的知识图谱确定各源节点。
其中,提问文本可以是描述用户问题的文本;例如,可以通过获取用户在预设界面上输入的文字获取提问文本,或者,可以通过采集用户于语音采集设备上录入的语音指令获取提问文本。
在本发明实施例中,在得到用户的提问文本之后,可以确定该提问文本对应的问答领域,如,科技领域、金融领域、医疗领域等;进一步的,结合该提问文本,于该问答领域对应的知识图谱中确定各源节点。其中,各问答领域可以分别具备对应的知识图谱。
具体的,知识图谱可以描述各节点以及各节点之间的关联关系;各节点可以代表问答领域内的知识点,如,在医疗领域中,知识图谱可以描述疾病、症状、检查、用药等类型的节点,并描述疾病节点与症状节点之间、疾病节点与检查节点之间、疾病节点与用药节点之间的关联关系。
示例性的,每个问答领域所对应的知识图谱可以通过如下方式构建:首先,采集问答领域对应的原始文本数据,如,可以通过搜索引擎下载与问答领域关联的文档,作为原始文本数据;然后,通过实体抽取模块获取原始文本数据中的各实体节点,并从原始文本数据中抽取各实体节点之间的关联关系,基于各实体节点以及各节点之间的关联关系搭建知识图谱;其次,将原始文本数据中与每个节点相关的数据,作为各节点的节点关联信息进行存储;最后,针对每个类型的实体节点(如疾病、症状、检查、用药等类型),对各实体节点进行词表向量化转化,以确定各实体节点对应的节点词向量,用节点词向量的形式描述各实体节点,构建知识图谱对应的向量库。
示例性的,针对每类实体节点(如症状、检查、疾病、用药),构建多类型词表向量库H,实体节点的词向量可以表示为/>,/>,其中E表示所有实体节点。
在本发明实施例中,源节点是知识图谱中与提问文本描述的内容相似的节点。例如,可以将提问文本与知识图谱中的各节点进行相似度检索,进而根据相似度检索的结果得到各源节点。
在一种具体的实施方式中,基于提问文本和预先构建的知识图谱确定各源节点,包括如下步骤:
步骤11、获取提问文本,并确定所述提问文本中的各个关键词;
步骤12、针对每一个关键词,在预先构建的知识图谱中查找与关键词对应的节点,作为源节点。
在步骤11中,可以先通过实体抽取模块获取提问文本中的各个关键词,得到关键词列表。如,将提问文本q通过实体抽取模块,得到关键词列表
进一步的,在步骤12中,可以在对应的知识图谱中进行检索,以查找与每个关键词相似的节点,作为源节点。
针对步骤12,可选的,在预先构建的知识图谱中查找与关键词对应的节点,作为源节点,包括如下步骤:
步骤121、在与知识图谱对应的同义词词表中,检索与关键词一致的同义词,其中,同义词词表包括知识图谱中每个节点的同义词;
步骤122、若检索成功,则基于检索到的同义词在知识图谱中确定源节点,若检索失败,则确定关键词对应的关键词向量,并确定关键词向量与知识图谱对应的向量库中各节点词向量之间的相似度,基于相似度确定源节点。
具体的,以提问文本中的一个关键词为例,在预先构建的知识图谱中查找源节点,可以是:首先,判断对应的同义词词表中是否存在与关键词一致的同义词,其中,同义词词表可以包括知识图谱中各节点描述的内容所对应的同义词;若存在,则直接将知识图谱中与查找到的同义词所对应的节点作为源节点,若不存在,则对关键词/>进行向量化处理,得到关键词向量/>,进而将关键词向量与知识图谱对应的向量库中的所有节点词向量进行相似度计算,并将相似度最高的节点词向量所对应的节点作为源节点/>,如下式所示:
式中,为关键词向量,/>为向量库中的节点词向量,/>代表向量库/>中的索引,表示计算/>与/>之间的相似度,/>为源节点。
通过上述步骤121-步骤122,通过同义词检索和相似度检索分级匹配方式,可以提升在知识图谱中匹配到源节点的概率,并提高匹配的准确性,解决了图检索难以实现模糊匹配的问题。并且,通过上述步骤11-步骤12,可以基于提问文本中的每一个关键词分别进行匹配,进一步提高匹配的准确性,进而保证后续问答生成的可靠性。
针对提问文本中的每一个关键词,循环执行上述步骤,即可得到所有关键词分别对应的源节点,即可以表示为
S120、基于提问文本确定目标节点类型,并根据目标节点类型、所有源节点以及知识图谱,确定各目标节点。
其中,目标节点可以是需要在知识图谱中查询的节点,目标节点可以用于构建问答辅助信息,以便于大语言模型结合问答辅助信息和提问文本进行回答。目标节点类型可以是诸如疾病、检查、症状、用药等类型。
在一种具体的实施方式中,基于提问文本确定目标节点类型,包括如下步骤:
步骤21、确定知识图谱中所有节点对应的总类型组合;
步骤22、基于总类型组合以及提问文本构建类型确定指令,将类型确定指令输入至大语言模型中,得到目标节点类型。
在步骤21中,可以先汇总知识图谱中所有节点涉及到的类型,以确定知识图谱能够输出的节点的类型,得到总类型组合;进一步的,在步骤22中,可以基于总类型组合以及提问文本构建类型确定指令,进而将类型确定指令输入至大语言模型中,得到大语言模型输出的目标节点类型/>
其中,类型确定指令可以用于在总类型组合中选择目标节点类型;大语言模型可以是预先训练的LLM(Large Language Model)。
示例性的,可以将总类型组合以及提问文本输入至多选一指令模板中,得到类型确定指令,多选一指令模板可以是:“提问文本为{};总类型组合为{},请选择目标节点类型”。
在上述步骤21-步骤22中,通过总类型组合以及提问文本构建类型确定指令,并结合大语言模型确定目标节点类型,可以保证目标节点类型的准确性,并且,与直接在知识图谱中检索与源节点关联的节点相比,确定目标节点类型可以实现意图判别,结合目标节点类型进行检索,可以使后续的问答生成更具有针对性,避免向用户反馈冗余内容,进一步提高问答准确性。
在得到目标节点类型之后,进一步的,可以结合该目标节点类型,在知识图谱中检索满足该目标节点类型,且与源节点之间存在关联关系的节点,得到目标节点。
在一种具体的实施方式中,根据目标节点类型、所有源节点以及知识图谱,确定各目标节点,包括如下步骤:
步骤31、基于节点的类型对所有源节点进行分类,得到各类型节点集合;
步骤32、针对每一个类型节点集合,在知识图谱中确定与每个源节点存在关系且满足目标节点类型的节点,作为候选节点,得到对应的候选节点集合;
步骤33、对所有类型节点集合对应的候选节点集合进行取交集处理,得到交集集合,将交集集合中各节点作为目标节点。
在步骤31中,可以按照节点的类型对所有源节点进行分类,如通过聚类的方式进行分类,得到各类型节点集合。例如,得到/>,其中表示为单一类型节点集合。
进一步的,在步骤32中,对于单一类型的每一个类型节点集合,可以结合目标节点类型/>构建图索引指令,如,MATCH (m:Typet)-[r:RTt->TEq,k]->(n:TypeEq,k) wheren.name = ei return m;进而基于图索引指令在知识图谱中进行检索,以从中查找与类型节点集合中各源节点存在关系且满足目标节点类型的节点,作为候选节点Et,k,i
其中,类型节点集合中的每一个源节点均重复该操作,将最后得到的所有候选节点取并集,得到候选节点集合。即,候选节点集合可表示为所得的所有候选节点的并集,即:
针对每一个类型节点集合,均可执行步骤32,得到每个类型节点集合分别对应的候选节点集合。
进一步的,在步骤33中,可以对所有候选节点集合进行取交集处理,得到交集处理后的交集集合,将交集结合中的各节点作为目标节点,具体可表示为:
需要说明的是,在步骤22中,针对每一个类型节点集合,其中各个源节点所查找到的候选节点取并集的目的在于:可以得到与任意一个源节点之间存在关联关系的节点,以尽量保证目标节点的全面性。并且,在步骤23中,对所有类型下的候选节点集合进行取交集处理的目的在于:可以得到与所有源节点之间均存在关联关系的节点,以保证目标节点的精准性。
S130、针对每一个目标节点,基于目标节点对应的节点关联信息判断目标节点是否与提问文本关联,若否,则剔除目标节点,若是,则保留目标节点。
具体的,在得到各个目标节点之后,为了进一步提高问答生成的准确性,还可以对目标节点进行精细化筛选,以过滤掉与提问文本不关联的目标节点,提高对提问文本的意图判别的准确性。
示例性的,可以结合原始文本数据中与目标节点对应的节点关联信息,判断目标节点是否与提问文本关联。
在一种具体的实施方式中,基于目标节点对应的节点关联信息判断目标节点是否与提问文本关联,包括如下步骤:
步骤41、基于所有源节点的类型确定当前类型组合,并基于当前类型组合中的各类型确定对应的初始属性,得到当前属性组合;
步骤42、基于当前属性组合,在目标节点对应的节点关联信息中确定最终关联信息,其中,节点关联信息包括各属性分别对应的关联数据;
步骤43、基于最终关联信息判断目标节点是否与提问文本关联。
在步骤41中,可以先根据每个源节点的类型,确定当前类型组合,进而根据当前类型组合中的各个类型,确定当前属性组合/>。其中,每个节点类型分别对应一个初始属性,初始属性用于描述原始文本数据中数据的分类,可以将各节点的节点关联信息划分为各属性分别对应的关联数据。
例如,针对医疗领域,原始文本数据的初始属性可以是临床表现、鉴别检查或治疗用药等,其中,临床表现对应症状类型、鉴别检查对应检查类型、治疗用药对应用药类型。
进一步的,在步骤42中,可以在目标节点对应的节点关联信息中,提取与当前属性组合中各初始属性分别对应的关联数据,得到最终关联信息P。
其中,节点关联信息可以用于描述在对应问答领域下与目标节点相关的内容。需要说明的是,在目标节点对应的节点关联信息中,提取当前属性组合对应的关联数据作为最终关联信息的目的在于:便于后续将目标节点中与用户提问类型相关的内容,与提问文本之间进行判别,实现对目标节点和提问文本之间是否相关的准确判断,实现意图的精细化判断,进一步提高问答的准确性,避免后续使用与提问文本无关的目标节点进行问答。
进一步的,在步骤43中,可以根据最终关联信息,判断目标节点是否与提问文本关联。例如,可以计算最终关联信息与提问文本之间的相似度,通过相似度判断目标节点是否与提问文本关联。
针对上述步骤43,可选的,基于最终关联信息判断目标节点是否与提问文本关联,包括:
根据最终关联信息和提问文本生成判别指令;将判别指令输入至大语言模型中,以使大语言模型判断最终关联信息与提问文本是否关联,若是,则确定目标节点与提问文本关联。
具体的,可以将最终关联信息P和提问文本输入至判别模板中,得到判别指令,进而将判别指令输入至大语言模型中,得到大语言模型输出的判别结果,即目标节点是否与提问文本关联。
示例性的,判别模板可以是:
“你是一名智能医生,请依据患者信息和疾病信息,判断患者是否与该疾病相关,其中,疾病信息{P},患者信息{q}”。
在该判别模板中,可以将最终关联信息作为疾病信息填入,将提问文本作为患者信息填入。
通过将判别指令输入至大语言模型中进行判断,可以实现对目标节点的精细化判别,进而筛选得到与提问文本q相关的目标节点,将知识图谱同大语言模型有效融合,考虑到知识图谱中初筛的目标节点的判别维度单一,引入精细化判别流程,可以借助原始文本数据实现多维度精细化判别,保证问答的准确性。
进一步的,针对与提问文本不关联的目标节点,可以将此类目标节点剔除,即与提问文本不关联的目标节点不参与后续的问答辅助信息的生成。针对与提问本文关联的目标节点,可以将此类目标节点保留,即与提问文本关联的目标节点参与后续的问答辅助信息的生成。
S140、根据所有目标节点对应的节点关联信息确定问答辅助信息,将问答辅助信息与提问文本输入至预先训练的大语言模型中,得到与提问文本对应的回答文本。
具体的,在剔除掉与提问文本不关联的目标节点之后,可以从剩余所有目标节点对应的节点关联信息中,提取问答辅助信息。
在一种具体的实施方式中,根据所有目标节点对应的节点关联信息确定问答辅助信息,包括:
针对每一个目标节点,基于当前属性组合,在目标节点对应的节点关联信息中确定最终关联信息;将所有目标节点的最终关联信息确定为问答辅助信息。
即,可以从所有目标节点对应的节点关联信息中,提取与当前属性组合中各初始属性分别对应的关联数据,作为问答辅助信息。
通过该方式,可以抽取与用户提问类型相关的数据,实现对问答辅助信息的准确获取,便于大语言模型生成准确的回答文本。
其中,基于剩余所有目标节点对应的节点关联信息确定问答辅助信息的目的在于:问答辅助信息可以作为已知信息,与提问文本一并输入至问答模板中,得到问答指令,进而将问答指令输入至大语言模型中,以使大语言模型将问答指令中的问答辅助信息作为已知信息,结合已知信息对提问文本进行回答,输出回答文本。
本发明具有以下技术效果:通过获取提问文本,基于提问文本和预先构建的知识图谱确定各源节点,并根据提问文本确定目标节点类型,基于目标节点类型、所有源节点和知识图谱,确定各目标节点,实现多维度的意图判别以及目标节点的初步筛选,大幅缩小后续精细化筛选的范围,进而针对每一个目标节点,结合对应的节点关联信息判断目标节点是否与提问文本关联,以剔除不关联的目标节点,实现对所有目标节点的精细化筛选,提高对提问文本的意图判别的准确性,进而根据所有目标节点对应的节点关联信息确定问答辅助信息,将其与提问文本一并输入至大语言模型中,得到回答文本,以实现多维度的精细化意图判别,该方法通过初步筛选和精细化筛选,极大提高了问答准确性,解决现有技术中假阳率高的问题,并且两次筛选可以剔除与提问的意图不相关的节点,从而减少输入到大语言模型中的不相关信息,提高模型的问答效率,解决现有技术问答耗时较长的问题。
实施例二
图2是本发明实施例二提供的一种电子设备的结构示意图。如图2所示,电子设备400包括一个或多个处理器401和存储器402。
处理器401可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备400中的其他组件以执行期望的功能。
存储器402可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器401可以运行所述程序指令,以实现上文所说明的本发明任意实施例的基于知识图谱的生成式问答方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如初始外参、阈值等各种内容。
在一个示例中,电子设备400还可以包括:输入装置403和输出装置404,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。该输入装置403可以包括例如键盘、鼠标等等。该输出装置404可以向外部输出各种信息,包括预警提示信息、制动力度等。该输出装置404可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图2中仅示出了该电子设备400中与本发明有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备400还可以包括任何其他适当的组件。
除了上述方法和设备以外,本发明的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本发明任意实施例所提供的基于知识图谱的生成式问答方法的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本发明实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本发明的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本发明任意实施例所提供的基于知识图谱的生成式问答方法的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
实施例三
图3是本发明实施例三提供的一种生成式问答方法的应用流程图,以医疗领域为例为问答过程进行示例性说明。如图3所示,首先,可以从医疗指令提取临床表面、鉴别检查、治疗用药等属性的原始文本数据,并通过实体抽取模块得到各实体节点,进而通过节点嵌入模块,将各节点嵌入至知识图谱中,并对各个节点进行向量化处理,按照节点类型生成疾病向量库、检查向量库以及用药向量库。
进一步的,对于用户输入的提问文本,可以通过实体抽取模块获取其中的各个关键词,并通过混合相似度检索模块,在疾病向量库、检查向量库以及用药向量库中检索对应的节点作为源节点。其中,混合相似度检索模块可以先在同义词词表中进行检索,若未检索到,则进一步在疾病向量库、检查向量库以及用药向量库中检索。
在得到各源节点之后,可以通过LLM意图判别模块对提问文本进行处理,得到目标节点类型,进而基于目标节点类型以及源节点,在知识图谱中查找目标节点,并通过LLM精细化判别模块对所有目标节点进行筛选,剔除掉其中与提问文本不相关的目标节点。
进一步的,通过LLM问答模块,根据目标节点对应的节点关联信息以及提问文本构建问答指令输入至LLM模型中,得到预测输出,即回答文本。
通过图3所示的流程,可以采用描述所有节点以及关系的知识图谱,通过用户给定的提问文本q,依据知识图谱查询处能够用于回答提问文本的目标节点,并将目标节点作为已知信息,辅助大语言模型回答提问文本q,以将知识图谱与大语言模型有效融合,实现基于知识图谱的关系数据查询。
并且,借助关键词和混合相似度检索模块,实现知识图谱中源节点查询,借助LLM意图判别模块实现图谱关系查询,将上述获取的源节点和目标节点类型构建图节点查询指令,并将查询得到的目标节点同提问文本输入至LLM问答模块实现交互问答。
在上述方法流程具备以下技术效果:
1.针对图检索难以实现模糊匹配的问题,通过引入关键词和混合相似度检索,通过同义词检索和相似度检索分级匹配的方式,较大程度上提升检索匹配命中概率。
2.针对大规模的疾病类型节点,LLM直接判别诊断耗时较长且易出现假阳率较高的问题,通过引入LLM意图判别模块和图谱初筛模块,用于目标节点的大规模初筛,从而大幅缩小的LLM模型精细化筛选的范畴;
3.针对图谱初筛判别维度单一的问题,通过引入LLM精细化判别模块,借助多种疾病原始属性文本特征信息实现多维度精细化判别。
需要说明的是,本发明所用术语仅为了描述特定实施例,而非限制本申请范围。如本发明说明书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法或者设备中还存在另外的相同要素。
还需说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。除非另有明确的规定和限定,术语“安装”、“相连”、“连接”等应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案。

Claims (10)

1.一种基于知识图谱的生成式问答方法,其特征在于,包括:
获取提问文本,并基于所述提问文本和预先构建的知识图谱确定各源节点;
基于所述提问文本确定目标节点类型,并根据所述目标节点类型、所有源节点以及所述知识图谱,确定各目标节点;
针对每一个目标节点,基于所述目标节点对应的节点关联信息判断所述目标节点是否与所述提问文本关联,若否,则剔除所述目标节点,若是,则保留所述目标节点;
根据所有目标节点对应的节点关联信息确定问答辅助信息,将所述问答辅助信息与所述提问文本输入至预先训练的大语言模型中,得到与所述提问文本对应的回答文本。
2.根据权利要求1所述的方法,其特征在于,基于所述提问文本和预先构建的知识图谱确定各源节点,包括:
获取提问文本,并确定所述提问文本中的各个关键词;
针对每一个关键词,在预先构建的知识图谱中查找与所述关键词对应的节点,作为源节点。
3.根据权利要求2所述的方法,其特征在于,所述在预先构建的知识图谱中查找与所述关键词对应的节点,作为源节点,包括:
在与所述知识图谱对应的同义词词表中,检索与所述关键词一致的同义词,其中,所述同义词词表包括所述知识图谱中每个节点的同义词;
若检索成功,则基于检索到的同义词在所述知识图谱中确定源节点,若检索失败,则确定所述关键词对应的关键词向量,并确定所述关键词向量与所述知识图谱对应的向量库中各节点词向量之间的相似度,基于相似度确定源节点。
4.根据权利要求1所述的方法,其特征在于,基于所述提问文本确定目标节点类型,包括:
确定所述知识图谱中所有节点对应的总类型组合;
基于所述总类型组合以及所述提问文本构建类型确定指令,将所述类型确定指令输入至所述大语言模型中,得到目标节点类型。
5.根据权利要求1所述的方法,其特征在于,根据所述目标节点类型、所有源节点以及所述知识图谱,确定各目标节点,包括:
基于节点的类型对所有源节点进行分类,得到各类型节点集合;
针对每一个类型节点集合,在所述知识图谱中确定与每个源节点存在关系且满足所述目标节点类型的节点,作为候选节点,得到对应的候选节点集合;
对所有类型节点集合对应的候选节点集合进行取交集处理,得到交集集合,将所述交集集合中各节点作为目标节点。
6.根据权利要求1所述的方法,其特征在于,基于所述目标节点对应的节点关联信息判断所述目标节点是否与所述提问文本关联,包括:
基于所有源节点的类型确定当前类型组合,并基于当前类型组合中的各类型确定对应的初始属性,得到当前属性组合;
基于所述当前属性组合,在所述目标节点对应的节点关联信息中确定最终关联信息,其中,所述节点关联信息包括各属性分别对应的关联数据;
基于所述最终关联信息判断所述目标节点是否与所述提问文本关联。
7.根据权利要求6所述的方法,其特征在于,基于所述最终关联信息判断所述目标节点是否与所述提问文本关联,包括:
根据所述最终关联信息和所述提问文本生成判别指令;
将所述判别指令输入至所述大语言模型中,以使所述大语言模型判断所述最终关联信息与所述提问文本是否关联,若是,则确定所述目标节点与所述提问文本关联。
8.根据权利要求6所述的方法,其特征在于,所述根据所有目标节点对应的节点关联信息确定问答辅助信息,包括:
针对每一个目标节点,基于所述当前属性组合,在所述目标节点对应的节点关联信息中确定最终关联信息;
将所有目标节点的最终关联信息确定为问答辅助信息。
9.一种电子设备,其特征在于,所述电子设备包括:
处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行如权利要求1至8任一项所述的基于知识图谱的生成式问答方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如权利要求1至8任一项所述的基于知识图谱的生成式问答方法的步骤。
CN202410466545.5A 2024-04-18 2024-04-18 基于知识图谱的生成式问答方法、设备和存储介质 Pending CN118069817A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410466545.5A CN118069817A (zh) 2024-04-18 2024-04-18 基于知识图谱的生成式问答方法、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410466545.5A CN118069817A (zh) 2024-04-18 2024-04-18 基于知识图谱的生成式问答方法、设备和存储介质

Publications (1)

Publication Number Publication Date
CN118069817A true CN118069817A (zh) 2024-05-24

Family

ID=91111285

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410466545.5A Pending CN118069817A (zh) 2024-04-18 2024-04-18 基于知识图谱的生成式问答方法、设备和存储介质

Country Status (1)

Country Link
CN (1) CN118069817A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111475623A (zh) * 2020-04-09 2020-07-31 北京北大软件工程股份有限公司 基于知识图谱的案件信息语义检索方法及装置
CN112487168A (zh) * 2020-12-11 2021-03-12 润联软件系统(深圳)有限公司 知识图谱的语义问答方法、装置、计算机设备及存储介质
CN117633252A (zh) * 2023-12-14 2024-03-01 广州华微明天软件技术有限公司 一种融合知识图谱与大语言模型的辅助检索方法
WO2024066920A1 (zh) * 2022-09-30 2024-04-04 腾讯科技(深圳)有限公司 虚拟场景的对话方法、装置、电子设备、计算机程序产品及计算机存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111475623A (zh) * 2020-04-09 2020-07-31 北京北大软件工程股份有限公司 基于知识图谱的案件信息语义检索方法及装置
CN112487168A (zh) * 2020-12-11 2021-03-12 润联软件系统(深圳)有限公司 知识图谱的语义问答方法、装置、计算机设备及存储介质
WO2024066920A1 (zh) * 2022-09-30 2024-04-04 腾讯科技(深圳)有限公司 虚拟场景的对话方法、装置、电子设备、计算机程序产品及计算机存储介质
CN117633252A (zh) * 2023-12-14 2024-03-01 广州华微明天软件技术有限公司 一种融合知识图谱与大语言模型的辅助检索方法

Similar Documents

Publication Publication Date Title
US11714861B2 (en) Query selection method and system
CN111353310B (zh) 基于人工智能的命名实体识别方法、装置及电子设备
CN112015917A (zh) 基于知识图谱的数据处理方法、装置及计算机设备
US20220405484A1 (en) Methods for Reinforcement Document Transformer for Multimodal Conversations and Devices Thereof
CN111768869B (zh) 面向智能问答系统的医学指南图谱化构建搜索系统及方法
WO2021034941A1 (en) A method for multi-modal retrieval and clustering using deep cca and active pairwise queries
CN113569023A (zh) 一种基于知识图谱的中文医药问答系统及方法
US20220114346A1 (en) Multi case-based reasoning by syntactic-semantic alignment and discourse analysis
Singh et al. From chest x-rays to radiology reports: a multimodal machine learning approach
US20220318311A1 (en) Retrieval-based dialogue system with relevant responses
CN111651579B (zh) 信息查询方法、装置、计算机设备和存储介质
CN113221882A (zh) 一种面向课程领域的图像文本聚合方法及系统
Crocker Rational models of comprehension: Addressing the performance paradox
Wang thesis
CN113779179A (zh) 一种基于深度学习和知识图谱的icd智能编码的方法
CN114647713A (zh) 基于虚拟对抗的知识图谱问答方法、设备及存储介质
CN113157887A (zh) 知识问答意图识别方法、装置、及计算机设备
CN115186112B (zh) 一种基于辨证映射规则的医药数据检索方法及装置
CN116719840A (zh) 一种基于病历后结构化处理的医疗信息推送方法
CN118069817A (zh) 基于知识图谱的生成式问答方法、设备和存储介质
CN117009456A (zh) 医疗查询文本的处理方法、装置、设备、介质和电子产品
CN114068028A (zh) 医疗问诊数据处理方法及装置、可读存储介质及电子设备
CN114300127A (zh) 问诊处理方法、装置、设备及存储介质
CN113314236A (zh) 一种面向高血压的智能问答系统
CN118070925B (zh) 模型训练方法、装置、电子设备、存储介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination