CN117009492B - 基于本地知识库与自然语言大模型的图查询方法与系统 - Google Patents

基于本地知识库与自然语言大模型的图查询方法与系统 Download PDF

Info

Publication number
CN117009492B
CN117009492B CN202311269299.6A CN202311269299A CN117009492B CN 117009492 B CN117009492 B CN 117009492B CN 202311269299 A CN202311269299 A CN 202311269299A CN 117009492 B CN117009492 B CN 117009492B
Authority
CN
China
Prior art keywords
graph database
natural language
graph
domain knowledge
database query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311269299.6A
Other languages
English (en)
Other versions
CN117009492A (zh
Inventor
胡汉一
付村
吴迪
那崇宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202311269299.6A priority Critical patent/CN117009492B/zh
Publication of CN117009492A publication Critical patent/CN117009492A/zh
Application granted granted Critical
Publication of CN117009492B publication Critical patent/CN117009492B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种基于本地知识库与自然语言大模型的图查询方法与系统,其中,基于本地知识库与自然语言大模型的图查询方法包括:结合图数据库中获取的图谱结构与本地知识库文档,生成多个领域知识问题与图数据库查询命令的组合;将用户输入的问题转化为对应的向量,并确定与所述用户输入问题对应的向量相匹配的K个领域知识问题与图数据库查询命令的组合;将所述用户输入的问题与所述K个领域知识问题与图数据库查询命令的组合填充到预设的上下文提示模版,得到填充后的问题,并将填充后的问题输入至所述预训练自然语言大模型,生成最终的图数据库查询命令;使用所述最终的图数据库查询命令查询图数据库得到查询结果,提高了图查询结果的准确性。

Description

基于本地知识库与自然语言大模型的图查询方法与系统
技术领域
本申请涉及计算机技术领域,特别是涉及一种基于本地知识库与自然语言大模型的图查询方法与系统。
背景技术
随着图数据库以及相关技术的不断发展与运用,图数据库填补了传统关系型数据无法高效查询多跳或间接关系的空白,在包括医疗、教育、安防、电商等不同领域带来了巨大的商业价值。同时,运用图数据库中的图计算算法能够对数据进行进一步分析与挖掘,指导业务分析与决策过程。然而,传统图数据库相关的应用要求操作用户对图结构数据需要具有基本的了解,才能进行高效的交互,增加了终端用户对图数据库相关的应用的使用门槛。
近来,自然语言大模型迎来了井喷式的发展,对比原有的自然语言模型,产生了更强的泛化与推理能力。大模型能大量的预训练语料知识,处理不同领域的多种不同任务,例如:翻译、信息抽取、阅读理解、代码生成。所以,运用自然语言大模型的生成代码的能力,用户以自然语言输入可以作为与图数据库新型的交互方式。但在垂直领域中,尤其是针对存在本地知识库且知识文档具有一定的保密要求的场景,没有利用本地知识库且没有构造有效的提示模版,导致自然语言大模型基于用户输入的自然语言问题获得的查询结果不准确,无法达到最优性能。
发明内容
基于此,有必要针对上述技术问题,提供一种基于本地知识库与自然语言大模型的图查询方法与系统。
第一方面,本申请实施例提供了一种基于本地知识库与自然语言大模型的图查询方法,所述方法包括:
将图数据库中获取的图谱结构信息以及本地知识库文档的自然语言描述填充到预设提示模版中,获得填充后的自然语言序列;将所述填充后的自然语言序列输入至预训练自然语言大模型,生成多个领域知识问题与图数据库查询命令的组合;
将所述组合中有效的领域知识问题输入至自然语言向量化模型,得到多个领域知识问题对应的向量;
将用户输入的问题输入至所述自然语言向量化模型,得到用户输入问题对应的向量,并通过向量匹配模型或向量数据库匹配算子将所述用户输入问题对应的向量与所述多个领域知识问题对应的向量进行匹配,确定与所述用户输入问题对应的向量相匹配的K个领域知识问题与图数据库查询命令的组合;
将所述用户输入的问题与所述K个领域知识问题与图数据库查询命令的组合填充到预设的上下文提示模版,得到填充后的问题,并将填充后的问题输入至所述预训练自然语言大模型,生成最终的图数据库查询命令;
使用所述最终的图数据库查询命令查询图数据库,得到查询结果。
在其中一个实施例中,所述图谱结构信息包括节点类型、边类型以及节点与边对应的所有属性。
在其中一个实施例中,所述预设提示模版包含所述图谱结构表示与所述本地知识库文档的语境信息以及匹配条件标识。
在其中一个实施例中,所述将所述组合中有效的领域知识问题输入至自然语言向量化模型,得到多个领域知识问题对应的向量包括:
将所述组合中的图数据库查询命令进行预处理,得到预处理后的图数据库查询命令;
使用图数据库校验所述预处理后的图数据库查询命令,确定所述组合中有效的图数据库查询命令;
基于所述有效的图数据库查询命令,确定所述组合中对应的有效的领域知识问题;
将所述组合中有效的领域知识问题输入至自然语言向量化模型,得到多个领域知识问题对应的向量。
在其中一个实施例中,所述组合中图数据库查询命令包含所述匹配条件标识;所述将所述组合中的图数据库查询命令进行预处理,得到预处理后的图数据库查询命令包括:
使用正则表达式提取各所述图数据库查询命令中所述匹配条件标识所对应的节点或边及其属性;
使用正则表达式提取所述节点或边对应的类型;
在图数据库中随机抽取符合所述节点类型或边类型及其属性的数据,用所述数据替换各所述图数据库查询命令中的所述匹配条件标识,得到预处理后的图数据库查询命令。
在其中一个实施例中,所述使用图数据库校验所述预处理后的图数据库查询命令,确定所述组合中有效的图数据库查询命令包括:
使用预处理后的图数据库查询命令调用图数据库,判断调用是否报错;
若是,则对应的图数据库查询命令无效;
若否,则对应的图数据库查询命令有效。
在其中一个实施例中,所述通过向量匹配模型或向量数据库匹配算子将所述用户输入问题对应的向量与所述多个领域知识问题对应的向量进行匹配,确定与所述用户输入问题对应的向量相匹配的K个领域知识问题与图数据库查询命令的组合包括:
采用向量匹配模型或向量数据库匹配算子,将所述用户输入问题对应的向量与所述多个领域知识问题对应的向量进行匹配,确定与所述用户输入问题对应的向量相匹配的K个领域知识问题对应的向量;
基于所述K个领域知识问题对应的向量,获得对应的K个领域知识问题与图数据库查询命令的组合。
第二方面,本申请实施例还提供了一种基于本地知识库与自然语言大模型的图查询系统,所述系统包括:
第一生成模块,用于将图数据库中获取的图谱结构信息以及本地知识库文档的自然语言描述填充到预设提示模版中,获得填充后的自然语言序列;将所述填充后的自然语言序列输入至预训练自然语言大模型,生成多个领域知识问题与图数据库查询命令的组合;
获得模块,用于将所述组合中有效的领域知识问题输入至自然语言向量化模型,得到多个领域知识问题对应的向量;
确定模块,用于将用户输入的问题输入至所述自然语言向量化模型,得到用户输入问题对应的向量,并通过向量匹配模型或向量数据库匹配算子将所述用户输入问题对应的向量与所述多个领域知识问题对应的向量进行匹配,确定与所述用户输入问题对应的向量相匹配的K个领域知识问题与图数据库查询命令的组合;
第二生成模块,用于将所述用户输入的问题与所述K个领域知识问题与图数据库查询命令的组合填充到预设的上下文提示模版,得到填充后的问题,并将填充后的问题输入至所述预训练自然语言大模型,生成最终的图数据库查询命令;
查询模块,用于使用所述最终的图数据库查询命令查询图数据库,得到查询结果。
第三方面,本申请实施例还提供了一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行如上述第一方面所述的方法。
第四方面,本申请实施例还提供了一种计算机可读存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被处理器执行时实现如上述第一方面所述的方法。
上述基于本地知识库与自然语言大模型的图查询方法与系统,通过将图数据库中获取的图谱结构信息以及本地知识库文档的自然语言描述填充到预设提示模版中,获得填充后的自然语言序列;将所述填充后的自然语言序列输入至预训练自然语言大模型,生成多个领域知识问题与图数据库查询命令的组合;
将所述组合中有效的领域知识问题输入至自然语言向量化模型,得到多个领域知识问题对应的向量;将用户输入的问题输入至所述自然语言向量化模型,得到用户输入问题对应的向量,并通过向量匹配模型或向量数据库匹配算子将所述用户输入问题对应的向量与所述多个领域知识问题对应的向量进行匹配,确定与所述用户输入问题对应的向量相匹配的K个领域知识问题与图数据库查询命令的组合;将所述用户输入的问题与所述K个领域知识问题与图数据库查询命令的组合填充到预设的上下文提示模版,得到填充后的问题,并将填充后的问题输入至所述预训练自然语言大模型,生成最终的图数据库查询命令;使用所述最终的图数据库查询命令查询图数据库,得到查询结果。解决了相关技术中使用自然语言大模型基于用户输入的自然语言问题获得的查询结果不准确的问题,提高了图查询结果的准确性。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是一个实施例中基于本地知识库与自然语言大模型的图查询方法的应用环境示意图;
图2是一个实施例中基于本地知识库与自然语言大模型的图查询方法的流程示意图;
图3是一个实施例中执行S202具体步骤的流程示意图;
图4是一个实施例中执行S301具体步骤的流程示意图;
图5是一个优选实施例中基于本地知识库与自然语言大模型的图查询方法的流程示意图;
图6是一个实施例中基于本地知识库与自然语言大模型的图查询系统的结构框图;
图7是一个实施例中计算机设备结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
在本实施例中提供的方法实施例可以在终端、计算机或者类似的运算装置中执行。比如在终端上运行,图1是本实施例的基于本地知识库与自然语言大模型的图查询方法的终端的硬件结构框图。如图1所示,终端可以包括一个或多个(图1中仅示出一个)处理器102和用于存储数据的存储器104,其中,处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置。上述终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述终端的结构造成限制。例如,终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示出的不同配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如在本实施例中的基于本地知识库与自然语言大模型的图查询方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输设备106用于经由一个网络接收或者发送数据。上述的网络包括终端的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(NetworkInterfaceController,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(RadioFrequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
本申请实施例提供了一种基于本地知识库与自然语言大模型的图查询方法,如图2所示,所述方法包括以下步骤:
步骤S201,将图数据库中获取的图谱结构信息以及本地知识库文档的自然语言描述填充到预设提示模版中,获得填充后的自然语言序列;将所述填充后的自然语言序列输入至预训练自然语言大模型,生成多个领域知识问题与图数据库查询命令的组合;
优选地,图数据库可采用Neo4j图数据库,生成Neo4j图数据库支持的OpenCypher查询语言,Neo4j图数据库支持图谱结构查询的API call.apoc.data(),生成图谱结构。Neo4j是一个高性能的图形数据库,它将结构化数据存储在图上而不是表中。示例性地,本申请可根据审计领域知识库与关系型数据库中的原始数据,在图数据库中构建审计领域的知识图谱G。
本实施例中预训练自然语言大模型包括但不限于目前业界常见的GPT-3、InstructionGPT、LLaMa、PaLM等。GPT(Generative Pre-trained Transformer,生成性预训练变换模型)系列是由一家美国人工智能研究实验室(OpenAI)提出的非常强大的预训练语言模型,GPT-3和InstructionGPT均是GPT系列模型其中的版本,还包括GPT-1、GPT-2、ChatGPT等;LLaMA(Large Language Model Meta AI)是Meta AI发布的包含7B、13B、33B和65B四种参数规模的基础语言模型集合;PaLM(Pathways Language Model)是谷歌2022年4月份发布的自然语言预训练大模型。
本实施例生成的多个领域知识问题与图数据库查询命令的组合用表示,其中Q表示领域知识问题,C表示图数据库查询命令,i表示组合序号,N表示组合的总数。
步骤S202,将所述组合中有效的领域知识问题输入至自然语言向量化模型,得到多个领域知识问题对应的向量;
基于步骤S201中生成的多个领域知识问题与图数据库查询命令的组合,获取其中有效的领域知识问题/>,将有效的领域知识问题/>输入至自然语言向量化模型,转化为对应的领域知识问题对应的向量。本实施例中自然语言向量化模型包括但不限于传统自然语言嵌入学习模型如Skip-Gram模型、CBOW模型(continuous bag of words,连续词袋模型)、GloVe模型(Global Vectors for Word Representation,全局的词向量表示)或步骤S201中的预训练自然语言大模型。
步骤S203,将用户输入的问题输入至所述自然语言向量化模型,得到用户输入问题对应的向量,并通过向量匹配模型或向量数据库匹配算子将所述用户输入问题对应的向量与所述多个领域知识问题对应的向量进行匹配,确定与所述用户输入问题对应的向量相匹配的K个领域知识问题与图数据库查询命令的组合;
步骤S204,将所述用户输入的问题与所述K个领域知识问题与图数据库查询命令的组合填充到预设的上下文提示模版,得到填充后的问题,并将填充后的问题输入至所述预训练自然语言大模型,生成最终的图数据库查询命令;
示例性地,预设的上下文提示模版Pdemo可定义为:“根据领域知识问题1:……,可生成图数据库查询命令1:……;根据领域知识问题2:……,可生成图数据库查询命令2:……;根据领域知识问题K:……,可生成图数据库查询命令K:……;用户输入的问题:……,生成图数据库查询命令”。
示例性地,用户输入的问题为找出法人{X}参股的其他所有的法人(其中{X}为具体的法人名称)。并通过向量匹配模型或向量数据库匹配算子确定与所述用户输入问题对应的向量匹配的K个领域知识问题与图数据库查询命令的组合,假设本实施例中的K为2。则填充后的问题为:“根据领域知识问题1:找出与人员{X}有直接关系的所有法人,可生成图数据库查询命令1:MATCH (p:`人`)-[/>1..2`]->(n:`法人) where p.name = {X}RETURN p, n;根据领域知识问题2:查询所有属于部门{X}的人员,可生成图数据库查询命令2:MATCH (b:`部门`)-[/>1..2`]->(n:`人`) where p.name = {X} RETURN p, n;用户输入的问题:找出法人{X}参股的其他所有的法人(其中{X}为具体的法人名称),生成图数据库查询命令”,将填充后的问题/>输入至所述预训练自然语言大模型,生成最终的图数据库查询命令。
步骤S205,使用所述最终的图数据库查询命令查询图数据库,得到查询结果。
本实施例结合图谱结构信息以及本地知识库文档,将有效的领域知识问题转化为对应的向量,并使用向量匹配模型或向量数据库匹配算子,确定与用户输入问题最匹配的K个领域知识问题与图数据库查询命令的组合,将用户输入问题与最匹配的K个领域知识问题与图数据库查询命令的组合作为上下文提示模版的输入,生成查询问题,提高了图查询结果的准确性。同时本实施例将用户输入问题转为计算机可理解的图查询语言查询图数据库,降低用户访问图数据库的使用门槛。
在其中一个实施例中,所述图谱结构信息包括节点类型、边类型以及节点与边对应的所有属性。
在其中一个实施例中,所述预设提示模版包含所述图谱结构表示与所述本地知识库文档的语境信息以及匹配条件标识。
本实施例中预设提示模版为带有语境信息但无图谱结构具体信息以及本地知识库文档具体内容的模板。示例性地,可将预设提示模版Pgen定义为“以下为Neo4j图数据库图谱结构表示,包含下列节点类型与属性:……,下列关系类型与属性:……,以及以下由起始节点到结束节点的关系:……和以下领域描述:……,生成N个领域知识问题与Neo4j图数据库查询命令,且匹配条件标识用{X}表示”。其中,N设置为具体的数值。
示例性地,填充后的自然语言序列可转换为“以下为Neo4j图数据库图谱结构表示,包含下列节点类型与属性:“节点类型:人,属性:姓名、电话、性别;节点类型:法人,属性:名称、电话、经营地。”下列关系类型与属性:“关系类型:任职,关系属性:任职开始时间、职务类型。以及以下由起始节点到结束节点的关系:关系:任职,起始节点:人,结束节点:法人;关系:参股,起始节点:法人,结束节点:法人。”和以下领域描述:“根据xxx号文件的xxx项规定,xxx不应在xxx情况下,违反xxx条例(在实际过程中,领域描述填充后为本地知识库文档中的具体内容)。”生成N个查询问题与Neo4j图查询命令,且匹配条件标识用{X}表示”。其中,N设置为具体的数值。
在其中一个实施例中,如图3所示,所述将所述组合中有效的领域知识问题输入至自然语言向量化模型,得到多个领域知识问题对应的向量包括:
步骤S301,将所述组合中的图数据库查询命令进行预处理,得到预处理后的图数据库查询命令;
具体的,对组合中的图数据库查询命令进行预处理,得到预处理后的图数据库查询命令/>
步骤S302,使用图数据库校验所述预处理后的图数据库查询命令,确定所述组合中有效的图数据库查询命令;
具体的,使用图数据库校验所述预处理后的图数据库查询命令,得到预处理后有效的图数据库查询命令/>,进而获得所述组合中有效的图数据库查询命令/>
步骤S303,基于所述有效的图数据库查询命令,确定所述组合中对应的有效的领域知识问题;
具体的,通过有效的图数据库查询命令,确定组合中对应的有效领域知识问题/>
步骤S304,将所述组合中有效的领域知识问题输入至自然语言向量化模型,得到多个领域知识问题对应的向量。
具体的,将有效的领域知识问题输入至自然语言向量化模型,得到有效领域知识问题对应的向量/>。并将有效领域知识问题对应的向量存入向量数据库中,常见的向量数据库包括但不限于Faiss(Facebook AISimilarity Search)、Annoy(Approximate Nearest Neighbors Oh Yeah)、Milvus、Pinecone、Zilliz。
本实施例利用图数据库检验M个图数据库查询命令的有效性,获得N个有效的图数据库查询命令,保证了图数据库查询命令的有效性,进一步保证了填充后用户问题的质量,提高图查询结果的准确性。
在其中一个实施例中,如图4所示,所述组合中图数据库查询命令包含所述匹配条件标识{X};所述将所述组合中的图数据库查询命令进行预处理,得到预处理后的图数据库查询命令包括:
步骤S401,使用正则表达式提取各所述图数据库查询命令中所述匹配条件标识所对应的节点或边及其属性;
步骤S402,使用正则表达式提取所述节点或边对应的类型;
步骤S403,在图数据库中随机抽取符合所述节点类型或边类型及其属性的数据,用所述数据替换各所述图数据库查询命令中的所述匹配条件标识,得到预处理后的图数据库查询命令。
示例性地,基于Neo4j图数据库生成的图数据库查询命令Ci为“Match (n:个人)– [:任职]–(m:公司) where n.name ={X} return n.name, m.name”,可根据其中的“n.name = {X}”采用正则表达式定位抽取匹配条件标识所对应的节点或边及其属性,其中,n表示对 应节点或边变量别名,name表示该变量别名对应的属性。再通过正则表达式提取图结构中 别名对应的节点类型或边类型。本实施例中别名对应的节点类型为人,对应的属性为人名。 在图数据库中随机抽取对应的节点类型与属性,如:“张三”,替换原查询命令中的匹配条件 标识{X},得到预处理后的图数据库查询命令为“Match (n:个人)–[:任职]–(m:公司) where n.name=‘张三’return n.name, m.name”。
在其中一个实施例中,所述使用图数据库校验所述预处理后的图数据库查询命令,确定所述组合中有效的图数据库查询命令包括:
使用预处理后的图数据库查询命令调用图数据库,判断调用是否报错;
若是,则对应的图数据库查询命令无效;
若否,则对应的图数据库查询命令有效。
在其中一个实施例中,所述通过向量匹配模型或向量数据库匹配算子将所述用户输入问题对应的向量与所述多个领域知识问题对应的向量进行匹配,确定与所述用户输入问题对应的向量相匹配的K个领域知识问题与图数据库查询命令的组合包括:
采用向量匹配模型或向量数据库匹配算子,将所述用户输入问题对应的向量与所述多个领域知识问题对应的向量进行匹配,确定与所述用户输入问题对应的向量相匹配的K个领域知识问题对应的向量/>
基于所述K个领域知识问题对应的向量,获得对应的K个领域知识问题与图数据库查询命令的组合/>
下面通过优选实施例对本实施例进行描述和说明。
图5是本实施例的基于本地知识库与自然语言大模型的图查询方法的优选流程图,如图5所示,该方法包括如下步骤:
步骤S51,用户输入问题Qinput
步骤S52,将用户输入的问题Qinput进行向量化,得到对应的向量Vinput
步骤S53,结合问题向量库中有效领域知识问题对应的向量,使用向量匹配模型或向量数据库匹配算子,确定与用户输入问题Qinput最匹配的TOP-K个领域知识问题与图数据库查询命令的组合/>
步骤S55,将用户输入问题Qinput与TOP-K个领域知识问题与图数据库查询命令的组合填充到预设的上下文提示模版中,得到填充后的问题
步骤S56,根据填充后的问题,生成最终的图查询命令Cfinal
步骤S57,根据最终的图查询命令Cfinal,获得图查询结果。
第二方面,本申请实施例还提供了一种基于本地知识库与自然语言大模型的图查询系统,如图6所示,所述系统包括:
第一生成模块610,用于将图数据库中获取的图谱结构信息以及本地知识库文档的自然语言描述填充到预设提示模版中,获得填充后的自然语言序列;将所述填充后的自然语言序列输入至预训练自然语言大模型,生成多个领域知识问题与图数据库查询命令的组合;
获得模块620,用于将所述组合中有效的领域知识问题输入至自然语言向量化模型,得到多个领域知识问题对应的向量;
确定模块630,用于将用户输入的问题输入至所述自然语言向量化模型,得到用户输入问题对应的向量,并通过向量匹配模型或向量数据库匹配算子将所述用户输入问题对应的向量与所述多个领域知识问题对应的向量进行匹配,确定与所述用户输入问题对应的向量相匹配的K个领域知识问题与图数据库查询命令的组合;
第二生成模块640,用于将所述用户输入的问题与所述K个领域知识问题与图数据库查询命令的组合填充到预设的上下文提示模版,得到填充后的问题,并将填充后的问题输入至所述预训练自然语言大模型,生成最终的图数据库查询命令;
查询模块650,用于使用所述最终的图数据库查询命令查询图数据库,得到查询结果。
在其中一个实施例中,所述图谱结构信息包括节点类型、边类型以及节点与边对应的所有属性。
在其中一个实施例中,所述预设提示模版包含所述图谱结构表示与所述本地知识库文档的语境信息以及匹配条件标识。
在其中一个实施例中,获得模块620还用于:
将所述组合中的图数据库查询命令进行预处理,得到预处理后的图数据库查询命令;
使用图数据库校验所述预处理后的图数据库查询命令,确定所述组合中有效的图数据库查询命令;
基于所述有效的图数据库查询命令,确定所述组合中对应的有效的领域知识问题;
将所述组合中有效的领域知识问题输入至自然语言向量化模型,得到多个领域知识问题对应的向量。
在其中一个实施例中,获得模块620还用于:
使用正则表达式提取各所述图数据库查询命令中所述匹配条件标识所对应的节点或边及其属性;
使用正则表达式提取所述节点或边对应的类型;
在图数据库中随机抽取符合所述节点类型或边类型及其属性的数据,用所述数据替换各所述图数据库查询命令中的所述匹配条件标识,得到预处理后的图数据库查询命令。
在其中一个实施例中,获得模块620还用于:
使用预处理后的图数据库查询命令调用图数据库,判断调用是否报错;
若是,则对应的图数据库查询命令无效;
若否,则对应的图数据库查询命令有效。
在其中一个实施例中,确定模块630还用于:
采用向量匹配模型或向量数据库匹配算子,将所述用户输入问题对应的向量与所述多个领域知识问题对应的向量进行匹配,确定与所述用户输入问题对应的向量相匹配的K个领域知识问题对应的向量;
基于所述K个领域知识问题对应的向量,获得对应的K个领域知识问题与图数据库查询命令的组合。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种基于本地知识库与自然语言大模型的图查询方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任一项基于本地知识库与自然语言大模型的图查询方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(RandomAccess Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于本地知识库与自然语言大模型的图查询方法,其特征在于,所述方法包括:
将图数据库中获取的图谱结构信息以及本地知识库文档的自然语言描述填充到预设提示模版中,获得填充后的自然语言序列;将所述填充后的自然语言序列输入至预训练自然语言大模型,生成多个领域知识问题与图数据库查询命令的组合;
将所述组合中有效的领域知识问题输入至自然语言向量化模型,得到多个领域知识问题对应的向量;
将用户输入的问题输入至所述自然语言向量化模型,得到用户输入问题对应的向量,并通过向量匹配模型或向量数据库匹配算子将所述用户输入问题对应的向量与所述多个领域知识问题对应的向量进行匹配,确定与所述用户输入问题对应的向量相匹配的K个领域知识问题与图数据库查询命令的组合;
将所述用户输入的问题与所述K个领域知识问题与图数据库查询命令的组合填充到预设的上下文提示模版,得到填充后的问题,并将填充后的问题输入至所述预训练自然语言大模型,生成最终的图数据库查询命令;
使用所述最终的图数据库查询命令查询图数据库,得到查询结果。
2.根据权利要求1所述的基于本地知识库与自然语言大模型的图查询方法,其特征在于,所述图谱结构信息包括节点类型、边类型以及节点与边对应的所有属性。
3.根据权利要求1所述的基于本地知识库与自然语言大模型的图查询方法,其特征在于,所述预设提示模版包含所述图谱结构表示与所述本地知识库文档的语境信息以及匹配条件标识。
4.根据权利要求3所述的基于本地知识库与自然语言大模型的图查询方法,其特征在于,所述将所述组合中有效的领域知识问题输入至自然语言向量化模型,得到多个领域知识问题对应的向量包括:
将所述组合中的图数据库查询命令进行预处理,得到预处理后的图数据库查询命令;
使用图数据库校验所述预处理后的图数据库查询命令,确定所述组合中有效的图数据库查询命令;
基于所述有效的图数据库查询命令,确定所述组合中对应的有效的领域知识问题;
将所述组合中有效的领域知识问题输入至自然语言向量化模型,得到多个领域知识问题对应的向量。
5.根据权利要求4所述的基于本地知识库与自然语言大模型的图查询方法,其特征在于,所述组合中图数据库查询命令包含所述匹配条件标识;所述将所述组合中的图数据库查询命令进行预处理,得到预处理后的图数据库查询命令包括:
使用正则表达式提取各所述图数据库查询命令中所述匹配条件标识所对应的节点或边及其属性;
使用正则表达式提取所述节点或边对应的类型;
在图数据库中随机抽取符合所述节点类型或边类型及其属性的数据,用所述数据替换各所述图数据库查询命令中的所述匹配条件标识,得到预处理后的图数据库查询命令。
6.根据权利要求5所述的基于本地知识库与自然语言大模型的图查询方法,其特征在于,所述使用图数据库校验所述预处理后的图数据库查询命令,确定所述组合中有效的图数据库查询命令包括:
使用预处理后的图数据库查询命令调用图数据库,判断调用是否报错;
若是,则对应的图数据库查询命令无效;
若否,则对应的图数据库查询命令有效。
7.根据权利要求1所述的基于本地知识库与自然语言大模型的图查询方法,其特征在于,所述通过向量匹配模型或向量数据库匹配算子将所述用户输入问题对应的向量与所述多个领域知识问题对应的向量进行匹配,确定与所述用户输入问题对应的向量相匹配的K个领域知识问题与图数据库查询命令的组合包括:
采用向量匹配模型或向量数据库匹配算子,将所述用户输入问题对应的向量与所述多个领域知识问题对应的向量进行匹配,确定与所述用户输入问题对应的向量相匹配的K个领域知识问题对应的向量;
基于所述K个领域知识问题对应的向量,获得对应的K个领域知识问题与图数据库查询命令的组合。
8.一种基于本地知识库与自然语言大模型的图查询系统,其特征在于,所述系统包括:
第一生成模块,用于将图数据库中获取的图谱结构信息以及本地知识库文档的自然语言描述填充到预设提示模版中,获得填充后的自然语言序列;将所述填充后的自然语言序列输入至预训练自然语言大模型,生成多个领域知识问题与图数据库查询命令的组合;
获得模块,用于将所述组合中有效的领域知识问题输入至自然语言向量化模型,得到多个领域知识问题对应的向量;
确定模块,用于将用户输入的问题输入至所述自然语言向量化模型,得到用户输入问题对应的向量,并通过向量匹配模型或向量数据库匹配算子将所述用户输入问题对应的向量与所述多个领域知识问题对应的向量进行匹配,确定与所述用户输入问题对应的向量相匹配的K个领域知识问题与图数据库查询命令的组合;
第二生成模块,用于将所述用户输入的问题与所述K个领域知识问题与图数据库查询命令的组合填充到预设的上下文提示模版,得到填充后的问题,并将填充后的问题输入至所述预训练自然语言大模型,生成最终的图数据库查询命令;
查询模块,用于使用所述最终的图数据库查询命令查询图数据库,得到查询结果。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至权利要求7中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至权利要求7中任一项所述的方法。
CN202311269299.6A 2023-09-28 2023-09-28 基于本地知识库与自然语言大模型的图查询方法与系统 Active CN117009492B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311269299.6A CN117009492B (zh) 2023-09-28 2023-09-28 基于本地知识库与自然语言大模型的图查询方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311269299.6A CN117009492B (zh) 2023-09-28 2023-09-28 基于本地知识库与自然语言大模型的图查询方法与系统

Publications (2)

Publication Number Publication Date
CN117009492A CN117009492A (zh) 2023-11-07
CN117009492B true CN117009492B (zh) 2024-01-09

Family

ID=88562165

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311269299.6A Active CN117009492B (zh) 2023-09-28 2023-09-28 基于本地知识库与自然语言大模型的图查询方法与系统

Country Status (1)

Country Link
CN (1) CN117009492B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113312461A (zh) * 2021-05-25 2021-08-27 深圳平安综合金融服务有限公司 基于自然语言处理的智能问答方法、装置、设备及介质
CN113342842A (zh) * 2021-06-10 2021-09-03 南方电网数字电网研究院有限公司 基于计量知识的语义查询方法、装置和计算机设备
CN113806513A (zh) * 2021-09-30 2021-12-17 中国人民解放军国防科技大学 一种基于军事领域知识图谱的问答系统构建方法及系统
CN114091474A (zh) * 2021-10-22 2022-02-25 青岛海尔科技有限公司 智能家电的问答系统构建方法和装置,及问答方法和装置
CN116340584A (zh) * 2023-05-24 2023-06-27 杭州悦数科技有限公司 一种自动生成复杂图数据库查询语句服务的实现方法
CN116414872A (zh) * 2023-04-11 2023-07-11 浙商证券股份有限公司 基于自然语言识别及知识图谱的数据搜索方法和系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10127274B2 (en) * 2016-02-08 2018-11-13 Taiger Spain Sl System and method for querying questions and answers
US10872083B2 (en) * 2018-10-31 2020-12-22 Microsoft Technology Licensing, Llc Constructing structured database query language statements from natural language questions
US20220414228A1 (en) * 2021-06-23 2022-12-29 The Mitre Corporation Methods and systems for natural language processing of graph database queries
US20230009946A1 (en) * 2021-07-12 2023-01-12 International Business Machines Corporation Generative relation linking for question answering

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113312461A (zh) * 2021-05-25 2021-08-27 深圳平安综合金融服务有限公司 基于自然语言处理的智能问答方法、装置、设备及介质
CN113342842A (zh) * 2021-06-10 2021-09-03 南方电网数字电网研究院有限公司 基于计量知识的语义查询方法、装置和计算机设备
CN113806513A (zh) * 2021-09-30 2021-12-17 中国人民解放军国防科技大学 一种基于军事领域知识图谱的问答系统构建方法及系统
CN114091474A (zh) * 2021-10-22 2022-02-25 青岛海尔科技有限公司 智能家电的问答系统构建方法和装置,及问答方法和装置
CN116414872A (zh) * 2023-04-11 2023-07-11 浙商证券股份有限公司 基于自然语言识别及知识图谱的数据搜索方法和系统
CN116340584A (zh) * 2023-05-24 2023-06-27 杭州悦数科技有限公司 一种自动生成复杂图数据库查询语句服务的实现方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
基于深度学习与图数据库构建中文商业知识图谱的探索研究;王仁武;袁毅;袁旭萍;;图书与情报(第01期);全文 *
基于知识图谱构建5G协议知识库;徐健;;移动通信(第08期);全文 *
基于知识图谱的信息查询系统设计与实现;杨荣;翟社平;王志文;;计算机与数字工程(第04期);全文 *
基于知识库的IFC模型存储技术研究;张越美;高歌;彭程;刘寒;顾明;;土木建筑工程信息技术(第01期);全文 *

Also Published As

Publication number Publication date
CN117009492A (zh) 2023-11-07

Similar Documents

Publication Publication Date Title
US11227118B2 (en) Methods, devices, and systems for constructing intelligent knowledge base
CN111553162A (zh) 一种意图识别的方法以及相关装置
CN112287069B (zh) 基于语音语义的信息检索方法、装置及计算机设备
US11687734B2 (en) Systems and methods to extract the context of scientific measurements using targeted question answering
CN113127632B (zh) 基于异质图的文本摘要方法及装置、存储介质和终端
CN115455169B (zh) 一种基于词汇知识和语义依存的知识图谱问答方法和系统
CN111339784B (zh) 一种新话题的自动挖掘方法和系统
US11373043B2 (en) Technique for generating and utilizing virtual fingerprint representing text data
CN113342944B (zh) 一种语料泛化方法、装置、设备及存储介质
Santacruz et al. Learning the sub-optimal graph edit distance edit costs based on an embedded model
CN113761151A (zh) 同义词挖掘、问答方法、装置、计算机设备和存储介质
CN117009492B (zh) 基于本地知识库与自然语言大模型的图查询方法与系统
CN110704613B (zh) 词汇数据库构建及查询方法、数据库系统、设备及介质
CN116956954A (zh) 文本翻译方法、装置、电子设备及存储介质
CN111639260B (zh) 内容推荐方法及其装置、存储介质
CN112836057B (zh) 知识图谱的生成方法、装置、终端以及存储介质
CN113505595A (zh) 文本短语抽取方法、装置、计算机设备及存储介质
CN117556033B (zh) 确定问答系统的嵌入模型参数的方法、装置及计算设备
CN115455306B (zh) 推送模型训练、信息推送方法、装置和存储介质
CN117009532B (zh) 语义类型识别方法、装置、计算机可读介质及电子设备
CN112732913B (zh) 一种非均衡样本的分类方法、装置、设备及存储介质
CN117390170B (zh) 数据标准的对标方法、装置、电子设备和可读存储介质
CN117931858A (zh) 数据查询方法、装置、计算机设备和存储介质
CN117558442A (zh) 医疗分析模型的训练方法、装置、电子设备和存储介质
CN114461810A (zh) 关系三元组生成方法、装置、电子装置和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant