CN117555897A - 基于大模型的数据查询方法、装置、设备和存储介质 - Google Patents

基于大模型的数据查询方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN117555897A
CN117555897A CN202311305398.5A CN202311305398A CN117555897A CN 117555897 A CN117555897 A CN 117555897A CN 202311305398 A CN202311305398 A CN 202311305398A CN 117555897 A CN117555897 A CN 117555897A
Authority
CN
China
Prior art keywords
query
attribute
information
llm
data table
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311305398.5A
Other languages
English (en)
Inventor
龚建
孙珂
潘旭
罗程亮
孙倩
李务杨
李冰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202311305398.5A priority Critical patent/CN117555897A/zh
Publication of CN117555897A publication Critical patent/CN117555897A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种基于大模型的数据查询方法、装置、设备和存储介质,涉及人工智能技术领域,具体涉及智能办公、云计算、生成式对话系统、大模型等技术领域。基于大模型的数据查询方法包括:基于查询问题在候选数据表中确定目标数据表,所述目标数据表内包含候选属性;基于所述查询问题在所述候选属性确定目标属性;基于所述查询问题、所述目标数据表的表信息、所述目标属性的属性信息,生成LLM的查询指令提示信息,并采用所述LLM基于所述查询指令提示信息生成查询指令;基于所述查询指令,在所述目标数据表中进行查询,以获得所述查询问题对应的查询答案。本公开可以提升数据查询效率和准确度。

Description

基于大模型的数据查询方法、装置、设备和存储介质
技术领域
本公开涉及人工智能技术领域,具体涉及智能办公、云计算、生成式对话系统、大模型等技术领域,尤其涉及一种基于大模型的数据查询方法、装置、设备和存储介质。
背景技术
目前企业的情报信息需要用户根据企业的日常数据统计产生,通过人为整理相关数据,对相关数据进行统计来整理企业经营数据、企业成本数据、企业客户数据等。
发明内容
本公开提供了一种基于大模型的数据查询方法、装置、设备和介质。
根据本公开的一方面,提供了一种基于大模型的数据查询方法,包括:基于查询问题在候选数据表中确定目标数据表,所述目标数据表内包含候选属性;基于所述查询问题在所述候选属性确定目标属性;基于所述查询问题、所述目标数据表的表信息、所述目标属性的属性信息,生成LLM的查询指令提示信息,并采用所述LLM基于所述查询指令提示信息生成查询指令;基于所述查询指令,在所述目标数据表中进行查询,以获得所述查询问题对应的查询答案。
根据本公开的另一方面,提供了一种基于大模型的数据查询装置,包括:第一确定模块,用于根据查询问题在候选数据表中确定目标数据表,所述目标数据表内包含候选属性;第二确定模块,用于根据所述查询问题在所述候选属性确定目标属性;生成模块,用于根据所述查询问题、所述目标数据表的表信息、所述目标属性的属性信息,生成LLM的查询指令提示信息,并采用所述LLM基于所述查询指令提示信息生成查询指令;获取模块,用于根据所述查询指令,在所述目标数据表中进行查询,以获得所述查询问题对应的查询答案。
根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述任一方面的任一项所述的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据上述任一方面的任一项所述的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据上述任一方面的任一项所述的方法。
根据本公开的技术方案,可以提升数据查询效率和准确度。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开第一实施例的示意图;
图2是用来实现本公开实施例的应用场景的示意图;
图3是根据本公开第二实施例的示意图;
图4是根据本公开实施例提供的建表模块的处理流程的示意图;
图5是根据本公开实施例提供的建表模块的交互界面的示意图;
图6是根据本公开实施例提供的选表模块和澄清模块的处理流程的示意图;
图7是根据本公开实施例提供的问表模块和澄清模块的处理流程的示意图;
图8是根据本公开实施例提供的展示界面的示意图;
图9是根据本公开第三实施例的示意图;
图10是用来实现本公开实施例的基于大模型的数据查询方法的电子设备的示意图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
相关技术中,由于企业的相关数据是人工统计的,在准确度和效率等方面都存在问题。
为了提高数据查询效率和准确度,本公开提供如下实施例。
图1是根据本公开第一实施例的示意图,本实施例提供一种基于大模型的数据查询方法,该方法包括:
101、基于查询问题在候选数据表中确定目标数据表,所述目标数据表内包含候选属性。
102、基于所述查询问题在所述候选属性确定目标属性。
103、基于所述查询问题、所述目标数据表的表信息、所述目标属性的属性信息,生成LLM的查询指令提示信息,并采用所述LLM基于所述查询指令提示信息生成查询指令。
104、基于所述查询指令,在所述目标数据表中进行查询,以获得所述查询问题对应的查询答案。
其中,查询问题(query)可以是用户输入的,具体地,用户可以以自然语言输入查询问题。
候选数据表是预先生成的数据表,可以为一个或多个,通常为多个。用户可以在数据库的已有数据表中进行选择后确定候选数据表,或者,也可以通过表格工具建立候选数据表。
目标数据表,是候选数据表中与查询问题对应的数据表,可以为一个或多个,通常为一个。
数据表内包括一个或多个属性,通常为多个。不同的属性具有不同的属性信息,属性信息具体可以是属性名。在数据表中,通常每列对应一个属性,相应地,不同的列具有不同的列名,如“交通噪声”、“装修噪声”等。目标数据表中包括的所有属性可以称为候选属性。
目标属性,是目标数据表内的候选属性中与查询问题对应的属性,可以为一个或多个,通常为一个。
每个数据表具有对应的表信息,表信息具体可以是表名,表名可以是表明数据表内容的概要(schema)信息,在建表时可以为每个数据表配置表名。
查询指令,是指用于查询数据表的指令。针对数据库中的数据表查询,查询指令具体可以是结构化查询语言(Structured Query Language,SQL)指令。SQL是一种数据库查询和程序设计语言,用于存取数据以及查询、更新和管理关系数据库系统。
查询指令可以根据查询问题、目标数据表的表信息和目标属性的属性信息生成。在生成查询指令后,可以基于查询指令对目标数据表进行查询,以获得查询问题对应的查询答案。
其中,查询指令是基于大模型(Large Language Model,LLM)生成的。LLM的输入包括提示信息(prompt),LLM基于该提示信息生成对应的输出信息。
针对查询指令,提示信息可以称为查询指令提示信息,LLM基于该提示信息生成查询指令。查询指令提示信息是基于查询问题、目标数据表的表信息、目标属性的属性信息生成的;另外,查询指令提示信息中还可以包含指示信息,该指示信息用于指示LLM生成查询指令,从而LLM可以基于上述的查询指令提示信息生成查询指令。
本实施例中,基于查询问题确定目标数据表及目标属性,并根据查询问题、目标数据表的表信息和目标属性的属性信息生成查询指令,基于查询指令获得查询答案,可以实现数据的自动化查询,相对于人工统计数据的方式,可以提高效率和准确度。另外,通过生成LLM的查询指令提示信息,可以采用LLM生成查询指令,不需要人工构建查询指令,进一步提高效率和准确度。
为了更好地理解本公开实施例,下面对本公开实施例的应用场景进行说明。
如图2所示,用户可以与数据查询系统进行交互,数据查询系统包括:建表模块201、选表模块202、问表模块203和澄清模块204。本公开实施例中,数据查询系统可以称为生成式商业洞察(Generating Business Insights,GBI)助手。
建表模块201,主要基于用户的操作指令,生成候选数据表。
其中,候选数据表可以是用户在数据库中选择的已有数据表(选择表),或者,也可以是用户采用表格工具(如Excel)建立的数据表(自建表)。
选表模块202,主要基于用户的查询问题,在候选数据表中确定目标数据表。
其中,选表模块接收到查询问题(query)后,可以对query进行分词处理,将得到的分词与候选数据表的表名(schema)进行语义匹配,得到匹配结果(表召回)。匹配结果可以包括0个、1个或多个表名,以目标数据表是一个为例,若匹配结果是1个表名,则将该1个表名对应的候选数据表作为目标数据表(目标表);若大于1个,则进入表澄清过程;若为0个,则可以播放或显示预设内容,该预设内容指示用户重新输入查询问题。
问表模块203,主要基于用户的查询问题在目标数据表内的候选属性中确定目标属性,以及,根据查询问题、目标数据表的表信息和目标属性信息生成提示信息(prompt),并根据提示信息生成查询指令,并根据查询指令在目标数据表中获得查询问题对应的查询答案。
其中,问表模块接收到查询问题(query)后,可以对query进行分词处理,以属性信息是列名为例,将得到的分词与候选属性的列名进行语义匹配,得到匹配结果(列召回)。匹配结果可以包括0个、1个或多个列名,以目标属性是一个为例,若匹配结果是1个列名,则将该1个列名对应的候选属性作为目标属性(目标列);若不是1个,则进入列澄清过程。
查询指令可以是SQL指令,执行SQL执行后获得查询答案,查询答案可以通过文字描述和/或可视化方式进行展示,可视化方式例如为图表形式,如表格、折线图、柱状图等。
澄清模块204,主要进行澄清处理。该澄清处理包括表澄清处理和/或列澄清处理。
澄清模块可以通过调用大模型(Large Language Model,LLM)进行澄清处理。
LLM是近年来人工智能领域的热点问题,LLM是一种预训练语言模型,通过在海量文本数据上进行预训练,学习到了丰富的语言知识和世界知识,从而能够在各种自然语言处理(Natural Language Processing,NLP)、图像生成等任务上取得惊人的效果。文心一言、ChatGPT等都是基于LLM开发的应用,它们可以生成流畅、有逻辑、有创意的文本内容,甚至可以与人类进行自然对话。具体地,大模型可以是基于Transformer的通用预训练(Generative Pre-trained Transformer,GPT)模型,基于知识集成实现增强型表示(Enhanced Representation through Knowledge Integration,ERNIE)模型等。
结合上述的应用场景,本公开还提供一种基于大模型的数据查询方法。
图3是根据本公开第二实施例的示意图,本实施例提供一种基于大模型的数据查询方法,结合图2所示的架构图,该方法包括:
301、建立候选数据表。
其中,如图2所示,可以采用建表模块建立候选数据表。
候选数据表可以是用户选择的已有数据表,或者用户通过表格工具建立的数据表。另外,在选择已有数据表时,可以选择一个或多个。
具体地,参见图4,数据库可以提供多个数据表,用户可以在该数据表中选择一个和多个作为候选数据表,另外,用户还可以通过表格工具,如Excel建立候选数据表。在选择数据表时,可以选择独立的一个数据表(如第一数据表)作为候选数据表,或者,还可以将多个数据表(如第二数据表+第三数据表)合并为一个候选数据表。
针对在数据库中选择数据表,如图5所示,在建表模块提供的交互界面500上,可以包括“数据源接入”按钮,用户点击该按钮后,可以显示输入界面,该输入界面中可以包括数据库地址,用户可以输入具体的数据库地址,以接入对应的数据库。另外,用户还可以通过搜索框搜索待接入的数据库,完成数据源的接入。
接入某个数据库后,可以展示该数据库内的数据表,如第一数据表、第二数据表等,用户可以选择一个或多个作为候选数据表,具体可以通过勾选或拖入建表池的方式进行选择。进一步地,针对某个数据表,还可以在数据选择区域内,选择该数据表的全部或部分内容作为最终的候选数据表的数据内容。
302、对所述查询问题和所述候选数据表的表信息进行语义匹配,以获得第一匹配结果。
303、若所述第一匹配结果的数量大于第一预设数量,与用户进行对话交互,以确定所述目标数据表。
其中,参见图2,可以采用选表模块(或选表模块和澄清模块)在候选数据表中确定目标数据表。
具体地,如图6所示,选表模块接收到查询问题(query)后,对该查询问题进行分词处理,基于分词结果进行表召回。表召回时可以基于分词结果检索候选数据表的表名(schema),进行分词与表名的语义匹配,得到第一匹配结果。
第一匹配结果包括0个表(没有匹配的目标数据表)、多个表或者1个表。假设目标数据表的预设数量(第一预设数量)是1个,即需要最终确定一个目标数据表。此时,若第一匹配结果是1个表,则将该一个表作为目标数据表。若第一匹配结果是0个表,可以播放或显示预设的表不匹配模板话术,请求用户重新输入查询问题。
若第一匹配结果是多个表,执行表澄清流程,该流程中与用户进行对话交互,以确定最终一个的目标数据表。
本实施例中,针对第一匹配结果的数量大于第一预设数量的情况,通过与用户进行对话交互确定目标数据表,可以以自然语言处理的方式确定目标数据表,提高处理效果。
如图6所示,具体可以LLM与用户进行对话交互。其中,通过LLM向用户播放或显示LLM澄清话术,并接收用户的澄清信息,采用LLM进行澄清,表澄清流程可以包括多轮对话,直至确定最终的一个目标数据表。
具体地,选表模块确定第一匹配结果的数量大于第一预设数量时,如匹配的候选数据表的数量大于1个,则选表模块可以生成触发LLM执行表澄清流程的提示信息(prompt),该提示信息可以称为表澄清提示信息,之后,选表模块将该表澄清提示信息发送至LLM,LLM基于该表澄清提示信息与用户进行对话交互,得到目标数据表。表澄清提示信息可以具体包括:第一匹配结果的表信息(如,与query匹配的多个候选数据表的schema),还可以包括用于指示LLM进行表澄清流程的指示信息,该指示信息的具体内容可配置,从而LLM可以基于该表澄清提示信息执行表澄清流程。
本实施例中,采用LLM进行对话交互,可以利用LLM的优良性能,提高目标数据表的准确度。
304、对所述查询问题和所述候选属性的属性信息进行语义匹配,以获得第二匹配结果。
305、若所述第二匹配结果的数量大于第二预设数量,与用户进行对话交互,以确定所述目标属性。
其中,参见图2,可以采用问表模块(或问表模块和澄清模块)在候选属性中确定目标属性。
具体地,以属性是数据表的列为例,如图7所示,问表模块接收到查询问题(query)后,对该查询问题进行分词处理,基于分词结果进行列召回。列召回时可以基于分词结果检索候选属性的列名,进行分词与列名的语义匹配,得到第二匹配结果。
第二匹配结果具体可以包括召回的列名,该列名是目标数据表中的列名,与查询问题中的词可能相同或不同。例如,云服务(query中)->云服务产品(数据库中);噪音污染(query中)->噪声污染(数据库中)。针对列召回,召回结果是明确的列,或者不明确的列,具体地,若召回的列的数量为目标列的预设数量(第二预设数量),则召回结果是明确的列,否则为不明确的列。假设第二预设数量为1个,若召回结果是1个列名,将该列名对应的列作为目标列。若召回结果不是1个列名,则进行列澄清流程。
与表澄清类似,针对列澄清,若第二匹配结果的数量大于第二预设数量,与用户进行对话交互,以确定所述目标属性。
具体地,问表模块确定第二匹配结果的数量大于第二预设数量时,如匹配的候选属性的数量大于1个,则问表模块可以生成触发LLM执行属性澄清流程的提示信息(prompt),该提示信息可以称为属性澄清提示信息,之后,问表模块将该属性澄清提示信息发送至LLM,LLM基于该属性澄清提示信息与用户进行对话交互,得到目标属性。属性澄清提示信息可以具体包括:第二匹配结果的表信息(如,与query匹配的多个候选列的列名),还可以包括用于指示LLM进行属性澄清流程的指示信息,该指示信息的具体内容可配置,从而LLM可以基于该属性澄清提示信息执行属性澄清流程。
本实施例中,针对第二匹配结果的数量大于第二预设数量的情况,通过与用户进行对话交互确定目标数据表,可以以自然语言处理的方式确定目标属性,提高处理效果。
具体地,如图7所示,可以采用LLM进行进行对话交互。
本实施例中,采用LLM进行对话交互,可以利用LLM的优良性能,提高目标属性的准确度。
306、基于所述查询问题、所述目标数据表的表信息、所述目标属性的属性信息,生成提示信息。
307、采用LLM,对输入的所述提示信息进行处理,以生成查询指令。
其中,表信息可以具体是表名、属性信息可以具体是列名,可以基于查询问题(query)、目标数据表的表名、目标列的列名生成用于触发LLM生成查询指令的提示信息(prompt),该提示信息可以称为查询指令提示信息,并将查询指令提示信息输入到LLM中,LLM基于该查询指令提示信息生成查询指令,如SQL指令。
本实施例中,采用LLM基于提示信息生成查询指令,可以高效地生成精准的查询指令,从而提高数据查询的准确度和效率。
进一步地,生成查询指令提示信息(prompt)时,还可以获得目标数据表对应的预设的私域知识,如某个参数如何计算的;另外,还可以获得数据查询系统与用户的历史对话信息,之后,可以对查询问题(query)、目标数据表的表名、目标列的列名、私域知识和历史对话信息进行拼接后,得到查询指令提示信息(prompt)。另外,该查询指令提示信息中还可以包括用于指示LLM生成SQL指令的指示信息,该指示信息的具体内容可配置,从而LLM可以基于该查询指令提示信息生成SQL指令。
本实施例中,通过对上述信息进行拼接得到提示信息,可以使得提示信息包含更多维度的信息,进而提高查询指令的精准度,提高数据查询的精准度。
308、基于所述查询指令,在所述目标数据表中进行查询,以获得所述查询问题对应的查询答案。
例如,参见图7,获得SQL指令后,可以执行SQL指令,得到执行结果。LLM对执行结果进行处理后,得到查询答案,例如,执行结果是数据,LLM进行文生图处理,基于执行结果的数据生成图表形式的查询答案。
309、展示所述查询答案。
其中,如图8所示,查询答案可以包括文字部分801和图表部分802。
图表部分的展示形式可以包括:表格、折线图、柱状图等。具体的展示形式可以是用户输入的,或者,也可以是LLM对查询答案进行分析后确定的。
本实施例中,通过展示查询答案,可以提高直观性,提高展示效果。
本实施例中,基于用户输入或LLM确定展示形式,可以由用户指定展示形式,或者也可以由LLM确定合适的展示形式,提高灵活性。
另外,展示查询答案后,用户还可以与数据查询系统进行进一步的对话交互。
图9是根据本公开第三实施例的示意图,本实施例提供一种基于大模型的数据查询装置,该装置900包括:第一确定模块901、第二确定模块902、生成模块903和获取模块904。
第一确定模块901用于根据查询问题在候选数据表中确定目标数据表,所述目标数据表内包含候选属性;第二确定模块902用于根据所述查询问题在所述候选属性确定目标属性;生成模块903用于根据所述查询问题、所述目标数据表的表信息、所述目标属性的属性信息,生成LLM的查询指令提示信息,并采用所述LLM基于所述查询指令提示信息生成查询指令;获取模块904用于根据所述查询指令,在所述目标数据表中进行查询,以获得所述查询问题对应的查询答案。
本实施例中,基于查询问题确定目标数据表及目标属性,并根据查询问题、目标数据表的表信息和目标属性的属性信息生成查询指令,基于查询指令获得查询答案,可以实现数据的自动化查询,相对于人工统计数据的方式,可以提高效率和准确度。
一些实施例中,所述第一确定模块901进一步用于:对所述查询问题和所述候选数据表的表信息进行语义匹配,以获得第一匹配结果;若所述第一匹配结果的数量大于第一预设数量,与用户进行对话交互,以确定所述目标数据表。
本实施例中,针对第一匹配结果的数量大于第一预设数量的情况,通过与用户进行对话交互确定目标数据表,可以以自然语言处理的方式确定目标数据表,提高处理效果。
一些实施例中,所述第一确定模块901进一步用于:若所述第一匹配结果的数量大于第一预设数量,基于所述第一匹配结果生成所述LLM的表澄清提示信息,并采用所述LLM基于所述表澄清提示信息与用户进行对话交互,以确定所述目标数据表。
本实施例中,采用LLM进行对话交互,可以利用LLM的优良性能,提高目标数据表的准确度。
一些实施例中,所述第二确定模块902进一步用于:对所述查询问题和所述候选属性的属性信息进行语义匹配,以获得第二匹配结果;若所述第二匹配结果的数量大于第二预设数量,与用户进行对话交互,以确定所述目标属性。
本实施例中,针对第二匹配结果的数量大于第二预设数量的情况,通过与用户进行对话交互确定目标数据表,可以以自然语言处理的方式确定目标属性,提高处理效果。
一些实施例中,所述第二确定模块902进一步用于:若所述第二匹配结果的数量大于第二预设数量,基于所述第二匹配结果生成所述LLM的属性澄清提示信息,并采用所述LLM基于所述属性澄清提示信息与用户进行对话交互,以确定所述目标属性。
本实施例中,采用LLM进行对话交互,可以利用LLM的优良性能,提高目标属性的准确度。
一些实施例中,所述生成模块903进一步用于:基于所述查询问题、所述目标数据表的表信息、所述目标属性的属性信息,生成提示信息;
采用LLM,对输入的所述提示信息进行处理,以生成所述查询指令。
本实施例中,采用LLM基于提示信息生成查询指令,可以高效地生成精准的查询指令,从而提高数据查询的准确度和效率。
一些实施例中,所述生成模块903进一步用于:获取私域知识,以及历史对话信息;以及,对所述查询问题、所述表信息、所述属性信息、所述私域知识和所述历史对话信息进行拼接处理,以生成所述提示信息。
本实施例中,通过对上述信息进行拼接得到提示信息,可以使得提示信息包含更多维度的信息,进而提高查询指令的精准度,提高数据查询的精准度。
一些实施例中,该装置900还包括:展示模块,用于确定展示形式;以及,基于所述展示形式,展示所述查询答案。
本实施例中,通过展示查询答案,可以提高直观性,提高展示效果。
一些实施例中,所述展示模块进一步用于:接收用户输入的展示形式;或者,采用LLM对所述查询答案进行分析,以确定所述展示形式。
本实施例中,基于用户输入或LLM确定展示形式,可以由用户指定展示形式,或者也可以由LLM确定合适的展示形式,提高灵活性。
可以理解的是,本公开实施例中,不同实施例中的相同或相似内容可以相互参考。
可以理解的是,本公开实施例中的“第一”、“第二”等只是用于区分,不表示重要程度高低、时序先后等。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图10示出了可以用来实施本公开的实施例的示例电子设备1000的示意性框图。电子设备1000旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备1000还可以表示各种形式的移动装置,诸如,个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图10所示,电子设备1000包括计算单元1001,其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序,来执行各种适当的动作和处理。在RAM 1003中,还可存储电子设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。
电子设备1000中的多个部件连接至I/O接口1005,包括:输入单元1006,例如键盘、鼠标等;输出单元1007,例如各种类型的显示器、扬声器等;存储单元1008,例如磁盘、光盘等;以及通信单元1009,例如网卡、调制解调器、无线通信收发机等。通信单元1009允许电子设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理,例如基于大模型的数据查询方法。例如,在一些实施例中,基于大模型的数据查询方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1008。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到电子设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时,可以执行上文描述的基于大模型的数据查询方法的一个或多个步骤。备选地,在其他实施例中,计算单元1001可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行基于大模型的数据查询方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程负载均衡装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (19)

1.一种基于大模型的数据查询方法,包括:
基于查询问题在候选数据表中确定目标数据表,所述目标数据表内包含候选属性;
基于所述查询问题在所述候选属性确定目标属性;
基于所述查询问题、所述目标数据表的表信息、所述目标属性的属性信息,生成LLM的查询指令提示信息,并采用所述LLM基于所述查询指令提示信息生成查询指令;
基于所述查询指令,在所述目标数据表中进行查询,以获得所述查询问题对应的查询答案。
2.根据权利要求1所述的方法,其中,所述基于查询问题在候选数据表中确定目标数据表,包括:
对所述查询问题和所述候选数据表的表信息进行语义匹配,以获得第一匹配结果;
若所述第一匹配结果的数量大于第一预设数量,与用户进行对话交互,以确定所述目标数据表。
3.根据权利要求2所述的方法,其中,所述若所述第一匹配结果的数量大于第一预设数量,与用户进行对话交互,以获得所述目标数据表,包括:
若所述第一匹配结果的数量大于第一预设数量,基于所述第一匹配结果生成所述LLM的表澄清提示信息,并采用所述LLM基于所述表澄清提示信息与用户进行对话交互,以确定所述目标数据表。
4.根据权利要求1所述的方法,其中,所述基于所述查询问题在所述候选属性确定目标属性,包括:
对所述查询问题和所述候选属性的属性信息进行语义匹配,以获得第二匹配结果;
若所述第二匹配结果的数量大于第二预设数量,与用户进行对话交互,以确定所述目标属性。
5.根据权利要求4所述的方法,其中,所述若所述第二匹配结果的数量大于第二预设数量,与用户进行对话交互,以确定所述目标属性,包括:
若所述第二匹配结果的数量大于第二预设数量,基于所述第二匹配结果生成所述LLM的属性澄清提示信息,并采用所述LLM基于所述属性澄清提示信息与用户进行对话交互,以确定所述目标属性。
6.根据权利要求1所述的方法,其中,还包括:
获取私域知识,以及历史对话信息;
相应地,所述基于所述查询问题、所述目标数据表的表信息、所述目标属性的属性信息,生成LLM的查询指令提示信息,包括:
对所述查询问题、所述表信息、所述属性信息、所述私域知识和所述历史对话信息进行拼接处理,以生成所述查询指令提示信息。
7.根据权利要求1所述的方法,还包括:
确定展示形式;
基于所述展示形式,展示所述查询答案。
8.根据权利要求7所述的方法,其中,所述确定展示形式,包括:
接收用户输入的展示形式;或者,
采用LLM对所述查询答案进行分析,以确定所述展示形式。
9.一种基于大模型的数据查询装置,包括:
第一确定模块,用于根据查询问题在候选数据表中确定目标数据表,所述目标数据表内包含候选属性;
第二确定模块,用于根据所述查询问题在所述候选属性确定目标属性;
生成模块,用于根据所述查询问题、所述目标数据表的表信息、所述目标属性的属性信息,生成LLM的查询指令提示信息,并采用所述LLM基于所述查询指令提示信息生成查询指令;
获取模块,用于根据所述查询指令,在所述目标数据表中进行查询,以获得所述查询问题对应的查询答案。
10.根据权利要求9所述的装置,其中,所述第一确定模块进一步用于:
对所述查询问题和所述候选数据表的表信息进行语义匹配,以获得第一匹配结果;
若所述第一匹配结果的数量大于第一预设数量,与用户进行对话交互,以确定所述目标数据表。
11.根据权利要求10所述的装置,其中,所述第一确定模块进一步用于:
若所述第一匹配结果的数量大于第一预设数量,基于所述第一匹配结果生成所述LLM的表澄清提示信息,并采用所述LLM基于所述表澄清提示信息与用户进行对话交互,以确定所述目标数据表。
12.根据权利要求9所述的装置,其中,所述第二确定模块进一步用于:
对所述查询问题和所述候选属性的属性信息进行语义匹配,以获得第二匹配结果;
若所述第二匹配结果的数量大于第二预设数量,与用户进行对话交互,以确定所述目标属性。
13.根据权利要求12所述的装置,其中,所述第二确定模块进一步用于:
若所述第二匹配结果的数量大于第二预设数量,基于所述第二匹配结果生成所述LLM的属性澄清提示信息,并采用所述LLM基于所述属性澄清提示信息与用户进行对话交互,以确定所述目标属性。
14.根据权利要求9所述的装置,其中,所述生成模块进一步用于:
获取私域知识,以及历史对话信息;以及,
对所述查询问题、所述表信息、所述属性信息、所述私域知识和所述历史对话信息进行拼接处理,以生成所述提示信息。
15.根据权利要求9所述的装置,还包括:
展示模块,用于确定展示形式;以及,基于所述展示形式,展示所述查询答案。
16.根据权利要求15所述的装置,其中,所述展示模块进一步用于:
接收用户输入的展示形式;或者,
采用LLM对所述查询答案进行分析,以确定所述展示形式。
17.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。
18.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-8中任一项所述的方法。
19.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-8中任一项所述的方法。
CN202311305398.5A 2023-10-10 2023-10-10 基于大模型的数据查询方法、装置、设备和存储介质 Pending CN117555897A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311305398.5A CN117555897A (zh) 2023-10-10 2023-10-10 基于大模型的数据查询方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311305398.5A CN117555897A (zh) 2023-10-10 2023-10-10 基于大模型的数据查询方法、装置、设备和存储介质

Publications (1)

Publication Number Publication Date
CN117555897A true CN117555897A (zh) 2024-02-13

Family

ID=89819283

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311305398.5A Pending CN117555897A (zh) 2023-10-10 2023-10-10 基于大模型的数据查询方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN117555897A (zh)

Similar Documents

Publication Publication Date Title
CN111177231A (zh) 报表生成方法和报表生成装置
EP3575988A1 (en) Method and device for retelling text, server, and storage medium
US20190114711A1 (en) Financial analysis system and method for unstructured text data
CN116127020A (zh) 生成式大语言模型训练方法以及基于模型的搜索方法
EP4123474A1 (en) Method for acquiring structured question-answering model, question-answering method and corresponding apparatus
CN113836314B (zh) 知识图谱构建方法、装置、设备以及存储介质
CN115481227A (zh) 人机交互对话方法、装置以及设备
EP3992814A2 (en) Method and apparatus for generating user interest profile, electronic device and storage medium
CN117076719A (zh) 一种基于大语言模型的数据库联合查询方法、装置和设备
CN113609100A (zh) 数据存储方法、数据查询方法、装置及电子设备
CN117421398A (zh) 人机交互方法、装置、设备以及存储介质
CN116383340A (zh) 信息搜索方法、装置、电子设备和存储介质
CN116049370A (zh) 信息查询方法和信息生成模型的训练方法、装置
JP2023012541A (ja) テーブルに基づく質問応答方法、装置及び電子機器
CN117555897A (zh) 基于大模型的数据查询方法、装置、设备和存储介质
CN114860753A (zh) 一种sql语句生成方法、装置、设备、介质及产品
CN114328855A (zh) 文档查询方法、装置、电子设备和可读存储介质
CN114118937A (zh) 基于任务的信息推荐方法、装置、电子设备及存储介质
CN116383491B (zh) 信息推荐方法、装置、设备、存储介质和程序产品
US20220286416A1 (en) Method and apparatus for generating account intimacy
CN117453973A (zh) 信息推荐方法、装置、设备及介质
CN112445892B (zh) 确定品牌提及率的方法、装置、电子设备及存储介质
US20220405792A1 (en) Method and apparatus for processing commodity information, device and storage medium
CN114281981B (zh) 新闻简报的生成方法、装置和电子设备
CN117633194A (zh) 大模型提示数据处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination