CN117251455A

CN117251455A - 一种基于大模型的智能报表生成方法及其系统

Info

Publication number: CN117251455A
Application number: CN202311450562.1A
Authority: CN
Inventors: 董美; 周明明
Original assignee: CITIC Aibank Corp Ltd
Current assignee: CITIC Aibank Corp Ltd
Priority date: 2023-11-02
Filing date: 2023-11-02
Publication date: 2023-12-19

Abstract

本发明提供了一种基于大模型的智能报表生成方法及其系统，涉及计算机系统领域。其中通过用户请求Query预处理，得到标准化Query，针对标准化Query使用LLM进行实体识别，实体识别结果校验，大模型SQL生成，确定使大模型产生正确SQL的prompt，并将上述处理好的标准Query和拼接好的实体给到大模型，SQL校验，对大模型产生的SQL进行校验；本发明方法能够在没有大量标注语料且较小的开发成本下，降低用户在报表生成过程中的技术门槛，提高报表生成的效率，并改善用户对大数据资源的理解和利用。通过利用深度学习神经网络模型和自然语言处理技术，该发明旨在使数据报表生成更加智能和用户友好。

Description

一种基于大模型的智能报表生成方法及其系统

技术领域

本发明涉及计算机系统领域，具体而言，涉及一种基于大模型的智能报表生成方法及其系统。

背景技术

大语言模型(Large Language Models,LLM)是一种基于深度学习的人工智能模型，通常具有数十亿甚至数百亿个参数。这些模型被训练用于自然语言处理任务，如文本生成、机器翻译、问答系统等。它们的核心思想是通过大规模的文本数据集进行预训练，以学习语言的模式、语法和语义。最著名的大语言模型之一是GPT(生成式预训练模型)系列，其中包括GPT-3、GPT-4等。这些模型在不仅文本生成方面表现出色，能够生成自然流畅的文本，甚至能够进行对话和创造性的写作，在很多自然语言任务上也有突出表现。大语言模型已经在多个领域产生了广泛的应用，包括自动化文本生成、智能客服、内容创作、舆情分析等。它们还被用于改进搜索引擎、提高语音助手的表现，并在医疗、金融和教育领域中提供智能解决方案。尽管大语言模型的性能和应用前景令人印象深刻，但它们也面临着数据隐私、伦理和计算资源等方面的挑战，需要综合考虑这些因素来充分发挥它们的潜力。

自然语言到SQL语句(Natural Language to SQL,NL2SQL)是一种人工智能技术，语义解析领域的一个子任务，其本质是将用户的自然语言转化成计算机可以理解并可执行的语义表示。NLSQL旨在将自然语言查询转化为结构化查询语言(SQL)，以便查询关系型数据库。这项技术的主要目标是使非技术用户能够以自然语言的方式提出数据库查询，而无需了解复杂的SQL语法。NL2SQL的工作原理涉及自然语言处理(NLP)和数据库查询生成。首先，NLP模型将用户提出的自然语言查询进行分析和理解，识别关键信息，例如实体、属性、操作等。然后，系统将这些信息映射到数据库架构中的表格和字段，并生成等效的SQL查询语句。

大数据时代的到来带来了大量的数据积累和分散存储，这使得数据分析和报表生成变得尤为重要。传统的报表生成方法需要用户掌握SQL的写作，这对于没有技术基础的用户存在一定的门槛。而大模型的更新迭代，在人工智能和自然语言处理等领域取得了显著的突破，并且在各种任务中表现出色。我们可以使用这些具有数十亿甚至数百亿参数的深度学习神经网络模型，使用户不必了解表格的底层逻辑以及相关的技术方法，通过自然语言的问答模式获取想要的信息。

但是传统的NL2SQL，存在以下问题：

复杂查询难以处理：传统NL2SQL模型通常对简单查询表现良好，但在处理复杂查询时性能下降。复杂查询可能涉及子查询排序等，这增加了查询生成的复杂性。

数据缺失和未知实体：如果NL2SQL模型在数据库中找不到特定的实体或数据，或者缺乏相关的训练数据，就很难正确生成SQL查询。

上下文理解不足：传统模型可能难以正确理解自然语言查询中的上下文信息，如代词、修饰词等，导致生成的SQL查询不准确。

发明内容

针对上述背景技术中提出的需求，本发明实施例提供一种基于大模型的智能报表生成方法及其系统，旨在能够为企业提供更高效、更智能的数据报表，帮助业务人员更好地利用大数据资源，无需深入了解底层技术和数据结构，该方法能够在没有大量标注语料且较小的开发成本下，降低用户在报表生成过程中的技术门槛，提高报表生成的效率，并改善用户对大数据资源的理解和利用。

一种基于大模型的智能报表生成方法，具体步骤包括：

步骤一、用户请求Query预处理，根据业务场景对用户的输入内容进行标准化处理，得到标准化Query；

步骤二、针对标准化Query使用LLM进行实体识别；

步骤三、实体识别结果校验；

步骤四、大模型SQL生成，确定使大模型产生正确SQL的prompt，并将上述处理好的标准Query和拼接好的实体给到大模型；

步骤五、SQL校验,对大模型产生的SQL进行校验；

步骤六、数据展示，执行检验后的标准化SQL，并将数据回传，展示给用户。

进一步的：若数据库中存在非结构化的数据，条件语句中的部分字段的“＝”根据业务需求替换为“like”。

进一步的：所述Query预处理流程的步骤包括：分词、去除停用词、词干提取、词性标注、同义词替换、缩写和简称映射、防止模型误判的词汇处理以及标准化Query构建。

进一步的：所述针对标准化Query使用LLM进行实体识别，具体包括以下步骤：确定需要识别的实体类型、构建prompt、输入标准化Query、调整prompt、输出格式。

进一步的：一种基于大模型的智能报表生成系统，包括Query预处理模块、实体识别模块、实体识别结果校验模块、数据展示模块、大模型SQL生成模块以及SQL校验模块；

Query预处理模块，该模块用于根据业务场景对用户的输入内容进行标准化处理，得到标准化Query；

实体识别模块，该模块用于针对标准化Query使用LLM进行实体识别；

实体识别结果校验模块，该模块用于进行实体识别结果校验；

大模型SQL生成模块，该模块用于大模型SQL生成，确定使大模型产生正确SQL的prompt，并将上述处理好的标准Query和拼接好的实体给到大模型；

SQL校验模块，该模块用于对大模型产生的SQL进行校验；

数据展示模块，该模块用于数据展示，执行检验后的标准化SQL，并将数据回传，展示给用户。

进一步的：终端设备可以包括：处理器、存储介质和总线，存储介质存储有处理器可执行的机器可读指令，当终端设备运行时，处理器与存储介质之间通过总线通信，处理器执行机器可读指令，以执行时执行如前述实施例中所述的深度学习模型训练方法的步骤。

进一步的：一种存储介质，该存储有计算机程序，所述计算机程序被处理器运行时执行上述的方法的步骤。

进一步的：一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行上述所述的方法。

本发明的有益效果：本发明方法能够在没有大量标注语料且较小的开发成本下，降低用户在报表生成过程中的技术门槛，提高报表生成的效率，并改善用户对大数据资源的理解和利用。通过利用深度学习神经网络模型和自然语言处理技术，该发明旨在使数据报表生成更加智能和用户友好。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本发明方法的流程图。

图2示出了本发明系统的组成示意图。

图3示出了本发明终端设备的组成示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，应当理解，本发明中附图仅起到说明和描述的目的，并不用于限定本发明的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本发明中使用的流程图示出了根据本发明的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本发明内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，本发明所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明实施例中将会用到术语“包括”，用于指出其后所声明的特征的存在，但并不排除增加其它的特征。还应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。在本发明的描述中，还需要说明的是，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

下面结合说明书相关附图来对本案细致描述。

参阅图1，本发明一种基于大模型的智能报表生成方法，具体步骤包括：

步骤一、用户请求(Query)预处理，根据业务场景对用户的输入内容进行标准化处理，将口语化的词汇替换为标准化词汇，将业务领域中的常用简称映射为标准化术语，将容易引起模型误判的词汇替换或消除，得到标准化Query；

所述Query预处理流程的步骤包括：

分词：首先将用户的输入拆分成单个的词汇或词条，这是为了让模型可以逐个处理并理解每个词的含义。

去除停用词：停用词是指在自然语言文本中频繁出现但对文本贡献度较小的词语，如“的”、“了”、“在”等。这些词通常会被去除，以减少模型处理的无用信息。

词干提取：词干提取是将词汇的变形形式(如“跑步”、“跑得快”、“跑步机”)还原为基本形式(如“跑”)的过程。这样可以让模型更好地理解和比较不同的词汇。

词性标注：词性标注是对每个词赋予其语法属性(如名词、动词、形容词等)的过程，有助于模型理解词汇在句子中的角色。

同义词替换：将用户输入中的同义词或近义词替换为其标准化形式。例如，将“手机”替换为“移动电话”，将“电影院”替换为“电影放映厅”。

缩写和简称映射：将业务领域中的常用简称映射为标准化术语。

防止模型误判的词汇处理：对于一些容易引起模型误判的词汇，如否定词、时间词等，可以进行特殊处理。例如，将否定词前后的词汇提取出来，单独进行处理，以防止模型误解用户的意图。

标准化Query构建：经过上述步骤后，将处理后的词汇重新组合成一个标准化的查询(Query)。这个Query将更符合模型的预期输入格式，有助于模型提供更准确和有用的结果。

步骤二、针对标准化Query使用LLM进行实体识别。确定关键实体，需注意实体识别旨在帮助后续大模型的SQL生成。确定使大模型能够识别出关键实体的prompt，使识别更加准确，输出格式更加稳定，以便后续使用其结果；

针对标准化Query使用LLM进行实体识别，具体包括以下步骤：

确定需要识别的实体类型：在实体识别任务中，首先要明确需要识别的实体类型，例如人名、地名、组织机构名等。对于不同的实体类型，我们需要构建不同的prompt。

构建prompt：为了使LLM能够准确地识别出关键实体，我们需要构建一个合适的prompt。prompt的设计应该根据实体类型的不同而有所区别。例如，对于人名识别，我们可以使用“这个人是谁？”或者“这个人出生于什么时候？”等提示；对于地名识别，我们可以使用“这个地方在哪里？”或者“这个地方有哪些著名的景点？”等提示。

输入标准化Query：将待识别的Query输入到LLM中，并运行模型进行实体识别。

调整prompt：根据LLM的输出结果，我们可以不断调整和优化prompt，以提高实体识别的准确性和稳定性。例如，如果LLM在某些情况下无法正确识别出实体，我们可以尝试添加更多的上下文信息或者改变提示的措辞。

输出格式：为了方便后续使用结果，我们可以将LLM的输出格式化为标准化的格式。例如，对于每个识别出的实体，我们可以输出其在Query中的位置、类型以及置信度等信息。

步骤三、实体识别(NER)结果校验。由于大模型产生的结果并不稳定且可能存在幻觉的问题，为了使实体识别结果更加稳定可控，需要进行实体校验；

实体识别(NER)结果校验是通过对LLM等大模型产生的实体识别结果进行人工或自动的校验，以确保实体识别的准确性和稳定性。

具体来说，实体校验可以通过以下几种方式进行：

人工校验：通过专业人员对模型产生的实体识别结果进行逐一检查，发现并纠正错误或不合规的实体。人工校验的优点是可以提供高质量的校验结果，但受限于人工成本和时间。

自动校验：通过设计规则或算法，对模型产生的实体识别结果进行自动化检查。例如，可以通过比对原始文本和识别结果，检查是否存在拼写错误、格式错误等问题。自动校验的优点是高效快速，但需要设计合理的规则和算法。

混合校验：综合运用人工和自动校验方式，以提高实体识别的准确性和稳定性。例如，对于一些重要或复杂的实体识别结果，可以采取人工校验为主、自动校验为辅的方式；对于一些常规或简单的实体识别结果，可以采取自动校验为主、人工校验为辅的方式。

步骤四、大模型SQL生成。确定使大模型产生正确SQL的prompt，并将上述处理好的标准Query和拼接好的实体给到大模型。这里的prompt需要向大模型传递表结构对SQL语句的要求。

大模型SQL生成是指使用LLM等大模型根据给定的输入Query，自动生成相应的SQL语句，以从数据库中获取所需信息。为了使大模型能够产生正确的SQL语句，需要设计合适的prompt，并将经过实体识别处理的标准Query和拼接好的实体输入到大模型中。

常见的步骤包括：

设计prompt：在LLM中，prompt的设计至关重要。为了使大模型能够理解并生成正确的SQL语句，我们需要根据具体的表结构对SQL语句的要求，设计相应的prompt。例如，对于一个包含“姓名”和“年龄”两个字段的表，我们可以构建以下prompt：“根据姓名和年龄查询数据”。

输入标准Query和实体：将经过实体识别处理的标准Query和拼接好的实体输入到大模型中。在这个过程中，我们需要将Query中的实体替换为相应的识别结果，以便大模型能够理解并生成正确的SQL语句。

生成SQL语句：通过运行LLM等大模型，根据输入的prompt和Query，自动生成相应的SQL语句。在这个过程中，大模型会根据表结构的要求，自动生成符合语法和语义的SQL语句。

校验和调整：对于生成的SQL语句，需要进行人工或自动的校验，以确保其正确性和合规性。如果发现错误或不合规的SQL语句，可以调整prompt或重新进行实体识别处理，并重新输入到大模型中。

使用SQL语句执行查询：一旦生成正确的SQL语句，可以将其输入到数据库中执行查询操作，以获取所需的数据。

步骤五、SQL校验。对大模型产生的SQL进行校验，若数据库中存在非结构化的数据，条件语句中的部分字段的“＝”根据业务需求替换为“like”；针对大模型区分不好的字段，需要通过规则等手段进行监督或纠正；针对大模型可能产生的幻觉，对产生的SQL进行关键词的检查，以保障数据库的安全，限制大模型产生的SQL的权限；对SQL语句涉及的字段进行检查，最后得到检验后的标准化SQL。

SQL校验是对LLM等大模型自动生成的SQL语句进行人工或自动的检查和修正，以确保其正确性、合规性和安全性。以下是常见的步骤：

人工检查：人工检查是一种可靠的方式，对大模型生成的SQL进行逐一检查，确保其语法正确、语义清晰，并且符合业务需求。如果发现错误或存在疑问，可以及时进行调整和修正。

规则检查：针对数据库中可能存在的非结构化数据，可以通过规则检查的方式，对SQL语句中的条件字段进行检查。如果发现某些字段使用了“＝”，但实际上应该使用“like”，可以根据业务需求进行修正。

监督或纠正：针对大模型区分不好的字段，可以通过规则、样例等方式进行监督或纠正。例如，可以制定一些规则，要求大模型在生成SQL时，对于某些特定字段使用特定的操作符或语法。

关键词检查：为了保障数据库的安全，需要对大模型生成的SQL进行关键词的检查。如果发现SQL中包含某些敏感关键词，例如“delete”、“update”等，需要根据业务需求进行相应的处理，以限制大模型产生的SQL的权限。

字段检查：对SQL语句涉及的字段进行检查，确保其与数据库表结构一致，并且符合业务需求。如果发现错误或不一致的情况，需要及时进行调整和修正。

标准化SQL：经过上述步骤后，可以得到检验后的标准化SQL。标准化SQL应该满足语法正确、语义清晰、符合业务需求、安全可靠等要求。

步骤六、数据展示。执行检验后的标准化SQL，并将数据回传，展示给用户。

如图2所示，本发明所述的系统，包括Query预处理模块、实体识别模块、实体识别结果校验模块、数据展示模块、大模型SQL生成模块以及SQL校验模块；

SQL校验模块，该模块用于对大模型产生的SQL进行校验；

如图3所示，该终端设备6可以包括：处理器601、存储介质602和总线603，存储介质602存储有处理器601可执行的机器可读指令，当终端设备运行时，处理器601与存储介质602之间通过总线603通信，处理器601执行机器可读指令，以执行时执行如前述实施例中所述的深度学习模型训练方法的步骤。具体实现方式和技术效果类似，在此不再赘述。

为了便于说明，在上述终端设备中仅描述了一个处理器。然而，应当注意，一些实施例中，本发明中的终端设备还可以包括多个处理器，因此本发明中描述的一个处理器执行的步骤也可以由多个处理器联合执行或单独执行。

以上仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于大模型的智能报表生成方法，其特征在于，具体步骤包括：

步骤二、针对标准化Query使用LLM进行实体识别；

步骤三、实体识别结果校验；

步骤五、SQL校验,对大模型产生的SQL进行校验；

2.根据权利要求1所述的方法，其特征在于，将口语化的词汇替换为标准化词汇，将业务领域中的常用简称映射为标准化术语，将容易引起模型误判的词汇替换或消除。

3.根据权利要求1所述的方法，其特征在于，若数据库中存在非结构化的数据，条件语句中的部分字段的“＝”根据业务需求替换为“like”。

4.根据权利要求1所述的方法，其特征在于，所述Query预处理流程的步骤包括：分词、去除停用词、词干提取、词性标注、同义词替换、缩写和简称映射、防止模型误判的词汇处理以及标准化Query构建。

5.根据权利要求1所述的方法，其特征在于，所述针对标准化Query使用LLM进行实体识别，具体包括以下步骤：确定需要识别的实体类型、构建prompt、输入标准化Query、调整prompt、输出格式。

6.一种基于大模型的智能报表生成系统，其特征在于，包括Query预处理模块、实体识别模块、实体识别结果校验模块、数据展示模块、大模型SQL生成模块以及SQL校验模块；

SQL校验模块，该模块用于对大模型产生的SQL进行校验；

7.一种终端设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当所述终端设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行时执行如权利要求1至5任一项所述的方法的步骤。

8.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至5任一项所述的方法的步骤。

9.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序在被处理器执行时实现如权利要求1-5中任一项所述的方法。