CN117033554A

CN117033554A - 数据分析方法、装置、计算机设备以及存储介质

Info

Publication number: CN117033554A
Application number: CN202311033090.XA
Authority: CN
Inventors: 付村; 丁锴; 那崇宁; 胡汉一
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-08-16
Filing date: 2023-08-16
Publication date: 2023-11-10

Abstract

本申请涉及一种数据分析方法、装置、计算机设备以及存储介质。所述方法包括：根据公开的语义解析数据集、目标领域的历史数据分析数据集、数据表结构和数据字典对列表自然语言预训练模型进行模型训练，确定数据分析模型；根据标准数据分析要素和历史数据分析数据集，对循环神经网络模型进行训练，确定分析请求解析模型；通过分析请求解析模型，基于数据表结构和数据字典对目标数据分析请求进行解析，确定目标数据分析请求对应的目标数据分析要素；通过数据分析模型，根据目标数据分析要素确定目标数据分析请求对应的目标结构化查询语言，并运行目标结构化查询语言，确定目标数据分析请求所对应的数据分析结果。上述方法可以提高数据分析的准确性。

Description

数据分析方法、装置、计算机设备以及存储介质

技术领域

本申请涉及数据分析技术领域，特别是涉及一种数据分析方法、装置、计算机设备以及存储介质。

背景技术

随着互联网、大数据等前沿技术的发展，部分企业已经快速进入数字化转型阶段，如何更方便、快捷和高效地应用快速增长的数据进行分析和探索，赋能业务发展和创新，成为企业研发的重要课题。

数据分析及管理系统NL2SQL是NLP(Natural Language Processing,自然语言处理)研究领域中的一个活跃分支，目的是可以通过自然语言对话的方式实现数据库的精准查询。目前，NL2SQL大多应用在开放域问答领域，且在使用过程中往往基于公开数据集进行问答，难以适配实际业务应用，实际应用价值不高，故而在特定领域，现有数据分析实现方式已经无法满足实际业务和数字化转型的需要。因此，如何提高数据分析的灵活性，使数据分析技术适配于特定领域，以提高数据分析的准确性，是需要解决的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高数据分析的灵活性、便捷性和可靠性的数据分析方法、装置、计算机设备以及存储介质。

第一方面，本申请提供了一种数据分析方法，所述方法包括：

根据公开的语义解析数据集、目标领域的历史数据分析数据集、数据表结构和数据字典对列表自然语言预训练模型进行模型训练，确定数据分析模型；

根据标准数据分析要素和所述历史数据分析数据集，对循环神经网络模型进行训练，确定分析请求解析模型；

通过分析请求解析模型，基于所述数据表结构和所述数据字典对目标数据分析请求进行解析，确定所述目标数据分析请求对应的目标数据分析要素；

通过所述数据分析模型，根据所述目标数据分析要素确定所述目标数据分析请求对应的目标结构化查询语言，并运行所述目标结构化查询语言，确定所述目标数据分析请求所对应的数据分析结果。

在其中一个实施例中，通过分析请求解析模型，基于所述数据表结构和所述数据字典对目标数据分析请求进行解析，确定所述目标数据分析请求对应的目标数据分析要素，包括：

通过分析请求解析模型，基于所述数据表结构和所述数据字典对目标数据分析请求进行解析，确定所述目标数据分析请求对应的候选数据分析要素，并确定所述候选数据分析要素是否完整；

若否，则根据标准数据分析要素确定所述候选数据分析要素的目标缺失要素，并根据所述目标缺失要素确定目标提示信息，以使用户根据所述目标提示信息输入补充数据分析请求；

根据所述补充数据分析请求对所述候选数据分析要素进行完善，确定所述目标数据分析请求对应的目标数据分析要素。

在其中一个实施例中，根据标准数据分析要素和所述历史数据分析数据集，对循环神经网络模型进行训练，确定分析请求解析模型，包括：

基于数据表结构和数据字典，对标准数据分析要素进行编码，确定所述标准数据分析要素对应的分析要素数值向量；

获取所述历史数据分析数据集中的历史数据分析请求，并对所述历史数据分析请求进行分词处理，对分词处理后的历史数据分析请求进行向量化处理，确定向量化历史请求数据；

根据所述分析要素数值向量和所述向量化历史请求数据，对循环神经网络模型进行训练，确定分析请求解析模型。

对目标数据分析请求进行分词处理，并对分词处理后的目标数据分析请求进行向量化处理，确定向量化目标请求数据；

通过分析请求解析模型，根据所述向量化目标请求数据确定所述目标数据分析请求对应的目标数值向量；

根据所述目标数值向量，对所述数据表结构和所述数据字典进行信息检索，确定所述目标数据分析请求对应的目标数据分析要素。

在其中一个实施例中，根据公开的语义解析数据集、目标领域的历史数据分析数据集、数据表结构和数据字典对列表自然语言预训练模型进行模型训练，确定数据分析模型，包括：

根据公开的语义解析数据集、目标领域的历史数据分析数据集、数据表结构和数据字典确定精调数据集；所述历史数据分析数据集包括历史数据分析请求，以及所述历史数据分析请求对应的历史结构化查询语言；

将所述精调数据集划分为测试数据集和验证数据集，并采用所述测试数据集对列表自然语言预训练模型进行模型训练；

采用所述验证数据集对训练后的列表自然语言预训练模型进行模型测试，根据模型测试结果确定训练后的列表自然语言预训练模型的数据分析精确度，若所述数据分析精确度大于精确度阈值，则将训练后的列表自然语言预训练模型作为数据分析模型。

在其中一个实施例中，根据公开的语义解析数据集、目标领域的历史数据分析数据集、数据表结构和数据字典确定精调数据集，包括：

获取目标领域的历史数据分析数据集，并对所述历史数据分析数据集进行标准化处理，确定标准化数据集；

根据公开的语义解析数据集和所述标准化数据集确定样本数据集，并将所述目标领域的数据表结构和数据字典导入所述样本数据集，确定精调数据集。

在其中一个实施例中，通过所述数据分析模型，根据所述目标数据分析要素确定所述目标数据分析请求对应的目标结构化查询语言，包括：

通过所述数据分析模型，根据所述目标数据分析要素，确定候选查询语言；

通过所述数据分析模型，根据所述数据表结构和所述数据字典对所述候选查询语言的数据格式和数据内容进行标准化处理，确定所述目标数据分析请求对应的目标结构化查询语言。

第二方面，本申请还提供了一种数据分析装置，所述装置包括：

数据分析模型确定模块，用于根据公开的语义解析数据集、目标领域的历史数据分析数据集、数据表结构和数据字典对列表自然语言预训练模型进行模型训练，确定数据分析模型；

解析模型确定模块，用于根据标准数据分析要素和所述历史数据分析数据集，对循环神经网络模型进行训练，确定分析请求解析模型；

数据分析要素确定模块，用于通过分析请求解析模型，基于所述数据表结构和所述数据字典对目标数据分析请求进行解析，确定所述目标数据分析请求对应的目标数据分析要素；

查询语言运行模块，用于通过所述数据分析模型，根据所述目标数据分析要素确定所述目标数据分析请求对应的目标结构化查询语言，并运行所述目标结构化查询语言，确定所述目标数据分析请求所对应的数据分析结果。

第三方面，本申请还提供了一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

第四方面，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述数据分析方法、装置、计算机设备以及存储介质，在通过NL2SQL进行数据分析时，通过公开的语义解析数据集、目标领域的历史数据分析数据集、数据表结构和数据字典对列表自然语言预训练模型进行模型训练，确定数据分析模型，并根据标准数据分析要素和历史数据分析数据集训练循环神经网络模型，确定分析请求解析模型，以根据分析请求解析模型和数据分析模型对目标数据分析请求进行数据分析，确定目标数据分析请求对应的目标结构化查询语言，根据目标结构化查询语言的运行结果确定数据分析结果。解决了在通过NL2SQL进行数据分析时，基于公开数据集进行问答，难以适配实际业务应用，导致在实际数据分析过程中数据分析效率低、准确率小且灵活性差的问题。上述方案，实现了基于目标领域的数据表结构和数据字典对目标领域的目标数据分析请求进行数据分析，提高了数据分析效率和准确性，降低非数据分析人员灵活使用数据的门槛，同时通过NL2SQL技术，提高数据查询返回结果的准确性和时效性，从而提高了数据应用价值。

附图说明

图1为一个实施例中数据分析方法的应用环境图；

图2为一个实施例中数据分析方法的流程示意图；

图3为另一个实施例中数据分析方法的流程示意图；

图4为另一个实施例中多轮提示问答的流程图；

图5为另一个实施例中数据分析方法的流程示意图；

图6为另一个实施例中数据分析方法的流程示意图；

图7为另一个实施例中数据分析方法的流程示意图；

图8为另一个实施例中数据分析方法的流程示意图；

图9为一个实施例中数据分析装置的结构框图；

图10为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的数据分析方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他网络服务器上。服务器104根据公开的语义解析数据集、目标领域的历史数据分析数据集，数据表结构和数据字典对列表自然语言预训练模型进行模型训练，确定数据分析模型；服务器104根据标准数据分析要素和历史数据分析数据集，对循环神经网络模型进行训练，确定分析请求解析模型；终端102获取用户输入的目标数据分析请求，并通过通信网络将目标数据分析请求发送至服务器104，服务器104通过分析请求解析模型，基于数据表结构和数据字典对目标数据分析请求进行解析，确定目标数据分析请求对应的目标数据分析要素；服务器104通过数据分析模型，根据目标数据分析要素确定目标数据分析请求对应的目标结构化查询语言，并运行目标结构化查询语言，确定数据分析请求所对应的数据分析结果，并将数据分析结果通过通信网络发送至终端102。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种数据分析方法，本实施例以该方法应用于终端进行举例说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。本实施例中，该方法包括以下步骤：

S210、根据公开的语义解析数据集、目标领域的历史数据分析数据集、数据表结构和数据字典对列表自然语言预训练模型进行模型训练，确定数据分析模型。

其中，语义解析数据集即Text-to-Sql数据集，Text-to-Sql数据集可以实现让机器自动将用户输入的自然语言问题转成数据库可操作的SQL(Structured QueryLanguage，结构化查询语言)查询语句，实现基于数据库的自动问答能力，语义解析数据集可以包括Spider，CoSQL和DuSQL等公开数据集。目标领域是指需要进行数据分析和管理的领域，例如可以是企业所对应的领域，或者是银行领域。历史数据分析数据集包括历史数据分析请求，以及NL2SQL根据历史数据分析请求确定的SQL语句，历史数据分析数据集的格式可以是<历史数据分析请求，SQL>形式。数据表结构是指目标领域所对应的数据表结构，数据表是由表名、表中的字段和表的记录三个部分组成的。设计数据表结构就是定义数据表文件名，确定数据表包含哪些字段，各字段的字段名、字段类型和宽度，并将这些数据输入到计算机当中。数据字典是指对数据的数据项、数据结构、数据流、数据存储和处理逻辑等进行定义和描述，其目的是对数据流图中的各个元素作出详细的说明，使用数据字典为简单的建模项目。不同领域对应的数据表结构和数据字典不同。列表自然语言预训练模型即STAR模型，STAR模型是一种特定人工剪裁的列表自然语言预训练框架，能够基于相关文本得到结构化的SQL语句。数据分析模型是指可以根据用户发出的数据分析请求确定对应的SQL语句的列表自然语言预训练模型。

具体的，根据数据表结构和数据字典对目标领域的历史数据分析数据集进行标准化处理，使历史数据分析数据集中的数据格式和数据内容符合数据表结构和数据字典的约束。根据公开的语义解析数据集和标准化处理后的历史数据分析数据集对列表自然语言预训练模型进行模型训练，将训练完成后的列表自然语言预训练模型作为数据分析模型。

S220、根据标准数据分析要素和历史数据分析数据集，对循环神经网络模型进行训练，确定分析请求解析模型。

其中，标准数据分析要素是指预先设定的，数据分析请求中的数据所对应的要素信息。例如，标准数据分析要素可以包括表名、字段、查询条件、计算方法和关联条件。循环神经网络模型可以是基于LSTM、GRU或Bi-RNN等循环神经网络算法构建的神经网络模型。分析请求解析模型是指可以根据用户发出的数据分析请求确定数据分析要素的循环神经网络模型。

具体的，基于标准数据分析要素对历史数据分析数据集中的历史数据分析请求进行要素提取，确定历史数据分析请求对应的历史数据分析要素。通过历史数据分析请求和历史数据分析要素对循环神经网络模型进行训练，将训练完成后的循环神经网络模型作为分析请求解析模型。

S230、通过分析请求解析模型，基于数据表结构和数据字典对目标数据分析请求进行解析，确定目标数据分析请求对应的目标数据分析要素。

其中，目标数据分析请求是指用户发出的数据分析请求。目标数据分析要素是指目标数据分析请求对应的数据分析要素。

具体的，当获取到用户发出的目标数据分析请求时，将目标数据分析请求输入分析请求解析模型，数据分析请求模型基于数据表结构和数据字典对目标数据分析请求进行解析，确定目标数据分析请求对应的目标数据分析要素。

S240、通过数据分析模型，根据目标数据分析要素确定目标数据分析请求对应的目标结构化查询语言，并运行目标结构化查询语言，确定目标数据分析请求所对应的数据分析结果。

其中，目标结构化查询语言是指目标数据分析要素对应的SQL语句。

具体的，将目标数据分析要素输入数据分析模型中，根据数据分析模型的输出数据确定目标数据分析请求对应的目标结构化查询语言。运行目标结构化查询语言，根据目标结构化查询语言的运行结果确定目标数据分析请求所对应的数据分析结果。

示例性的，可以通过数据分析模型，根据目标数据分析要素，确定候选查询语言；通过数据分析模型，根据数据表结构和所述数据字典对候选查询语言的数据格式和数据内容进行标准化处理，确定目标数据分析请求对应的目标结构化查询语言。

上述数据分析方法中，在通过NL2SQL进行数据分析时，通过公开的语义解析数据集、目标领域的历史数据分析数据集、数据表结构和数据字典对列表自然语言预训练模型进行模型训练，确定数据分析模型，并根据标准数据分析要素和历史数据分析数据集训练循环神经网络模型，确定分析请求解析模型，以根据分析请求解析模型和数据分析模型对目标数据分析请求进行数据分析，确定目标数据分析请求对应的目标结构化查询语言，根据目标结构化查询语言的运行结果确定数据分析结果。解决了在通过NL2SQL进行数据分析时，基于公开数据集进行问答，难以适配实际业务应用，导致在实际数据分析过程中数据分析效率低、准确率小且灵活性差的问题。上述方案，实现了基于目标领域的数据表结构和数据字典对目标领域的目标数据分析请求进行数据分析，提高了数据分析效率和准确性，降低非数据分析人员灵活使用数据的门槛，同时通过NL2SQL技术，提高数据查询返回结果的准确性和时效性，从而提高了数据应用价值。

在一个实施例中，如图3所示，通过分析请求解析模型，基于数据表结构和数据字典对目标数据分析请求进行解析，确定目标数据分析请求对应的目标数据分析要素，包括：

S310、通过分析请求解析模型，基于数据表结构和数据字典对目标数据分析请求进行解析，确定目标数据分析请求对应的候选数据分析要素，并确定候选数据分析要素是否完整。

其中，候选数据分析要素是指从目标数据分析请求中提取出的数据分析要素。需要说明的是，用户输入的目标数据分析请求可能存在数据分析要素缺失的情况，若数据分析要素缺失，则后续通过数据分析模型，根据数据分析请求确定的目标结构化查询语言可靠性较低，因此，在确定目标结构化查询语言之前，需要保障目标数据分析请求对应的数据分析要素的完整性。

具体的，将目标数据分析请求输入分析请求解析模型，数据分析请求模型基于数据表结构和数据字典对目标数据分析请求进行解析，根据数据分析请求模型的输出数据确定候选数据分析要素。基于标准数据分析要素对候选数据分析要素进行完整性检测，确定候选数据分析要素是否包含所有的标准数据分析要素，若是，则候选数据分析要素完整；若否，则候选数据分析要素不完整。

S320、若否，则根据标准数据分析要素确定候选数据分析要素的目标缺失要素，并根据目标缺失要素确定目标提示信息，以使用户根据提示信息输入补充数据分析请求。

其中，目标缺失要素是指候选数据分析要素所不包含的标准数据分析要素中的子要素。目标提示信息是指提示用户进行数据补充的信息。补充数据分析请求是指用户基于提示信息输入的信息。

具体的，若候选数据分析要素不完整，则根据标准分析要素和候选数据分析要素的匹配结果，确定候选数据分析要素的目标缺失要素，根据目标缺失要素，以及候选缺失要素和候选提示信息之间的对应关系，从候选提示信息中确定目标缺失要素对应的目标提示信息，将目标提示信息发送至用户所在的终端，以使用户根据提示信息输入补充数据分析请求。示例性的，候选缺失要素和候选提示信息之间的对应关系如表1所示。

表1

示例性的，如图4所示，若目标缺失要素为至少两个，则进入多轮提示问答的环节，多轮提示问答的环节可以包括：若检索到目标数据分析请求包含表名，则列出目标数据分析请求对应的表名，并获取用户对表名的确认结果；若未从目标数据分析请求中检索出表名，则向用户发出请补充相关表名的提示信息；若检索到目标数据分析请求包含字段名，则列出目标数据分析请求对应的字段名并获取用户对字段名的确认结果；若未从目标数据分析请求中检索出字段名，则向用户发出请补充相关字段的提示信息；若检索到目标数据分析请求包含查询条件，则列出目标数据分析请求对应的查询条件，并获取用户对查询条件的确认结果；若未从目标数据分析请求中检索出查询条件，则向用户发出请补充相关查询条件的提示信息；若检索到目标数据分析请求包含计算方法，则列出目标数据分析请求对应的计算方法，并获取用户对计算方法的确认结果；若未从目标数据分析请求中检索出计算方法，则向用户发出请补充相关计算方法的提示信息；若检索到目标数据分析请求包含关联条件，则列出目标数据分析请求对应的关联条件，并获取用户对关联条件的确认结果；若未从目标数据分析请求中检索出关联条件，则向用户发出请补充相关关联条件的提示信息。

需要说明的是，在多轮提示问答环节每轮的目标提示信息只涉及一个目标缺失要素，并获取一个目标缺失要素对应的补充数据分析请求，直至获得所有的目标缺失要素对应的补充数据分析请求后，结束提示问答的环节。

S330、根据补充数据分析请求对候选数据分析要素进行完善，确定目标数据分析请求对应的目标数据分析要素。

具体的，通过分析请求解析模型，基于数据表结构和数据字典对补充数据分析请求进行解析，确定补充数据分析请求对应的补充数据分析要素，并根据补充数据分析要素完善候选数据分析要素，将完善后的候选数据分析要素作为目标数据分析请求对应的目标数据分析要素。

示例性的，若候选数据分析要素完整，则将候选数据分析要素作为目标数据分析要素。

本实施例中，在确定目标数据分析请求对应的目标结构化查询语言之前，对目标数据分析请求对应的候选数据分析要素进行完整性检测，并在候选数据分析要素缺失的情况下，向用户发出目标提示信息，以使用户可以基于目标提示信息对候选数据分析要素进行完善，以确定目标数据分析要素，能够提高目标数据分析要素的完整性，避免目标数据分析要素缺失导致的数据分析结果不准确的问题。

在一个实施例中，如图5所示，根据标准数据分析要素和历史数据分析数据集，对循环神经网络模型进行训练，确定分析请求解析模型，包括：

S410、基于数据表结构和数据字典，对标准数据分析要素进行编码，确定标准数据分析要素对应的分析要素数值向量。

具体的，基于数据表结构和数据字典，对标准数据分析要素进行编码，以使得标准数据分析要素的编码结果可以与数据表结构和数据字典中的信息对应，并根据编码结果确定标准数据分析要素对应的分析要素数值向量。

示例性的，可以基于数据表结构和数据字典，使用独热编码或者词嵌入的方式对标准数据分析要素进行编码，以将标准化数据分析要素转换为可以与数据表结构和数据字典中的信息存在映射关系的分析要素数值向量。

S420、获取历史数据分析数据集中的历史数据分析请求，并对历史数据分析请求进行分词处理，对分词处理后的历史数据分析请求进行向量化处理，确定向量化历史请求数据。

其中，向量化历史请求数据是指历史数据分析请求的请求信息对应的向量化数据。对历史数据分析请求进行分词处理即根据标准数据分析要素对历史数据分析请求进行分词，以使分词结果与标准数据分析要素对应。

具体的，获取历史数据分析数据集中的历史数据分析请求，通过循环神经网络算法对历史数据分析请求进行分词处理，再对分词处理后的历史数据分析请求进行向量化处理，即对分词处理后的历史数据分析请求进行编码处理，根据向量化处理结果确定向量化历史请求数据。

S430、根据分析要素数值向量和向量化历史请求数据，对循环神经网络模型进行训练，确定分析请求解析模型。

具体的，确定向量化历史请求数据对应的分析要素数值向量为历史数值向量。根据向量化历史请求数据和历史数值向量对循环神经网络模型进行训练，将训练完成的循环神经网络模型作为分析请求解析模型。

上述方案提供了一种对循环神经网络模型进行训练，确定分析请求解析模型的优选实施方案，基于数据表结构和数据字典对标准数据分析要素进行编码，同时对历史数据分析请求进行向量化处理，确定分析要素数值向量和向量化历史请求数据，根据分析要素数值向量和向量化历史请求数据对循环神经网络模型进行训练，可以提高循环神经网络模型的训练效率。

在一个实施例中，如图6所示，通过分析请求解析模型，基于数据表结构和数据字典对目标数据分析请求进行解析，确定目标数据分析请求对应的目标数据分析要素，还包括：

S510、对目标数据分析请求进行分词处理，并对分词处理后的目标数据分析请求进行向量化处理，确定向量化目标请求数据。

具体的，获取目标数据分析请求，通过循环神经网络算法对目标数据分析请求进行分词处理，再对分词处理后的目标数据分析请求进行向量化处理，即对分词处理后的目标数据分析请求进行编码处理，根据向量化处理结果确定向量化目标请求数据。

S520、通过请求解析模型，根据向量化目标请求数据确定目标数据分析请求对应的目标数值向量。

具体的，将向量化目标请求数据输入请求解析模型，请求解析模型根据向量化目标请求数据确定目标数据分析请求对应的目标数值向量，并输出目标数值向量。

S530、根据目标数值向量，对数据表结构和数据字典进行信息检索，确定目标数据分析请求对应的目标数据分析要素。

具体的，通过请求解析模型，根据目标数值向量对数据表结构和数据字典进行信息检索，从数据表结果和数据字典中提取出目标数据分析请求对应的目标数据分析要素。

上述方案，通过请求解析模型，根据目标数据分析请求对应的向量化目标请求数据确定目标数据分析请求对应的目标数据分析要素，能够提高目标数据分析要素的确定效率和准确性。

在一个实施例中，如图7所示，根据公开的语义解析数据集、目标领域的历史数据分析数据集、数据表结构和数据字典对列表自然语言预训练模型进行模型训练，确定数据分析模型，包括：

S610、根据公开的语义解析数据集、目标领域的历史数据分析数据集、数据表结构和数据字典确定精调数据集。

历史数据分析数据集包括历史数据分析请求，以及历史数据分析请求对应的历史结构化查询语言。

具体的，根据数据表结构和数据字典对目标领域的历史数据分析数据集进行标准化处理，即对历史数据分析数据集中的重复数据、信息缺失数据和格式不符合标准的数据进行删除处理，确定标准化数据集，将公开的语义解析数据集和标准化数据集作为精调数据集。

示例性的，确定精调数据集的方法还可以是：获取目标领域的历史数据分析数据集，并对历史数据分析数据集进行标准化处理，确定标准化数据集；根据公开的语义解析数据集和标准化数据集确定样本数据集，并将目标领域的数据表结构和数据字典导入所样本数据集，确定精调数据集。

上述方案提供的精调数据集包含标准化数据集、公开的语义解析数据集、目标领域的数据结构和数据字典，使得精调数据集中的数据更加适配于目标领域。

S620、将精调数据集划分为测试数据集和验证数据集，并采用测试数据集对列表自然语言预训练模型进行模型训练。

具体的，将精调数据集分为两部分，一部分精调数据集作为测试数据集，另一部分精调数据集作为验证数据集，并采用测试数据集中历史数据分析请求，以及公开的语义解析数据集中的数据分析请求作为训练数据，历史数据分析请求对应的SQL语句和公开的语义解析数据集中数据分析请求对应的SQL语句作为监督数据，对列表自然语言预训练模型进行模型训练。

S630、采用验证数据集对训练后的列表自然语言预训练模型进行模型测试，根据模型测试结果确定训练后的列表自然语言预训练模型的数据分析精确度，若数据分析精确度大于精确度阈值，则将训练后的列表自然语言预训练模型作为数据分析模型。

其中，精确度阈值可以根据实际需要进行设置，例如可以是98％。

具体的，将验证数据集中的历史数据分析请求，以及公开的语义解析数据集中的数据分析请求作为模型输入数据输入训练后的列表自然语言预训练模型中，并获取训练后的列表自然语言预训练模型的模型输出数据。根据模型输出数据与验证数据集中的SQL语句确定训练后的列表自然语言预训练模型的数据分析精确度，若数据分析精确度大于精确度阈值，则将训练后的列表自然语言预训练模型作为数据分析模型。若数据分析精确度小于或等于精确度阈值，则继续对训练后的列表自然语言预训练模型进行训练。

上述方案，根据公开的语义解析数据集、目标领域的历史数据分析数据集、数据表结构和数据字典确定精调数据集，将精调数据集作为模型训练数据，可以提高模型训练数据的可靠性。将精调数据分为测试数据集和验证数据集，通过测试数据集对列表自然语言预训练模型进行模型训练，并采用验证数据集对训练后的列表自然语言预训练模型进行模型测试，可以在模型精度符合要求时将训练后的列表自然语言预训练模型作为数据分析模型，提高了数据分析模型的预测精度。

示例性的，在上述实施例的基础上，如图8所示，数据分析方法包括：

获取公开的语义解析数据集和目标领域的历史数据分析数据集，通过目标领域的数据表结构和数据字典对历史数据分析数据集中的重复数据、信息缺失数据和格式不符合标准的数据进行删除处理，确定标准化数据集，将公开的语义解析数据集和标准化数据集作为精调数据集。

将精调数据集分为测试数据集和验证数据集，并采用测试数据集对列表自然语言预训练模型进行模型训练，采用验证数据集对训练后的列表自然语言预训练模型进行模型测试，根据模型测试结果确定训练后的列表自然语言预训练模型的数据分析精确度，若数据分析精确度大于精确度阈值，则将训练后的列表自然语言预训练模型作为数据分析模型，并对数据分析模型进行封装。

根据标准数据分析要素和历史数据分析数据集，对循环神经网络模型进行训练，确定分析请求解析模型，并对分析请求解析模型进行封装。

在获取用户发出的目标数据分析请求后，调用分析请求解析模型，将目标数据分析请求输入分析请求解析模型，数据分析请求模型基于数据表结构和数据字典对目标数据分析请求进行解析，确定目标数据分析请求对应的候选数据分析要素。

根据标准数据分析要素确定候选数据分析要素是否完整，若是，则将候选数据分析要素作为目标数据分析要素；若否，则根据标准数据分析要素确定候选数据分析要素的目标缺失要素，并根据目标缺失要素确定目标提示信息。进入多轮提示问答环节，基于目标提示信息向用户发出多轮提示问答，以使用户基于目标提示信息输入补充数据分析请求，根据补充数据分析请求确定补充数据分析要素，当补充数据分析要素和候选数据分析要素完整时，将补充分析要素和候选数据分析要素作为目标数据分析要素。

调用数据分析模型，将目标数据分析要素输入数据分析模型中，根据数据分析模型的输出数据确定目标数据分析请求对应的目标结构化查询语言。运行目标结构化查询语言，根据目标结构化查询语言的运行结果确定目标数据分析请求所对应的数据分析结果。

上述数据分析方法中，在进行数据分析时，通过公开的语义解析数据集、目标领域的历史数据分析数据集、数据表结构和数据字典对列表自然语言预训练模型进行模型训练，构建了数据分析模型，并根据标准数据分析要素和历史数据分析数据集训练循环神经网络模型，构建了分析请求解析模型，以根据分析请求解析模型确定候选数据分析要素，并对候选数据分析要素进行完整性校验，以在候选数据分析要素缺失的情况下对其进行数据补充，确定目标数据分析要素。通过数据分析模型对目标数据分析要素进行数据分析，确定目标数据分析请求对应的目标结构化查询语言，根据目标结构化查询语言的运行结果确定数据分析结果。保障了目标数据分析要素的完整性，实现了基于目标领域的数据表结构和数据字典对目标领域的目标数据分析请求进行数据分析，提高了数据分析效率和准确性，降低非数据分析人员灵活使用数据的门槛，提高数据查询返回结果的准确性和时效性，从而提高了数据应用价值。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的数据分析方法的数据分析装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个数据分析装置实施例中的具体限定可以参见上文中对于数据分析方法的限定，在此不再赘述。

在一个实施例中，如图9所示，提供了一种数据分析装置，包括：数据分析模型确定模块901、解析模型确定模块902、数据分析要素确定模块903和查询语言运行模块904，其中：

数据分析模型确定模块901，用于根据公开的语义解析数据集、目标领域的历史数据分析数据集、数据表结构和数据字典对列表自然语言预训练模型进行模型训练，确定数据分析模型；

解析模型确定模块902，用于根据标准数据分析要素和历史数据分析数据集，对循环神经网络模型进行训练，确定分析请求解析模型；

数据分析要素确定模块903，用于通过分析请求解析模型，基于数据表结构和数据字典对目标数据分析请求进行解析，确定目标数据分析请求对应的目标数据分析要素；

查询语言运行模块904，用于通过数据分析模型，根据目标数据分析要素确定目标数据分析请求对应的目标结构化查询语言，并运行目标结构化查询语言，确定目标数据分析请求所对应的数据分析结果。

上述数据分析装置，在通过NL2SQL进行数据分析时，通过公开的语义解析数据集、目标领域的历史数据分析数据集、数据表结构和数据字典对列表自然语言预训练模型进行模型训练，确定数据分析模型，并根据标准数据分析要素和历史数据分析数据集训练循环神经网络模型，确定分析请求解析模型，以根据分析请求解析模型和数据分析模型对目标数据分析请求进行数据分析，确定目标数据分析请求对应的目标结构化查询语言，根据目标结构化查询语言的运行结果确定数据分析结果。解决了在通过NL2SQL进行数据分析时，基于公开数据集进行问答，难以适配实际业务应用，导致在实际数据分析过程中数据分析效率低、准确率小且灵活性差的问题。上述方案，实现了基于目标领域的数据表结构和数据字典对目标领域的目标数据分析请求进行数据分析，提高了数据分析效率和准确性，降低非数据分析人员灵活使用数据的门槛，同时通过NL2SQL技术，提高数据查询返回结果的准确性和时效性，从而提高了数据应用价值。

示例性的，数据分析要素确定模块903具体用于：

通过分析请求解析模型，基于数据表结构和数据字典对目标数据分析请求进行解析，确定目标数据分析请求对应的候选数据分析要素，并确定候选数据分析要素是否完整；

若否，则根据标准数据分析要素确定候选数据分析要素的目标缺失要素，并根据目标缺失要素确定目标提示信息，以使用户根据目标提示信息输入补充数据分析请求；

根据补充数据分析请求对候选数据分析要素进行完善，确定目标数据分析请求对应的目标数据分析要素。

示例性的，解析模型确定模块902具体用于：

基于数据表结构和数据字典，对标准数据分析要素进行编码，确定标准数据分析要素对应的分析要素数值向量；

获取历史数据分析数据集中的历史数据分析请求，并对历史数据分析请求进行分词处理，对分词处理后的历史数据分析请求进行向量化处理，确定向量化历史请求数据；

根据分析要素数值向量和向量化历史请求数据，对循环神经网络模型进行训练，确定分析请求解析模型。

示例性的，数据分析要素确定模块903还用于：

通过分析请求解析模型，根据向量化目标请求数据确定目标数据分析请求对应的目标数值向量；

根据目标数值向量，对数据表结构和数据字典进行信息检索，确定目标数据分析请求对应的目标数据分析要素。

示例性的，数据分析模型确定模块901具体用于：

根据公开的语义解析数据集、目标领域的历史数据分析数据集、数据表结构和数据字典确定精调数据集；历史数据分析数据集包括历史数据分析请求，以及历史数据分析请求对应的历史结构化查询语言；

将精调数据集划分为测试数据集和验证数据集，并采用测试数据集对列表自然语言预训练模型进行模型训练；

采用验证数据集对训练后的列表自然语言预训练模型进行模型测试，根据模型测试结果确定训练后的列表自然语言预训练模型的数据分析精确度，若数据分析精确度大于精确度阈值，则将训练后的列表自然语言预训练模型作为数据分析模型。

示例性的，数据分析模型确定模块901还具体用于：

获取目标领域的历史数据分析数据集，并对历史数据分析数据集进行标准化处理，确定标准化数据集；

根据公开的语义解析数据集和标准化数据集确定样本数据集，并将目标领域的数据表结构和数据字典导入样本数据集，确定精调数据集。

示例性的，查询语言运行模块904具体用于：

通过数据分析模型，根据目标数据分析要素，确定候选查询语言；

通过数据分析模型，根据数据表结构和所述数据字典对候选查询语言的数据格式和数据内容进行标准化处理，确定目标数据分析请求对应的目标结构化查询语言。

上述数据分析装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图10所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种数据分析方法。该计算机设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

步骤一、根据公开的语义解析数据集、目标领域的历史数据分析数据集、数据表结构和数据字典对列表自然语言预训练模型进行模型训练，确定数据分析模型；

步骤二、根据标准数据分析要素和历史数据分析数据集，对循环神经网络模型进行训练，确定分析请求解析模型；

步骤三、通过分析请求解析模型，基于数据表结构和数据字典对目标数据分析请求进行解析，确定目标数据分析请求对应的目标数据分析要素；

步骤四、通过数据分析模型，根据目标数据分析要素确定目标数据分析请求对应的目标结构化查询语言，并运行目标结构化查询语言，确定目标数据分析请求所对应的数据分析结果。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种数据分析方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，通过分析请求解析模型，基于所述数据表结构和所述数据字典对目标数据分析请求进行解析，确定所述目标数据分析请求对应的目标数据分析要素，包括：

3.根据权利要求1所述的方法，其特征在于，根据标准数据分析要素和所述历史数据分析数据集，对循环神经网络模型进行训练，确定分析请求解析模型，包括：

4.根据权利要求1所述的方法，其特征在于，通过分析请求解析模型，基于所述数据表结构和所述数据字典对目标数据分析请求进行解析，确定所述目标数据分析请求对应的目标数据分析要素，包括：

5.根据权利要求1所述的方法，其特征在于，根据公开的语义解析数据集、目标领域的历史数据分析数据集、数据表结构和数据字典对列表自然语言预训练模型进行模型训练，确定数据分析模型，包括：

6.根据权利要求5所述的方法，其特征在于，根据公开的语义解析数据集、目标领域的历史数据分析数据集、数据表结构和数据字典确定精调数据集，包括：

7.根据权利要求1所述的方法，其特征在于，通过所述数据分析模型，根据所述目标数据分析要素确定所述目标数据分析请求对应的目标结构化查询语言，包括：

8.一种数据分析装置，其特征在于，包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。