CN116756176A

CN116756176A - 结构化查询语言问题预测方法、装置、设备及存储介质

Info

Publication number: CN116756176A
Application number: CN202310849374.XA
Authority: CN
Inventors: 陈震威
Original assignee: China Construction Bank Corp; CCB Finetech Co Ltd
Current assignee: China Construction Bank Corp; CCB Finetech Co Ltd
Priority date: 2023-07-11
Filing date: 2023-07-11
Publication date: 2023-09-15

Abstract

本申请提供一种结构化查询语言问题预测方法、装置、设备及存储介质，涉及大数据技术领域。该方法通过将待处理结构化查询语言分别输入至规则模型和分析模型；通过规则模型对待处理SQL语言进行规则分析，得到规则模型输出的第一值，第一值表示待处理SQL语言为问题SQL语言的可能性；通过分析模型对待处理SQL语言进行分析，得到分析模型输出的概率值，概率值表示待处理SQL语言为问题SQL语句的概率；通过修正模型输出的修正因子对第一值和概率值进行修正，得到目标概率值；当目标概率值大于或等于预设值时，确定待处理SQL语言为问题SQL语言。这样，使得结构化查询语言问题预测的准确度较高。

Description

结构化查询语言问题预测方法、装置、设备及存储介质

技术领域

本申请涉及大数据技术领域，尤其涉及一种结构化查询语言问题预测方法、装置、设备及存储介质。

背景技术

结构化查询语言(Structured Query Language，简称SQL)作为关系型数据库的公共语言，是用户在数据库中进行数据查询的常用语言。在使用SQL语句进行数据查询中，当使用的SQL语句为存在问题的SQL语句时，查询过程可能会影响设备的运行。因此，需要对存在问题的SQL语句进行预测，以减少使用存在问题的SQL语句进行查询的情况。

一些实现中，使用电子设备运行期间产生数据进行在线学习，并收集历史作业性能使用R-LSTM进行模型训练，使得训练好的模型可以对SQL语句是否会使得数据查询出现延时，以及SQL语句查询到的数据集的大小情况进行预测。

然而，上述实现中，对存在问题的SQL语句可能存在漏检的情况，使得预测的准确度较低。

发明内容

本申请提供一种结构化查询语言问题预测方法、装置、设备及存储介质，用以解决结构化查询语言问题预测的准确度较低的问题。

第一方面，本申请提供一种结构化查询语言问题预测方法，该方法包括：

将待处理结构化查询语言分别输入至规则模型和分析模型，所述规则模型和所述分析模型均是采用与问题结构化查询语言相关的历史数据进行训练得到的；

通过所述规则模型对所述待处理结构化查询语言进行规则分析，得到所述规则模型输出的第一值，所述第一值表示所述待处理结构化查询语言为问题结构化查询语言的可能性；

通过所述分析模型对所述待处理结构化查询语言进行分析，得到所述分析模型输出的概率值，所述概率值表示所述待处理结构化查询语言为问题结构化查询语言的概率；

通过修正模型输出的修正因子对所述第一值和所述概率值进行修正，得到目标概率值，所述修正模型是采用与问题结构化查询语言相关的历史数据进行训练得到的；

当所述目标概率值大于或等于预设值时，确定所述待处理结构化查询语言为问题结构化查询语言。

在一种可能的设计中，通过所述修正模型输出的修正因子对所述第一值和所述概率值进行修正，得到目标概率值，包括：

通过y＝(βa+δb)/2对所述第一值和所述概率值进行修正，得到目标概率值；

其中，a表示所述第一值，b表示所述概率值，β表示第一修正因子，δ表示第二修正因子，y表示所述目标概率值。

在一种可能的设计中，所述方法还包括：

将历史反馈信息、历史问题结构化查询语言信息、历史问题结构化查询语言的语法树中的至少一项，输入至所述修正模型，得到所述修正模型输出的所述第一修正因子和所述第二修正因子。

在一种可能的设计中，所述规则模型中包括多个规则表达式，所述规则表达式用于检测输入到所述规则模型的结构化查询语言是否为问题结构化查询语言；

所述通过所述规则模型对所述待处理结构化查询语言进行规则分析，得到所述规则模型输出的第一值，包括：

使用所述多个规则表达式中的每一个规则表达式，对所述待处理结构化查询语言进行规则分析，确定所述待处理结构化查询语言是否符合所述规则表达式；

当所述待处理结构化查询语言符合所述多个规则表达式中的至少一个规则表达式时，得到所述规则模型输出的第一值。

在一种可能的设计中，所述方法还包括：

当所述待处理结构化查询语言不符合所述多个规则表达式中的任一个规则表达式时，得到所述规则模型输出的第二值，所述第二值表示所述待处理结构化查询语言为问题结构化查询语言的概率。

在一种可能的设计中，所述分析模型是根据数据处理组件输入的第一数据进行训练得到的，所述数据处理组件用于对获取到的与问题结构化查询语言相关的历史数据进行处理，并将处理后得到的第一数据输入到所述分析模型；

所述第一数据包括以下至少两项：数据日增长、数据月增长、数据季增长、数据年增长、数据高速增长时段的信息、数据库表中各字段区分度信息、电子设备的实际运行信息、结构化查询语言的语法树、历史结构化查询语言的查询条数、数据库表的字段平均数据量、数据库表的单行平均数据量、页面浏览量、独立访客数量、各时段的吞吐量。

在一种可能的设计中，所述确定所述待处理结构化查询语言为问题结构化查询语言之后，包括：

将所述待处理结构化查询语言的静态代码片段输入至策略知识库，所述策略知识库中包括多个预存静态代码；

计算所述静态代码片段和所述多个预存静态代码中每个预存静态代码的相似度；

确定并输出多个相似度中，相似度最高的预存静态代码对应的整改策略，所述整改策略用于提醒用户对所述待处理结构化查询语言进行修改。

在一种可能的设计中，所述方法还包括：

将目标反馈信息输入至所述修正模型，得到所述修正模型输出的新的修正因子，所述目标反馈信息为用户不对所述待处理结构化查询语言进行修改时反馈的信息。

第二方面，本申请提供一种结构化查询语言问题预测装置，包括：

输入模块，用于将待处理结构化查询语言分别输入至规则模型和分析模型，所述规则模型和所述分析模型均是采用与问题结构化查询语言相关的历史数据进行训练得到的；

处理模块，用于通过所述规则模型对所述待处理结构化查询语言进行规则分析，得到所述规则模型输出的第一值，所述第一值表示所述待处理结构化查询语言为问题结构化查询语言的可能性；

所述处理模块，还用于通过所述分析模型对所述待处理结构化查询语言进行分析，得到所述分析模型输出的概率值，所述概率值表示所述待处理结构化查询语言为问题结构化查询语言的概率；

所述处理模块，还用于通过修正模型输出的修正因子对所述第一值和所述概率值进行修正，得到目标概率值，所述修正模型是采用与问题结构化查询语言相关的历史数据进行训练得到的；

所述处理模块，还用于当所述目标概率值大于或等于预设值时，确定所述待处理结构化查询语言为问题结构化查询语言。

在一种可能的设计中，所述处理模块，具体用于通过y＝(βa+δb)/2对所述第一值和所述概率值进行修正，得到目标概率值；其中，a表示所述第一值，b表示所述概率值，β表示第一修正因子，δ表示第二修正因子，y表示所述目标概率值。

在一种可能的设计中，所述输入模块，还用于将历史反馈信息、历史问题结构化查询语言信息、历史问题结构化查询语言的语法树中的至少一项，输入至所述修正模型，得到所述修正模型输出的所述第一修正因子和所述第二修正因子。

所述处理模块，还用于使用所述多个规则表达式中的每一个规则表达式，对所述待处理结构化查询语言进行规则分析，确定所述待处理结构化查询语言是否符合所述规则表达式；当所述待处理结构化查询语言符合所述多个规则表达式中的至少一个规则表达式时，得到所述规则模型输出的第一值。

在一种可能的设计中，所述处理模块，还用于当所述待处理结构化查询语言不符合所述多个规则表达式中的任一个规则表达式时，得到所述规则模型输出的第二值，所述第二值表示所述待处理结构化查询语言为问题结构化查询语言的概率。

在一种可能的设计中，所述分析模型是根据数据处理组件输入的第一数据进行训练得到的，所述数据处理组件用于对获取到的与问题结构化查询语言相关的历史数据进行处理，并将处理后得到的第一数据输入到所述分析模型；所述第一数据包括以下至少两项：数据日增长、数据月增长、数据季增长、数据年增长、数据高速增长时段的信息、数据库表中各字段区分度信息、电子设备的实际运行信息、结构化查询语言的语法树、历史结构化查询语言的查询条数、数据库表的字段平均数据量、数据库表的单行平均数据量、页面浏览量、独立访客数量、各时段的吞吐量。

在一种可能的设计中，所述输入模块，还用于将所述待处理结构化查询语言的静态代码片段输入至策略知识库，所述策略知识库中包括多个预存静态代码；

所述处理模块，还用于计算所述静态代码片段和所述多个预存静态代码中每个预存静态代码的相似度；确定并输出多个相似度中，相似度最高的预存静态代码对应的整改策略，所述整改策略用于提醒用户对所述待处理结构化查询语言进行修改。

在一种可能的设计中，所述输入模块，还用于将目标反馈信息输入至所述修正模型，得到所述修正模型输出的新的修正因子，所述目标反馈信息为用户不对所述待处理结构化查询语言进行修改时反馈的信息。

第三方面，本申请实施例提供一种电子设备，包括：至少一个处理器和存储器；所述存储器存储计算机执行指令；所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如上第一方面以及第一方面各种可能的设计所述的结构化查询语言问题预测方法。

第四方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上第一方面以及第一方面各种可能的设计所述的结构化查询语言问题预测方法。

第五方面，本申请实施例提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时，实现如上第一方面以及第一方面各种可能的设计所述的结构化查询语言问题预测方法。

本申请提供的结构化查询语言问题预测方法、装置、设备及存储介质，该方法包括：将待处理结构化查询语言分别输入至规则模型和分析模型，规则模型和分析模型均是采用与问题结构化查询语言相关的历史数据进行训练得到的；通过规则模型对待处理结构化查询语言进行规则分析，得到规则模型输出的第一值，第一值表示待处理结构化查询语言为问题结构化查询语言的可能性；通过分析模型对待处理结构化查询语言进行分析，得到分析模型输出的概率值，概率值表示待处理结构化查询语言为问题结构化查询语言的概率；通过修正模型输出的修正因子对第一值和概率值进行修正，得到目标概率值，修正模型是采用与问题结构化查询语言相关的历史数据进行训练得到的；当目标概率值大于或等于预设值时，确定待处理结构化查询语言为问题结构化查询语言。这样，本申请实施例提供的结构化查询语言问题预测方法，通过历史数据对模型进行训练得到规则模型、分析模型和修正模型，可以直接使用模型，减少出现无法预测问题结构化查询语言的时间段。并且，修正模型的修正因子可以对规则模型和分析模型得到的问题概率进行修正，使得得到的目标概率更加准确，使得结构化查询语言问题预测的准确度较高。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1为本申请实施例提供的一种结构化查询语言问题预测方法的流程示意图；

图2为本申请实施例提供的一种对规则模型和分析模型输出的数据进行修正的方法流程示意图；

图3为本申请实施例提供的一种结构化查询语言问题预测的数据流转示意图；

图4为本申请实施例提供的一种模型训练的方法流程示意图；

图5为本申请实施例提供的一种模型使用的方法流程示意图；

图6为本申请实施例提供的一种的结构化查询语言问题预测装置的结构示意图；

图7为本申请实施例提供的一种电子设备的结构示意图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请的实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，其中A，B可以是单数或者复数。在本申请的文字描述中，字符“/”一般表示前后关联对象是一种“或”的关系。

为了便于清楚描述本申请实施例的技术方案，以下，对本申请实施例中所涉及的部分术语和技术进行简单介绍：

SQL：一种特定目的编程语言，用于管理关系数据库管理系统。

深度学习：一种人工智能方法，用于教计算器以受人脑启发的方式处理数据。

设备运行中，可能需要使用SQL语句进行SQL查询。然而，使用的SQL语句可能是存在问题的分享SQL语句，例如，使用的SQL语句中的SQL查询条件过于宽泛等，使得SQL查询的结果集中数据量较大，设备的延迟较高，造成内存溢出的问题。因此，需要对存在问题的SQL语句进行识别，以减少使用存在问题的SQL语句进行查询。

一些实现中，可以使用预先设定的规则对SQL语句进行静态扫描，确定SQL语句是否为问题SQL语句。

然而，静态扫描使用的规则不够细化，且进一步细化规则的难度较高，因此，静态扫描的方法可能会将正确的SQL语句确认为问题SQL语句，误报率较高，使得结构化查询语言问题预测的准确度较低。

另一些实现中，使用电子设备运行期间产生数据进行在线学习，并收集历史作业性能使用R-LSTM进行模型训练，使得训练好的模型可以对SQL语句是否会使得数据查询出现延时，以及SQL语句查询到的数据集的大小情况进行预测。

然而，上述实现中，在电子设备的冷启动时期，产生的数据较少，使用模型进行预测的准确度较低。并且该方法的泛化性较差，使用该模型对其他的系统中的SQL语句进行预测时，可能出现漏检或误检的情况。因此，上述实现中对SQL语句进行问题预测的准确度较低。

针对上述技术问题，本申请实施例提供了一种结构化查询语言问题预测方法，使用历史数据对模型进行训练，得到规则模型和分析模型，其中，规则模型可以对输入的SQL语句是否为问题语句进行预测，当输入的SQL语句可能为问题SQL语句时，输出第一值。规则模型可以对输入的SQL语句为问题SQL语句的可能性进行预测，得到SQL语句为问题SQL语句的概率。进一步的，还使用修正因子对上述两个模型输出的值进行修改，得到SQL语句为问题SQL语句的概率值，从而根据该概率值确定SQL语句是否为问题SQL语句。这样，即使在冷启动时期，也能够根据开发时期对模型的训练提升预测结果的准确度。并且，通过修正因子对另外两个模型输出的值进行修正，可以进一步提升问题预测的准确度，减少出现漏检会误检的情况。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

图1为本申请实施例提供的一种结构化查询语言问题预测方法的流程示意图。该结构化查询语言问题预测方法可以由软件和/或硬件装置执行，例如，该硬件装置可以为结构化查询语言问题预测装置，该结构化查询语言问题预测装置可以为银行端的电子设备或者银行端的电子设备中的处理芯片。

示例的，如图1所示，该结构化查询语言问题预测方法可以包括：

S101、将待处理结构化查询语言分别输入至规则模型和分析模型。

在本申请实施例中，结构化查询语言可以为SQL语句，下述实施例中所述的SQL语句均可以理解为结构化查询语言。

在本申请实施例中，规则模型和分析模型均是采用与问题SQL语句相关的历史数据进行训练得到的。

示例性的，开发阶段，技术人员可以对问题SQL语句的信息进行收集，例如，问题SQL语句的格式、问题SQL语句的某个字符或者问题SQL语句的关键字等信息，本申请实施例对于问题SQL语句的信息不做限定。

历史数据还可以包括规则模型和分析模型可以应用的系统的库表信息，本申请实施例对此不做限定。

示例性的，可以将待处理SQL语句的静态代码提交至规则模型和分析模型，通过规则模型和分析模型对该静态代码进行初步的预测。

示例性的，静态代码可以是技术人员对SQL语句进行编写过程中的代码，也可以是技术人员编写好准确运行的代码，本申请实施例对此不做限定。当静态代码是技术人员对SQL语句进行编写过程中的代码时，可以实现在技术人员编写SQL语句的过程中，就可以对SQL语句进行预测，以便于技术人员对存在问题的SQL语句进行修改。

S102、通过规则模型对待处理结构化查询语言进行规则分析，得到规则模型输出的第一值，第一值表示待处理结构化查询语言为问题结构化查询语言的可能性。

在本申请实施例中，规则模型中可以包括多个规则表达式，规则表达式可以用于检测输入到规则模型的SQL语句是否为问题SQL语句。

示例性的，规则表达式中可以包括问题SQL语句的构成规则，本申请实施例对此不做限定。

示例性的，通过规则模型对待处理SQL语句进行规则分析，得到规则模型输出的第一值时，可以使用多个规则表达式中的每一个规则表达式，对待处理SQL语句进行规则分析，确定待处理SQL语句是否符合规则表达式；当待处理SQL语句符合多个规则表达式中的至少一个规则表达式时，得到规则模型输出的第一值。

例如，规则模型中包括10个规则表达式，每个规则表达式中均包括问题SQL语句的规则链。当有SQL语句输入到规则模型中时，规则模型可以对SQL语句进行拆解，将拆解后的SQL语句与10个规则表达式一一进行对比，若拆解后的SQL语句符合至少一个规则表达式中的规则链时，表示该SQL语句可能为问题SQL语句，则规则模型可以输出第一值。

这样，通过规则模型可以对SQL语句的编写规则进行检验，当SQL语句中的编写规则不符合规则表达式时，可以确定该SQL语句可能为问题SQL语句。可以提升对SQL语句进行问题预测的准确度。

另一种可能的实现中，当待处理SQL语句不符合多个规则表达式中的任一个规则表达式时，得到规则模型输出的第二值，第二值表示待处理SQL语句为问题SQL语句的概率。

例如，规则模型中包括10个规则表达式，每个规则表达式中均包括问题SQL语句的规则链。当有SQL语句输入到规则模型中时，规则模型可以对SQL语句进行拆解，将拆解后的SQL语句与10个规则表达式一一进行对比，若拆解后的SQL语句不符合任何一个规则表达式中的规则链时，表示该SQL语句为问题SQL语句的概率较小，此时规则模型可以输出第二值。

在本申请实施例中，第一值可以为1，第二值可以为0，当然，第一值和第二值也可以为其他的数值，本申请实施例不做限定。

这样，当SQL语句不符合任一个规则表达式时，确定该SQL语句为问题SQL语句的规律较低，可以减少漏检SQL语句的情况，进一步提升结构化查询语言问题预测的准确度。

S103、通过分析模型对待处理结构化查询语言进行分析，得到分析模型输出的概率值，概率值表示待处理结构化查询语言为问题结构化查询语言的概率。

在本申请实施例中，分析模型可以是根据数据处理组件输入的第一数据进行训练得到的，数据处理组件可以用于对获取到的与问题SQL语句相关的历史数据进行处理，并将处理后得到的第一数据输入到分析模型。

其中，数据处理组件输入到分析模型的第一数据包括以下至少两项：数据日增长、数据月增长、数据季增长、数据年增长、数据高速增长时段的信息、数据库表中各字段区分度信息、电子设备的实际运行信息、结构化查询语言的语法树、历史SQL语句的查询条数、数据库表的字段平均数据量、数据库表的单行平均数据量、页面浏览量pv、独立访客数量uv、各时段的吞吐量(Transactions Per Second，简称TPS)。

需要说明的是，本申请实施例仅以上述第一数据为例进行说明，第一数据还可以包括其他数据，本申请实施例不做限定。

示例性的，训练得到分析模型的过程可以包括：技术人员收集库表信息、点珍惜身边的运行情况的信息，并将收集到的信息输入至数据收集组件中，数据收集组件对输入的信息进行简单的数据，例如，计算出数据的日增长、月增长、季增长、年增长、高速增长时段的信息等，并将处理后的信息进行格式化处理，使得处理后的信息的格式为统一格式。进一步的，将统一格式后的数据输入至模型中进行训练，得到分析模型。

这样，分析模型可以分析输入的SQL语句造成设备时延高、查询到的数据集的数据量较大等情况的概率进行预测，也就是说，通过分析模型可以得出SQL语句为问题SQL语句的概率。由于分析模型是通过数据库表信息和电子设备的实际运行情况对问题SQL语句进行预测的，使得问题预测的准确度较高。

S104、通过修正模型输出的修正因子对第一值和概率值进行修正，得到目标概率值，修正模型是采用与问题SQL语句相关的历史数据进行训练得到的。

修正因子模型可以输出两个修正因子，分别与第一值和概率值对应，也可以输出一个修正因子，本申请实施例不做限定。

示例性的，修改模型可以通过不同的修正因子分别对第一值和概率值进行修正，也可以通过同样的修正因子对第一值和概率值进行修正，本申请实施例对次不做限定。

S105、当目标概率值大于或等于预设值时，确定待处理SQL语句为问题SQL语句。

示例性的，预设值为与目标概率值对应的值，当第一值的取值为1，第二值的取值为0，概率值的取值范围为[0，1]，第一修正因子的取值范围为[0，1]，第二修正因子的取值范围为[0，1]时，预设值可以为[0，1]内的值。例如，预设值为0.7，则当目标概率值大于或等于0.7时，可以确定待处理SQL语句为问题SQL语句。

由此可见，本申请实施例提供的结构化查询语言问题预测方法，通过规则模型和分析模型可以对待处理SQL语句进行初步预测，得到初步预测的值。并进一步通过修正模型输出的修正因子对初步预测的值进行修正，得到待处理SQL语句为问题SQL语句的概率值，从而判断待处理SQL语句是否为问题SQL语句。因此，本申请实施例提供的结构化查询语言问题预测方法对SQL语句进行问题预测的准确度较高。并且，由于规则模型、分析模型和修正模型是可以预先训练好的，因此，对于电子设备冷启动时，依然能够有较高的预测准确度。

在本申请实施例中，电子设备确定待处理SQL语句为问题SQL语句之后，电子设备可以将待处理SQL语句的静态代码片段输入至策略知识库，策略知识库中包括多个预存静态代码；计算静态代码片段和多个预存静态代码中每个预存静态代码的相似度；确定并输出多个相似度中，相似度最高的预存静态代码对应的整改策略，整改策略用于提醒用户对待处理SQL语句进行修改。

示例性的，可以预先对静态代码片段进行有监督聚类训练，人工给定并标注聚类标签(无限制条件、限制条件区分度低、高频字段无索引)等，对各标签给予整改方法推荐录入，形成策略知识库。

这样，用户可以及时了解到问题SQL语句存在的问题的种类，以及应对策略，便于用户对问题SQL语句进行整改。

进一步的，对于某些类型问题SQL语句可能并不需要进行整改，当电子设备输出的整改策略为该类型的SQL语句对应的整改策略时，技术人员可以不对该SQL语句进行修改，并可以将不修改的原因等信息以反馈信息的方式填写在反馈表格中。

示例性的，该种场景下，电子设备可以将目标反馈信息输入至修正模型，得到修正模型输出的新的修正因子，目标反馈信息为用户不对待处理SQL语句进行修改时反馈的信息。

例如，当反馈信息中将某个可能为问题SQL语句的SQL语句标注为正常SQL语句，则修正模型会适当的调整输出的第一修正因子和第二修正因子，使得该SQL语句对应的目标概率值较小。例如，该SQL语句被判定为问题SQL语句主要是由于规则模型将其判定为可能为问题SQL语句，则可以调整与规则模型输出的值对应的修正因子的大小，以减少将该SQL语句判定为问题SQL语句的概率。

一种可能的实现中，若不需要进行整改的SQL语句标注为SQL语句的原因是规则模型将其判定为可能为问题SQL语句，电子设备还可以基于该SQL语句的信息对规则模型中的规则表达式进行修改。假设规则模型通过1条规则表达式将该SQL语句判定为可能为问题SQL语句，则在该规则表达式中可以新增一个规则表达式，使得当输入的SQL语句符合该表达表达式时，进一步确定是否符合新增的规则式，若符合，则可以确定该SQL语句为正常SQL语句。新增的规则表达式为不需要整改的SQL语句对应的规则表达式。本申请实施例仅以对规则模型进行更新为例进行说明，对本申请实施例的方法不构成任何限定。

这样，在对SQL语句进行预测的过程中，可以对修正模型输出的修正因子进行更新，使得修正因子更加符合数据库系统的实际情况，可以减少将正常SQL语句判定为问题SQL语句的概率，进一步提升对SQL语句进行问题预测的准确度。

在本申请实施例中，以修正模型输出两个修正因子为例，对通过修正模型输出的修正因子对第一值和概率值进行修正，得到目标概率值的过程进行描述。可参见图2所示，图2为本申请实施例提供的一种对规则模型和分析模型输出的数据进行修正的方法流程示意图。

如图2所示，该对规则模型和分析模型输出的数据进行修正的方法可以包括下述步骤：

S201、采用与问题SQL语句相关的历史数据进行训练得到修正模型。

在本申请实施例中，训练得到修正模型采用的与问题SQL语句相关的历史数据，除了包含上述步骤中所述的第一数据之外，还可以包括历史反馈信息、历史问题SQL语句信息、历史问题结构化查询语言的语法树中的至少一项。本申请实施例对此不做限定。

示例性的，训练得到修正模型的过程可以包括：将上述第一数据(即数据库表信息和电子设备实际运行情况的信息)和历史反馈信息、历史问题SQL语句信息、历史问题结构化查询语言的语法树中的至少一项输入到模型中进行训练，得到修正模型。

S202、获取修正模型输出的第一修正因子和第二修正因子。

示例性的，修正模型输出第一修正因子和第二修正因子的过程可以包括：将历史反馈信息、历史问题SQL语句信息、历史问题结构化查询语言的语法树中的至少一项，输入至修正模型，得到修正模型输出的第一修正因子和第二修正因子。

示例性的，第一修正因子和第二修正的取值范围均可以为[0，1]，当然，也可以为其他的取值范围，本申请实施例对此不做限定。

可以理解的是，输入到修正模型中的数据不同，得到的第一修正因子和第二修正因子的大小不同。

这样，修正模型输入的第一修正因子和第二修正因子与历史反馈信息、历史问题SQL语句信息、历史问题结构化查询语言的语法树中的至少一项有关，使得修正模型输出的第一修正因子和第二修正因子更加符合实际情况。

S203、通过第一修正因子对第一值进行修正，通过第二修正因子对第二值进行修正，得到目标概率值。

示例性的，可以通过公式y＝(βa+δb)/2对第一值和概率值进行修正，得到目标概率值。

其中，a表示第一值，b表示概率值，β表示第一修正因子，δ表示第二修正因子，y表示目标概率值。

可以理解的是，当某个数据库系统或者某个时间段等场景下，规则模型输出的值对目标概率值更加重要时，可以使得修正模型在该场景下输出的第一修正因子的值增大。当该场景下，分析模型输出的值对目标概率值更加重要时，可以使得分析模型在该场景下输出的第二修正因子的值增大。这样，可以进一步提升目标概率值的准确度。

这样，得到的目标概率值即考虑了规则模型输出的第一值，又考虑了分析模型输出的概率值，使得目标概率值的准确度较高，能够提升结构化查询语言问题预测的准确度。

在本申请实施例中，通过历史数据训练得到修正模型，使得修正模型输出的修正因子更加符合当前的使用场景，得到的修正因子的准确度较高，可以进一步提升结构化查询语言问题预测的准确度。

为了便于理解本申请实施例提供的结构化查询语言问题预测方法，下面，以数据库对应于某个系统为例，对结构化查询语言问题预测方法的整个过程进行描述，具体可参见图3所示。

图3为本申请实施例提供的一种结构化查询语言问题预测的数据流转示意图。

基于图3所示，结构化查询语言问题预测时可以分为模型训练和模型使用两个过程。

模型训练的方法可参见图4所示，图4为本申请实施例提供的一种模型训练的方法流程示意图。

如图4所示，模型训练的方法可以包括下述步骤：

S401、通过配置中心将配置信息下发至规则模型中进行训练，得到训练好的规则模型。

示例性的，可以基于人工分析针对常见的问题SQL语句的问题编写检验规则，规则信息可以以正则表达式的形式存储在配置中心，由配置中心下发规则配置给规则模型，得到训练好的规则模型。

规则配置为上述实施例所述的规则表达式，规则配置可以用于后续进行规则链校验时使用。规则链校验可以为上述实施例所述的判断输入到规则模型的SQL语句是否规则表达式的过程，再次不再赘述。

S402、通过数据收集系统收集数据库表和系统实际运行情况，将收集到的数据传输给数据处理系统，数据处理系统进行处理之后将数据传输给模型进行模型训练，得到分析模型。

需要说明的是，数据收集系统可以是电子设备中用户进行数据收集的组件，通过该组件可以自动进行数据的收集。数据处理系统可以为上述实施例所述的数据处理组件。

示例性的，数据收集系统可以收集各个系统的库表信息，实时收集生产系统的运行情况，将数据提交给数据处理系统，由数据处理系统计算数据的增长情况计算内容包括并不限于：数据日增长、月增长、季增长、年增长、高速增长时段分析、表各字段区分度分析、各作业实际运行情况、结构化查询语言的语法树、各SQL实际查询条数，各字段单条平均数据大小，表单行平均数据大小、pv、uv、各时段TPS等，将各数据进行格式化处理传输给模型进行持续性训练，得到分析模型。

S403、通过事故信息和反馈信息进行模型训练，得到修正模型。

在本申请实施例中，事故信息可以包括实际导致事故的SQL语句信息、事故现场信息，问题结构化查询语言的语法树、问题SQL语句的关键字、事故原因等，本申请实施例对此不做限定。反馈信息可以为收集到的当前时刻之前的历史反馈信息，其中，反馈信息还包括修正模型使用过程中用户反馈的信息。例如，反馈信息包括预测结果为问题SQL语句，人工决策为非危险SQL语句而记录的反馈信息、反馈后是否三个投产周期内未出事故、反馈是否被采纳等信息。

S404、对静态代码进行训练，得到整改策略知识库。

示例性的，电子设备可以对静态代码片段进行有监督聚类训练，人工给定并标注聚类标签(无限制条件、限制条件区分度低、高频字段无索引)等，对各标签给予整改方法推荐录入，形成整改策略知识库。

模型使用的方法可参见图5所示，图5为本申请实施例提供的一种模型使用的方法流程示意图。

如图5所示，模型训练的方法可以包括下述步骤：

S501、将静态代码提交至规则模型和分析模型。

示例性的，将静态代码提交至规则模型和分析模型的过程可参见上述实施例将待处理SQL语句分别输入至规则模型和分析模型的过程，在此不再赘述。

S502、通过修正模型输出的修正因子对规则模型和分析模型输出的值进行预测，并产出预测信息。

示例性的，规则模型产出结果为是/否为问题SQL语句的取值可以为1或0，记该值为a。分析模型产出结果为问题值，取值范围为[0，1]，记该值为b。修正模型产出修正规则模型和分析模型的修正因子，其中，规则模型的修正因子为β，分析模型的修正因子为δ，其中β、δ的取值范围均为[0，1]。

令y＝(βa+δb)/2，y取值范围为[0，1]。根据预先设定问题阈值R，判断SQL语句是否为问题SQL语句。若Y>R，则SQL语句为问题SQL语句。

问题阈值R可以为上述实施例所述的预设值。

S503、若预测信息产出结果为SQL语句为问题SQL语句，则截取静态代码片段输入知识库，尽显相似度计算，根据聚类结果获取标签和对应整改策略，产出得到预测结论和整改信息。

S504、通知开发团队进行SQL整改，若不整改则需填写反馈信息，将反馈信息落入反馈信息库重新加入训练。

综上所述，本申请实施例提供的结构化查询语言问题预测方法，引入了修正模型、规则模型和分析模型，使得单独系统本身的准确度较高，并且加强了模型本身的泛化性。此外，能够在SQL预测模型无法处理的新建系统(无生产历史数据、无运行数据)领域中，实现较高准确度的预测。

图6为本申请实施例提供的一种结构化查询语言问题预测装置的结构示意图。如图6所示，该结构化查询语言问题预测装置，包括：输入模块601和处理模块602；

输入模块601，用于将待处理SQL语句分别输入至规则模型和分析模型，规则模型和分析模型均是采用与问题SQL语句相关的历史数据进行训练得到的；

处理模块602，用于通过规则模型对待处理SQL语句进行规则分析，得到规则模型输出的第一值，第一值表示待处理SQL语句为问题SQL语句的可能性；

处理模块602，还用于通过分析模型对待处理SQL语句进行分析，得到分析模型输出的概率值，概率值表示待处理SQL语句为问题SQL语句的概率；

处理模块602，还用于通过修正模型输出的修正因子对第一值和概率值进行修正，得到目标概率值，修正模型是采用与问题SQL语句相关的历史数据进行训练得到的；

处理模块602，还用于当目标概率值大于或等于预设值时，确定待处理SQL语句为问题SQL语句。

在一种可能的设计中，处理模块602，具体用于通过y＝(βa+δb)/2对第一值和概率值进行修正，得到目标概率值；其中，a表示第一值，b表示概率值，β表示第一修正因子，δ表示第二修正因子，y表示目标概率值。

在一种可能的设计中，输入模块601，还用于将历史反馈信息、历史问题SQL语句信息、历史问题结构化查询语言的语法树中的至少一项，输入至修正模型，得到修正模型输出的第一修正因子和第二修正因子。

在一种可能的设计中，规则模型中包括多个规则表达式，规则表达式用于检测输入到规则模型的SQL语句是否为问题SQL语句；

处理模块602，还用于使用多个规则表达式中的每一个规则表达式，对待处理SQL语句进行规则分析，确定待处理SQL语句是否符合规则表达式；当待处理SQL语句符合多个规则表达式中的至少一个规则表达式时，得到规则模型输出的第一值。

在一种可能的设计中，处理模块602，还用于当待处理SQL语句不符合多个规则表达式中的任一个规则表达式时，得到规则模型输出的第二值，第二值表示待处理SQL语句为问题SQL语句的概率。

在一种可能的设计中，分析模型是根据数据处理组件输入的第一数据进行训练得到的，数据处理组件用于对获取到的与问题SQL语句相关的历史数据进行处理，并将处理后得到的第一数据输入到分析模型；第一数据包括以下至少两项：数据日增长、数据月增长、数据季增长、数据年增长、数据高速增长时段的信息、数据库表中各字段区分度信息、电子设备的实际运行信息、结构化查询语言的语法树、历史SQL语句的查询条数、数据库表的字段平均数据量、数据库表的单行平均数据量、页面浏览量、独立访客数量、各时段的吞吐量。

在一种可能的设计中，输入模块601，还用于将待处理SQL语句的静态代码片段输入至策略知识库，策略知识库中包括多个预存静态代码；

处理模块602，还用于计算静态代码片段和多个预存静态代码中每个预存静态代码的相似度；确定并输出多个相似度中，相似度最高的预存静态代码对应的整改策略，整改策略用于提醒用户对待处理SQL语句进行修改。

在一种可能的设计中，输入模块601，还用于将目标反馈信息输入至修正模型，得到修正模型输出的新的修正因子，目标反馈信息为用户不对待处理SQL语句进行修改时反馈的信息。

本申请实施例提供的结构化查询语言问题预测装置，可用于执行上述实施例中结构化查询语言问题预测方法的技术方案，其实现原理和技术效果类似，在此不再赘述。

需要说明的是，应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

图7为本申请实施例提供的一种电子设备的结构示意图。如图7所示，该电子设备可以包括：收发器701、处理器702、存储器703。

处理器702执行存储器存储的计算机执行指令，使得处理器702执行上述实施例中的方案。处理器702可以是通用处理器，包括中央处理器CPU、网络处理器(networkprocessor，NP)等；还可以是数字信号处理器DSP、专用集成电路ASIC、现场可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

存储器703通过系统总线与处理器702连接并完成相互间的通信，存储器73用于存储计算机程序指令。

收发器701可以用于获取待运行任务和待运行任务的配置信息。

系统总线可以是外设部件互连标准(peripheral component interconnect，PCI)总线或扩展工业标准结构(extended industry standard architecture，EISA)总线等。系统总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。收发器用于实现数据库访问装置与其他计算机(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(randomaccess memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)。

本申请实施例提供的电子设备，可以是上述实施例的终端设备。

本申请实施例还提供一种运行指令的芯片，该芯片用于执行上述实施例中结构化查询语言问题预测方法的技术方案。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机指令，当该计算机指令在计算机上运行时，使得计算机执行上述实施例结构化查询语言问题预测方法的技术方案。

本申请实施例还提供一种计算机程序产品，该计算机程序产品包括计算机程序，其存储在计算机可读存储介质中，至少一个处理器可以从计算机可读存储介质读取计算机程序，至少一个处理器执行计算机程序时可实现上述实施例中结构化查询语言问题预测方法的技术方案。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个单元中。上述模块成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器执行本申请各个实施例方法的部分步骤。

应理解，上述处理器可以是中央处理单元(Central Processing Unit，简称CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。

总线可以是工业标准体系结构(Industry Standard Architecture，简称ISA)总线、外部设备互连(Peripheral Component Interconnect，简称PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture，简称EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits，简称ASIC)中。当然，处理器和存储介质也可以作为分立组件存在于电控单元或主控设备中。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

本申请的技术方案中，所涉及的金融数据或用户数据等信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种结构化查询语言问题预测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，通过所述修正模型输出的修正因子对所述第一值和所述概率值进行修正，得到目标概率值，包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1-3任一项所述的方法，其特征在于，所述规则模型中包括多个规则表达式，所述规则表达式用于检测输入到所述规则模型的结构化查询语言是否为问题结构化查询语言；

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1-3任一项所述的方法，其特征在于，所述分析模型是根据数据处理组件输入的第一数据进行训练得到的，所述数据处理组件用于对获取到的与问题结构化查询语言相关的历史数据进行处理，并将处理后得到的第一数据输入到所述分析模型；

7.根据权利要求1-3任一项所述的方法，其特征在于，所述确定所述待处理结构化查询语言为问题结构化查询语言之后，包括：

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

9.一种结构化查询语言问题预测装置，其特征在于，包括：

10.一种电子设备，其特征在于，包括：处理器，以及与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，以实现如权利要求1-8中任一项所述的方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1-8中任一项所述的方法。

12.一种计算机程序产品，其特征在于，包括计算机程序，该计算机程序被处理器执行时实现权利要求1-8中任一项所述的方法。