CN114610754A

CN114610754A - Sql日志异常检测方法、装置、存储介质及电子设备

Info

Publication number: CN114610754A
Application number: CN202210234238.5A
Authority: CN
Inventors: 赵钧; 王渭清
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2022-03-10
Filing date: 2022-03-10
Publication date: 2022-06-10

Abstract

本公开实施例提供了一种SQL日志异常检测方法、装置、存储介质及电子设备，涉及网络技术与安全技术领域，用以解决相关技术中SQL日志异常检测方式效率较低的问题。涉及的SQL日志异常检测方法，包括：获取待测试结构化查询语言SQL日志；从待测试SQL日志中提取SQL操作数据，根据SQL操作数据得到测试序列；根据测试序列以及预训练得到的词向量库生成测试序列中每个词的词向量，得到测试词向量序列；计算测试词向量序列中的词向量之间的相似度；根据相似度确定待测试SQL日志中是否存在异常SQL操作。本公开实施例可快速对SQL日志进行异常定位，减少SQL日志异常导致的数据损失。

Description

SQL日志异常检测方法、装置、存储介质及电子设备

技术领域

本公开涉及网络技术与安全技术领域，具体而言，涉及一种SQL日志异常检测方法、装置、存储介质及电子设备。

背景技术

目前，通过分析数据库SQL(Structured Query Language，结构化查询语言)日志，能够发现非法人员对数据库数据的窃取、篡改和破坏行为。常见的SQL日志异常分析技术包括SQL日志模板异常检测、SQL操作统计量异常、以及序列神经网络模型检测特定SQL异常如SQL注入等。然而，数据库/大数据平台的数据访问通常通过SQL或类SQL语言(如HQL(Hibernate Query Language，Hibernate查询语言))实现，用户的SQL数据访问行为会记录在日志中，但需从海量SQL日志中发现异常操作，通常需构建较为复杂的神经网络模型或需进行大量复杂运算，导致SQL日志异常检测效率较低。

发明内容

本公开实施例提供一种SQL日志异常检测方法、装置、存储介质及电子设备，以用于至少部分地解决相关技术中存在的SQL日志异常检测方式效率较低的技术问题。

根据本公开的第一个方面，提供了一种SQL日志异常检测方法，其特征在于，包括：获取待测试结构化查询语言SQL日志；从所述待测试SQL日志中提取SQL操作数据，根据所述SQL操作数据得到测试序列；根据所述测试序列以及预训练得到的词向量库生成所述测试序列中每个词的词向量，得到测试词向量序列，其中，所述词向量库基于预设SQL日志中的SQL操作数据训练得到；计算所述测试词向量序列中的词向量之间的相似度；根据所述相似度确定所述待测试SQL日志中是否存在异常SQL操作。

可选的，从所述待测试SQL日志中提取SQL操作数据，根据所述SQL 操作数据得到测试序列，包括：从所述待测试SQL日志中的每条SQL语句中提取词；按照访问IP地址或用户名对从每条SQL语句中提取到的词进行排列，得到所述测试序列。

可选的，从所述待测试SQL日志中的每条SQL语句中提取词，包括：从所述每条SQL语句中提取表名和字段名，将所述表名以及字段名组成词。

可选的，所述测试词向量序列中的词向量包括从所述待测试SQL日志的每条SQL语句中提取的词对应词向量，根据所述测试序列以及预训练得到的词向量库生成所述测试序列中每个词的词向量，得到测试词向量序列，包括：将所述测试序列按照每条SQL语句切分为多条SQL，得到切分后的测试序列；根据切分后的测试序列以及预训练得到的词向量库生成所述测试序列中每个词的词向量，得到所述测试词向量序列；计算所述测试词向量序列中的词向量之间的相似度，包括：计算所述测试词向量序列中词向量之间的相似度的均值，得到所述相似度，其中，所述相似度用于表征待测试SQL日志中的业务与合法业务之间的差异。

可选的，所述测试词向量序列中的词向量包括：从所述待测试SQL日志的每条SQL语句中提取的词按照访问IP地址或用户名组成的句子对应词向量，计算所述测试词向量序列中的词向量之间的相似度，包括：计算所述测试词向量序列中的词向量之间的相似度的均值，得到所述相似度，其中，所述相似度用于表征待测试SQL日志中用户或访问IP地址的操作行为与合法操作行为之间的差异。

可选的，根据所述相似度确定所述待测试SQL日志中是否存在异常 SQL操作，包括：将所述相似度与第一阈值进行比较；若所述相似度大于所述第一阈值，确定所述待测试SQL日志中存在异常操作；若所述相似度不大于所述第一阈值，确定所述待测试SQL日志中不存在异常操作。

可选的，根据所述测试序列以及预训练得到的词向量库生成所述测试序列中每个词的词向量，得到测试词向量序列，包括：将所述测试序列按照每条SQL语句切分为多条SQL；根据所述测试序列以及预训练得到的第一词向量库，生成第一测试词向量序列；根据所述测试序列以及预训练得到的第二词向量库，生成第二测试词向量序列，其中，所述第一词向量库与所述第二词向量库中的词向量不同；计算所述测试词向量序列中的词向量之间的相似度，包括：计算所述第一测试词向量序列中词向量之间的相似度的均值，得到第一相似度，其中，所述第一相似度用于表征待测试SQL日志中的业务与合法业务之间的差异；计算所述第二测试词向量序列中词向量之间的相似度的均值，得到第二相似度，其中，所述第二相似度用于表征待测试SQL日志中用户或访问IP地址的操作行为与合法操作行为之间的差异。

可选的，所述方法还包括：从预设训练数据中的每条SQL语句提取词，其中，所述预设训练数据中包括预设SQL日志；将从每条SQL语句中提取的所述词排列作为一个句子，生成第一语料库；使用所述第一语料库训练 word2vec，生成所述第一词向量库。

可选的，所述方法还包括：从预设训练数据中的每条SQL语句中提取词，其中，所述预设训练数据中包括预设SQL日志；按照访问IP地址或用户名将从每条SQL语句中提取的所述词组成形成不同的句子，生成第二语料库；使用所述第二语料库训练word2vec，生成所述第二词向量库。

可选的，根据所述相似度确定所述待测试SQL日志中是否存在异常 SQL操作，包括：将所述第一相似度与第二阈值比较，若所述第一相似度不小于所述第二阈值，确定所述待测试SQL日志中存在业务操作异常；将所述第二相似度与第三阈值比较，若所述第二相似度不小于所述第三阈值，确定所述待测试SQL日志中存在行为操作异常。

可选的，所述方法还包括：若确定所述待测试SQL日志中存在业务操作异常，发出业务操作异常提示消息，输出所述业务操作异常对应的异常用户信息和/异常SQL列表；若确定所述待测试SQL日志中存在行为操作异常，发出行为操作异常提示消息，输出所述行为操作异常对应的异常用户信息和/ 异常SQL列表。

可选的，根据所述相似度确定所述待测试SQL日志中是否存在异常 SQL操作，包括：根据所述第一相似度和所述第二相似度确定所述SQL日志中是否存在异常。

根据本公开的第二个方面，提供了一种SQL日志异常检测装置，包括：获取模块，用于获取待测试结构化查询语言SQL日志；提取模块，用于从所述待测试SQL日志中提取SQL操作数据，根据所述SQL操作数据得到测试序列；生成模块，用于根据所述测试序列以及预训练得到的词向量库生成所述测试序列中每个词的词向量，得到测试词向量序列，其中，所述词向量库基于预设SQL日志中的SQL操作数据训练得到；计算模块，用于计算所述测试词向量序列中的词向量之间的相似度；确定模块，用于根据所述相似度确定所述待测试SQL日志中是否存在异常SQL操作。

根据本公开的第三个方面，还提供了一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行本公开实施例提供的任意一种SQL日志异常检测方法。

根据本公开的第四个方面，还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本公开实施例提供的任意一种SQL日志异常检测方法。

本公开实施例的SQL日志异常检测方法、装置、存储介质及电子设备，基于待测试SQL日志构建测试序列，根据测试序列利用预训练好的词向量库得到待测序列中每个词的词向量，得到测试词向量序列，计算测试词向量序列中词向量之间的相似度，从而可基于该相似度判断待测试SQL日志中是否存在异常操作，计算量较小，异常检测效率较高，可快速对SQL日志进行异常定位，减少SQL日志异常导致的数据损失。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本公开一示例性实施例示出的一种SQL日志异常检测方法的流程图；

图2是根据本公开一示例性实施例示出的一种SQL日志异常检测方法的流程图；

图3是根据本公开一示例性实施例示出的一种SQL日志异常检测方法的流程图；

图4是根据本公开一示例性实施例示出的一种SQL日志异常检测方法的流程图；

图5是根据本公开一示例性实施例示出的一种SQL日志异常检测方法的流程图；

图6是根据本公开一示例性实施例示出的一种SQL日志异常检测方法的流程图；

图7是根据本公开一示例性实施例示出的一种SQL日志异常检测方法的流程图；

图8是根据本公开一示例性实施例示出的第一语料库中词之间的距离关系示意图；

图9是根据本公开一示例性实施例示出的一种SQL日志异常检测方法的流程图；

图10是根据本公开一示例性实施例示出的第二语料库中词之间的距离关系示意图；

图11是根据本公开一示例性实施例示出的一种SQL日志异常检测方法的流程图；

图12是根据本公开一示例性实施例示出的一种SQL日志异常检测装置的结构示意图；

图13是根据本公开一示例性实施例示出的一种电子设备的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

图1是根据本公开一示例性实施例示出的一种SQL日志异常检测方法的流程图，如图1所示，该方法包括：

在步骤S102中，获取待测试SQL日志；

在本公开的实施例中，对于新的SQL日志流，可提取一个时间段内的所有的SQL日志，得到待测试SQL日志，其中，该时间段如10分钟或1个小时，可根据测试需求进行自定义设置。

在步骤S104中，从所述待测试SQL日志中提取SQL操作数据，根据所述SQL操作数据得到测试序列；

在本公开的实施例中，从待测试SQL日志中提取的SQL操作数据可以是从待测试SQL日志中的SQL语句中提取到的关键字，该关键字例如可以是SQL语句中能够表征用户的数据访问行为的信息。

在步骤S106中，根据所述测试序列以及预训练得到的词向量库生成所述测试序列中每个词的词向量，得到测试词向量序列；其中，所述词向量库基于预设SQL日志中的SQL操作数据训练得到；

其中，预设SQL日志可以是正常的SQL日志，指不存在对数据的窃取、篡改和破坏等异常操作的SQL日志。

在本公开的实施例中，预训练得到的词向量库可包括至少两种具有不同词向量的词向量库，在该种情况下，在步骤S106中，根据测试序列以及不同的词向量库可得到不同的测试序列，从而可在SQL日志异常检测过程中，基于不同的测试序列进行异常检测，以检测出SQL日志中存在的不同种类的异常，到多样化的异常检测结果，实现对SQL日志的更加全面的异常检测。

在示例性实施例中，可基于预设日志提取训练数据，根据训练数据提取语料库，利用语料库训练word2vec模型生成词向量库。其中，根据训练数据提取语料库的可包括：从训练数据中的每条SQL语句提取词；根据提取到的词生成语料库。

在步骤S108中，计算所述测试词向量序列中的词向量之间的相似度，其中，所述相似度用以表征待测试SQL日志中的SQL操作数据与合法SQL 操作数据之间的差异；

在本公开的实施例中，所述测试词向量序列中的词向量之间的相似度可以用于表征待测SQL日志中的SQL语句与合法业务的SQL语句之间的差异，或，待测试SQL日志中的操作数据与合法SQL操作数据之间的相似度可以用于表征一个用户的SQL操作序列与合法用户的SQL操作序列之间的差异。其中，合法业务可指业务往来不存在对数据的窃取、篡改和破坏等异常业务。

在步骤S110中，根据所述相似度确定所述待测试SQL日志中的异常 SQL操作。

在本公开实施例中，可预先设定一相似度阈值，如第一阈值，基于此，可将测试词向量序列中的词向量之间的相似度与该阈值进行比较，根据比较结果的大小来确定待测试SQL日志中是否存在异常操作，例如，若待测试词向量序列中的词向量之间的相似度大于该相似度阈值，可确定待测试SQL日志中存在异常操作，反之，若待测试词向量序列中的词向量之间的相似度不大于该阈值，可确定待测试SQL日志中不存在异常操作。此外，本公开实施例中的测试词向量序列中的词向量之间的相似度可包括多种不同的词向量之间的相似度，用以表征待测试SQL日志中的SQL操作数据与合法SQL操作数据之间的多种差异，如，可基于预训练得到的不同的词向量库生成不同的测试词向量序列，计算不同测试词向量序列中词向量之间的相似度，从而可分别根据计算出的多个相似度依次确定SQL日志是否存在异常，或者，还可根据计算出的多个相似度计算出一个综合指标，如分别为多个相似度赋予对应的权重，再对多个相似度进行加权求和，得到综合指标，根据该综合指标确定SQL日志是否存在差异。

本公开实施例的SQL日志异常检测方法，基于待测试SQL日志构建测试序列，根据测试序列利用预训练好的词向量库得到待测序列中每个词的词向量，得到测试词向量序列，计算测试词向量序列中词向量之间的相似度，从而可基于该相似度判断待测试SQL日志中是否存在异常操作，计算量较小，异常检测效率较高，可快速对SQL日志进行异常定位，减少SQL日志异常导致的数据损失。

此外，本公开实施例的SQL日志异常检测方法可应用于企业数据库操作实时异常检测，也可用于企业大数据平台hive操作实时异常检测。用以实时识别内部或外部恶意用户的数据访问行为，减少数据泄漏风险，提升了数据安全保障能力。

图2是根据本公开一示例性实施例示出的一种SQL日志异常检测方法的流程图，如图2所示，从所述待测试SQL日志中提取SQL操作数据，根据所述SQL操作数据得到测试序列，可包括：

在步骤S1042中，从所述待测试SQL日志中的每条SQL语句中提取词；

在步骤S1044中，按照访问IP地址(Internet Protocol Address，互联网协议地址)或用户名对从每条SQL语句中提取到的词进行排列，得到所述测试序列。

在示例性实施例中，在得到测试序列之后，还可记录测试序列中由不同 SQL语句生成的词的初始位置，以便后续基于该初始位置对测试序列进行切分。在一个例子中，一个SQL语句中提取的所有的词组成一个句子，比如由两条SQL组成的测试序列，第一条SQL提取了5个词，第二条SQL提取了 3个词，则第一条SQL语句对应的初始位置是第一位，第二条初SQL语句对应的初始位置是第六位。

在示例性实施例中，如图3所示，从所述待测试SQL日志中的每条 SQL语句中提取词，可包括：

在步骤S10422中，从所述每条SQL语句中提取表名和字段名，将所述表名以及字段名组成词。如，以从单条SQL语句中提取词为例，提取的词如下：

tid，tname，tdate

sid，stime，sip，sport，tname

在以上词中，s和t表示表名，其它表示字段名。

在本公开的实施例中，所述测试词向量序列中的词向量可包括从所述待测试SQL日志的每条SQL语句中提取的词对应词向量，如图4所示，根据所述测试序列以及预训练得到的词向量库生成所述测试序列中每个词的词向量，得到测试词向量序列，可包括：

在步骤S1062中，将所述测试序列按照每条SQL语句切分为多条 SQL，得到切分后的测试序列；

如，可根据记录的测试序列中由不同SQL语句生成的词的初始位置，将测试序列按照每条SQL语句切分为多条SQL，切分后得到的各词来源于一个SQL语句。

在步骤S1064中，根据切分后的测试序列以及预训练得到的词向量库生成所述测试序列中每个词的词向量，得到所述测试词向量序列；

计算所述测试词向量序列中的词向量之间的相似度，可包括：

在步骤S1082中，计算所述测试词向量序列中词向量之间的相似度的均值，得到所述相似度，其中，所述相似度用于表征待测试SQL日志中的业务与合法业务之间的差异，该第一相似度可体现业务特征，故，在本公开实施例中，该第一相似度可用于表示待测试日志的业务偏离度。

示例性的，词向量之间的相似度可以通过计算词向量之间的余弦距离、欧式距离或曼哈顿距离中的任意一种来获得。

其中，合法业务可指不存在对数据的窃取、篡改和破坏等异常操作的业务。

在本实施例中，可对单条SQL语句进行检测，以有效识别出单条SQL 语句，将异常定位至每条SQL语句，提高了SQL异常的检测精度。根据测试词向量序列中的词向量之间的距离确定业务偏离度，可有效降低SQL异常检测的计算量，效率较高，可应用于准实时场景的SQL异常检测，快速定位异常。

在本公开的实施例中，所述测试词向量序列中的词向量可包括：将从所述待测试SQL日志的每条SQL语句中提取的词按照访问IP地址或用户名组成的句子对应词向量，计算所述测试词向量序列中的词向量之间的相似度，可包括：

计算所述测试词向量序列中的词向量之间的相似度的均值，得到所述相似度，其中，所述相似度用于表征待测试SQL日志中用户或访问IP地址的操作行为与合法操作行为之间的差异。第二相似度可体现用户行为，故，第二相似度可以用于表示待测试SQL日志的行为偏离度。

本公开实施例可根据待测试SQL日志对一段时间内某一用户或某一访问 IP地址的多条SQL序列进行异常检测，从而可有效定位出异常用户或异常 IP。

在本实施例中，根据测试词向量序列中的词向量之间的距离确定行为偏离度，可有效降低SQL异常检测的计算量，效率较高，可应用于准实时场景的SQL异常检测，快速定位异常。

在本公开的实施例中，如图5所示，根据所述相似度确定所述待测试 SQL日志中是否存在异常SQL操作，可包括：

在步骤S1102中，将所述相似度与第一阈值进行比较；

在步骤S1104中，若所述相似度大于所述第一阈值，确定所述待测试 SQL日志中存在异常操作；

在步骤S1106中，若所述相似度不大于所述第一阈值，确定所述待测试 SQL日志中不存在异常操作。

在本实施例中，在计算所述测试词向量序列中的词向量之间的相似度之后，由于该相似度表征待测试SQL日志中的SQL操作数据与合法SQL操作数据的差异，故该指标数值的大小代表了待测试SQL日志中的SQL操作数据与长队SQL操作数据之间的差异，故，通过将该指标与第一阈值比较，可方便快捷的确定出待测试日志中是否存在异常操作。

在本公开的实施例中，如图6所示，根据所述测试序列以及预训练得到的词向量库生成所述测试序列中每个词的词向量，得到测试词向量序列，可包括：

在步骤S1066中，将所述测试序列按照每条SQL语句切分为多条 SQL；

在步骤S1068中，根据所述测试序列以及预训练得到的第一词向量库，生成第一测试词向量序列；

在步骤S10610中，根据所述测试序列以及预训练得到的第二词向量库，生成第二测试词向量序列，其中，所述第一词向量库与所述第二词向量库中的词向量不同；

计算所述测试词向量序列中的词向量之间的相似度，包括：

在步骤S1084中，计算所述第一测试词向量序列中词向量之间的相似度的均值，得到第一相似度，其中，所述第一相似度用于表征待测试SQL日志中的业务与合法业务之间的差异；

在步骤S1086中，计算所述第二测试词向量序列中词向量之间的相似度的均值，得到第二相似度，其中，所述第二相似度用于表征待测试SQL日志中用户或访问IP地址的操作行为与合法操作行为之间的差异；

在本实施例中，基于测试序列，利用预训练得到的具有不同词向量的第一词向量库以及第二词向量库生成第一测试词向量序列以及第二测试词向量序列，使得第一测试词向量序列与第二测试词向量序列中的词向量具有不同业务含义，从而可根据第一测试向量计算业务偏离度，用以实现单条SQL语句的异常检测，根据第二测试向量计算行为偏离度，用以实现对一段时间段某一用户或访问IP地址的多条SQL序列的异常检测。将单条SQL异常检测和一个段时间内某一用户或访问IP地址的多条SQL序列的异常检测融合实现，而无需分别建立不同的模型，简化了SQL异常检测的流程。

图7是根据本公开一示例性实施例示出的一种SQL日志异常检测方法的流程图，如图7所示，该方法在图1所示的方法的基础上，还可进一步包括：

在步骤S702中，从预设训练数据中的每条SQL语句提取词，其中，所述预设训练数据中包括预设SQL日志；

在步骤S704中，将从每条SQL语句中提取的所述词排列作为一个句子，生成第一语料库；

在一个例子中，第一语料库中包括如下两个语句：

tid，tname，tdate

sid，stime，sip，sport，tname

其中，第一语料库中的第一条SQL是对t表操作了id字段、name字段和date字段，第二条SQL语句是对s表操作了id字段、time字段、ip字段、port字段和name字段，两条SQL语句都操作了t表的name字段，故，如图8所示，两条SQL语句之间具有交集。tid和tdate在一条SQL语句中，而tid和sport在不同的SQL语句中，所以从词之间距离的远近来说，新的一条SQL语句tid，sport的业务偏离度应大于第一条SQL语句的业务偏离度。

在步骤S706中，使用所述第一语料库训练word2vec，生成所述第一词向量库。

需要说明的是，步骤S702至步骤S706可于图1中所示的步骤S102之前执行，也可在执行SQL日志异常检测方法的过程中，反复循环执行，以通过不断训练得到更佳的第一词向量库。图7中仅是对步骤S702与步骤S706 在步骤S102之前执行的一种情况进行示例。

在本公开的实施例中，word2vec模型结果受语料库的影响最大，根据 word2vec的原理，一个词预测前后词或者前后词预测当前词，使得概率最大化，这导致语料库中相似的句子的相同位置的词会相似，一个句子中邻近的词也会相似。基于此，本公开实施例通过将同一份SQL日志数据组织成不同形式的语料库，可训练得出词的不同词向量表征，并且与业务和用户行为相关联，通过词向量之间的相似性判别用户单条SQL操作或多条SQL行为的异常状态，从而可对SQL日志中的业务异常与用户行为异常进行有效识别。

图9是根据本公开一示例性实施例示出的一种SQL日志异常检测方法的流程图，如图9所示，该方法在图1所示的方法的基础上，还可进一步包括：

在步骤S902中，从预设训练数据中的每条SQL语句中提取词，其中，所述预设训练数据中包括预设SQL日志；

在步骤S904中，按照访问IP地址或用户名将从每条SQL语句中提取的所述词组成形成不同的句子，生成第二语料库；

在一个例子中，第二语料库包括如下两个句子：

tid，tname，tdate，sid，stime，sip，sport

tid，tdate，tage，xid，xname，xsalary…

如图10所示，第二语料库中的两个句子中均有tid、tdate这条SQL语句，故两个句子之间具有交集，但每个句子还各自有另一条SQL语句，比如第一个句子中查询了s表的sport和ip字段，并且在t表中还多查询了name 字段；而第二条句子中查询了x表的name和salary字段，对于一条新的 SQL语句sid，sip，xid，xname，sid和xid之间的距离大于tid和xid之间的距离。

在步骤S906中，使用所述第二语料库训练word2vec，生成所述第二词向量库。

需要说明的是，步骤S902至步骤S906可于图1中所示的步骤S102之前执行，也可在执行SQL日志异常检测方法的过程中，反复循环执行，以通过不断训练得到更佳的第一词向量库。图9中仅是对步骤S902与步骤S906 在步骤S102之前执行的一种情况进行示例。

本公开实施例通过构建不同的语料库，训练得到不同的词向量库，基于不同的词向量库与待测试SQL日志的测试序列可得到不同的测试词向量序列，基于对测试词向量序列中词向量之间的相似度，可检测出与正常业务 SQL请求不同的SQL语句，也能够检测出一个用户的SQL操作序列与正常用户的SQL操作序列的差异。且无需构建复杂的神经网络模型，在训练好 word2vec后，在异常识别阶段仅仅需要比对词向量之间的相似度，计算量较小，效率较高。

在本公开的实施例中，根据所述相似度确定所述待测试SQL日志中是否存在异常SQL操作，可包括：

将所述第一相似度与第二阈值比较，若所述第一相似度不小于所述第二阈值，确定所述待测试SQL日志中存在业务操作异常；

将所述第二相似度与第三阈值比较，若所述第二相似度不小于所述第三阈值，确定所述待测试SQL日志中存在行为操作异常。

其中，本公开实施例中的第一阈值、第二阈值以及第三阈值的数值可根据实际情况进行设置，第一阈值、第二阈值以及第三阈值可相等，或者，根据对不同异常的检测精度要求的不同，第一阈值、第二阈值以及第三阈值可设置为不同的数值。

采用第一语料库以及第二语料库分别训练word2vec模型生成的词向量库中的词向量之间存在相似度，单条SQL语句词语之间的相似性，体现了业务特征，故，根据该相似性可对SQL日志中的异常进行检测。如，对于如下的语料库来说，其中，tid、tdata相似度高，距离近，sid，stime，sip，sport 相似度高，距离近。由于两个句子中均存在tname，tname在离两个区域距离适中，对于一条新的SQL语句tid，sport，tid与sport之间的相似度低，距离较大，则可能属于异常SQL语句。

tid，tname，date

sid，stime，sip，sport，tname……

图11是根据本公开一示例性实施例示出的一种SQL日志异常检测方法的流程图，所述方法还包括：

在步骤S1102中，若确定所述待测试SQL日志中存在业务操作异常，发出业务操作异常提示消息，输出所述业务操作异常对应的异常用户信息和/ 或异常SQL列表；

在步骤S1104中，若确定所述待测试SQL日志中存在行为操作异常，发出行为操作异常提示消息，输出所述行为操作异常对应的异常用户信息和/ 异常SQL列表。

在本公开的实施例中，在确定待测试SQL日志中存在业务操作异常或行为操作异常时，发出业务操作异常提示消息，并输出异常用户信息和/或异常 SQL列表，可及时将异常情况反馈出来，以便于针对异常情况及时进行处理，降低数据损失。

根据所述第一相似度和所述第二相似度确定所述待检测SQL日志中是否存在异常SQL操作。

如，可为第一相似度和第二相似度设置权重，通过对第一相似度以及第二相似度进行加权求和得到一个度量值，将该度量值与上述第一阈值进行对比，若该度量值不小于第一阈值，确定待测试SQL日志中存在异常，若该度量值小于第一阈值确定待测试SQL日志中不存在异常。

以下通过一个例子以结合业务偏离度以及行为偏离度进行SQL异常检测为例，对本公开实施例的SQL日志异常检测方法进行说明。

在该例子中，SQL日志异常检测方法包括：

生成语料库：人工提取一批正常SQL日志数据，作为训练数据；对于每条SQL语句，提取表名和字段名，用表名+字段名组成一个词，若有多个数据库还可加上数据库名；遍历训练数据，将每条SQL提取的词排列作为一个句子，生成语料库1(为上述第一语料库的一个示例)；遍历训练数据，按访问IP地址或用户名排列SQL中提取的词组成不同的句子，生成语料库2(为上述第一语料库的一个示例)；

词向量计算：对语料库1和语料库2，分别用word2vec训练生成每个词的词向量，生成词向量库1(为上述第一词向量库的一个示例)和词向量库2 (为上述第二词向量库的一个示例)；

异常检测和告警：对于新的SQL日志流，提取一段时间内的所有SQL日志，按访问IP地址或用户名排列，并转换为表名+字段名的测试序列，同时记录测试序列中的不同SQL生成的词的初始位置；

对测试序列，按单条SQL位置切分，共生成k条SQL，利用词向量库1，生成测试词向量序列(x1,x2…xn)，计算单条SQL的偏离度

上式中，i≤n，j≤n；

并将多条切分的SQL偏离度求和后除以SQL的条数，生成业务偏离度；

对测试序列，利用词向量库2，生成测试词向量序列(s1,s2…sm),计算行为偏离度

上式中，i≤m，j≤m；

预设阈值1(为上述第二阈值的一个示例)作为业务偏离度的阈值，如果业务偏离度大于阈值1，产生业务操作异常告警；预设阈值2(为上述第三阈值的一个示例)作为行为偏离度的阈值，如果用户行为偏离度大于阈值 2，产生用户行为操作异常告警。

图12是根据本公开一示例性实施例示出的一种SQL日志异常检测装置的结构示意图，如图12所示，该装置120包括：

获取模块122，用于获取待测试结构化查询语言SQL日志；

提取模块124，用于从所述待测试SQL日志中提取SQL操作数据，根据所述SQL操作数据得到测试序列；

生成模块126，用于根据所述测试序列以及预训练得到的词向量库生成所述测试序列中每个词的词向量，得到测试词向量序列，其中，所述词向量库基于预设SQL日志中的SQL操作数据训练得到；

计算模块128，用于计算所述测试词向量序列中的词向量之间的相似度，其中，所述相似度用以表征待测试SQL日志中的SQL操作数据与预设 SQL操作数据之间的差异；

确定模块1210，用于根据所述相似度确定所述待测试SQL日志中是否存在异常SQL操作。

在本公开的实施例中，所述提取模块可包括：

提取子模块，用于从所述待测试SQL日志中的每条SQL语句中提取词；

排列子模块，用于按照访问IP地址或用户名对从每条SQL语句中提取到的词进行排列，得到所述测试序列。

在本公开的实施例中，所述提取子模块具体可用于：

从所述每条SQL语句中提取表名和字段名，将所述表名以及字段名组成词。

在本公开的实施例中，所述测试词向量序列中的词向量包括从所述待测试SQL日志的每条SQL语句中提取的词对应词向量，

所述生成模块具体可用于：

将所述测试序列按照每条SQL语句切分为多条SQL，得到切分后的测试序列；

根据切分后的测试序列以及预训练得到的词向量库生成所述测试序列中每个词的词向量，得到所述测试词向量序列；

计算所述测试词向量序列中的词向量之间的相似度，包括：

计算所述测试词向量序列中词向量之间的相似度的均值，得到所述相似度，其中，所述相似度用于表征待测试SQL日志中的业务与合法业务之间的差异。

在本公开的实施例中，所述测试词向量序列中的词向量包括：从所述待测试SQL日志的每条SQL语句中提取的词按照访问IP地址或用户名组成的句子对应词向量，所述计算模块具体可用于：

计算所述测试词向量序列中的词向量之间的相似度的均值，得到所述相似度，其中，所述相似度用于表征待测试SQL日志中用户或访问IP地址的操作行为与合法操作行为之间的差异。

在本公开的实施例中，所述确定模块具体可用于：

将所述相似度与第一阈值进行比较；

若所述相似度大于所述第一阈值，确定所述待测试SQL日志中存在异常操作；

若所述相似度不大于所述第一阈值，确定所述待测试SQL日志中不存在异常操作。

在本公开的实施例中，所述生成模块具体可用于：

将所述测试序列按照每条SQL语句切分为多条SQL；

根据所述测试序列以及预训练得到的第一词向量库，生成第一测试词向量序列；

根据所述测试序列以及预训练得到的第二词向量库，生成第二测试词向量序列，其中，所述第一词向量库与所述第二词向量库中的词向量不同；

所述计算模块具体可用于：

计算所述第一测试词向量序列中词向量之间的相似度的均值，得到第一相似度，其中，所述第一相似度用于表征待测试SQL日志中的业务与合法业务之间的差异；

计算所述第二测试词向量序列中词向量之间的相似度的均值，得到第二相似度，其中，所述第二相似度用于表征待测试SQL日志中用户或访问IP 地址的操作行为与合法操作行为之间的差异。

在本公开的实施例中，所述SQL日志异常检测装置还可包括：

第一获取模块，用于从预设训练数据中的每条SQL语句提取词，其中，所述预设训练数据中包括预设SQL日志；

第一排列模块，用于将从每条SQL语句中提取的所述词排列作为一个句子，生成第一语料库；

第一生成模块，用于使用所述第一语料库训练word2vec，生成所述第一词向量库。

在本公开的实施例中，所述SQL日志异常检测装置还可包括：

第二获取模块，用于从预设训练数据中的每条SQL语句中提取词，其中，所述预设训练数据中包括预设SQL日志；

第二排列模块，用于按照访问IP地址或用户名将从每条SQL语句中提取的所述词组成形成不同的句子，生成第二语料库；

第二生成模块，用于使用所述第二语料库训练word2vec，生成所述第二词向量库。

在本公开的实施例中，所述确定模块具体可用于：

在本公开的实施例中，所述SQL日志异常检测装置还可包括：

第一输出模块，用于若确定所述待测试SQL日志中存在业务操作异常，发出业务操作异常提示消息，输出所述业务操作异常对应的异常用户信息和/ 异常SQL列表；

第二输出模块，用于若确定所述待测试SQL日志中存在行为操作异常，发出行为操作异常提示消息，输出所述行为操作异常对应的异常用户信息和/ 异常SQL列表。

在本公开的实施例中，所述确定模块具体用于：根据所述第一相似度和所述第二相似度确定所述SQL日志中是否存在异常。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

如图13所示，电子设备1300以通用计算设备的形式表现。电子设备 1300的组件可以包括但不限于：上述至少一个处理单元1310、上述至少一个存储单元1320、连接不同系统组件(包括存储单元1320和处理单元 1310)的总线1330。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元1310执行，使得所述处理单元1310执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如，所述处理单元1310 可以执行如图1中所示的步骤S102：获取待测试结构化查询语言SQL日志；步骤S104：从所述待测试SQL日志中提取SQL操作数据，根据所述 SQL操作数据得到测试序列；步骤S106：根据所述测试序列以及预训练得到的词向量库生成所述测试序列中每个词的词向量，得到测试词向量序列，其中，所述词向量库基于预设SQL日志中的SQL操作数据训练得到；步骤 S108：计算所述测试词向量序列中的词向量之间的相似度，其中，所述相似度用以表征待测试SQL日志中的SQL操作数据与预设SQL操作数据之间的差异；步骤S110：根据所述相似度确定所述待测试SQL日志中是否存在异常SQL操作。

存储单元1320可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)13201和/或高速缓存存储单元13202，还可以进一步包括只读存储单元(ROM)13203。

存储单元1320还可以包括具有一组(至少一个)程序模块13205的程序/实用工具13204，这样的程序模块13205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线1330可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备1300也可以与一个或多个外部设备1400(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备1300 交互的设备通信，和/或与使得该电子设备1300能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1350进行。并且，电子设备1300还可以通过网络适配器1360与一个或者多个网络(例如局域网(LAN)，广域网 (WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器1360 通过总线1330与电子设备1300的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备1300使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。

描述了根据本发明的实施方式的用于实现上述方法的程序产品，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器 (ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、 C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备 (例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U 盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由所附的权利要求指出。

Claims

1.一种SQL日志异常检测方法，其特征在于，包括：

获取待测试结构化查询语言SQL日志；

从所述待测试SQL日志中提取SQL操作数据，根据所述SQL操作数据得到测试序列；

根据所述测试序列以及预训练得到的词向量库生成所述测试序列中每个词的词向量，得到测试词向量序列，其中，所述词向量库基于预设SQL日志中的SQL操作数据训练得到；

计算所述测试词向量序列中的词向量之间的相似度；

根据所述相似度确定所述待测试SQL日志中是否存在异常SQL操作。

2.根据权利要求1所述的方法，其特征在于，从所述待测试SQL日志中提取SQL操作数据，根据所述SQL操作数据得到测试序列，包括：

从所述待测试SQL日志中的每条SQL语句中提取词；

按照访问IP地址或用户名对从每条SQL语句中提取到的词进行排列，得到所述测试序列。

3.根据权利要求2所述的方法，其特征在于，从所述待测试SQL日志中的每条SQL语句中提取词，包括：

4.根据权利要求1所述的方法，其特征在于，所述测试词向量序列中的词向量包括从所述待测试SQL日志的每条SQL语句中提取的词对应词向量，

根据所述测试序列以及预训练得到的词向量库生成所述测试序列中每个词的词向量，得到测试词向量序列，包括：

计算所述测试词向量序列中的词向量之间的相似度，包括：

5.根据权利要求1所述的方法，其特征在于，所述测试词向量序列中的词向量包括：从所述待测试SQL日志的每条SQL语句中提取的词按照访问IP地址或用户名组成的句子对应词向量，计算所述测试词向量序列中的词向量之间的相似度，包括：

6.根据权利要求1所述的方法，其特征在于，根据所述相似度确定所述待测试SQL日志中是否存在异常SQL操作，包括：

将所述相似度与第一阈值进行比较；

7.根据权利要求1所述的方法，其特征在于，

将所述测试序列按照每条SQL语句切分为多条SQL；

计算所述测试词向量序列中的词向量之间的相似度，包括：

计算所述第二测试词向量序列中词向量之间的相似度的均值，得到第二相似度，其中，所述第二相似度用于表征待测试SQL日志中用户或访问IP地址的操作行为与合法操作行为之间的差异。

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

从预设训练数据中的每条SQL语句提取词，其中，所述预设训练数据中包括预设SQL日志；

将从每条SQL语句中提取的所述词排列作为一个句子，生成第一语料库；

使用所述第一语料库训练word2vec，生成所述第一词向量库。

9.根据权利要求7所述的方法，其特征在于，所述方法还包括：

从预设训练数据中的每条SQL语句中提取词，其中，所述预设训练数据中包括预设SQL日志；

按照访问IP地址或用户名将从每条SQL语句中提取的所述词组成形成不同的句子，生成第二语料库；

使用所述第二语料库训练word2vec，生成所述第二词向量库。

10.根据权利要求7所述的方法，其特征在于，根据所述相似度确定所述待测试SQL日志中是否存在异常SQL操作，包括：

11.根据权利要求10所述的方法，其特征在于，所述方法还包括：

若确定所述待测试SQL日志中存在业务操作异常，发出业务操作异常提示消息，输出所述业务操作异常对应的异常用户信息和/异常SQL列表；

若确定所述待测试SQL日志中存在行为操作异常，发出行为操作异常提示消息，输出所述行为操作异常对应的异常用户信息和/异常SQL列表。

12.根据权利要求9所述的方法，其特征在于，根据所述相似度确定所述待测试SQL日志中是否存在异常SQL操作，包括：

根据所述第一相似度和所述第二相似度确定所述SQL日志中是否存在异常。

13.一种SQL日志异常检测装置，其特征在于，包括：

获取模块，用于获取待测试结构化查询语言SQL日志；

提取模块，用于从所述待测试SQL日志中提取SQL操作数据，根据所述SQL操作数据得到测试序列；

生成模块，用于根据所述测试序列以及预训练得到的词向量库生成所述测试序列中每个词的词向量，得到测试词向量序列，其中，所述词向量库基于预设SQL日志中的SQL操作数据训练得到；

计算模块，用于计算所述测试词向量序列中的词向量之间的相似度；

确定模块，用于根据所述相似度确定所述待测试SQL日志中是否存在异常SQL操作。

14.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1～12中任意一项所述的SQL日志异常检测方法。

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1～12中任意一项所述的SQL日志异常检测方法。