CN115270125A

CN115270125A - Ids日志分类预测方法、装置、设备及存储介质

Info

Publication number: CN115270125A
Application number: CN202210963157.9A
Authority: CN
Inventors: 不公告发明人
Original assignee: Jiangsu Anchao Cloud Software Co Ltd
Current assignee: Jiangsu Anchao Cloud Software Co Ltd
Priority date: 2022-08-11
Filing date: 2022-08-11
Publication date: 2022-11-01

Abstract

本申请是关于一种IDS日志分类预测方法、装置、设备及存储介质，具体涉及入侵检测技术领域。所述方法包括：获取日志词典；通过日志词典对训练数据集中的目标样本文本进行处理，获得目标样本文本对应的样本词典向量通过词向量矩阵对样本词典向量进行加权处理，获得样本输入向量；将样本输入向量通过LSTM模型进行处理，获得样本预测结果；基于样本预测结果以及目标样本文本的标注，对LSTM模型的权重参数以及词向量矩阵进行反向传播更新；训练完成的LSTM模型以及训练完成的词向量矩阵用于对目标日志文本进行日志分类预测。上述方案通过训练好的LSTM模型，对日志进行分类预测，可以在保证入侵检测的检测效率的同时，提高入侵检测的准确性。

Description

IDS日志分类预测方法、装置、设备及存储介质

技术领域

本发明涉及入侵检测技术领域，具体涉及一种IDS日志分类预测方法、装置、设备及存储介质。

背景技术

入侵检测(IDS)技术是继“防火墙”、“数据加密”等传统安全保护措施后新一代的安全保障技术，它对计算机和网络资源上的恶意使用行为进行识别和响应，不仅检测来自外部的入侵行为，同时也监督内部用户的未授权活动。

但是随着网络入侵技术的发展和变化以及网络运用的不断深入，现有入侵检测系统暴露出了诸多的问题。特别是由于网络流量增加、新安全漏洞未更新规则库和特殊隧道及后门等原因造成的漏报问题和IDS攻击以及网络数据特征匹配的不合理特性等原因造成的误报问题，导致IDS对攻击行为反应迟缓，增加安全管理人员的工作负担，严重影响了IDS发挥实际的作用。

因此，亟需一种IDS技术的辅助技术方案，在保证入侵检测的检测效率的同时，提高入侵检测的准确性。

发明内容

本申请提供了一种IDS日志分类预测方法、装置、设备及存储介质，在保证入侵检测的检测效率的同时，提高入侵检测的准确性，该技术方案如下。

一方面，提供了一种IDS日志分类预测方法，所述方法包括：

获取日志词典；

通过所述日志词典对训练数据集中的目标样本文本进行处理，获得目标样本文本对应的样本词典向量；

通过词向量矩阵对所述样本词典向量进行加权处理，获得样本输入向量；

将样本输入向量通过LSTM模型进行处理，获得样本预测结果；

基于所述样本预测结果以及目标样本文本的标注，对所述LSTM模型的参数以及词向量矩阵进行反向传播更新；

训练完成的LSTM模型以及训练完成的词向量矩阵用于对目标日志文本进行日志分类预测。

又一方面，提供了一种IDS日志分类预测装置，所述装置包括：

日志词典获取模块，用于获取日志词典；

词典向量获取模块，用于通过所述日志词典对训练数据集中的目标样本文本进行处理，获得目标样本文本对应的样本词典向量；

输入向量获取模块，用于通过词向量矩阵对所述样本词典向量进行加权处理，获得样本输入向量；

预测模块，用于将样本输入向量通过LSTM模型进行处理，获得样本预测结果；

参数更新模块，用于基于所述样本预测结果以及目标样本文本的标注，对所述LSTM模型的权重参数以及词向量矩阵进行反向传播更新；

在一种可能的实现方式中，所述目标样本文本的标注包括未告警、正常告警以及误告警中的至少一者。

在一种可能的实现方式中，所述日志词典获取模块，还用于获取训练数据集、验证数据集以及测试数据集中至少一者中的日志样本文本；

对所述日志样本文本进行分词处理，获得日志分词结果；

选取所述日志分词结果中，出现频率最大的N个词，并分别分配对应的编码，以构建所述日志词典。

在一种可能的实现方式中，所述日志词典获取模块，还用于将所述日志样本文本中的非英文文本过滤，获得过滤样本文本；

对所述过滤样本文本进行分词处理，获得所述日志分词结果。

在一种可能的实现方式中，所述词典向量获取模块，还用于当所述日志词典中存在所述目标样本文本的第一词语时，根据所述日志词典，将所述第一词语转换为与所述第一词语对应的第一编码。

在一种可能的实现方式中，词典向量获取模块，还用于当所述日志词典中不存在所述目标样本文本的第二词语时，将所述第二词语转换为候选编码。

在一种可能的实现方式中，词典向量获取模块，还用于当所述目标样本文本的各个词语都转换为编码格式后，检测所述目标样本文本包含的编码数量；

当所述编码数量小于编码阈值时，通过补充编码将所述目标样本文本中包含的编码数量补充至编码阈值。

在一种可能的实现方式中，所述装置还包括目标文本获取模块

所述目标文本获取模块，用于获取所述目标日志文本；

所述词典向量获取模块，还用于通过所述日志词典，对所述目标日志文本进行处理，获得目标日志文本对应的日志词典向量；

所述输入向量获取模块，还用于通过训练完成后的词向量矩阵对所述日志词典向量进行加权处理，获得日志输入向量；

所述预测模块，还用于将所述日志词典向量通过训练完成后的LSTM模型进行处理，获得日志分类结果。

又一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现上述的IDS日志分类预测方法。

又一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现上述的IDS日志分类预测方法。

再一方面，提供了一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质中读取所述计算机指令，处理器执行所述计算机指令，使得所述计算机设备执行上述IDS日志分类预测方法。

本申请提供的技术方案可以包括以下有益效果：

为了实现对IDS日志的分类预测，可以先将训练数据集中的目标样本文本通过日志词典进行处理，将重要的文本词语编码成样本词典向量，再通过词向量矩阵对样本词典向量进行加权处理，得到样本输入向量，此时计算机设备可以将样本输入向量通过LSTM模型进行处理，得到样本预测结果，此时样本预测结果以及目标样本文本的标注即形成了本轮预测的误差，根据误差通过反向传播算法即可以对LSTM模型的权重参数以及词向量矩阵进行反向传播更新，训练好的LSTM模型以及词向量矩阵即可以实现对目标日志文本的日志分类预测。上述方案，先通过词典以及词向量矩阵对目标样本文本进行预处理，并通过预处理后得到的样本输入向量对LSTM RNN网络进行训练，使得训练后的LSTM RNN网络越来越匹配当前的IDS日志审查环境，此时通过训练好的LSTM模型，对日志进行分类预测，可以在保证入侵检测的检测效率的同时，提高入侵检测的准确性。

附图说明

为了更清楚地说明本申请具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的一种IDS日志分类预测系统的结构示意图。

图2是根据一示例性实施例示出的一种IDS日志分类预测方法的方法流程图。

图3是根据一示例性实施例示出的一种IDS日志分类预测方法的方法流程图。

图4示出了本申请实施例涉及的一种常见的LSTM模型结构示意图。

图5示出了本申请实施例涉及的一种LSTM训练流程示意图。

图6示出了本申请实施例涉及的一种IDS日志分类预测装置。

图7是根据本申请一示例性实施例提供的一种计算机设备示意图。

具体实施方式

下面将结合附图对本申请的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应理解，在本申请的实施例中提到的“指示”可以是直接指示，也可以是间接指示，还可以是表示具有关联关系。举例说明，A指示B，可以表示A直接指示B，例如B可以通过A获取；也可以表示A间接指示B，例如A指示C，B可以通过C获取；还可以表示A和B之间具有关联关系。

在本申请实施例的描述中，术语“对应”可表示两者之间具有直接对应或间接对应的关系，也可以表示两者之间具有关联关系，也可以是指示与被指示、配置与被配置等关系。

本申请实施例中，“预定义”可以通过在设备(例如，包括终端设备和网络设备)中预先保存相应的代码、表格或其他可用于指示相关信息的方式来实现，本申请对于其具体的实现方式不做限定。

在对本申请所示的各个实施例进行说明之前，首先对本申请涉及到的几个概念进行介绍。

1)入侵检测系统(intrusion detection system，IDS)

IDS是一种对网络传输进行即时监视，在发现可疑传输时发出警报或者采取主动反应措施的网络安全设备。它与其他网络安全设备的不同之处便在于，IDS是一种积极主动的安全防护技术。IDS是计算机的监视系统，它通过实时监视系统，一旦发现异常情况就发出警告。以信息来源的不同和检测方法的差异分为几类：根据信息来源可分为基于主机IDS和基于网络的IDS，根据检测方法又可分为异常入侵检测和误用入侵检测。不同于防火墙，IDS入侵检测系统是一个监听设备，没有跨接在任何链路上，无须网络流量流经它便可以工作。因此，对IDS的部署，唯一的要求是：IDS应当挂接在所有所关注流量都必须流经的链路上。在这里，"所关注流量"指的是来自高危网络区域的访问流量和需要进行统计、监视的网络报文。在如今的网络拓扑中，已经很难找到以前的HUB式的共享介质冲突域的网络，绝大部分的网络区域都已经全面升级到交换式的网络结构。因此，IDS在交换式网络中的位置一般选择在尽可能靠近攻击源或者尽可能靠近受保护资源的位置。这些位置通常是：服务器区域的交换机上；Internet接入路由器之后的第一台交换机上；重点保护网段的局域网交换机上。由于入侵检测系统的市场在飞速发展，许多公司投入到这一领域上来。

2)循环神经网络(Recurrent Neural Network，RNN)

循环神经网络(Recurrent Neural Network,RNN)是一类以序列(sequence)数据为输入，在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(recursive neural network)。

对循环神经网络的研究始于二十世纪80-90年代，并在二十一世纪初发展为深度学习(deep learning)算法之一，其中双向循环神经网络(Bidirectional RNN,Bi-RNN)和长短期记忆网络(Long Short-Term Memory networks，LSTM)是常见的循环神经网络。

循环神经网络具有记忆性、参数共享并且图灵完备(Turing completeness)，因此在对序列的非线性特征进行学习时具有一定优势。循环神经网络在自然语言处理(NaturalLanguage Processing,NLP)，例如语音识别、语言建模、机器翻译等领域有应用，也被用于各类时间序列预报。引入了卷积神经网络(Convolutional Neural Network，CNN)构筑的循环神经网络可以处理包含序列输入的计算机视觉问题。

图1是根据一示例性实施例示出的一种IDS日志分类预测系统的结构示意图。该系统包括终端120以及云服务器110。

可选的，该终端120中可以是安装有IDS系统(即入侵检测系统)的计算机设备，该终端120中的入侵检测系统可以针对自身的网络环境进行检测，也可以对该终端120所处的网络环境中的各个设备进行检测。当该终端120中安装有IDS系统时，该IDS系统运行时生成的告警日志可以保存在终端120的数据存储组件中。

可选的，该终端120的数据存储组件中存储的告警日志，可以传输至云服务器110中进行识别，从而确定出入侵检测系统的告警日志中的各个日志文本是否对应告警状态。

可选的，该终端120中还可以加载有告警日志分析软件，终端120的数据存储组件中存储的告警日志，可以直接通过终端运行的告警日志分析软件进行分析，从而确定告警日志中的各条日志文本是否对应告警状态。

可选的，该告警日志分析软件中包含有训练好的LSTM模型，该LSTM模型是根据预先标注好的告警日志文本进行训练得到的。

可选的，该服务器110中保存有预先标注好的告警日志文本，当该服务器110接收到训练指示时，可以创建好初始LSTM模型，并根据预先标注好的告警日志文本对该初始LSTM模型进行训练，并将训练好的LSTM模型传输至终端120中，以便终端120通过告警日志分析软件调用该LSTM模型对告警日志中的各条日志文本进行检测。

可选的，该终端可以是具有数据处理功能以及数据存储功能的终端设备，该终端可以包括一个终端，也可以包括多个终端，本申请实施例对该终端的数量不设限制。该终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等具有数据处理器以及数据存储组件的终端设备，但不局限于此。

可选的，该云服务器可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础运计算服务的云服务器。

可选的，该云服务器110与该终端120之间可以通过通信网络相连。可选的，该通信网络可以是有线网络或无线网络。

可选的，上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网，但也可以是其他任何网络，包括但不限于局域网、城域网、广域网、移动、有限或无线网络、专用网络或者虚拟专用网络的任何组合。在一些实施例中，使用包括超文本标记语言、可扩展标记语言等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层、传输层安全、虚拟专用网络、网际协议安全等常规加密技术来加密所有或者一些链路。在另一些实施例中，还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。

图2是根据一示例性实施例示出的一种IDS日志分类预测方法的方法流程图。该方法由计算机设备执行，该计算机设备可以是如图1中所示的IDS日志分类预测系统中的服务器110。如图2所示，该IDS日志分类预测方法可以包括如下步骤：

步骤201，获取日志词典。

在传统IDS系统的运行过程中，会积累大量的日志告警数据，包括正常告警和误报告警，而正常告警又可以分为SQL注入、XSS、LFI、Command注入等放慢，并且云计算领域在东西和南北方向收集网络流量，其日志数据具有数据量大、数据类型繁多、数据价值高等特征。

因此本申请实施例拟通过训练一种LSTM模型，来实现对IDS系统运行过程中的日志进行分类，判定是否为告警日志，从而辅助IDS系统告警。

而由于LSTM模型的训练过程中，需要将英文字符转变为指定类型的输入数据，因此在本申请实施例中，服务器首先需要获取到IDS日志所对应的日志词典，以将IDS日志中的文档转换为对应的数据。

步骤202，通过该日志词典对训练数据集中的目标样本文本进行处理，获得目标样本文本对应的样本词典向量。

当服务器获取到IDS系统对应的日志词典，以及IDS系统对应的训练数据集后，则可以通过日志词典对训练数据集中的目标样本文本进行处理，使得目标样本文本中的各个词语转换为对应的数据，从而使得目标样本文本变换为对应的样本词典向量。

步骤203，通过词向量矩阵对该样本词典向量进行加权处理，获得样本输入向量。

由于目标样本文本中的各个词语的重要性是不一致的，因此样本词典向量在输入LSTM模型进行处理之前，需要先通过词向量矩阵进行处理，将样本词典向量中的各个数据赋予对应的权重，得到样本数据向量。

步骤204，将样本输入向量通过LSTM模型进行处理，获得样本预测结果。

当获取到样本输入向量后，则可以将该样本输入向量通过LSTM模型进行处理，从而得到样本预测结果。在本申请实施例中，该样本预测结果可以为该目标样本文本是否为日志告警文本。

步骤205，基于该样本预测结果以及目标样本文本的标注，对该LSTM模型的权重参数以及词向量矩阵进行反向传播更新。

在确定样本预测结果指示目标样本文本是否为日志告警文本后，则可以将样本预测结果与目标样本文本的标注(也就是目标样本文本实际是否为日志告警文本)通过损失函数进行损失函数值的计算，并基于损失函数值，通过反向传播算法，对LSTM模型的权重参数以及词向量矩阵进行反向传播更新处理，使得更新后的LSTM模型以及词向量矩阵可以学习到本次目标样本文本中的特征。

因此，经过多次训练后，训练完成的LSTM模型以及训练完成的词向量矩阵用于对目标日志文本进行日志分类预测，且此时日志分类预测具有一定的准确性，并且此时在日志分类预测时，只需要将需要识别的日志依次通过日志词典、训练好的词向量矩阵以及训练好的LSTM模型进行处理，即可以获取到日志是否为告警日志，从而辅助IDS系统判断是否发生告警事件。

综上所述，为了实现对IDS日志的分类预测，可以先将训练数据集中的目标样本文本通过日志词典进行处理，将重要的文本词语编码成样本词典向量，再通过词向量矩阵对样本词典向量进行加权处理，得到样本输入向量，此时计算机设备可以将样本输入向量通过LSTM模型进行处理，得到样本预测结果，此时样本预测结果以及目标样本文本的标注即形成了本轮预测的误差，根据误差通过反向传播算法即可以对LSTM模型的权重参数以及词向量矩阵进行反向传播更新，训练好的LSTM模型以及词向量矩阵即可以实现对目标日志文本的日志分类预测。上述方案，先通过词典以及词向量矩阵对目标样本文本进行预处理，并通过预处理后得到的样本输入向量对LSTM RNN网络进行训练，使得训练后的LSTM RNN网络越来越匹配当前的IDS日志审查环境，此时通过训练好的LSTM模型，对日志进行分类预测，可以在保证入侵检测的检测效率的同时，提高入侵检测的准确性。

图3是根据一示例性实施例示出的一种IDS日志分类预测方法的方法流程图。该方法由计算机设备执行，该计算机设备可以是如图1中所示的IDS日志分类预测系统中的服务器120以及终端110共同执行。如图2所示，该IDS日志分类预测方法可以包括如下步骤：

步骤301，获取日志词典。

在本申请实施例的一种可能的实现方式中，获取训练数据集、验证数据集以及测试数据集中至少一者中的日志样本文本；对该日志样本文本进行分词处理，获得日志分词结果；选取该日志分词结果中，出现频率最大的N个词，并分别分配对应的编码，以构建该日志词典。

在LSTM的训练过程中，分别包括训练阶段、验证阶段以及测试阶段，训练阶段及通过训练数据集对LSTM的参数进行调整，而验证阶段则是通过验证数据集对LSTM的识别准确率进行验证，当LSTM的准确率达到先提高后降低的拐点后，则说明此时LSTM已经训练完成，当再训练时会发生过拟合；而当LSTM训练完成后，则可以通过测试数据集对LSTM进行最终的测试，从而确定训练好的LSTM模型的识别准确率。

因此在本申请实施例中，训练数据集、验证数据集以及测试数据集中的日志样本文本以及日志样本文本中的标注是相似的，此时计算机设备可以在训练数据集、验证数据集以及测试数据集中的至少一者中选取日志样本文本，并将其进行分词处理，从而得到日志分词结果。计算机设备再在日志分词结果中，将出现频率最大的N个词分配对应的编码，从而构建为日志词典。

此时日志词典即收录了日志样本文本中可能出现的较为重要的词语，并将其与各个编码对应起来，此时计算机设备获取到其他日志文本时，则可以将词语与编码的对应关系，将日志文本替换为各个编码组成的向量，以便后续通过模型进行处理。

在一种可能的实现方式中，将该日志样本文本中的非英文文本过滤，获得过滤样本文本；对该过滤样本文本进行分词处理，获得该日志分词结果。

由于在IDS系统的告警日志中，可能出现非英文文本(例如特殊字符等)，为了保证分词以及后续模型处理的准确性，需要将这些非英文文本进行清洗过滤，得到过滤样本文本，此时再对过滤样本文本进行分词，得到日志分词结果(也就是分词后的各个英文单词)。

进一步的，首先可以将实际采集到的IDS日志分为训练数据，验证数据，和测试数据。

train set(训练数据)：该集合是用于训练模型的。

dev set(验证数据)：该集合是用于在训练模型中评估模型，以促进模型优化的。

test set(测试数据)：该集合是用于测试训练好的模型是否有效，分类预测得出实际的结果。

数据都是以如下格式在数据集中存在的(英文句子为日志数据，0，1，2为分类和预测的类型)：

Accepted password 0

Accepted publickey 0

session opened 0

Failed user login 1

authentication failure 1

failed password 1

session closed 1

password changed 2

new user 2

delete user 2

我们需要把训练集train set、验证集dev set中的英文文本先清洗，然后分词，最后构建出日志词典，转存为pkl格式文件(vocab.pkl)。

运行神经网络模型需要用到词典，每构建一次词典，需要读取训练集train set、验证集dev set，当数据集较大时时间上难以接受，转存一次，之后直接读取就行。而pkl文件是需要导入pickle库才能读取/保存的，pkl文件是一种保存数据的格式。

步骤302，通过该日志词典对训练数据集中的目标样本文本进行处理，获得目标样本文本对应的样本词典向量。

在一种可能的实现方式中，该目标样本文本的标注包括未告警、正常告警以及误告警中的至少一者。

在一种可能的实现方式中，当该日志词典中存在该目标样本文本的第一词语时，根据该日志词典，将该第一词语转换为与该第一词语对应的第一编码。

在一种可能的实现方式中，当该日志词典中不存在该目标样本文本的第二词语时，将该第二词语转换为候选编码。

在一种可能的实现方式中，当该目标样本文本的各个词语都转换为编码格式后，检测该目标样本文本包含的编码数量；当该编码数量小于编码阈值时，通过补充编码将该目标样本文本中包含的编码数量补充至编码阈值。

也就是说，当需要通过训练数据集中的目标样本文本对LSTM模型进行训练之前，需要通过如步骤301所示的方案获得的日志词典进行处理。

当日志词典中存在目标样本文本中的第一词语(该第一词语是目标样本文本中的任一个)，则日志词典可以直接按照第一词语与第一编码之间的对应关系，将目标样本文本中的第一词语替换为第一编码。

但由于日志词典是选取出现频率较高的词语生成的，因此日志词典中有可能不包含目标样本文本中的某些词语(如第二词语)，此时计算机设备直接将该第二词语转换为候选编码。

由于目标样本文本最后需要通过LSTM模型进行处理，而模型的输入一般都是固定的，因此在本申请实施例中，当目标样本文本的长度不够时，也就是目标样本文本所包含的编码数量小于编码阈值时，则可以通过补充编码将目标样本文本包含的编码数量补充至编码阈值，以便后续通过模型进行数据处理。

例如，假设一个文本为I love NLP，而构建的词典为{I:0,love:1}，我们通常会先在词典中加两个词<pad>和<unk>。其中<pad>表示当文本长度不够的补齐词，<unk>表示不在文本中的词。

这样，词典变为{I:0,love:1,<pad>:2,<unk>:3}，当pad_len＝3时，文本被表示成I love<unk>＝[0,1,3]；当pad_len＝5时，文本被表示成I love<unk><pad><pad>＝[0,1,3,2,2]。

步骤303，通过词向量矩阵对该样本词典向量进行加权处理，获得样本输入向量。

在本申请实施例的一种可能的实现方式中，样本词典向量为300维。(简单可以理解为语句不能超过300字长，不足则填充pad,多余则截断)。在这里可以使用的是glove.6B.50d英文在日常使用的权重训练集作为词向量矩阵。通过该词向量矩阵对样本词典向量进行计算，即可以获得加权后得到的样本输入向量。

通过日志词典和预训练词向量矩阵，可以把一句话转化成计算机能够理解的矩阵。通过神经网络返向传播来计算更新，此时不光更新权重参数矩阵W，也会通过更新词向量矩阵更新输入数据。这也是模型会越来越匹配当前的IDS日志审查环境的原因。

步骤304，将样本输入向量通过LSTM模型进行处理，获得样本预测结果。

请参考图4，其示出了本申请实施例涉及的一种常见的LSTM模型结构示意图。如图4所示，在本申请实施例中，开发人员可以根据如图4所示的LSTM模型，调整语句长度，神经连接层数，损失函数，字向量维度等。

步骤305，基于该样本预测结果以及目标样本文本的标注，对该LSTM模型的权重参数以及词向量矩阵进行反向传播更新。

在获取到样本预测结果后，在可以通过样本预测结果以及目标样本文本的标注，计算损失函数值，并根据损失函数值对LSTM模型的权重参数以及词向量矩阵通过反向传播算法进行反向传播更新。

此处带入train set和dev set数据，通过多轮训练得到损失相对较小，正确率较高的LSTM模型，并以ckpt的格式保存在项目中。然后带入test set数据，通过最佳的模型对测试数据做预测和分类。

我们最后可以通过混淆矩阵(confusion matrix)让我们对预测结果和原始数据有一个宏观的了解。同时我们也可以利用混淆矩阵数据得到参数：precision(精确率)recall(查全率)f1-score(调和指标)。看看我们模型的分类预测能力是否达到我们想要的效果。

步骤306，获取该目标日志文本。

当LSTM模型训练好后，则可以将LSTM模型用于对目标日志文本的预测。例如当步骤301至步骤305由服务器执行，以实现在服务器中实现对LSTM模型的训练流程后，服务器可以将训练好的LSTM模型发送至终端中，以便终端调用该LSTM模型对目标日志文本进行预测。

步骤307，通过该日志词典，对该目标日志文本进行处理，获得目标日志文本对应的日志词典向量。

在本申请实施例中，由于目标日志文本也是人能理解的日志记录，因此需要通过日志词典vocab.pkl转换为计算机可以理解的日志词典向量。

步骤308，通过训练完成后的词向量矩阵对该日志词典向量进行加权处理，获得日志输入向量。

而当对日志词典向量进行处理之前，还需要通过训练完成后的词向量矩阵，对日志词典向量进行计算，从而实现对日志词典向量的加权，得到日志输入向量。

步骤309，将该日志词典向量通过训练完成后的LSTM模型进行处理，获得日志分类结果。

此时日志输入向量即可以被LSTM进行处理，因此终端可以直接将日志输入向量输入至LSTM模型，LSTM模型对日志输入向量处理后则可以得到目标日志文本所对应的日志分类结果，也就是对目标日志文本的预测分类结果。

请参考图5，其示出了本申请实施例涉及的一种LSTM训练流程示意图。如图5所示，该LSTM训练流程包括如下步骤：

1、开始主程序

2、把训练数据，验证数据，和测试数据(人能理解的日志记录)通过vocab.pkl(数据集索引列表)和Embedding(初始向量矩阵)转译成计算机能理解的多维长向量；

3、调整LSTM模型相应参数及神经网络层级，准备训练模型；

4、训练模型，根据训练数据，验证数据内容确认：每100次数据训练记录损失和正确率。达到最小损失和最大正确率时，保存此时的模型。把测试数据导入模型计算，对未分类的测试数据进行分类和预测(对测试数据做出判断，如是否误报，如果不是误报则属于SQL注入，XSS，LFI(Lethal Force Institute)，Command注入等攻击中的哪种)；

5、结束程序；

根据上述步骤该改进的LSTM的IDS日志分类预测方法，其特点在于：LSTM RNN网络相较于CNN(卷积神经网络)更适合于有上下文关系的日志语句的分类和预测；训练得到准确率最高的模型，对未知的日志类型也可做比较准确的预测和分类，在IDS大量日志的状况下，可以减少人工审查的压力；随着训练和验证，RNN会对Embedding做权重的微调，使得模型会越来越匹配当前的IDS日志审查环境。

请参考图6，其示出了本申请实施例涉及的一种IDS日志分类预测装置。所述装置包括：

日志词典获取模块601，用于获取日志词典；

词典向量获取模块602，用于通过所述日志词典对训练数据集中的目标样本文本进行处理，获得目标样本文本对应的样本词典向量；

输入向量获取模块603，用于通过词向量矩阵对所述样本词典向量进行加权处理，获得样本输入向量；

预测模块604，用于将样本输入向量通过LSTM模型进行处理，获得样本预测结果；

参数更新模块605，用于基于所述样本预测结果以及目标样本文本的标注，对所述LSTM模型的权重参数以及词向量矩阵进行反向传播更新；

对所述日志样本文本进行分词处理，获得日志分词结果；

所述目标文本获取模块，用于获取所述目标日志文本；

请参阅图7，其是根据本申请一示例性实施例提供的一种计算机设备示意图，所述计算机设备包括存储器和处理器，所述存储器用于存储计算机程序，所述计算机程序被所述处理器执行时，以实现上述方法。

其中，处理器可以为中央处理器(Central Processing Unit，CPU)。处理器还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本发明实施方式中的方法对应的程序指令/模块。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块，从而执行处理器的各种功能应用以及数据处理，即实现上述方法实施方式中的方法。

存储器可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储处理器所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

在一示例性实施例中，还提供了一种计算机可读存储介质，用于存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行以实现上述方法中的全部或部分步骤。例如，该计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

在一示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述图2或图3任一实施例所示方法的全部或部分步骤。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种IDS日志分类预测方法，其特征在于，所述方法包括：

获取日志词典；

将样本输入向量通过LSTM模型进行处理，获得样本预测结果；

基于所述样本预测结果以及目标样本文本的标注，对所述LSTM模型的权重参数词向量矩阵进行反向传播更新；

2.根据权利要求1所述的方法，其特征在于，所述目标样本文本的标注包括未告警、正常告警以及误告警中的至少一者。

3.根据权利要求2所述的方法，其特征在于，所述获取日志词典包括：

获取训练数据集、验证数据集以及测试数据集中至少一者中的日志样本文本；

对所述日志样本文本进行分词处理，获得日志分词结果；

4.根据权利要求3所述的方法，其特征在于，所述对所述日志样本文本进行分词处理，获得日志分词结果，包括：

将所述日志样本文本中的非英文文本过滤，获得过滤样本文本；

5.根据权利要求1至4任一所述的方法，其特征在于，所述通过所述日志词典对训练数据集中的目标样本文本进行处理，获得目标样本文本对应的样本词典向量，包括：

当所述日志词典中存在所述目标样本文本的第一词语时，根据所述日志词典，将所述第一词语转换为与所述第一词语对应的第一编码。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

当所述日志词典中不存在所述目标样本文本的第二词语时，将所述第二词语转换为候选编码。

7.根据权利要求5所述的方法，其特征在于，所述方法还包括：

当所述目标样本文本的各个词语都转换为编码格式后，检测所述目标样本文本包含的编码数量；

8.根据权利要求1至4任一所述的方法，其特征在于，所述方法还包括：

获取所述目标日志文本；

通过所述日志词典，对所述目标日志文本进行处理，获得目标日志文本对应的日志词典向量；

通过训练完成后的词向量矩阵对所述日志词典向量进行加权处理，获得日志输入向量；

将所述日志词典向量通过训练完成后的LSTM模型进行处理，获得日志分类结果。

9.一种IDS日志分类预测装置，其特征在于，所述装置包括：

日志词典获取模块，用于获取日志词典；

10.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如权利要求1至8任一所述的IDS日志分类预测方法。

11.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1至8任一所述的IDS日志分类预测方法。