CN112367222A

CN112367222A - 网络异常检测方法和装置

Info

Publication number: CN112367222A
Application number: CN202011186968.XA
Authority: CN
Inventors: 李亚梦; 黄兵明; 廖军; 王光全
Original assignee: China United Network Communications Group Co Ltd
Current assignee: China United Network Communications Group Co Ltd
Priority date: 2020-10-30
Filing date: 2020-10-30
Publication date: 2021-02-12
Anticipated expiration: 2040-10-30
Also published as: CN112367222B

Abstract

本发明实施例提供一种网络异常检测方法和装置，涉及互联网技术领域，用于网络系统的异常检测，能够提高异常检测的准确率。该方法包括：获取目标系统在第一时间段内的多条第一日志信息；第一日志信息用于指示系统的运行状态；根据分类算法确定第一日志信息对应的目标类别；分类算法用于根据第一日志信息的距离和词性序列分类；若目标类别和预测类别不同的个数大于阈值，则确定目标系统异常；预测类别为根据预测算法和第一日志信息对应的目标类别确定的。本发明用于网络系统的异常检测。

Description

网络异常检测方法和装置

技术领域

本发明涉及互联网技术领域，尤其涉及一种网络异常检测方法和装置。

背景技术

随着通信网络的发展，网络系统架构与应用服务体系日益庞大，网络系统与应用服务运行过程中将产生巨量的日志信息，这些日志信息记录了网络系统和应用服务的运行状态等信息。日志信息的异常检测是保持网络系统和应用服务正常运行的一项重要手段，及时的异常检测可以有效预防故障的发生，减轻故障影响。目前的异常检测方法通常是对日志信息的点异常point anomaly进行检测，即单独对一条或一段日志信息进行检测，由于日志信息的基数庞大，各类系统或应用的日志信息格式可能不同，因此这种异常检测方法的检测准确率较低，且效率低下。

发明内容

本发明的实施例提供一种网络异常检测方法和装置，用于网络系统的异常检测，能够提高异常检测的准确率。

为达到上述目的，本发明的实施例采用如下技术方案：

第一方面，提供一种网络异常检测方法，包括：获取目标系统在第一时间段内的多条第一日志信息；第一日志信息用于指示系统的运行状态；根据分类算法确定第一日志信息对应的目标类别；分类算法用于根据第一日志信息的距离和词性序列分类；若目标类别和预测类别不同的个数大于阈值，则确定目标系统异常；预测类别为根据预测算法和第一日志信息对应的目标类别确定的。

第二方面，提供一种网络异常检测装置，包括：获取模块，用于获取目标系统在第一时间段内的多条第一日志信息；第一日志信息用于指示系统的运行状态；分类模块，用于根据分类算法确定获取模块获取的第一日志信息对应的目标类别；分类算法用于根据第一日志信息的距离和词性序列分类；处理模块，用于在分类模块确定的目标类别和预测类别不同的个数大于阈值时，确定目标系统异常；预测类别为根据预测算法和第一日志信息对应的目标类别确定的。

第三方面，提供一种网络异常检测装置，包括：存储器、处理器、总线和通信接口；存储器用于存储计算机执行指令，处理器与存储器通过总线连接；当网络异常检测装置运行时，处理器执行存储器存储的计算机执行指令，以使网络异常检测装置执行如第一方面提供的网络异常检测方法。

第四方面，提供一种计算机可读存储介质，计算机可读存储介质包括计算机执行指令，当计算机执行指令在计算机上运行时，使得计算机执行如第一方面提供的网络异常检测方法。

本发明实施例提供的网络异常检测方法，包括：获取目标系统在第一时间段内的多条第一日志信息；第一日志信息用于指示系统的运行状态；根据分类算法确定第一日志信息对应的目标类别；分类算法用于根据第一日志信息的距离和词性序列分类；若目标类别和预测类别不同的个数大于阈值，则确定目标系统异常。本发明实施例提供的网络异常检测方法能够通过对网络系统(也可以是软件系统或硬件系统等)一段时间内的日志信息进行分析，确定该段时间内产生的日志信息的目标类别；由于在对日志信息进行分类时，本发明实施例不仅仅通过欧氏距离对日志信息进行分类，还通过日志信息的词性序列进一步对日志信息分类以获得日志信息的目标类别，因此能够获得更为准确的日志分类结果；在日志信息分类的基础上，本发明实施例根据日志信息的目标类别和预测算法可以确定相应的预测类别，并在日志信息的预测类别和目标类别不同的个数大于阈值时，确定日志信息异常，进而确定网络系统存在异常；由于本发明实施例是根据多条日志信息来确定网络系统是否异常，且通过词性序列的分类方式提高日志信息的分类准确性，因此本发明实施例的网络异常检测方法在提升异常检测效率的同时，提高异常检测的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种网络系统的架构示意图；

图2为本发明实施例提供的一种网络异常检测方法的流程示意图之一；

图3为本发明实施例提供的一种网络异常检测方法的流程示意图之二；

图4为本发明实施例提供的一种网络异常检测方法的流程示意图之三；

图5为本发明实施例提供的一种网络异常检测方法的流程示意图之四；

图6为本发明实施例提供的一种LSTM单元的结构示意图；

图7为本发明实施例提供的一种LSTM模型的结构示意图；

图8为本发明实施例提供的一种网络异常检测装置的结构示意图之一；

图9为本发明实施例提供的一种网络异常检测装置的结构示意图之二；

图10为本发明实施例提供的一种网络异常检测装置的结构示意图之三；

图11为本发明实施例提供的又一种网络异常检测装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本发明实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

为了便于清楚描述本发明实施例的技术方案，在本发明的实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分，本领域技术人员可以理解“第一”、“第二”等字样并不是在对数量和执行次序进行限定。

本发明实施例提供一种网络系统架构，如图1所示，包括：终端10、通信网络11和服务器12。

具体地，这里的终端10可以为用户提供应用服务，并记录相应的日志信息。终端10可以为手机、电脑，还可以为蜂窝电话、无绳电话、会话发起协议(session initiationprotocol，SIP)电话、智能电话、无线本地环路(wireless local loop，WLL)站、个人数字助理(personal digital assistant，PDA)、膝上型计算机、手持式通信设备、手持式计算设备、卫星无线设备、无线调制解调器卡、电视机顶盒(set top box，STB)、用户驻地设备(customer premise equipment，CPE)和/或用于在无线系统上进行通信的其它设备。

通信网络11用于为终端10和服务器12提供传输数据的通信链路。通信网络11可以通过有线网络提供通信链路，也可以通过无线网路、光纤电缆等方式提供通信链路。

服务器12可以为终端10提供应用服务，还可以获取终端10的日志信息。服务器12可以为服务器集群(由多个服务器组成)中的一个服务器，也可以是该一个服务器中的芯片，还可以是该一个服务器中的片上系统，还可以通过部署在物理机上的虚拟机(virtualmachine，VM)实现。

需要说明的是，图1所示的网络系统架构中终端10和服务器12仅为示例性的，根据网络系统架构的应用场景不同，终端10和服务器12的数量均可以包括多个，且在网络系统应用于不同的场景时，上述的终端10和服务器12可以相应地改变，例如，当该网络系统架构应用于工业生产时，终端10还可以是生产过程中的各类生产设备，服务器12可以是各类生产设备的管理系统。

本发明实施例提供一种网络异常检测方法，应用于图1所示的网络系统；当然，本发明提供的网络异常检测方法还可以应用于软件系统和应用服务系统等。如图2所示，该方法包括：

S201、获取目标系统在第一时间段内的多条第一日志信息。

其中，第一日志信息用于指示系统的运行状态。

具体地，这里的目标系统可以为网络系统或软件系统等，这些系统在运行过程中生成各类日志信息，以记录系统的运行信息。本步骤中，网络异常检测装置可以通过与这些系统的通信获取相应的日志信息，如获取目标系统在第一时间段内的第一日志信息。

需要注意的是，第一日志信息可以包括时间戳、日志级别和提示信息等，其中时间戳用于指示第一日志信息产生的具体日期、时间，如“2020-04-12 12:20:10”；日志级别用于指示第一日志信息的级别，包括Degub、Info、Warn、Error和Fatal等，Debug用于指示调试信息，Info用于指示一般信息，Warn用于指示警告，Error用于指示一般错误，Fatal用于指示致命错误；提示信息用于指示第一日志信息记录的具体操作，如“packet responder0for block blk_321terminating”。这里的第一日志信息可以是图1所示的终端生成的日志信息，网络异常检测装置可以是图1所示的服务器，也可以是该服务器内的某一装置，此时图1中的服务器可以通过通信网络获取终端的第一日志信息。

S202、根据分类算法确定第一日志信息对应的目标类别。

其中，分类算法用于根据第一日志信息的距离和词性序列分类，分类算法可以包括第一分类算法和第二分类算法，第一分类算法用于根据第二日志信息的距离分类，第二分类算法用于根据第二日志信息的词性序列分类。

具体地，这里的第一分类算法可以为k均值聚类算法(k-means clusteringalgorithm，K-means)，用于根据各个第一日志信息之间的欧式距离对第一日志信息进行聚类，以获得第一日志信息的第一类别；在确定第一日志信息的第一类别后，本发明实施例还可以根据第二日志信息的词性序列对第一日志信息的第一类别再次分类，以确定第一日志信息对应的目标分类。这里的第二日志信息是指经预处理后的第一日志信息。

需要说明的是，上述的K-means仅为示例性的，第一分类算法还可以是其他分类算法，如K最近邻(k-nearest neighbor，KNN)分类算法，对此本发明实施例不做限定。

可选的，由于步骤S202的分类过程包括两个步骤，因此，如图3所示，步骤S202可以包括：

S2021、根据特征向量和第一分类算法确定第一日志信息对应的第一类别。

具体地，这里的特征向量为第一日志信息经处理后获得的相应向量，例如第一个第一日志信息的特征向量可以为(a1，a2，a3，a4，a5)。本发明实施例中各个第一日志信息对应的特征向量的维度相同，如第一个第一日志信息的特征向量为(a1，a2，a3，a4，a5)，则第二个第一日志信息的特征向量可以为(b1，b2，b3，b4，b5)，第三个第一日志信息的特征向量可以为(c1，c2，c3，c4，c5)，以此类推，其他第一日志信息的特征向量也由相同的维度组成。需要注意的是，这里不同的第一日志信息的特征向量可以相同，如a1＝b1，a2＝b2，a3＝b3，a4＝b4，a5＝b5，即第一个第一日志信息对应的特征向量与第二个第一日志信息对应的特征向量相同；也可以部分相同，如a1＝c1，a2≠c2，a3＝c3，a4≠c4，a5＝c5，即第一个第一日志信息对应的特征向量与第三个第一日志信息对应的特征向量包括相同的特征；当然，不同的第一日志信息的特征向量也可以均不相同，如b1≠c1，b2≠c2，b3≠c3，b4≠c4，b5≠c5，即第二个第一日志信息对应的特征向量与第三个第一日志信息对应的特征向量完全不同。

在第一分类算法为K-means时，本步骤对第一日志信息分类的过程包括：

(1)将多个第一日志信息对应的特征向量输入K-means。

在确定各个第一日志信息对应的特征向量后，可以将这些特征向量输入K-means，并将这些特征向量对应的点作为第一集合。例如，在第一日志信息对应的特征向量分别为X₁、X₂、X₃、…、X_N时，第一集合为{X₁，X₂，X₃，…，X_N}。这里的各个特征向量具体可以为：X₁＝(a₁，b₁，c₁，d₁，e₁，f₁)，X₂＝(a₂，b₂，c₂，d₂，e₂，f₂)，X₃＝(a₃，b₃，c₃，d₃，e₃，f₃)，…，X_N＝(a_N，b_N，c_N，d_N，e_N，f_N)。

需要说明的是，上述的特征向量仅为示例性的，实际中，特征向量包括的元素数量可以根据第一日志信息的特征值的数量变化。由于第一日志信息对应的特征向量为一个多维向量，因此这里K-means构建的聚类空间也为多维空间，且该聚类空间的维度与特征向量的维度相同，例如，特征向量为三维向量，则K-means构建的聚类空间为三维空间。

(2)随机抽取K个特征向量作为初始聚类中心。

这里抽取K个初始聚类中心即是将所有的第一日志信息对应的特征向量聚类为K类，K值的确定可以是本领域的技术人员根据需要设置，如当第一日志信息包括5种类别时，可以设置K＝5；当然，K值也可以是本领域技术人员随机设置的。

在确定K值后，可以随机抽取K个第一日志信息对应的特征向量作为初始聚类中心，例如，第一日志信息对应的特征向量分别为X₁、X₂、X₃、…、X_N，这里可以选择X₁、X₄、…、X_N作为初始聚类中心，X₁、X₄、…、X_N的个数为K。

需要说明的是，在随机设置K值时，本领域的技术人员可以根据手肘法或轮廓系数法等算法确定一个最佳的K值，使得能够得到更为准确的第一日志信息聚类数。这里的手肘法和轮廓系数法为本领域惯用的技术手段，本发明实施例不再赘述。

(3)将第一集合中的各个特征向量归入距离最近的初始聚类中心所在的第一聚类。

具体地，这里第一聚类的个数与初始聚类中心的个数相同，即选取K个初始聚类中心，则可以将所有特征向量对应的点划分为K个第一聚类。在确定初始聚类中心后，可以根据欧式距离公式计算各个特征向量与初始聚类中心的距离，并将这些特征向量归入距离最近的初始聚类中心所在的第一聚类。例如，初始聚类中心包括K₁和K₂，特征向量X₁与K₁的距离为L₁，与K₂的距离为L₂，若L₁<L₂，则将特征向量X₁归入K₁所在的第一聚类。

(4)确定各个第一聚类中第二集合的第一聚类中心。

在将所有的特征向量归入相应的第一聚类后，可以确定这些第一聚类对应的第一聚类中心，第一聚类中心可以是第一聚类中所有特征向量的平均值，例如，某一个第一聚类包括特征向量X₁＝(a₁，b₁，c₁，d₁，e₁，f₁)，X₂＝(a₂，b₂，c₂，d₂，e₂，f₂)，以及X₃＝(a₃，b₃，c₃，d₃，e₃，f₃)，则这里确定的第一聚类中心可以为：

同样的，可以根据上述方法确定所有第一聚类对应的第一聚类中心。

(5)迭代上述步骤(3)和(4)直至各个聚类的聚类中心不再变化。

具体地，在确定第一聚类中心后，可以根据上述的步骤(3)的方法再次对所有的特征向量进行聚类，将其归入距离最近的第一聚类中心所在的第二聚类；确定所有的第二聚类后，可以根据上述的步骤(4)再次确定第二聚类中心，以此类推，不断迭代上述步骤(3)和(4)，直至最后确定的聚类对应的聚类中心不再变化。此时，即可以将所有的第一日志信息分为K个聚类，即确定了第一日志信息的第一类别，第一类别的个数为K。

在确定第一日志信息对应的第一类别后，可以将这些第一类别分别标记为第一类、第二类、第三类、…、第K类。

需要说明的是，一种可能的实现方式中，也可以是各个聚类内的特征向量与相应的聚类中心的距离小于阈值时，即停止迭代的过程。

S2022、根据第二日志信息的词性序列和第二分类算法对第一类别再次分类，确定第一日志信息对应的目标类别。

具体地，这里的第二日志信息为预处理后的第一日志信息，第二日志信息可以包括时间戳、日志模板和占位符，这里的时间戳与第一日志信息中的时间戳相同；日志模板与日志的提示信息相关，同一类别的日志信息具有相同或相近的日志模板；占位符可以由设备标识和时间等信息替代。

由于同一类别的日志信息的日志模板相同或相近，因此在步骤S2021对第一日志信息分类时，可以将日志模板相同或相近的第一日志信息归为同一类别。但是由于占位符的信息可能影响对第一日志信息的聚类，如将同一终端的所有第一日志信息均归为同一类别，这将严重影响第一日志信息分类的准确性。因此，本发明实施例在根据步骤S2021确定第一日志信息的第一类别后，可以根据第二日志信息的词性序列对第一类别再次分类。

在根据词性序列对第一类别内的第二日志信息再次分类时，可以通过词性分析工具获取第二日志信息中各个词汇的词性，从而确定第二日志信息对应的词性序列。这里的词性是指词汇的性质，如名词n，动词v等等。

示例性的，如第二日志信息为“completed initialization of buffer pool”，则其词性序列为“形容词-名词-介词-名词”。若第一个第一类别中大部分第二日志信息的词性序列均为“名词-名词-动词-形容词”，而其中第Q个第二日志信息的词性序列为“名词-动词-动词-形容词”，则可以将该第Q个第二日志信息从第一个第一类别中划分出来，作为单独的一个类别；若该第一个第一类别中还第P个第二日志信息的词性序列也为“名词-动词-动词-形容词”，则可以将第P个第二日志信息和第Q个第二日志信息归为同一个类别。当然，一种可能的实现方式中，根据第一个第一类别中第二日志信息对应的词性序列不同，第一个第一类别还可以划分出其他不同的类别，本领域的技术人员可以根据实际情况对第一类别中的第二日志信息再次分类。

在对各个第一类别根据词性序列再次分类后，其最终确定的第一日志对应的目标类别的类别数可以大于或等于第一类别的类别数。相应的，目标类别可以标记为第一类、第二类、第三类、…、第K’类，K’≥K。由于第二日志信息是第一日志信息预处理后的日志信息，因此根据第二日志信息的类别即可以确定第一日志信息的类别。

在确定第一日志信息对应的目标类别后，可以对步骤S201获取的第一日志信息按其归属的目标类别进行编号，以确定第一日志信息对应的日志序列。例如，步骤S201获取了10条第一日志信息，且根据上述方法确定第1-3条第一日志信息的目标类别为第二类，第4条第一日志信息的目标类别为第一类，第5条、第7条和第8条第一日志信息的目标类别为第K’-1类，第6条第一日志信息的目标类别为第三类，第9条和第10条第一日志信息的目标类别为第K’类，则这些第一日志信息对应的日志序列为[2，2，2，1，K’-1，3，K’-1，K’-1，K’，K’]。

需要注意的是，日志序列中各个目标类别对应的第一日志信息是按时间顺序排列的，即第1条第一日志信息为最早生成的日志信息，第10条第一日志信息为最晚生成的日志信息。

一种可选的实现方式中，第一日志信息对应的日志序列还可以包括第一日志信息的时间戳，如[(2020-04-12 12:20:05，2)，(2020-04-12 12:20:10，2)，(2020-04-12 12:20:15，2)，(2020-04-12 12:20:20，1)，(2020-04-12 12:20:25，K’-1)，(2020-04-12 12:20:30，3)，(2020-04-12 12:20:35，K’-1)，(2020-04-12 12:20:40，K’-1)，(2020-04-1212:20:45，K’)，(2020-04-12 12:20:50，K’)]。

S203、若目标类别和预测类别不同的个数大于阈值，则确定目标系统异常。

其中，预测类别为根据预测算法和第一日志信息对应的目标类别确定的。

具体地，本发明实施例中对日志信息的类别进行预测是通过预先训练的长短期记忆(long short-term memory，LSTM)模型实现的，这里的预测算法即LSTM算法。

示例性的，若步骤S201获取的多条第一日志信息对应的日志序列为[2，2，2，1，K’-1，3，K’-1，K’-1，K’，K’]，将该日志序列输入LSTM模型，输出可以为[2，2，1，K’-1，3，K’-1，K’-1，K’，K’，1]。需要注意的是，若上述示例中，LSTM模型输入的日志序列中的目标类别为第1条-第10条第一日志信息对应的目标类别，则LSTM模型的输出即为第2条-第11条第一日志信息对应的预测类别。由于上述输入中第2条-第10条第一日志信息对应的目标类别与输出中第2条-第10条第一日志信息对应的预测类别相同，因此可以确定生成这些第一日志信息的目标系统正常。

在LSTM模型输入中的目标类别与输出中的预测类别不同的个数大于阈值时，可以确定生成第一日志信息的目标系统异常。例如，阈值为2时，若LSTM模型的输入为[2，2，2，1，K’-1，3，K’-1，K’-1，K’，K’]，输出为[2，2，3，K’-1，3，K’，K’-1，2，K’，1]，可以看出LSTM模型的输入中的目标类别与输出中的预测类别不同的个数为3，因此可以确定生成这些第一日志信息的目标系统异常。当然，在第一日志信息由目标系统内的某一终端生成时，还可以确定该终端异常。

需要说明的是，由于LSTM模型用于预测当前第一日志信息之后生成的第一日志信息的预测类别，因此LSTM模型输出中的最后一个参数不参与目标类别与预测类别的比较；相应的，LSTM模型输入中的第一个参数也不参与目标类别与预测类别的比较。例如，LSTM模型的输入为[z₁，z₂，z₃，z₄]，输出为[z₂，z₃，z₄，z₅]，确定目标类别和预测类别不同的个数时，仅比较z₂、z₃和z₄的值。这里的阈值可以由本领域的技术人员根据需要设定，本发明实施例不做限定。

一种可选的实现方式中，LSTM模型的输入还可以包括第一日志信息的时间戳，例如，LSTM模型的输入可以为[(2020-04-12 12:20:05，2)，(2020-04-12 12:20:10，2)，(2020-04-12 12:20:15，2)，(2020-04-12 12:20:20，1)，(2020-04-12 12:20:25，K’-1)，(2020-04-12 12:20:30，3)，(2020-04-12 12:20:35，K’-1)，(2020-04-12 12:20:40，K’-1)，(2020-04-12 12:20:45，K’)，(2020-04-12 12:20:50，K’)]。需要注意的是，LSTM模型的输入中的时间戳仅用于指示第一日志信息生成的时间，以便于对第一日志信息对应的进行排序，实际计算中该时间戳无实际意义。

本发明实施例根据K-means和词性序列实现对第一日志信息的精准分类，并根据第一日志信息的目标类别和预测算法可以确定相应的预测类别，并在日志信息的预测类别和目标类别不同的个数大于阈值时，确定日志信息异常，进而确定网络系统存在异常；由于本发明实施例是根据多条日志信息来确定网络系统是否异常，且通过词性序列的分类方式提高第一日志信息的分类准确性，因此本发明实施例的网络异常检测方法在提升异常检测效率的同时，提高异常检测的准确率。

可选的，如图4所示，在步骤S2021之前，还包括：

S301、对第一日志信息进行预处理，确定第二日志信息。

其中，预处理包括分词和停用词过滤。

具体地，在获取第一日志信息后需要对第一日志信息进行预处理，以便于第一日志信息在后续算法中的使用，本发明实施例中的预处理包括分词和停用词过滤。由于日志信息通常为英文构成，因此这里的分词处理可以是将第一日志信息按空格进行分词。当然，在第一日志信息为中文时，可以使用分词工具进行分词。

停用词过滤即过滤第一日志信息内的无意义词汇，如“is”等，以确定第二日志信息。需要注意的是，停用词可以是本领域的技术人员设置的。

S302、根据第二日志信息内词汇出现的频率确定特征值。

具体地，根据步骤S301确定第二日志信息后，可以对这些第二日志信息内所有词汇出现的频率进行统计，统计完成后，可以将出现频率较高的词汇作为特征值，也可以将所有词汇均作为特征值，对此本发明实施例不做限定；

需要注意的是，在将出现频率较高的词汇作为特征值时，可以设置一个阈值，出现频率超过该阈值的词汇即可以确定为特征值，如该阈值可以为10。在确定特征值的出现频率后，可以按照出现频率的高低将这些特征值从高到低进行排列。

S303、根据特征值和编码算法确定第一日志信息对应的特征向量。

具体地，这里的编码算法可以为独热编码one-hot算法，也可以是基于统计方法的编码算法或基于语言模型language model方法编码算法。本发明实施例采用one-hot算法实现第一日志信息的编码。

示例性的，在S302确定的特征值为I₁、I₂、I₃、I₄、I₅和I₆时，若第二日志信息为I₃ I₁I₄ I₅，则根据one-hot算法确定的该第二日志信息对应的特征向量为(1，0，1，1，1，0)；若第二日志信息为I₃ I₁ I₂ I₅，则根据one-hot算法确定的该第二日志信息对应的特征向量为(1，1，1，0，1，0)。这里的I₁、I₂、I₃、I₄、I₅和I₆实际为第二日志信息内的相应词汇，第二日志信息对应的特征向量即第一日志信息对应的特征向量。

需要注意的是，当S302中确定的特征值较多时，本步骤确定的特征向量可能包括的向量元素过多，为方便后续计算中使用该特征向量，本领域的技术人员还可以采用主成分分析(principle component analysis，PCA)方法对特征向量进行降维处理，PCA方法为本领域的惯用的技术手段在此不再赘述。

可选的，如图5所示，在步骤S2022之后，还包括：

S401、根据第一日志信息对应的目标类别和预测算法确定第一日志信息对应的预测类别。

具体地，这里的预测算法即预先训练的LSTM模型。如图6所示，提供了一种LSTM单元的结构示意图，包括输入门和输出门，输入门的输入可以为当前时刻第一日志信息的目标类别，输出门的输出即为预测的下一时刻第一日志信息的目标类别。由于本发明实施例中获取的第一日志信息包括多条，且可以通过步骤S202确定这多条第一日志信息的目标类别，因此可以将这些第一日志信息的目标类别输入LSTM单元预测网络系统在生成当前第一日志信息之后，下一时刻生成的第一日志信息的目标类别。需要注意的是，在通过LSTM算法预测多条第一日志信息的类别时，LSTM模型包括多个LSTM单元，LSTM模型的结构可以如图7所示。

示例性的，若LSTM模型的输入为[2，2，2，1，K’-1，3，K’-1，K’-1，K’，K’]，则其输出可以为[2，2，1，K’-1，3，K’-1，K’-1，K’，K’，1]。

需要说明的是，在训练上述的LSTM模型时，可以将步骤S202确定的目标类别作为训练集，其输出即为各个第一日志信息对应的下一跳第一日志信息的目标类别。例如，LSTM模型输入的训练集为[x₁，x₂，x₃，x₄]，则其输出可以为[x₂，x₃，x₄，x₅]，这里输出中的x₂即为输入中x₁的下一条第一日志信息的目标类别，输出中的x₃即为输入中的x₂的下一条第一日志信息的目标类别；以此类推，输出中的参数总是与输入中的参数存在类似对应关系。LSTM模型训练过程中可以根据梯度下降(gradient descent，GD)算法实现对LSTM模型参数的优化，如优化输入门参数或输出门参数，当LSTM模型输出的值与实际值的均方误差达到最小时，即可以将此时的LSTM模型作为最终的训练模型。这里的实际值是指步骤S202确定的第一日志信息对应的目标类别，例如LSTM模型的输入为[x₁，x₂，x₃，x₄]，输出为[x₂，x₃，x₄，x₅]，这里输出中x₂对应的实际值即为输入中的x₂。

如图8所示，本发明实施例提供一种网络异常检测装置50，包括：

获取模块501，用于获取目标系统在第一时间段内的多条第一日志信息；第一日志信息用于指示系统的运行状态。

分类模块502，用于根据分类算法确定获取模块501获取的第一日志信息对应的目标类别；分类算法用于根据第一日志信息的距离和词性序列分类。

处理模块503，用于在分类模块502确定的目标类别和预测类别不同的个数大于阈值时，确定目标系统异常；预测类别为根据预测算法和第一日志信息对应的目标类别确定的。

可选的，如图9所示，网络异常检测装置50还包括预处理模块504和编码模块505。

预处理模块504，用于对第一日志信息进行预处理，确定第二日志信息；预处理包括分词和停用词过滤。

预处理模块504，还用于根据第二日志信息内词汇出现的频率确定特征值。

编码模块505，用于根据预处理模块504确定的特征值和编码算法确定第一日志信息对应的特征向量。

可选的，分类算法包括第一分类算法和第二分类算法，第一分类算法用于根据第二日志信息的距离分类，第二分类算法用于根据第二日志信息的词性序列分类。

分类模块502具体用于：根据特征向量和第一分类算法确定第一日志信息对应的第一类别；根据第二日志信息的词性序列和第二分类算法对第一类别再次分类，确定第一日志信息对应的目标类别。

可选的，如图10所示，网络异常检测装置50还包括预测模块506。

预测模块506，用于根据第一日志信息对应的目标类别和预测算法确定第一日志信息对应的预测类别。

本发明实施例提供的网络异常检测装置，包括：获取模块，用于获取目标系统在第一时间段内的多条第一日志信息；第一日志信息用于指示系统的运行状态；分类模块，用于根据分类算法确定获取模块获取的第一日志信息对应的目标类别；分类算法用于根据第一日志信息的距离和词性序列分类；处理模块，用于在分类模块确定的目标类别和预测类别不同的个数大于阈值时，确定目标系统异常；预测类别为根据预测算法和第一日志信息对应的目标类别确定的。本发明实施例提供的网络异常检测装置能够通过对网络系统(也可以是软件系统或硬件系统等)一段时间内的日志信息进行分析，确定该段时间内产生的日志信息的目标类别；由于在对日志信息进行分类时，本发明实施例不仅仅通过欧氏距离对日志信息进行分类，还通过日志信息的词性序列进一步对日志信息分类以获得日志信息的目标类别，因此能够获得更为准确的日志分类结果；在日志信息分类的基础上，本发明实施例根据日志信息的目标类别和预测算法可以确定相应的预测类别，并在日志信息的预测类别和目标类别不同的个数大于阈值时，确定日志信息异常，进而确定网络系统存在异常；由于本发明实施例是根据多条日志信息来确定网络系统是否异常，且通过词性序列的分类方式提高日志信息的分类准确性，因此本发明实施例的网络异常检测方法在提升异常检测效率的同时，提高异常检测的准确率。

参照图11所示，本发明实施例还提供另一种网络异常检测装置，包括存储器61、处理器62、总线63和通信接口64；存储器61用于存储计算机执行指令，处理器62与存储器61通过总线63连接；当网络异常检测装置运行时，处理器62执行存储器61存储的计算机执行指令，以使网络异常检测装置执行如上述实施例提供的网络异常检测方法。

在具体的实现中，作为一种实施例，处理器62(62-1和62-2)可以包括一个或多个CPU，例如图11中所示的CPU0和CPU1。且作为一种实施例，网络异常检测装置可以包括多个处理器62，例如图11中所示的处理器62-1和处理器62-2。这些处理器62中的每一个CPU可以是一个单核处理器(single-CPU)，也可以是一个多核处理器(multi-CPU)。这里的处理器62可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

存储器61可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory，EEPROM)、只读光盘(compact disc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器61可以是独立存在，通过总线63与处理器62相连接。存储器61也可以和处理器62集成在一起。

在具体的实现中，存储器61，用于存储本申请中的数据和执行本申请的软件程序对应的计算机执行指令。处理器62可以通过运行或执行存储在存储器61内的软件程序，以及调用存储在存储器61内的数据，网络异常检测装置的各种功能。

通信接口64，使用任何收发器一类的装置，用于与其他设备或通信网络通信，如控制系统、无线接入网(radio access network，RAN)，无线局域网(wireless local areanetworks，WLAN)等。通信接口64可以包括接收单元实现接收功能，以及发送单元实现发送功能。

总线63，可以是工业标准体系结构(industry standard architecture，ISA)总线、外部设备互连(peripheral component interconnect，PCI)总线或扩展工业标准体系结构(extended industry standard architecture，EISA)总线等。该总线63可以分为地址总线、数据总线、控制总线等。为便于表示，图11中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质包括计算机执行指令，当计算机执行指令在计算机上运行时，使得计算机执行如上述实施例提供的网络异常检测方法。

本发明实施例还提供一种计算机程序，该计算机程序可直接加载到存储器中，并含有软件代码，该计算机程序经由计算机载入并执行后能够实现上述实施例提供的网络异常检测方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是一个物理单元或多个物理单元，即可以位于一个地方，或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种网络异常检测方法，其特征在于，包括：

获取目标系统在第一时间段内的多条第一日志信息；所述第一日志信息用于指示系统的运行状态；

根据分类算法确定所述第一日志信息对应的目标类别；所述分类算法用于根据所述第一日志信息的距离和词性序列分类；

若所述目标类别和预测类别不同的个数大于阈值，则确定所述目标系统异常；所述预测类别为根据预测算法和所述第一日志信息对应的目标类别确定的。

2.根据权利要求1所述的网络异常检测方法，其特征在于，所述根据分类算法确定所述第一日志信息对应的目标类别之前，还包括：

对所述第一日志信息进行预处理，确定第二日志信息；所述预处理包括分词和停用词过滤；

根据所述第二日志信息内词汇出现的频率确定特征值；

根据所述特征值和编码算法确定所述第一日志信息对应的特征向量。

3.根据权利要求2所述的网络异常检测方法，其特征在于，所述分类算法包括第一分类算法和第二分类算法，所述第一分类算法用于根据所述第二日志信息的距离分类，所述第二分类算法用于根据所述第二日志信息的词性序列分类；所述根据分类算法确定所述第一日志信息对应的目标类别包括：

根据所述特征向量和所述第一分类算法确定所述第一日志信息对应的第一类别；

根据所述第二日志信息的词性序列和所述第二分类算法对所述第一类别再次分类，确定所述第一日志信息对应的目标类别。

4.根据权利要求3所述的网络异常检测方法，其特征在于，所述根据分类算法确定所述第一日志信息对应的目标类别之后，还包括：

根据所述第一日志信息对应的目标类别和预测算法确定所述第一日志信息对应的预测类别。

5.一种网络异常检测装置，其特征在于，包括：

获取模块，用于获取目标系统在第一时间段内的多条第一日志信息；所述第一日志信息用于指示系统的运行状态；

分类模块，用于根据分类算法确定所述获取模块获取的所述第一日志信息对应的目标类别；所述分类算法用于根据所述第一日志信息的距离和词性序列分类；

处理模块，用于在所述分类模块确定的所述目标类别和预测类别不同的个数大于阈值时，确定所述目标系统异常；所述预测类别为根据预测算法和所述第一日志信息对应的目标类别确定的。

6.根据权利要求5所述的网络异常检测装置，其特征在于，还包括预处理模块和编码模块；

所述预处理模块，用于对所述第一日志信息进行预处理，确定第二日志信息；所述预处理包括分词和停用词过滤；

所述预处理模块，还用于根据所述第二日志信息内词汇出现的频率确定特征值；

编码模块，用于根据所述预处理模块确定的所述特征值和编码算法确定所述第一日志信息对应的特征向量。

7.根据权利要求6所述的网络异常检测装置，其特征在于，所述分类算法包括第一分类算法和第二分类算法，所述第一分类算法用于根据所述第二日志信息的距离分类，所述第二分类算法用于根据所述第二日志信息的词性序列分类；所述分类模块具体用于：

8.根据权利要求7所述的网络异常检测装置，其特征在于，还包括预测模块；

所述预测模块，用于根据所述第一日志信息对应的目标类别和预测算法确定所述第一日志信息对应的预测类别。

9.一种网络异常检测装置，其特征在于，包括存储器、处理器、总线和通信接口；所述存储器用于存储计算机执行指令，所述处理器与所述存储器通过所述总线连接；当所述网络异常检测装置运行时，所述处理器执行所述存储器存储的所述计算机执行指令，以使所述网络异常检测装置执行如权利要求1-4任一项所述的网络异常检测方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括计算机执行指令，当所述计算机执行指令在计算机上运行时，使得所述计算机执行如权利要求1-4任一项所述的网络异常检测方法。