CN112087448A

CN112087448A - 安全日志提取方法、装置和计算机设备

Info

Publication number: CN112087448A
Application number: CN202010935362.5A
Authority: CN
Inventors: 陈霖; 索思亮; 杨祎巍; 蒋屹新; 匡晓云; 许爱东; 洪超
Original assignee: China South Power Grid International Co ltd
Current assignee: China South Power Grid International Co ltd
Priority date: 2020-09-08
Filing date: 2020-09-08
Publication date: 2020-12-15
Anticipated expiration: 2040-09-08
Also published as: CN112087448B

Abstract

本申请涉及一种安全日志提取方法、装置和计算机设备。所述方法包括：获取待分析的当前安全日志数据；根据所述当前安全日志数据提取所述当前安全日志数据的IP地址，计算所述当前安全日志数据的IP地址的第一特征向量值；将所述第一特征向量值与已分析历史安全日志数据的IP地址的第二特征向量值进行相似度比较，得到相似度结果；若所述相似度结果大于预设阈值，则将所述相似度结果对应的当前安全日志数据作为待提取的安全日志，提取所述当前安全日志数据。采用本申请实施例方法能够配置出合理的安全日志过滤查询条件，有效提高提取的安全日志准确性。

Description

安全日志提取方法、装置和计算机设备

技术领域

本申请涉及信息安全技术领域，特别是涉及一种安全日志提取方法、装置和计算机设备。

背景技术

在信息安全技术领域中，日志通常是从各类安全检测、监测设备上采集到的检测、监测结果，进行日志审计分析是发现网络安全入侵事件的一种常用方法。由于各种安全检测、监测设备的分析准确性不能满足完全自动化分析的需求，日志分析人员往往每天需要在上亿数量级的安全日志中根据日志分析系统中提供的查询分析条件，通过多个条件的组合检索过滤出可能需要进一步筛查的具有高价值的安全日志，然而，通过人工筛查的方式往往无法配置出合理的安全日志过滤查询条件，使得提取的安全日志准确性不高。

发明内容

基于此，有必要针对上述技术问题，提供一种能够有效提高提取的安全日志准确性的安全日志提取方法、装置和计算机设备。

一种安全日志的提取方法，所述方法包括：

获取待分析的当前安全日志数据；

根据所述当前安全日志数据提取所述当前安全日志数据的IP地址，计算所述当前安全日志数据的IP地址的第一特征向量值；

将所述第一特征向量值与已分析历史安全日志数据的IP地址的第二特征向量值进行相似度比较，得到相似度结果；

若所述相似度结果大于预设阈值，则将所述相似度结果对应的当前安全日志数据作为待提取的安全日志，提取所述当前安全日志数据。

在其中一个实施例中，在所述获取待分析的当前安全日志数据之前，还包括：

获取历史安全日志人工分析结果。

在其中一个实施例中，所述获取历史安全日志人工分析结果，包括：

获取历史时间段内的历史安全日志数据；

根据所述历史安全日志数据提取所述历史安全日志数据的IP地址；

获取用户输入的所述历史安全日志数据的IP地址的危险程度分类标记；

所述历史安全日志人工分析结果包括所述历史安全日志数据的IP地址以及对所述历史安全日志数据的IP地址的危险程度分类标记。

在其中一个实施例中，所述计算所述当前安全日志数据的IP地址的第一特征向量值，包括：

提取所述当前安全日志数据的IP地址的特征，对所述当前安全日志数据的IP地址的特征分别进行编码，获得所述当前安全日志数据的IP地址的各特征的第一特征编码结果；

根据所述当前安全日志数据的IP地址的第一特征编码结果，对所述当前安全日志数据的IP地址的各特征的第一特征编码结果分别进行累加，获得所述当前安全日志数据的IP地址的各特征的第一特征编码结果累加值；

将所述当前安全日志数据的IP地址的各特征的第一特征编码结果累加值转化为第一特征逆向频率向量值，所述当前安全日志数据的IP地址的第一特征向量值包括各特征的所述第一特征逆向频率向量值。

在其中一个实施例中，所述提取所述当前安全日志数据的IP地址的特征，所述特征包括：

所述当前安全日志数据的IP地址对应的事件信息，所述当前安全日志数据的IP地址的源IP地址，所述当前安全日志数据的IP地址的源IP地址对应的从属地信息、目标主机信息和端口信息。

在其中一个实施例中，在所述获取所述当前安全日志数据的IP地址的第一特征向量值之后，还包括：

存储所述当前安全日志数据的IP地址的第一特征向量值。

在其中一个实施例中，所述将所述第一特征向量值与已分析历史安全日志数据的IP地址的第二特征向量值进行相似度比较，得到相似度结果，包括：

计算所述当前安全日志数据的IP地址的各特征的第一特征向量值与所述历史安全日志数据的IP地址的各特征的第二特征向量值之间的各特征的特征向量距离，将所述各特征的特征向量距离的均值作为所述当前安全日志数据的IP地址与所述历史安全日志数据的IP地址的相似度距离；

根据所述相似度距离和所述历史安全日志数据的IP地址的危险程度分类标记，计算所述当前安全日志数据的IP地址与所述历史安全日志数据的IP地址的危险程度相似度，将所述危险程度相似度作为所述当前安全日志数据的IP地址与所述历史安全日志数据的IP地址的相似度结果。

在其中一个实施例中，所述根据所述相似度距离和所述历史安全日志数据的IP地址的危险程度分类标记，计算所述当前安全日志数据的IP地址与所述历史安全日志数据的IP地址的危险程度相似度，包括：

将所述相似度距离排序，获得相似度距离最近的预定个数的所述历史安全日志数据的IP地址；

计算所述当前安全日志数据的IP地址与所述预定个数的所述历史安全日志数据的IP地址的相似度距离的均值和方差，基于所述相似度距离的均值和方差获得相似度半径；

以所述当前安全日志数据的IP地址作为圆心，获得所述相似度半径内的各所述历史安全日志数据的IP地址；

根据所述相似度半径内的各所述历史安全日志数据的IP地址的危险程度分类标记，计算所述当前安全日志数据的IP地址与所述相似度半径内的各所述历史安全日志数据的IP地址的危险程度相似度。

一种安全日志的提取装置，所述装置包括：

数据采集模块：用于获取待分析的当前安全日志数据；

预处理模块：用于根据所述当前安全日志数据提取所述当前安全日志数据的IP地址，计算所述当前安全日志数据的IP地址的第一特征向量值；

相似度检测模块：用于将所述第一特征向量值与已分析历史安全日志数据的IP地址的第二特征向量值进行相似度比较，得到相似度结果；

结果提取模块：用于若所述相似度结果大于预设阈值，则将所述相似度结果对应的当前安全日志数据作为待提取的安全日志，提取所述当前安全日志数据。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取待分析的当前安全日志数据；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取待分析的当前安全日志数据；

上述安全日志的提取方法、装置和计算机设备，通过获取待分析的当前安全日志数据；根据所述当前安全日志数据提取所述当前安全日志数据的IP地址，计算所述当前安全日志数据的IP地址的第一特征向量值；将所述第一特征向量值与已分析历史安全日志数据的IP地址的第二特征向量值进行相似度比较，得到相似度结果；若所述相似度结果大于预设阈值，则将所述相似度结果对应的当前安全日志数据作为待提取的安全日志，提取所述当前安全日志数据。采用本申请实施例方法能够配置出合理的安全日志过滤查询条件，有效提高提取的安全日志准确性。

附图说明

图1为一个实施例中安全日志的提取方法的应用环境图；

图2为一个实施例中安全日志的提取方法的流程示意图；

图3为一个实施例中获取历史安全日志人工分析结果的流程示意图；

图4为一个实施例中计算第一特征向量值的流程示意图；

图5为一个实施例中相似度比较的流程示意图；

图6为一个实施例中相似度计算的流程示意图；

图7为一个最具体实施例中安全日志的提取方法的流程示意图；

图8为一个实施例中安全日志的提取装置的结构框图；

图9为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的安全日志的提取方法，可以应用于如图1所示的应用环境中。其中，服务器104可以是各类安全检测、监测设备系统上的服务器，服务器104可以获取检测、监测设备的安全日志数据，终端102通过网络与服务器104进行通信，终端102通过网络从服务器104获取待分析的当前安全日志数据，终端102通过获取待分析的当前安全日志数据；根据当前安全日志数据提取当前安全日志数据的IP地址，计算当前安全日志数据的IP地址的第一特征向量值；将第一特征向量值与已分析历史安全日志数据的IP地址的第二特征向量值进行相似度比较，得到相似度结果；若相似度结果大于预设阈值，则将相似度结果对应的当前安全日志数据作为待提取的安全日志，提取当前安全日志数据。用户可以根据终端102提取的安全日志数据进行进一步分析。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。终端102还可以是各类安全检测、监测设备系统中的计算机设备，可以直接获取待分析的当前安全日志数据，进而分析并提取当前安全日志数据。

在其中一个实施例中，如图2所示，提供了一种安全日志的提取方法，以该方法应用于图1中的终端102为例进行说明，包括以下步骤：

步骤S202，获取待分析的当前安全日志数据。

在其中一个实施例中，在信息安全技术领域中，日志通常是从各类安全检测、监测设备上采集到设备中的程序或者系统运行时所产生的检测、监测结果的记录，这些检测、监测结果的记录以安全日志的形式呈现。根据安全日志记录检测、监测结果时间的不同，将安全日志分为当前时间段的各安全日志和历史时间段的各安全日志，分别称为当前安全日志和历史安全日志。具体地，获取待分析的当前安全日志数据。

在其中一个实施例中，在获取待分析的当前安全日志数据之前，还包括步骤S201：获取历史安全日志人工分析结果。

在其中一个实施例中，如图3所示，获取历史安全日志人工分析结果包括：

步骤S302：获取历史时间段内的历史安全日志数据。

在其中一个实施例中，历史安全日志为历史时间段的安全日志。具体地，获取历史时间段内的历史安全日志数据。

步骤S304：根据所述历史安全日志数据提取所述历史安全日志数据的IP地址。

在其中一个实施例中，计算机网络通过IP协议相互连接进行通信，IP地址是IP协议提供的一种统一的地址格式，各安全日志数据都存在其对应的IP地址。具体地，根据历史安全日志数据提取历史安全日志数据的IP地址。

步骤S306：获取用户输入的所述历史安全日志数据的IP地址的危险程度分类标记。

在其中一个实施例中，某些安全日志可能会携带计算机病毒，计算机病毒是编制者在计算机程序中插入的破坏计算机功能或者数据的计算机指令或者程序代码，具有传播性、隐蔽性、感染性、潜伏性、可激发性、表现性和破坏性，能影响计算机使用，并能够自我复制。用户根据历史安全日志数据的IP地址的危险程度，将历史安全日志进行分类标记，分类标记可以使用颜色、符号或者名称的方式进行标记，本申请中对分类标记方法不做限定。

在其中一个实施例中，根据历史安全日志数据的IP地址的危险程度，使用颜色对历史安全日志进行标记分类，标记为黑色、灰色和白色。其中，黑色为高度危险的安全日志，灰色为可疑危险的安全日志但不能确定其危险性，白色为误报危险的安全日志，即不存在危险的安全日志。

具体地，获取用户输入的历史安全日志数据的IP地址的危险程度分类标记。

步骤S308：所述历史安全日志人工分析结果包括所述历史安全日志数据的IP地址以及对所述历史安全日志数据的IP地址的危险程度分类标记。

在其中一个实施例中，历史安全日志人工分析结果包括历史安全日志数据的IP地址以及对历史安全日志数据的IP地址的危险程度分类标记。

步骤S204，根据所述当前安全日志数据提取所述当前安全日志数据的IP地址，计算所述当前安全日志数据的IP地址的第一特征向量值。

在其中一个实施例中，各安全日志数据都存在其对应的IP地址。具体地，根据当前安全日志数据提取当前安全日志数据的IP地址。

在其中一个实施例中，如图4所示，根据所述当前安全日志数据提取所述当前安全日志数据的IP地址，计算所述当前安全日志数据的IP地址的第一特征向量值，包括：

步骤S402：提取所述当前安全日志数据的IP地址的特征，对所述当前安全日志数据的IP地址的特征分别进行编码，获得所述当前安全日志数据的IP地址的各特征的第一特征编码结果。

在其中一个实施例中，提取所述当前安全日志数据的IP地址的特征，包括：

当前安全日志数据的IP地址对应的事件信息，当前安全日志数据的IP地址的源IP地址，当前安全日志数据的IP地址的源IP地址对应的从属地信息、目标主机信息和端口信息。

在其中一个实施例中，当前安全日志数据的IP地址对应的事件信息包括事件类型、事件发生的时间段，当前安全日志数据的IP地址的源IP地址对应的从属地信息包括源IP所属的国家和地区，目标主机信息包括目标主机、目标主机系统、目标主机应用、目标主机所属的业务，端口信息包括源端口、目的端口。

在其中一个实施例中，当前安全日志数据的IP地址对应的事件类型按照实际情况进行划分，其类型是有限个。事件发生的时间段按照时间节点进行划分，分为三种类型，分别是0时-8时、8时-18时和18时-24时。源IP地址是安全日志数据包的起源IP地址，也就是向外发送安全日志数据的设备的IP地址。当前安全日志数据的IP地址的源IP地址对应的目标主机，将目标主机按照实际情况进行划分，其类型是有限个。当前安全日志数据的IP地址的源IP地址对应的目标主机系统是目标主机用于数据库管理的计算机硬件及网络系统，按照目标主机系统所对应的服务类型进行划分，其类型是有限个。当前安全日志数据的IP地址的源IP地址对应的目标主机所属业务是指目标主机所处理的业务类型，其类型是有限个。当前安全日志数据的IP地址的源IP地址对应的源端口，是源IP地址的设备用来发送数据的端口，按照端口类型和序号进行划分，其类型有三种，分别为高危端口、常用端口、1024-5000序号端口、5001-65535序号端口。当前安全日志数据的IP地址的源IP地址对应的目的端口，是目标主机用来接收源端口发送的数据的端口，目的端口的划分方式与源端口的划分方式相同，其类型有三种，分别为高危端口、常用端口、1024-5000序号端口、5001-65535序号端口。

在其中一个实施例中，当前安全日志数据的IP地址的特征还包括：传输层协议、应用层协议和漏洞利用编号。

在其中一个实施例中，互联网数据的传输主要基于网络传输协议的四层结构：应用层、传输层、网络层和接口层。传输层是整个网络体系结构中关键层次之一，主要负责向两个主机进程之间的通信提供服务，传输层协议是一种安全协议，可以为互联网通信提供安全及数据完整性保障，按照传输层协议的类型进行划分，其类型有七种，分别是传输控制协议TCP、用户数据报协议UDP、安全运输协议TLS、数据报拥塞控制协议DCCP、流控制传输协议SCTP、资源预留协议RSVP和点对点隧道协议PPTP。应用层是由若干个特定应用服务元素和一个或多个公用应用服务元素组成的应用实体，可以在实现多个系统应用进程相互通信的同时，完成一系列业务处理所需的服务，应用层协议是网络管理员能够中心管理和自动分配IP网络地址的通信协议，按照应用层协议的类型进行划分，其类型有六种，分别为域名系统DNS、文件传输协议FTP、简单邮件传送协议SMTP、超文本传输协议HTTP、简单网络管理协议SNMP和远程登录协议Telnet。由于网络的开放性，网络传输协议本身存在一些安全漏洞，这些安全漏洞是非法入侵者主要攻击的目标，根据安全日志数据的IP地址中的安全漏洞，提取已经被利用的安全漏洞的编号，称为漏洞利用编号，按照漏洞利用编号进行划分，其类型是有限个。

在其中一个实施例中，使用one-hot编码方式对当前安全日志数据的IP地址的特征分别进行编码。其中，one-hot编码是一种比较常用的根据文本的特征进行特征提取的方法，基于向量空间中的度量进行计算。使用one-hot编码后，将离散特征的取值扩展到了欧式空间，离散特征的某个取值就对应欧式空间中的某个点。将离散型特征使用one-hot编码后，可以使各特征之间的距离计算更加合理。

在其中一个实施例中，根据当前安全日志数据的IP地址的特征，对各特征分别使用one-hot编码方式进行编码，编码后得到各特征对应的特征向量值，称为当前安全日志数据的IP地址的第一特征向量值。其中，特征向量值的维度是根据该特征的类型确定的，例如，当前安全日志数据的IP地址对应的事件发生的时间段，按照时间节点进行划分，其类型有三种，分为0时-8时、8时-18时和18时-24时，也就是说，当前安全日志数据的IP地址对应的事件发生的时间段特征，则其特征向量值的维度是三维。

具体地，提取当前安全日志数据的IP地址的特征，对当前安全日志数据的IP地址的特征分别进行编码，获得当前安全日志数据的IP地址的各特征的第一特征编码结果。

步骤S404：根据所述当前安全日志数据的IP地址的第一特征编码结果，对所述当前安全日志数据的IP地址的各特征的第一特征编码结果分别进行累加，获得所述当前安全日志数据的IP地址的各特征的第一特征编码结果累加值。

在其中一个实施例中，对当前安全日志数据的IP地址的各特征的第一特征编码结果分别进行累加，在累加的过程中，可以有效统计各特征的第一编码结果出现的次数。

步骤S406：将所述当前安全日志数据的IP地址的各特征的第一特征编码结果累加值转化为第一特征逆向频率向量值，所述当前安全日志数据的IP地址的第一特征向量值包括各特征的所述第一特征逆向频率向量值。

在其中一个实施例中，使用TF-IDF算法将当前安全日志数据的IP地址的各特征的第一特征编码结果累加值转化为第一特征逆向频率向量值。TF-IDF(term frequency-inverse document frequency，词频-逆向文件频率)是一种用于信息检索与数据挖掘的常用加权技术。

其中，TF是词频，表示某一个关键词在文件中出现的频率，其计算公式为：

式中，n_i,j是该关键词在文件dj中出现的次数，∑_k n_k,j是文件dj中所有关键词出现的次数总和。

在其中一个实施例中，某一个关键词在文件中出现的次数，即对应当前安全日志数据的IP地址的各特征的第一特征编码结果出现的次数。

IDF是逆向文件频率，指的是一个关键词普遍重要性的量度，如果包含关键词t的文档越少，IDF越大，则说明关键词t具有很好的类别区分能力，其计算公式为：

式中，|D|是语料库中的文件总数，|{j:t_i∈d_j}|表示包含关键词t_i的文件数目，若该关键词不在语料库中，则会导致分母为零。因此，一般情况下，IDF的计算公式如下：

具体地，使用TF-IDF算法将当前安全日志数据的IP地址的各特征的第一特征编码结果累加值转化为第一特征逆向频率向量值，当前安全日志数据的IP地址的第一特征向量值包括各特征的第一特征逆向频率向量值。

在其中一个实施例中，在获取所述当前安全日志数据的IP地址的第一特征向量值之后，还包括：

存储当前安全日志数据的IP地址的第一特征向量值。

具体地，存储当前安全日志数据的IP地址的第一特征向量值，以便进行下一步骤的计算。

步骤S206，将所述第一特征向量值与已分析历史安全日志数据的IP地址的第二特征向量值进行相似度比较，得到相似度结果。

在其中一个实施例中，已分析历史安全日志数据的IP地址的特征提取方式与当前安全日志数据的IP地址的特征提取方式相同，已分析历史安全日志数据的IP地址的第二特征向量值包括各特征的第二特征逆向频率向量值，已分析历史安全日志数据的IP地址的第二特征逆向频率向量值与当前安全日志数据的IP地址的第一特征逆向频率值的计算方法相同。

在其中一个实施例中，将所述第一特征向量值与已分析历史安全日志数据的IP地址的第二特征向量值进行相似度比较，得到相似度结果，如图5所示，包括：

步骤S502：计算所述当前安全日志数据的IP地址的各特征的第一特征向量值与所述历史安全日志数据的IP地址的各特征的第二特征向量值之间的各特征的特征向量距离，将所述各特征的特征向量距离的均值作为所述当前安全日志数据的IP地址与所述历史安全日志数据的IP地址的相似度距离。

在其中一个实施例中，使用余弦相似度算法计算当前安全日志数据的IP地址的各特征的第一特征向量值与历史安全日志数据的IP地址的各特征的第二特征向量值之间的各特征的特征向量距离。

其中，余弦相似度是在一个向量空间中，通过计算两个向量之间夹角的余弦值来衡量两个向量之间的差异大小，余弦值接近于1、夹角趋近于0，表明两个向量越相似，余弦值接近于0、夹角趋近于90度，表明两个向量越不相似。余弦相似度的计算公式如下：

式中，A和B为两个特征向量，A_i和B_i分别表示向量A和B的各分量。

将当前安全日志数据的IP地址的各特征的第一特征向量值与历史安全日志数据的IP地址的各特征的第二特征向量值之间的各特征的余弦相似度的值作为各特征的特征向量距离。为了避免数据波动的影响，有效减小误差，将各特征的特征向量距离求取均值。

具体地，计算当前安全日志数据的IP地址的各特征的第一特征向量值与历史安全日志数据的IP地址的各特征的第二特征向量值之间的各特征的特征向量距离，将各特征的特征向量距离的均值作为当前安全日志数据的IP地址与历史安全日志数据的IP地址的相似度距离。

步骤S504：根据所述相似度距离和所述历史安全日志数据的IP地址的危险程度分类标记，计算所述当前安全日志数据的IP地址与所述历史安全日志数据的IP地址的危险程度相似度，将所述危险程度相似度作为所述当前安全日志数据的IP地址与所述历史安全日志数据的IP地址的相似度结果。

在其中一个实施例中，如图6所示，根据所述相似度距离和所述历史安全日志数据的IP地址的危险程度分类标记，计算所述当前安全日志数据的IP地址与所述历史安全日志数据的IP地址的危险程度相似度，包括：

步骤S602：将所述相似度距离排序，获得相似度距离最近的预定个数的所述历史安全日志数据的IP地址。

在其中一个实施例中，将当前安全日志数据的IP地址与历史安全日志数据的IP地址的相似度距离按照大小进行排序，取出与当前安全日志数据的IP地址相似度最高的，即距离最近的前n个历史安全日志数据的IP地址，n为预定个数。

其中，n是一个可设置的参数，可根据安全日志数量的实际情况进行设置，通常，n的大小默认为历史安全日志数据的IP地址的个数的5％，n取整数。例如：假设历史安全日志数据的IP地址的个数为11365，则n＝11365×5％＝568.25，其中，n取整数。因此，n为568，即取出的历史安全日志数据的IP地址的个数为568个。

具体地，将相似度距离排序，获得相似度距离最近的预定个数的历史安全日志数据的IP地址。

步骤S604：计算所述当前安全日志数据的IP地址与所述预定个数的所述历史安全日志数据的IP地址的相似度距离的均值和方差，基于所述相似度距离的均值和方差获得相似度半径。

在其中一个实施例中，利用余弦相似度算法分别计算当前安全日志数据的IP地址与取出的n个历史安全日志数据的IP地址的相似度距离，为了避免数据波动的影响，有效减小误差，计算分别得到相似度距离的均值μ和方差σ。

具体地，计算当前安全日志数据的IP地址与预定个数的历史安全日志数据的IP地址的相似度距离的均值和方差，基于相似度距离的均值和方差获得相似度半径。

在其中一个实施例中，当前安全日志数据的IP地址与预定个数的历史安全日志数据的IP地址的相似度距离的均值和方差服从正态分布，因此，将相似度半径定义为μ+2σ。

步骤S606：以所述当前安全日志数据的IP地址作为圆心，获得所述相似度半径内的各所述历史安全日志数据的IP地址。

在其中一个实施例中，以当前安全日志数据的IP地址作为圆心，以μ+2σ作为半径，获得在该圆所在范围内的各历史安全数据的IP地址。

步骤S608：根据所述相似度半径内的各所述历史安全日志数据的IP地址的危险程度分类标记，计算所述当前安全日志数据的IP地址与所述相似度半径内的各所述历史安全日志数据的IP地址的危险程度相似度。

在其中一个实施例中，用户根据历史安全日志数据的IP地址的危险程度，使用颜色对历史安全日志进行标记分类，标记为黑色、灰色和白色，每种颜色存在其对应的分类系数。其中，黑色的系数为2，灰色的系数为1，白色的系数为-1。

在其中一个实施例中，计算当前安全日志数据的IP地址与相似度半径内的各历史安全日志数据的IP地址的危险程度相似度，其计算公式为：

式中，X_i为当前安全日志数据的IP地址与历史安全日志数据的IP地址之间的相似度距离，Y_i表示历史安全日志数据的IP地址对应的危险程度的分类系数。

具体地，根据相似度半径内的所述历史安全日志数据的IP地址的危险程度分类标记，计算当前安全日志数据的IP地址与相似度半径内的各历史安全日志数据的IP地址的危险程度相似度。

步骤S208，若所述相似度结果大于预设阈值，则将所述相似度结果对应的当前安全日志数据作为待提取的安全日志，提取所述当前安全日志数据。

在其中一个实施例中，相似度预设的阈值为可调节的参数，默认阈值为0，阈值可以根据最终提取的安全日志数据的数量进行设置。具体地，若相似度结果大于预设阈值，则将相似度结果对应的当前安全日志数据作为待提取的安全日志，提取当前安全日志数据。

上述安全日志提取方法中，通过获取待分析的当前安全日志数据；根据所述当前安全日志数据提取所述当前安全日志数据的IP地址，计算所述当前安全日志数据的IP地址的第一特征向量值；将所述第一特征向量值与已分析历史安全日志数据的IP地址的第二特征向量值进行相似度比较，得到相似度结果；若所述相似度结果大于预设阈值，则将所述相似度结果对应的当前安全日志数据作为待提取的安全日志，提取所述当前安全日志数据。采用本申请实施例方法能够配置出合理的安全日志过滤查询条件，有效提高提取的安全日志准确性。

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及其中一个最具体实施例，对本申请进行进一步详细说明。应当理解，此处描述的最具体实施例仅仅用以解释本申请，并不用于限定本申请。

如图7所示，为一个最具体实施例的流程图。其中，IP_history_set表示历史安全日志数据的处理步骤，IP_current_set表示当前安全日志数据的处理步骤。

在其中一个最具体实施例中，对于历史安全日志数据的处理步骤如下：

1、获取历史时间段内的历史安全日志数据，并根据历史安全日志数据提取历史安全日志数据的IP地址。

2、获取用户输入的根据历史安全日志数据的IP地址的危险程度进行的颜色分类标记，分别将历史安全日志数据的IP地址标记为黑色、灰色或者白色。其中，黑色为高度危险的安全日志，灰色为可疑危险的安全日志但不能确定其危险性，白色为误报危险的安全日志，即不存在危险的安全日志。在本实施例中，将安全日志的危险程度作为安全日志的价值，危险程度越高，价值越大。

3、根据历史安全日志数据的IP地址以及对历史安全日志数据的IP地址的危险程度分类标记生成历史安全日志人工分析结果，各历史安全日志人工分析结果构成历史安全日志数据的IP地址分析结果库。

4、提取历史安全日志数据的IP地址的特征，对历史安全日志数据的IP地址的特征提取过程，就是对历史安全日志数据的IP地址的画像过程。

5、对历史安全日志数据的IP地址的特征分别进行编码，获得历史安全日志数据的IP地址的各特征的第二特征编码结果，并对历史安全日志数据的IP地址的各特征的第二编码结果分别进行累加，获得历史安全日志数据的IP地址的各特征的第二编码结果累加值，采用TF-IDF算法将历史安全日志数据的IP地址的各特征的第二编码结果累加值转化为第二特征逆向频率值，将获得的第二特征逆向频率值作为历史安全日志数据的IP地址的第二特征向量值。其中，第二特征向量值的维度以历史安全日志数据的IP地址的各特征的类型个数确定。

在其中一个最佳实施例中，对于当前安全日志数据的处理步骤如下：

6、获取待分析的当前安全日志数据。

7、提取当前安全日志数据的IP地址的特征，对当前安全日志数据的IP地址的特征提取过程，就是对当前安全日志数据的IP地址的画像过程。

8、对当前安全日志数据的IP地址的特征分别进行编码，获得当前安全日志数据的IP地址的各特征的第一特征编码结果，并对当前安全日志数据的IP地址的各特征的第一编码结果分别进行累加，获得当前安全日志数据的IP地址的各特征的第一编码结果累加值，采用TF-IDF算法将当前安全日志数据的IP地址的各特征的第一编码结果累加值转化为第一特征逆向频率值，将获得的第一特征逆向频率值作为当前安全日志数据的IP地址的第一特征向量值。其中，第一特征向量值的维度以各特征的类型个数确定，与历史安全日志数据的IP地址的各特征的类型个数相同。

在其中一个最具体实施例中，分别获得当前安全日志数据的IP地址的第一特征向量值和历史安全日志数据的IP地址的第二特征向量值之后，处理步骤如下：

9、利用余弦相似度算法计算当前安全日志数据的IP地址的各特征的第一特征向量值与历史安全日志数据的IP地址的各特征的第二特征向量值之间的各特征的特征向量距离，将各特征的特征向量距离的均值作为当前安全日志数据的IP地址与历史安全日志数据的IP地址的相似度距离。

10、将计算得到的相似度距离排序，获得相似度距离最近的n个历史安全日志数据的IP地址，计算当前安全日志数据的IP地址与n个历史安全日志数据的IP地址的相似度距离的均值μ和方差σ，将μ+2σ作为相似度半径。其中，n的大小默认为历史安全日志数据的IP地址的个数的5％，n取整数。

11、以当前安全日志数据的IP地址作为圆心，获得相似度半径μ+2σ内的各历史安全日志数据的IP地址和其对应的危险程度分类标记。在本实施例中，将当前安全日志数据的IP地址与相似度半径μ+2σ内各历史安全日志数据的IP地址的危险程度相似度作为当前安全日志数据的IP地址的价值，危险程度相似度越大，即价值越高。

12、根据获得的相似度半径μ+2σ内的各历史安全日志数据的IP地址的危险程度分类标记，计算当前安全日志数据的IP地址与相似度半径μ+2σ内的各历史安全日志数据的IP地址的危险程度相似度，即当前安全日志数据的IP地址的价值，其计算公式如下：

式中，X_i为当前安全日志数据的IP地址与历史安全日志数据的IP地址之间的相似度距离，Y_i表示历史安全日志数据的IP地址对应的危险程度的分类系数。其中，黑色的系数为2，灰色的系数为1，白色的系数为-1。

13、将计算得到的当前安全日志数据的IP地址的价值与预设的阈值进行比较，若价值大于预设的阈值，则提取该价值对应的当前安全日志数据并发送至用户。其中，预设的阈值为0。

应该理解的是，虽然图2-6流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-6中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在其中一个实施例中，如图8所示，提供了一种安全日志的提取装置，包括：数据采集模块810、预处理模块820、相似度检测模块830和结果提取模块840，其中：

数据采集模块810：用于获取待分析的当前安全日志数据；

预处理模块820：用于根据所述当前安全日志数据提取所述当前安全日志数据的IP地址，计算所述当前安全日志数据的IP地址的第一特征向量值；

相似度检测模块830：用于将所述第一特征向量值与已分析历史安全日志数据的IP地址的第二特征向量值进行相似度比较，得到相似度结果；

结果提取模块840：用于若所述相似度结果大于预设阈值，则将所述相似度结果对应的当前安全日志数据作为待提取的安全日志，提取所述当前安全日志数据。

在其中一个实施例中，所述安全日志的提取装置还包括：

历史安全日志分析结果获取模块：用于获取历史安全日志人工分析结果。

在其中一个实施例中，所述历史安全日志分析结果获取模块，包括以下单元：

数据采集单元：用于获取历史时间段内的历史安全日志数据；

IP地址提取单元：用于根据所述历史安全日志数据提取所述历史安全日志数据的IP地址；

分类标记获取单元：用于获取用户输入的所述历史安全日志数据的IP地址的危险程度分类标记；

历史安全日志分析结果获取单元：用于所述历史安全日志人工分析结果包括所述历史安全日志数据的IP地址以及对所述历史安全日志数据的IP地址的危险程度分类标记。

在其中一个实施例中，所述预处理模块820，包括以下单元：

特征编码单元：用于提取所述当前安全日志数据的IP地址的特征，对所述当前安全日志数据的IP地址的特征分别进行编码，获得所述当前安全日志数据的IP地址的各特征的第一特征编码结果；

特征编码结果累加单元：用于根据所述当前安全日志数据的IP地址的第一特征编码结果，对所述当前安全日志数据的IP地址的各特征的第一特征编码结果分别进行累加，获得所述当前安全日志数据的IP地址的各特征的第一特征编码结果累加值；

特征逆向频率向量值转化单元：用于将所述当前安全日志数据的IP地址的各特征的第一特征编码结果累加值转化为第一特征逆向频率向量值，所述当前安全日志数据的IP地址的第一特征向量值包括各特征的所述第一特征逆向频率向量值。

在其中一个实施例中，所述安全日志的提取装置还包括：

存储模块：用于存储所述当前安全日志数据的IP地址的第一特征向量值。

在其中一个实施例中，所述相似度检测模块830，包括以下单元：

相似度距离计算单元：用于计算所述当前安全日志数据的IP地址的各特征的第一特征向量值与所述历史安全日志数据的IP地址的各特征的第二特征向量值之间的各特征的特征向量距离，将所述各特征的特征向量距离的均值作为所述当前安全日志数据的IP地址与所述历史安全日志数据的IP地址的相似度距离；

相似度结果计算单元：用于根据所述相似度距离和所述历史安全日志数据的IP地址的危险程度分类标记，计算所述当前安全日志数据的IP地址与所述历史安全日志数据的IP地址的危险程度相似度，将所述危险程度相似度作为所述当前安全日志数据的IP地址与所述历史安全日志数据的IP地址的相似度结果。

在其中一个实施例中，所述相似度结果计算单元，还包括以下单元：

预定个数历史安全日志数据的IP地址获取模块：用于将所述相似度距离排序，获得相似度距离最近的预定个数的所述历史安全日志数据的IP地址；

相似度半径计算单元：用于计算所述当前安全日志数据的IP地址与所述预定个数的所述历史安全日志数据的IP地址的相似度距离的均值和方差，基于所述相似度距离的均值和方差获得相似度半径；

历史安全日志数据的IP地址获取模块：用于以所述当前安全日志数据的IP地址作为圆心，获得所述相似度半径内的各所述历史安全日志数据的IP地址；

危险程度相似度计算单元：用于根据所述相似度半径内的各所述历史安全日志数据的IP地址的危险程度分类标记，计算所述当前安全日志数据的IP地址与所述相似度半径内的各所述历史安全日志数据的IP地址的危险程度相似度。

关于安全日志的提取装置的具体限定可以参见上文中对于安全日志的提取方法的限定，在此不再赘述。上述安全日志的提取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在其中一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储安全日志的提取数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种安全日志的提取方法。

本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在其中一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取待分析的当前安全日志数据；

在其中一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取待分析的当前安全日志数据；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种安全日志的提取方法，所述方法包括：

获取待分析的当前安全日志数据；

2.根据权利要求1所述的方法，其特征在于，在所述获取待分析的当前安全日志数据之前，还包括：

获取历史安全日志人工分析结果。

3.根据权利要求2所述的方法，其特征在于，所述获取历史安全日志人工分析结果，包括：

获取历史时间段内的历史安全日志数据；

4.根据权利要求1所述的方法，其特征在于，所述根据所述当前安全日志数据提取所述当前安全日志数据的IP地址，计算所述当前安全日志数据的IP地址的第一特征向量值，包括：

5.根据权利要求4所述的方法，其特征在于，所述提取所述当前安全日志数据的IP地址的特征，所述特征包括：

6.根据权利要求4所述的方法，在所述获取所述当前安全日志数据的IP地址的第一特征向量值之后，还包括：

存储所述当前安全日志数据的IP地址的第一特征向量值。

7.根据权利要求1所述的方法，其特征在于，所述将所述第一特征向量值与已分析历史安全日志数据的IP地址的第二特征向量值进行相似度比较，得到相似度结果，包括：

8.根据权利要求7所述的方法，其特征在于，所述根据所述相似度距离和所述历史安全日志数据的IP地址的危险程度分类标记，计算所述当前安全日志数据的IP地址与所述历史安全日志数据的IP地址的危险程度相似度，包括：

9.一种安全日志的提取装置，所述装置包括：

数据采集模块：用于获取待分析的当前安全日志数据；

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。