CN109101527A

CN109101527A - 一种海量安全日志信息过滤方法及装置

Info

Publication number: CN109101527A
Application number: CN201810642159.1A
Authority: CN
Inventors: 亚静; 柳厅文; 李全刚; 张盼盼; 时金桥
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2018-06-21
Filing date: 2018-06-21
Publication date: 2018-12-28

Abstract

本发明公开了一种海量安全日志信息过滤方法及装置。本方法为：1)提取安全日志信息的特征序列；2)根据黑白名单对所述特征序列进行标注，利用标注好的特征序列训练向量表示模型；其中，将根据黑白名单无法标注的特征序列称为灰度数据；3)利用训练好的向量表示模型，对所述灰度数据进行向量表示，得到各所述灰度数据对应的向量；4)计算每一所述灰度数据i对应的向量与各标注为白名单的特征序列对应的向量之间的距离d；如果该距离d小于设定阈值，则过滤掉所述灰度数据i对应的安全日志。本发明能够在小规模黑白名单基础上实现大规模正常日志信息的过滤，提升了异常检测的效率。

Description

一种海量安全日志信息过滤方法及装置

技术领域

本发明涉及信息安全领域，尤其涉及一种海量安全日志信息过滤方法及装置，本发明突破传统基于黑白名单匹配的限制，学习安全日志信息的向量表示，通过距离对日志信息进一步过滤，从而解决数据量过大造成的分析困难等问题。

背景技术

安全日志，包括DNS流量日志、WEB日志和防火墙日志等，为服务器、防火墙记录了必要的、有价值的信息，对安全隐患与异常的发现是十分重要的。然而，系统的审计日志数据量十分庞大，数据分析和处理非常困难，并且大部分数据为正常数据。因此，如何从海量日志信息中过滤掉大部分正常数据，提取出最有可能包含异常记录的日志信息以缩减待分析的数据量，对异常检测和攻击的发现是十分重要的。传统的过滤方法大多通过与黑白名单(包括域名黑名单)或已知规则模式库的匹配或比较，来过滤掉正常的数据。常见的黑白名单有：MmalwareDomainList和DNS-BH提供的域名黑名单、Alexa提供的域名白名单；Malicious Web Site Labs提供的恶意域名与IP黑名单(http://dn-mwsl-hosts.qbox.me/hosts.txt)；Github上提供的一些Webshell规则模式和黑名单等。

随着网络通信技术的发展，部署在网络环境中的设备和服务越来越多，对“海量”网络日志信息分析进而发现异常是十分困难的。目前基于黑白名单和规则模式的过滤方法在一定程度能够缩减待分析的数据量，但受限于黑白名单的规模和质量以及规则的完备性，过滤效果仍不十分理想，得到的灰度数据量仍然很大，不利于后续的分析与检测工作。

发明内容

针对现有技术的不足，本发明的目的在于提供一种安全日志信息过滤方法及装置，突破黑白名单完备性和时效性的限制，在海量日志信息下过滤掉大规模正常数据，从而解决日志数据量过大造成的分析困难的问题。

本发明的技术方案为：

一种海量安全日志信息过滤方法，其步骤包括：

1)提取安全日志信息的特征序列；

2)根据黑白名单对所述特征序列进行标注，利用标注好的特征序列训练向量表示模型；

其中，将根据黑白名单无法标注的特征序列称为灰度数据；

3)利用训练好的向量表示模型，对所述灰度数据进行向量表示，得到各所述灰度数据对应的向量；

4)计算每一所述灰度数据i对应的向量与各标注为白名单的特征序列对应的向量之间的距离d；如果该距离d小于设定阈值，则过滤掉所述灰度数据i对应的安全日志。

进一步的，所述特征序列包括日志对应主体的内容特征、行为特征。

进一步的，所述内容特征为日志主体本身的属性信息，包括域名长度、TLD，主机IP地址的网段、所属国家，用户的身份、权限；所述行为特征为日志中记录的行为信息，包括域名解析行为、用户发起请求方式以及服务器响应状态。

进一步的，采用欧几里得距离计算公式、曼哈顿距离计算公式或切比雪夫距离计算公式计算所述距离d。

进一步的，将标注好的特征序列输入到孪生神经网络中，训练得到所述向量表示模型。

进一步的，在所述孪生神经网络的三重损失函数上应用梯度下降算法，通过三个样本计算所述三重损失函数d(A,P)+α≤d(A,N)；其中，d(A,P)为标注样本A与正样本P之间的距离，d(A,N)为标注样本A与负样本N之间的距离，α为一个超参数，用于防止不同的样本学习出相同的向量。

一种海量安全日志信息过滤装置，其特征在于，包括特征序列提取模块、标注模块、向量表示模型训练模块、向量生成模块、距离计算模块和过滤模块；其中，

所述特征序列提取模块，用于从安全日志信息中提取特征项作为安全日志信息的特征序列；

所述标注模块，用于根据黑白名单对所述特征序列进行标注，其中，将根据黑白名单无法标注的特征序列称为灰度数据；

所述向量表示模型训练模块，用于利用标注好的特征序列训练得到向量表示模型；

所述向量生成模块，用于利用训练好的向量表示模型，对所述灰度数据进行向量表示，得到各所述灰度数据对应的向量；

所述距离计算模块，用于计算每一所述灰度数据i对应的向量与各标注为白名单的特征序列对应的向量之间的距离d；

所述过滤模块，用于比较该距离d与设定阈值的关系，如果该距离d小于设定阈值，则过滤掉所述灰度数据i对应的安全日志。

本发明提供的一种对安全日志信息进行过滤的方法及装置，该方法的主要步骤包括:

(1)特征序列提取：提取日志信息的特征序列，包括日志对应主体(不同的日志对应的主体不同，例如域名、DNS资源记录或主机IP、授权用户、URL等)的内容特征(指日志主体本身的一些属性信息，例如域名长度、TLD等或主机IP地址的网段、国家，用户的身份、权限等)、行为特征(指日志中记录的行为信息，例如域名解析行为、用户发起请求方式以及服务器响应状态等)等。

(2)向量表示模型训练：通过黑白名单标注的数据训练向量表示模型。将标注好的日志信息特征序列输入到孪生神经网络中，为了得到特征较好的特征向量编码，使正常日志信息的向量与白名单日志的向量非常接近，本发明在孪生神经网络中的三重损失函数上应用梯度下降，通过三个样本计算三重损失函数：一个正常日志样本(标注样本A，可以是正样本，也可以是负样本，此处为正样本)，一个与标注日志性质相同的样本(正样本P)和一个与标注日志性质不同的样本(负样本N)。三重损失函数的目标是使得标注样本A与正样本P的编码之间的距离小于等于A与负样本N的编码之间的距离，即相同标注样本的特征向量更加接近，不同标注的样本要互相远离。

三重损失函数的公式，如(1)所示:

d(A,P)+α≤d(A,N) (1)

式中，d(A,P)--标注样本A与正样本P之间的距离；

d(A,N)--标注样本A与负样本N之间的距离；

α--一个超参数，为了防止不同的样本学习出相同的向量。

这里的距离有多种选择，如欧几里得距离、曼哈顿距离或切比雪夫距离等空间向量距离计算公式。

欧几里得距离公式，如(2)所示：

式中，(x₁₁,x₁₂,...,x_1n)是第一个样本的n维特征向量，(x₂₁,x₂₂,...,x_2n)是第二个样本的n维特征向量。

曼哈顿距离公式，如(3)所示：

切比雪夫距离公式，如(4)所示：

d＝max_i(x_1i-x_2i) (4)

式中，(x₁₁,x₁₂,...,x_1n)是第一个样本的n维向量，(x₂₁,x₂₂,...,x_2n)是第二个样本的n维向量，式(4)的另一种等价形式如式(5):

(3)向量表示：本发明中将根据黑白名单无法标注的特征训练数据称为灰度数据，利用步骤(2)训练好的向量表示模型，对灰度数据进行向量表示。具体地，将灰度数据的日志特征序列输入到训练好的向量表示模型中，通过孪生神经网络模型学习出特征序列的向量表示。

(4)过滤：得到灰度数据的日志特征的向量表示后，通过向量空间距离过滤掉正常的数据。可以采用欧几里得距离、曼哈顿距离或切比雪夫距离等空间向量距离公式计算未知样本与白名单样本向量的距离。然后设置阈值，过滤掉与白名单特征向量距离小于阈值的灰度数据对应的日志。每一标注为白名单的特征序列分别对应一向量，对于一灰度数据的特征对应的向量，分别与每一白名单特征向量进行距离计算，只要其中一个距离值小于设定阈值，则过滤掉该灰度数据对应的日志。

本发明的技术关键点在于：

1、在小规模黑白名单基础上实现大规模正常日志信息的过滤，一定程度突破了黑白名单规模对过滤效果的限制。

2、一种对数据进行过滤的方法及装置，其主要步骤包括(1):特征序列提取，从日志信息中提取特征项作为日志信息的特征序列表示；(2)向量表示模型训练：将黑白名单标注数据的特征编码送入孪生神经网络，得到对特征序列进行编码的模型；(3)向量表示：用(2)中所得模型对不属于黑白名单的灰度数据进行向量表示，得到其特征向量编码；(4)通过欧几里得距离、曼哈顿距离或切比雪夫距离等计算灰度数据与白名单数据的特征向量间距离，并设置阈值，过滤掉与白名单特征向量距离小于阈值的灰度数据对应的日志。

3、步骤(1)首先通过特征序列提取，从日志主体的内容特征和行为特征两方面提取特征项。

4、步骤(2)将黑白名单数据的特征序列输入孪生神经网络进行学习，为了使相同标注的数据特征向量间距离更接近，在三重损失函数上应用了梯度下降，并令三重损失函数的目标是相同标注样本间距离小于不同标注样本间的距离。

5、步骤(3)向量表示，使用(2)中训练所得的模型对不属于黑白名单的灰度数据进行特征向量表示。

6、在步骤(3)得到向量表示后，可以通过欧几里得距离、曼哈顿距离、切比雪夫距离公式等计算灰度数据与白名单数据间距离，并过滤掉与白名单数据距离小于阈值的灰度数据对应的日志。

与现有技术相比，本发明的积极效果为：

1、突破了传统黑白名单规模和时效性的局限性，能够在小规模黑白名单基础上实现大规模正常日志信息的过滤；

2、该方法能够对DNS流量日志、WEB日志等不同类型日志信息进行过滤，为海量日志分析的数据量缩减提供了有力的支撑；

3、该方法在三重损失函数上应用梯度下降，使得相同标注的日志特征向量更加接近，不同标注的特征向量互相远离，从而保证正常日志与白名单日志的向量非常接近，提高过滤的准确性；

4、该方法能够过滤掉大部分正常的数据，从而使得过滤后的数据中异常信息占的比例提高，有利于提升异常检测的效果。

附图说明

图1是本发明方法的模块架构图；

图2是本发明中神经网络图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要注意的是，在以下描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将会被忽略。

实例1一种海量域名信息过滤方法及装置

以DNS日志中高级持续性威胁域名的分析为例，进行DNS日志中海量不平衡数据下灰度域名的过滤，本发明的方法流程如图1所示，其步骤包括：

1)从域名的内容特征和行为特征入手，提取域名的特征序列：内容特征是通过分析域名本身提取出的特征，如域名的字符序列、域名长度、特殊字符的个数、包含有含义单词的个数等，行为特征是通过域名的通信行为提取出的特征，包括TTL平均值、IP记录个数、所属网段个数、AS域个数、NS个数、NS分散度、注册时间、所属国家、TXT记录长度等。

2)将黑白名单标注的域名特征序列输入到孪生神经网络(如图2所示)中，对内容特征和行为特征分别进行学习，训练域名的向量表示模型。为了使向量表示后正常域名与白名单域名的向量比较接近，本发明在三重损失函数上应用梯度下降算法，即通过三个域名计算三重损失函数：一个正常域名样本(标注样本A)、一个与标注域名性质相同的域名样本(正样本P)和一个与标注域名性质不同的样本域名(负样本N)。三重损失函数的目标是使相同标注域名的特征向量更加接近，不同标注的域名样本互相远离。

三重损失函数的公式，如(1)所示:

d(A,P)+α≤d(A,N) (1)

式中，d(A,P)--标注域名A与正样本P之间的距离；

d(A,N)--标注域名A与负样本N之间的距离；

α--一个超参数，防止不同的域名学习出相同的向量。

3)将不在黑白名单中的灰度域名的特征序列输入到2)中训练好的神经网络模型中，得到域名的特征向量编码。

4)采用欧几里得距离、曼哈顿距离向或切比雪夫距离等方式计算灰度域名特征向量与白名单中域名特征向量的距离。根据计算结果设置阈值，过滤掉与白名单域名距离小于阈值的灰度数据对应的日志，以缩减待分析的日志数据量。

实例2一种Webshell样本过滤方法及装置

以通过WEB日志和网页文件黑白样本分析进行Webshell的发现为例，进行数据过滤：

1)从Webshell的内容特征和行为特征入手，提取特征序列：内容特征是对网页源文件内容通过“词袋&TF-IDF模型”提取所得的2-gram特征序列:将每个网页文件作为一个完整的字符串使用2-gram提取词袋模型，计算词袋模型中每个词在网页文件中的TF-IDF权重，作为该网页文件的特征序列,伪代码如下所示：

Get_Feature_Serial(filespath)

Require:Dataset D,Parameters",minPts

1:load_files(filespath)；/*读取目录下所有的PHP文件*/

2:CV＝CountVectorizer(ngram_range＝(2,2))；/*2-gram词袋提取*/

3:x＝CV.fit_transform(str_list).toarray()；/*s生产特征向量*/

4:transformer＝TfidfTransformer(smooth_idf＝False)；/*TF-IDF计算*/

5:x_tfidf＝transformer.fit_transform(x)；

6:x＝x_tfidf.toarray()。

行为特征是从WEB日志中提取的有关访问行为的特征，例如网页文件的访问路径、提交参数、网页文件访问频率和访问时间分布等。

2)将网页文件黑白样本的特征序列输入孪生神经网络进行学习，其中以WordPress、PHPCMS、Yii等开源软件作为白样本，以来自Github相关项目的Webshell文件作为负样本。为了使编码后正常样本与白样本向量比较接近，在三重损失函数上应用梯度下降，即通过三个网页文件样本计算三重损失函数：一个正常网页文件样本(标注样本A)、一个与标注文件性质相同的文件样本(正样本P)和一个与标注样本性质不同的文件(负样本N)。三重损失函数的目标是使相同标注文件的的特征向量更加接近，不同标注的文件样本互相远离。

3)将灰度样本的特征序列输入到2)中训练好的神经网络模型中，得到灰度样本的特征向量编码。

4)采用欧几里得距离、曼哈顿距离或切比雪夫距离等方式计算灰度样本特征向量与白名单样本特征向量的距离。根据计算结果设置阈值，过滤掉与白样本特征向量距离小于阈值的灰度数据对应的日志，以缩减待分析的数据量。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的研究人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来说，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种海量安全日志信息过滤方法，其步骤包括：

1)提取安全日志信息的特征序列；

其中，将根据黑白名单无法标注的特征序列称为灰度数据；

2.如权利要求1所述的方法，其特征在于，所述特征序列包括日志对应主体的内容特征、行为特征。

3.如权利要求2所述的方法，其特征在于，所述内容特征为日志主体本身的属性信息，包括域名长度、TLD，主机IP地址的网段、所属国家，用户的身份、权限；所述行为特征为日志中记录的行为信息，包括域名解析行为、用户发起请求方式以及服务器响应状态。

4.如权利要求1所述的方法，其特征在于，采用欧几里得距离计算公式、曼哈顿距离计算公式或切比雪夫距离计算公式计算所述距离d。

5.如权利要求1所述的方法，其特征在于，将标注好的特征序列输入到孪生神经网络中，训练得到所述向量表示模型。

6.如权利要求5所述的方法，其特征在于，在所述孪生神经网络的三重损失函数上应用梯度下降算法，通过三个样本计算所述三重损失函数d(A,P)+α≤d(A,N)；其中，d(A,P)为标注样本A与正样本P之间的距离，d(A,N)为标注样本A与负样本N之间的距离，α为一个超参数，用于防止不同的样本学习出相同的向量。

7.一种海量安全日志信息过滤装置，其特征在于，包括特征序列提取模块、标注模块、向量表示模型训练模块、向量生成模块、距离计算模块和过滤模块；其中，

8.如权利要求7所述的装置，其特征在于，所述特征序列包括日志对应主体的内容特征、行为特征；所述内容特征为日志主体本身的属性信息，包括域名长度、TLD，主机IP地址的网段、所属国家，用户的身份、权限；所述行为特征为日志中记录的行为信息，包括域名解析行为、用户发起请求方式以及服务器响应状态。

9.如权利要求7所述的装置，其特征在于，所述向量表示模型训练模块将标注好的特征序列输入到孪生神经网络中，训练得到所述向量表示模型；在所述孪生神经网络的三重损失函数上应用梯度下降算法，通过三个样本计算所述三重损失函数d(A,P)+α≤d(A,N)；其中，d(A,P)为标注样本A与正样本P之间的距离，d(A,N)为标注样本A与负样本N之间的距离，α为一个超参数，用于防止不同的样本学习出相同的向量。

10.如权利要求7所述的装置，其特征在于，所述距离计算模块采用欧几里得距离计算公式、曼哈顿距离计算公式或切比雪夫距离计算公式计算所述距离d。