CN111431863B

CN111431863B - 基于关系网络的主机入侵检测方法

Info

Publication number: CN111431863B
Application number: CN202010127938.5A
Authority: CN
Inventors: 周世杰; 杨晓庆; 刘启和; 程红蓉
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-02-28
Filing date: 2020-02-28
Publication date: 2021-04-27
Anticipated expiration: 2040-02-28
Also published as: CN111431863A

Abstract

本发明公开了一种基于关系网络的主机入侵检测方法，包括：步骤1，对主机系统调用序列样本集进行特征化处理；步骤2，将经步骤1处理后的数据集划分为训练集、支持集和测试集；再将训练集划分为样例集和查询集；步骤3，构建关系网络模型；所述关系网络模型包括嵌入模块、连接模块和关系模块；步骤4，定义关系网络模型的目标函数；步骤5，训练构建的关系网络模型，得到主机入侵检测模型；步骤6，将需要检测的主机系统调用序列经过步骤1后输入训练好的主机入侵检测模型进行主机入侵检测。本发明提出一种基于关系网络的主机入侵检测方法，该方法可以在小样本的情况下既可以实现已有入侵方式的主机检测也可以实现未知入侵方式的主机入侵检测。

Description

基于关系网络的主机入侵检测方法

技术领域

本发明涉及网络空间安全领域，尤其是一种基于关系网络的主机入侵检测方法。

背景技术

随着互联网的迅猛发展，给人们生活带来便利的同时，也使得网络空间安全环境日趋复杂。很多黑客们以主机作为攻击目标，进行大规模的入侵，且伴随着入侵病毒和入侵行为的多样化、复杂化、智能化、隐蔽化，使得主机入侵检测面临巨大的挑战。为处理以上难题，目前普遍采用深度神经网络方法进行主机入侵检测。深度神经网络在监督识别任务上取得了很好的成果，但是深度神经网络需要每个类有足够多且完全标注的数据，同时，面对不断出现新的入侵病毒和入侵行为，对于深度神经网络进行主机入侵检测引发了以下两个问题：

一、由于高昂的标注样本代价，对于少量样本训练得到的模型，检测率较低，误报率较高；

二、对于新出现的入侵病毒和入侵行为，原有模型不能识别，需要重新训练模型。

以上引发的问题即少样本问题，为了解决少样本问题，研究人员发现人类非常擅长通过极少量的样本识别一个新物体，比如小孩子只需要书中的一些图片就可以认识什么是“斑马”，什么是“犀牛”。在人类的快速学习能力的启发下，研究人员希望机器学习模型在学习了一定类别的数据后，对于新的类别，只需要少量的样本就能快速学习，这就是小样本学习(Few-shot Learning，FSL)。FSL主要模型大致可分为三类：基于模型(Mode Based)、基于度量(Metric Based)和基于优化(Optimization Based)方式的。而关系网络(RelationNetwork，RN)是基于度量方式的，RN让网络自己学习度量方式，使的模型效果更好。但FSL目前仅是应用在图像领域和自然语言处理领域。

发明内容

本发明所要解决的技术问题是：针对上述存在的问题，提供一种基于关系网络的主机入侵检测方法。

本发明采用的技术方案如下：

一种基于关系网络的主机入侵检测方法，包括：

步骤1，对主机系统调用序列样本集进行特征化处理，得到样本集的属性矩阵和标签矩阵；

步骤2，将经步骤1处理后的数据集划分为训练集、支持集和测试集；再将训练集划分为样例集和查询集，所述样例集和查询集分别对应测试时的支持集和测试集；

步骤3，构建关系网络模型；所述关系网络模型包括嵌入模块、连接模块和关系模块；所述嵌入模块的输出经过连接模块进行特征处理后再输入关系模块；

步骤4，定义关系网络模型的目标函数；

步骤5，将样本集经过步骤1处理和步骤2划分后输入构建的关系网络模型，并利用步骤4确定的目标函数训练构建的关系网络模型，得到主机入侵检测模型；

步骤6，将需要检测的主机系统调用序列经过步骤1后输入训练好的主机入侵检测模型进行主机入侵检测。

进一步地，步骤1包括如下子步骤：

步骤1.1，对样本集进行数值化；

步骤1.2，对数值化后的样本集进行特征化，得到一维特征矩阵；

步骤1.3，对一维特征矩阵进行扩维；

步骤1.4，对扩维后的一维特征矩阵中的特征值进行标准化；

步骤1.5，将标准化后的一维特征矩阵转换为二维矩阵，得到样本集的属性矩阵X；

步骤1.6，对样本集的样本标签采用One-Hot编码，得到标签矩阵Y。

进一步地，步骤1.2中采用词袋模型对数值化后的样本集进行特征化。

进一步地，步骤1.4中采用z-score标准化方法对扩维后的一维特征矩阵中的特征值进行标准化。

进一步地，所述嵌入模块包括四个卷积块(Convolutional block)和两个2*2最大池化层，其结构依次为：卷积块、2*2最大池化层、卷积块、2*2最大池化层、卷积块、卷积块；其中，每个卷积块是由64个3*3的卷积核、1个批正则化层和1个线性整流层组成；

所述嵌入模块对输入的样本进行的操作如下：

其中，x_i表示嵌入模块的输入，即第i个样本；

为嵌入模块对样本x_i进行特征映射操作后得到的特征，

为嵌入模块要学习的参数。

进一步地，步骤3中所述连接模块进行特征处理的方法为：将所有输入的样例集/支持集和查询集/测试集的样本进行一一拼接，形成特征连接对；形成拼接对的过程为：

其中，con表示两个特征进行连接运算；

和

由所述嵌入模块的操作得到，表示来自样例集/支持集中的第i个样本和来自查询集/测试集中的第j个样本经嵌入模块特征映射操作后的特征值。

进一步地，所述关系模块包括两个卷积块、两个2*2最大池化层、一个线性整流全连接层和一个sigmoid激活函数全连接层，其结构依次为：卷积块、2*2最大池化层、卷积块、2*2最大池化层；其中，每个卷积块是由64个3*3的卷积核、1个批正则化层、1个线性整流层组成；

所述关系模块对样本进行的操作如下：

其中，c属于C，C为样例集/支持集中样本类别数，r_c,j表示样例集/支持集中c类样本和查询集/测试集中第j个样本的关系分数，K表示样例集/支持集中c类样本的个数，

为特征连接对；

是连接模块的输出，经关系模块进行特征关联后，得到

为连接模块学习的参数。

进一步地，步骤4中所述目标函数为：

其中，pre_i为预测样本类别，y_i为样本实际类别，pre_i为关系模块的输出经One-Hot编码所得，num为查询集的样本个数。

进一步地，步骤5包括如下子步骤：

步骤5.1，根据步骤1得到样本的属性矩阵X和标签矩阵Y；

步骤5.2，根据步骤2将步骤5.1得到的数据集划分为训练集、支持集和测试集；再将训练集划分为样例集和查询集；

步骤5.3，设置训练迭代次数episode；

步骤5.4，在每次迭代过程中从训练集抽取C个类别，每个类别K个样本作为样例集，再从这C个类别中剩余的样本中抽取batch个样本作为查询集；

步骤5.5，将样例集的C*K个样本和查询集的batch个样本输入嵌入模块，得到C*K个

和batch个

其中，x_i为来自样例集的第i个样本，

表示经过嵌入模块得到的样本特征，x_j为来自查询集的第j个样本，

表示经过嵌入模块得到的样本特征；

步骤5.6，将样例集的CK个样本和查询集的batch个样本进行特征连接，得到batch*C*K个

特征连接对，其中，con表示两个样本特征进行连接运算，

表示样例集的第i个样本特征和查询集的第j个样本特征进行连接；

步骤5.7，将batch*C*K个

的特征连接对输入关系模块，得到batch*C个特征连接对的相关分数，即batch*C个

c为C的其中一个取值，并将其进行One-Hot编码；

步骤5.8，根据步骤4定义的目标函数，进行参数更新；

步骤5.9，重复执行步骤5.4～5.8，episode次，最终得到主机入侵检测模型。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1、本发明提出一种基于关系网络的主机入侵检测方法，该方法在小样本的情况下既可以实现已有入侵方式的主机检测也可以实现未知入侵方式的主机入侵检测。。

2、本发明的方法通过改变关系网络的特征连接方式，进而改变关系网络的目标函数，提高了模型的准确率。

3、本发明将主机系统调用序列的样本数据处理成“图片数据”，丰富了样本数据的信息容量，增加了不同类别样本之间的距离，提高了模型的准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明的基于关系网络的主机入侵检测方法的架构图。

图2为本发明的嵌入模块的结构示意图。

图3为本发明的连接模块的原理示意图。

图4为本发明的关系模块的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，即所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

以下结合实施例对本发明的特征和性能作进一步的详细描述。

如图1所示，本实施例提供的一种基于关系网络的主机入侵检测方法，包括：

步骤4，定义关系网络模型的目标函数；

具体地：

步骤1，样本特征化

由于收集到的主机系统调用序列样本集是一系列函数的调用，且每个主机系统调用序列的长度不相等，因此，需要对主机系统调用序列特征化。n表示样本集的大小，L表示样本集中主机系统调用序列的最大长度。下文出现的所有n和L均与此处意义相同。

步骤1包括如下子步骤：

步骤1.1，对样本集进行数值化；

为了后续数据处理的方便，需要将样本集数值化，由于收集到的主机系统调用序列样本集是一系列函数的调用，也就是说需要将样本函数数值化，函数数值化即用简单的数值来表示复杂的函数。收集所有样本的调用函数为：

S＝{s₁,s₂,…,s_l,…,s_m}

其中，m表示所有样本中的不同函数个数的总和，s_l表示第l个函数，将样本函数数值化后为T＝{1，2,l,…,m}，l表示第l个函数数值化以后的值，1≤l≤m。

用T中的值将所有样本的调用函数进行数值化，得到数值化后的样本集为：

其中，a_ij为第i个样本数值化后的第j个调用函数的值。

对样本函数进行数值化以后，仅是相当于由数字形成的长度不等的序列，若直接将其作为关系网络模型的输入，会影响模型的效果。因此，本发明奖长度不同的主机系统调用序列看作长度不等的句子，采用词袋模型对数值化后的样本集进行特征化。

词袋模型能够把一个句子转化为向量表示，它不考虑句子中单词的顺序，只考虑词表(vocabulary)中单词在这个句子中的出现次数。本发明使用CountVectorizer词袋模型方法来完成词向量化，词袋模型方法步骤如下：

步骤1.2.1，收集语料库：

将经过步骤1.1得到的每个样本看成一个句子，所有样本形成的语料库为：

texts＝[′a₀₀a₀₁…a_0h′,

′a₁₀a₁₁…a_1k′,

′…′,

′a_i0a_i1…a_ij′]

其中，a_i0a_i1…a_ij为一个样本，将a_ij看成一个单词，0≤i<n,0<h≤L,0<k≤L,0<j≤L。

步骤1.2.2，生成词典：

统计语料库所有出现的单词，得到词典为：

dicts＝{′d₀′,′d₁′,…,′d_i′}

其中，d_i为词典的第i+1个单词，i为单词d_i在词典中的索引，i的最大值为m′-1，m′为词典中单词的总个数，下文中出现的所有m′均与此处意义相同。

步骤1.2.3，生成字典：

统计每个样本中每个单词以及每个单词出现的次数，生成词典为：

dict_j＝{′d₀′:n₀,′d₁′:n₁,…,′d_i′:n_i}

其中，dict_j为第j个样本，d_i为样本出现的第i+1个单词，n_i为第i+1个单词出现的次数，i<m′。

步骤1.2.4，特征矩阵,：

根据词典中每个单词的索引，以及每个样本的字典，生成样本的一维特征矩阵为：

其中，x_ij表示索引为j的单词在第i个样本出现的词频。

步骤1.3，对一维特征矩阵进行扩维；

经步骤1.2得到特征化的一维特征矩阵，本发明对特征化后的数据样本进行扩维，这样不仅保留了原始数据样本中所有有用信息，而且扩展出的特征增加了数据样本的信息容量，能在一定程度上增加不同类别的数据在样本空间中相隔的距离，可提高模型的准确率，因此将每个样本填充为m″′＝m′+m″；其中，m′为一维特征矩阵的维数，m″为增加的维数，m″′为扩维后的维数。

首先，生成一个n×m″的矩阵为：

其中，x_ij服从正态分布。

然后，将矩阵temp与经步骤1.2.4步骤得到一维特征矩阵进行合并，形成扩维后样本的一维特征矩阵为：

其中，x_ij为第i个样本的第j个属性值。

步骤1.4，对扩维后的一维特征矩阵中的特征值进行标准化；

本发明采用z-score标准化方法对扩维后的一维特征矩阵中的特征值进行标准化。标准化后的特征值为：

其中，x_i表示样本的第i维的特征值，n为样本总数。

步骤1.5，将标准化后的一维特征矩阵转换为二维矩阵，得到样本集的属性矩阵X；此步骤也可叫做将样本数据变“图像数据”，即将样本由扩维后维数为m″′的一维特征矩阵变为p×p的二维特征矩阵，p×p＝m″′，则变换后的第i个样本为：

其中，d_ij为第i维的第j个属性值。

对样本标签

y_i为第i个样本标签,采用独热(One-Hot)编码方法进行编码，用L表示样本标签中不同标签的总数，将样本标签的每一种取值都看成一种状态，则样本标签中有L个不相同的取值，那么我们就可以将样本标签抽象成N种不同的状态，one-hot编码保证了每一个取值只会使得一种状态处于“激活态”，也就是说这L种状态中只有一个状态位值为1，其他状态位都是0。则样本i的标签y_i，其One-Hot编码为：

y_{enc_i}＝[0,…,0,1,0,…,0]

其中，y_{enc_i}的长度是L，“1”所在位置即代表该状态处于“激活态”。

对于Y，得到编码后的样本标签为：

步骤2，样本集划分

本发明将经步骤1处理后的数据集划分为训练集(train set)、支持集(supportset)和测试集(test set)；再将训练集划分为样例集(sample set)和查询集(query set)，所述样例集和查询集分别对应测试时的支持集和测试集；其中支持集作为对比学习的样例，它拥有和测试集一样的标签，在测试过程中，可以通过与测试集做对比来实现对测试集的识别。对于包含C(1<C)个不同的类别，每个类别有K(1<K≤20)个带标签的样本的支持集，称这种少样本学习问题为C-way,K-shot，C和K在下文中的出现均与此处意义相同。

步骤3，构建关系网络模型

本发明中，所述关系网络模型包括嵌入模块(embedding module)、连接模块(featuremapsconcatenation)和关系模块(relation module)；所述嵌入模块的输出经过连接模块进行特征处理后再输入关系模块；

(1)嵌入模块

嵌入模块的主要作用是将样本特征映射在另一个空间。如图3所示，所述嵌入模块包括四个卷积块(Convolutional block)和两个2*2最大池化层(max-pool)，其结构依次为：卷积块、2*2最大池化层、卷积块、2*2最大池化层、卷积块、卷积块；其中，每个卷积块是由64个3*3的卷积核(Convolutional kernel)、1个批正则化层(Batch normalization)、1个线性整流层(ReLU)组成；

所述嵌入模块对输入的样本进行的操作如下：

其中，x_i表示嵌入模块的输入，即第i个样本；

为嵌入模块对样本x_i进行特征映射操作后得到的特征，

为嵌入模块要学习的参数。

(2)连接模块

本发明采用改进的特征连接方式进行特征处理，如图3所示，所述连接模块进行特征处理的方法为：将所有输入的样例集/支持集和查询集/测试集的样本进行一一拼接，形成特征连接对；形成拼接对的过程为：

其中，con表示两个特征进行连接运算；

和

由所述嵌入模块的操作得到(即由公式(1)所得)，表示来自样例集/支持集中的第i个样本和来自查询集/测试集中的第j个样本经嵌入模块特征映射操作后的特征值。

(3)关系模块

关系模块的作用是计算两个样本经过嵌入模块进行空间映射后的样本相似性。如图4所示，所述关系模块包括两个卷积块、两个2*2最大池化层、一个线性整流全连接层和一个sigmoid激活函数全连接层，其结构依次为：卷积块、2*2最大池化层、卷积块、2*2最大池化层；其中，每个卷积块是由64个3*3的卷积核(Convolutional kernel)、1个批正则化层(Batch normalization)、1个线性整流层(ReLU)组成；sigmoid激活函数作为最后的输出。

所述关系模块对样本进行的操作如下：

为特征连接对(由公式(2)所得)；

是连接模块的输出，经关系模块进行特征关联后，得到

为连接模块学习的参数。

(4)关系网络模型的输出结果进行One-Hot编码，One-Hot编码的方法如步骤1.6一样，编码后的结果为pre_i，pre_i表示样本i的类别。

步骤4，定义目标函数

本发明将分类问题看成了逻辑回归问题，期预测结果为[0,1]表示类别之间的相关分数。由于特征连接方式的改变，也引起了目标函数的改变。因此本发明改进均方误差损失函数(MES)作为目标函数，所述目标函数为：

步骤5，训练模型

将样本集经过步骤1处理和步骤2划分后输入构建的关系网络模型，并利用步骤4确定的目标函数训练构建的关系网络模型，得到主机入侵检测模型；具体包括如下子步骤：

步骤5.1，根据步骤1得到样本的属性矩阵X和标签矩阵Y；

步骤5.3，设置训练迭代次数episode；

和batch个

其中，x_i为来自样例集的第i个样本，

表示经过嵌入模块得到的样本特征；

特征连接对，其中，con表示两个样本特征进行连接运算，

步骤5.7，将batch*C*K个

c为C的其中一个取值，并将其进行One-Hot编码；

步骤5.8，根据步骤4定义的目标函数，进行参数更新；

步骤6，主机入侵检测

将需要检测的主机系统调用序列经过步骤1后输入训练好的主机入侵检测模型进行主机入侵检测。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于关系网络的主机入侵检测方法，其特征在于，包括：

步骤1，对主机系统调用序列样本集进行特征化处理，得到样本集的属性矩阵和标签矩阵；步骤1包括如下子步骤：

步骤1.1，对样本集进行数值化；

步骤1.3，对一维特征矩阵进行扩维；

步骤1.4，对扩维后的一维特征矩阵中的特征值进行标准化；

步骤1.6，对样本集的样本标签采用One-Hot编码，得到标签矩阵Y；

步骤4，定义关系网络模型的目标函数；

步骤5，将样本集经过步骤1处理和步骤2划分后输入构建的关系网络模型，并利用步骤4确定的目标函数训练构建的关系网络模型，得到主机入侵检测模型；步骤5包括如下子步骤：

步骤5.1，根据步骤1得到样本的属性矩阵X和标签矩阵Y；

步骤5.3，设置训练迭代次数episode；

和batch个

其中，x_i为来自样例集的第i个样本，

表示经过嵌入模块得到的样本特征；

为嵌入模块要学习的参数；

特征连接对，其中，con表示两个样本特征进行连接运算，

步骤5.7，将batch*C*K个

c为C的其中一个取值，并将其进行One-Hot编码；

是连接模块的输出，经关系模块进行特征关联后，得到

为连接模块学习的参数；

步骤5.8，根据步骤4定义的目标函数，进行参数更新；

步骤5.9，重复执行步骤5.4～5.8，episode次，最终得到主机入侵检测模型；

2.根据权利要求1所述的基于关系网络的主机入侵检测方法，其特征在于，步骤1.2中采用词袋模型对数值化后的样本集进行特征化。

3.根据权利要求1所述的基于关系网络的主机入侵检测方法，其特征在于，步骤1.4中采用z-score标准化方法对扩维后的一维特征矩阵中的特征值进行标准化。

4.根据权利要求1所述的基于关系网络的主机入侵检测方法，其特征在于，所述嵌入模块包括四个卷积块(Convolutional block)和两个2*2最大池化层，其结构依次为：卷积块、2*2最大池化层、卷积块、2*2最大池化层、卷积块、卷积块；其中，每个卷积块是由64个3*3的卷积核、1个批正则化层和1个线性整流层组成；

所述嵌入模块对输入的样本进行的操作如下：

其中，x_i表示嵌入模块的输入，即第i个样本；

为嵌入模块对样本x_i进行特征映射操作后得到的特征，

为嵌入模块要学习的参数。

5.根据权利要求1所述的基于关系网络的主机入侵检测方法，其特征在于，步骤3中所述连接模块进行特征处理的方法为：将所有输入的样例集/支持集和查询集/测试集的样本进行一一拼接，形成特征连接对；形成拼接对的过程为：

其中，con表示两个特征进行连接运算；

和

6.根据权利要求1所述的基于关系网络的主机入侵检测方法，其特征在于，所述关系模块包括两个卷积块、两个2*2最大池化层、一个线性整流全连接层和一个sigmoid激活函数全连接层，其结构依次为：卷积块、2*2最大池化层、卷积块、2*2最大池化层；其中，每个卷积块是由64个3*3的卷积核、1个批正则化层、1个线性整流层组成；

所述关系模块对样本进行的操作如下：

其中，c属于C，C为样例集/支持集中样本类别数，r_c，j表示样例集/支持集中c类样本和查询集/测试集中第j个样本的关系分数，K表示样例集/支持集中c类样本的个数，

为特征连接对；

是连接模块的输出，经关系模块进行特征关联后，得到

为连接模块学习的参数。

7.根据权利要求1所述的基于关系网络的主机入侵检测方法，其特征在于，步骤4中所述目标函数为：