CN110245693B

CN110245693B - 结合混合随机森林的关键信息基础设施资产识别方法

Info

Publication number: CN110245693B
Application number: CN201910459868.0A
Authority: CN
Inventors: 罗森林; 门元昊; 潘丽敏; 陈传涛; 秦枭喃
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2019-05-30
Filing date: 2019-05-30
Publication date: 2023-04-07
Anticipated expiration: 2039-05-30
Also published as: CN110245693A

Abstract

本发明公开了一种结合混合随机森林的关键信息基础设施资产识别方法，属于计算机与信息科学技术领域。该方法包括：对采集到的设施资产数据进行结构化处理并进行特征优化表达，得到扩展的特征向量；结合德尔菲专家咨询法和主成分分析法，进行资产设施的关键影响因素分析，提取关键特征向量；将多个随机森林判别模型与一个门控函数相结合，获得混合随机森林判决模型；基于构建的混合随机森林模型实现对流量是否为关键资产基础设施的识别。由于本发明提供的关键信息基础设施资产识别方法，在大数据下通过结合机器学习方法实现资产的特征构建和关键因素提取，通过分区构建各自的专家模型，提升识别的准确性和效率，并提高了模型的泛化能力和可扩展性。

Description

结合混合随机森林的关键信息基础设施资产识别方法

技术领域

本发明涉及一种结合混合随机森林的关键信息基础设施资产识别方法，属于计算机与信息科学技术领域。

背景技术

关键信息基础设施在国民经济和社会发展中具有举足轻重的地位，是重要的国家战略资产。因此，很多国家都十分重视对关键信息基础设施的保护，而识别认定该流量是否为关键信息基础设施是对其进行安全保护的前提，同时也是实践中的难点之一。目前为止，业界对于关键信息基础设施的识别方法，主要是基于人为标定或规则匹配的识别认定方法，取得了一定的成果，但也存在这较多问题。

1.基于人为标定的识别认定方法

基于人为标定的识别认定算法在关键信息基础设施定义模糊、分类标准较为宏观的时期应用较多。这一方法借助了主观评价的手段，能够减轻关键信息基础设施定义模糊对识别认定的负面影响。但是这种方法的泛化能力较弱，且效率低。

2.基于规则匹配的识别认定方法

规则匹配是人为标定方法的改进。根据已知关键信息基础设施的通信协议、IP、端口、域名等重要信息生成规则，再根据已有的规则对未知设施进行识别认定。这一方法能够实现对资产的自动化识别，提高了识别效率。但是由于识别规则的固定，此方法依然存在泛化能力差、识别准确率低的问题。

3.结合混合专家模型的识别认定方法

混合专家模型能够根据已有的关键信息基础设施数据分离训练多个识别模型，并通过门控模块对各个模型进行取舍，最后的输出为各模型的加权组合。该方法具有较强的泛化能力，且识别准确率也高于前两种方法。

综上所述，由于关键信息基础设施资产数量大、种类多，基于人为标定或规则匹配的识别认定方法无法对关键信息基础设施资产进行快速、全面、准确的识别认定。因此，本发明将提供结合混合随机森林的关键信息基础设施资产识别方法，来提高关键信息基础设施资产识别的准确率。

发明内容

本发明的目的是为多种类、大数量条件下快速、准确识别认定此流量数据是否是关键信息基础设施资产的问题，提出结合混合随机森林的关键信息基础设施资产识别认定方法。

本发明的设计原理为：本发明的设计原理包含三个部分，设施资产数据高维特征构建及优化表达，资产数据识别的关键影响因素提取，结合混合随机森林的设施资产识别。设施资产数据高维特征构建模块中首先通过对基础设施的设备日志、网络流量等复杂数据进行清洗和结构化处理获得原始资产数据，基于《关键信息基础设施确定指南》获取该资产是否为关键信息基础设施的标签，若是则标注其下属的子类标签。之后从关键字、时段节点、行为组合、地理关联四个方面构建4类特征向量，最后顺序拼接获得高维扩展向量。关键影响因素提取部分，建立在德尔菲专家咨询法和主成分分析法上，在客观上基于使用高斯核函数的支持向量机和随机森林的方法获得特征的权重集Weight(N)＝{w₁，w₂，...w_k...，w_N}，其中w_k表示第k个特征的权重大小， w_k∈[0，1]，并结合专家经验，进行关键影响因素分析获得最终关键特征向量，兼顾关键特征向量的客观性和完备性。结合混合随机森林的设施资产识别是通过设定样本挑选概率，依概率迭代的挑选样本作为中心样本赋予样本权重训练多个随机森林模型，在每次迭代中根据设定的公式将每个样本赋予权重，以训练擅长区分此区域数据的随机森林模型，并依据一个门控函数将多个随机森林相结合获得混合随机森林模型。最后依靠此混合随机森林模型实现资产数据的识别。

本发明的技术方案是通过如下步骤实现的：

步骤1，对采集到的设施资产数据进行结构化处理并进行特征优化表达，得到扩展的特征向量。

步骤1.1，将采集到的基础设施的设备日志、网络流量等复杂数据进行清洗优化获得原始资产数据

步骤1.2，从关键字、时段节点、行为组合、地理关联四个方面为基准，从原始资产数据中提取关键词特征向量、时段特征向量、行为特征向量和地理特征向量这四种特征向量，

步骤1.3，分别对四种特征向量进行归一化、标准化和哑变量处理，并将其顺序拼接获得高维扩展特征向量。

步骤2，为兼顾最终数据的客观性和完备性，结合德尔菲专家咨询法和主成分分析法，进行关键信息基础设施的关键影响因素分析，提取关键特征向量。

步骤2.1，在客观上基于使用高斯核函数的支持向量机和随机森林的方法获得特征的权重。

步骤2.2，获取所有特征的权重信息后，基于德尔菲专家咨询法原则，对特征进行多轮经验分析，得到特征的重要性权重

步骤2.3，结合专家经验与机器学习方法得到的客观影响因素分析，进行关键影响因素提取，获得最终的关键特征向量。

步骤3，结合混合专家模型的设施资产识别是将多个随机森林判别模型与一个门控函数相结合，获得混合随机森林判决模型。

步骤3.1，初始化设定每个样本被挑选为中心概率为

并设定专家模型的数量为K。

步骤3.2，依样本概率挑选其中的一个样本，并通过公式

赋予每个样本的权重。

步骤3.3，将赋权后的样本训练擅长识别此区域下的随机森林。

步骤3.4，依据公式

和

更新下一次迭代中每个样本被挑选为中心样本的概率值，将其归一化。

步骤3.5，判定混合专家模型数量是否达标，若达标则训练完毕到达步骤3.6，若未达标到则继续挑选中心点，回到步骤3.2训练一个新的专家模型。

步骤3.6，完成混合随机森林的构建，并设定其判决函数为

步骤4，基于构建的混合随机森林模型实现对流量是否为关键资产基础设施的识别。

有益效果

相对于一般采用的基于人为标定和规则匹配的方法，本发明采用的结合混合随机森林模型的关键信息基础设施资产识别认定方法，能够充分利用已有的数据信息，在特征工程阶段采用多种机器学习方法获得的融合特征权重，并设定阈值剔除冗余特征和混淆特征实现有效的特征选择，实现设施资产的关键因素提取，在识别阶段通过迭代赋予样本权重的方式训练多个擅长不同区域下的随机森林判决模型，并利用一个门控函数与之结合获得混合随机森林模型，解决了由于数据量大导致数据中存在异质性而影响识别性能的问题，有效的提升识别的准确率和召回率。

与基于人为标定和规则匹配的方法相比，本发明采用方法的准确性以及科学性都更强，能够提取关键有效的特征，在保证识别方法的准确、快速的同时，也提高了模型的泛化能力。

附图说明

图1为本发明的结合混合专家模型的关键信息基础设施资产识别认定方法原理图。

图2为步骤3所述的混合随机森林模型构建流程图。

具体实施方式

为了更好的说明本发明的目的和优点，下面结合实例对本发明方法的实施方式做进一步详细说明。

具体流程为：

步骤1.2，以关键字、时段节点、地理关联四个方面为基准，从原始资产数据中提取关键词特征向量、时段特征向量、行为特征向量和地理特征向量这四种特征向量，

步骤2.1，在客观上基于使用高斯核函数的支持向量机和随机森林的方法获得特征的权重集Weight(N)＝{w₁，w₂，...w_k...，w_N}，其中w_k表示第k个特征的权重大小，w_k∈[0，1]。

步骤2.2，获取所有特征的权重信息后，基于德尔菲专家咨询法原则，对 N个特征进行多轮经验分析，得到特征的重要性权重集Votes(N)＝ {v₁，v₂，...v_k...，v_N}

步骤2.3，结合专家经验与机器学习方法得到的客观影响因素分析，计算Importance(N)＝{w₁*v₁，w₂*v₂，...w_k*v_k...，w_N*v_N}，进行关键影响因素提取，剔除掉非法特征和混淆特征，重点保留关键特征信息，获得最终的关键特征向量。

步骤3，结合混合专家模型的设施资产识别是将多个随机森林判别模型与一个门控函数相结合，获得混合专家模型，在混合模型的训练过程中。

步骤3.1，初始化参数，假设数据为X∈R^N*D，X_i为第i个样本的特征向量，其中N为数据数量，D为数据的维度，标签Y＝(Y₀，Y₁...Y_j...Y_N)，其中 i∈[1，2...N]，手动设定K个混合专家模型，构建权重矩阵 W＝(W₀，W₁...W_j...W_K)，j∈[1，2...K]，其中W_j代表第j个混合专家模型全部样本权重向量，W_j＝(W_j0，W_j1...W_ji...W_jN)，其中W_ji代表着第i个样本在第j 个混合专家模型的样本权重。设立每个样本被挑选作为中心的概率集合设为

其中

代表第j个样本在第j次迭代时被选作中心的概率。初始时，每个样本被挑选为中心的概率为

步骤3.2，依据每个样本的概率值随机选取1个样本为中心点μ₀＝X_i。

步骤3.3，依据公式(1)设定为样本i属于第j个模型的权重W_ji。距离越远，则权重越小，距离越近，则权重越大。

步骤3.4，依据公式(2)更新下一次迭代中每个样本被挑选为中心样本的概率值，并依据公式(3)将其归一化。实现被选中的样本和离选中样本较近的样本被挑选为中心点的概率值降低，而远离中心点的样本被挑选为中心点的概率值升高。

步骤3.5，将每个样本赋予权重W_ji，训练1个随机森林分类模型f_j作为第j个专家模型。

步骤3.6，判定混合专家模型数量j是否到达设定值，若到达K个则训练完毕到达步骤3.7，若未达到则继续依据每个样本的概率值挑选第k+1个中心点，回到步骤3.2训练一个新的专家模型。

步骤3.7，设定输入新样本X_in时的预测函数为公式(4)，其中y_m表示标签m，f_j(X)表示第j个专家模型，I(y_m＝f_j(X_in))表示若第j个专家模型预测标签若与y_m相等则为1，若不等则为0。最终计算每个标签的预测值F(y_m)，取处最大值下的y_m为最终判断类别。

步骤4，基于构建的混合模型实现对流量是否为关键资产基础设施的识别。

如上所述，便可较好地实现本发明。

本发明通过使用混合专家模型进行关键信息基础设施资产识别认定，在保证了识别方法的准确性、效率的同时，也避免了基于人为标定和规则匹配方法泛化能力低下的问题。

以上所述的具体描述，对发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.结合混合随机森林的关键信息基础设施资产识别方法，其特征在于所述方法包括如下步骤：

步骤1，对采集到的设施资产数据进行结构化处理并进行特征优化表达，得到扩展的特征向量；

步骤1.1，将采集到的基础设施的设备日志、网络流量数据进行清洗优化获得原始资产数据；

步骤1.2，以关键字、时段节点、行为组合、地理关联四个方面为基准，从原始资产数据中提取关键词特征向量、时段特征向量、行为特征向量和地理特征向量这四种特征向量；

步骤1.3，分别对四种特征向量进行归一化、标准化和哑变量处理，并将其顺序拼接获得高维扩展特征向量；

步骤2，为兼顾最终数据的客观性和完备性，结合德尔菲专家咨询法和主成分分析法，进行关键信息基础设施的关键影响因素分析，提取关键特征向量；

步骤2.1，基于使用高斯核函数的支持向量机和随机森林的方法获得特征的权重；

步骤2.2，获取所有特征的权重信息后，基于德尔菲专家咨询法原则，对特征进行多轮经验分析，得到特征的重要性权重；

步骤2.3，结合专家经验与机器学习方法得到的客观影响因素分析，进行关键影响因素提取，获得最终的关键特征向量；

步骤3，结合混合专家模型的设施资产识别是将多个随机森林判别模型与一个门控函数相结合，获得混合随机森林判决模型；

步骤3.1，初始化设定每个样本被挑选为中心概率为

N为数据数量，并设定专家模型的数量为K；

步骤3.2，依样本概率挑选其中的一个样本，并通过公式

赋予每个样本的权重，W_ji为第i个样本在第j个混合专家模型的样本权重；

步骤3.3，将赋权后的样本训练擅长识别此区域下的随机森林；

步骤3.4，依据公式

和

更新下一次迭代中每个样本被挑选为中心样本的概率值，将其归一化；

步骤3.5，判定混合专家模型数量是否达标，若达标则训练完毕到达步骤3.6，若未达标到则继续挑选中心点，回到步骤3.2训练一个新的专家模型；

步骤3.6，完成混合随机森林的构建，并设定其判决函数为

其中y_m表示标签m，f_j(X)表示第j个专家模型，I(y_m＝f_j(X_in)) 表示若第j个专家模型预测标签若与y_m相等则为1，若不等则为0；

步骤4，基于构建的混合随机森林模型实现对设备流量的识别，判定设备是否为关键资产基础设施设备。

2.根据权利要求1所述的结合混合随机森林的关键信息基础设施资产识别方法，其特征在于：步骤1.2中从原始资产数据中提取关键词特征向量、时段特征向量、行为特征向量和地理特征向量这四种特征向量，顺序拼接获得高维特征向量。

3.根据权利要求1所述的结合混合随机森林的关键信息基础设施资产识别方法，其特征在于：步骤3.2中依据每次的中心点μ_j赋予样本的权重的公式为

此专家模型下的样本权重将随着远离此中心样本而减小，并在赋予每个样本权重后训练一个随机森林判决模型作为此区域下的专家模型。

4.根据权利要求1所述的结合混合随机森林的关键信息基础设施资产识别方法，其特征在于：步骤3.4中，设立每个样本被挑选作为中心的概率集合，在每次循环中迭代依据概率更新公式

和

更新每个样本的概率值，以选取多个不同区域下的样本作为中心点；实现在每次迭代中将已选中的样本和离选中样本较近的样本被挑选为中心点的概率值降低，而远离中心点的样本被挑选为中心点的概率值升高。

5.根据权利要求1所述的结合混合随机森林的关键信息基础设施资产识别方法，其特征在于：步骤3.6中，设定输入新样本X_in时的预测函数为

其中y_m表示标签m，f_j(X)表示第j个专家模型,I(y_m＝f_j(X_in)) 表示若第j个专家模型预测标签若与y_m相等则为1，若不等则为0；最终计算每个标签的预测值F(y_m)，取最大值下的y_m为最终判断类别Y。