CN110334904B

CN110334904B - 基于LightGBM的关键信息基础设施类型单位归属判定方法

Info

Publication number: CN110334904B
Application number: CN201910459822.9A
Authority: CN
Inventors: 潘丽敏; 陈传涛; 罗森林; 门元昊; 秦枭喃
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2019-05-30
Filing date: 2019-05-30
Publication date: 2023-03-03
Anticipated expiration: 2039-05-30
Also published as: CN110334904A

Abstract

本发明涉及基于LightGBM的关键信息基础设施类型单位归属判定方法，属于网络空间安全与机器学习领域。主要为了解决传统的依赖人力对关键信息基础设施类型进行标注的效率低、可扩展性差的问题。本发明提出一种基于机器学习算法，结合多类型、多截面数据采集及特征表达的关键信息基础设施资产特征优化表达与多目标分类技术研究方法，在此基础上构建关键信息基础设施类型归属判别应用系统，根据设施资产数据判定其属于哪一类的关键信息基础设施(如政府机关、国防科工、广播电台、运营商等等)，实现对关键信息基础设施类型归属的识别认定。实验结果表明，本发明提出的算法的准确率和查全率较好，与规则匹配方法相比，具有很好的判定效果。

Description

基于LightGBM的关键信息基础设施类型单位归属判定方法

技术领域

本发明涉及一种基于LightGBM的关键信息基础设施类型单位归属判定方法，属于网络空间安全与机器学习领域。

背景技术

目前关键信息基础设施已经被视为国家的重要战略资源，关键信息基础设施安全成为事关国家安全的重要问题。关键信息基础设施的识别认定是开展关键信息基础设施保护工作的前提条件。各国在开展关键信息设施保护或关键基础设施网络安全保护工作时，都研究提出了关键信息基础设施的范围, 制定了关键信息基础设施识别认定的标准和流程。美国很早就开始对关键基础设施进行保护，在识别认定关键基础设施方面形成了相关经验。

1.美国对于关键信息基础设施的识别认定方法

目前，美国关键基础设施涉及的领域为16个，如下表所示：

序号	关键领域	序号	关键领域
				1	化学	9	金融服务
2	商业设施	10	食品和农业
				3	通讯	11	政府设施
4	关键制造	12	保健和公共健康
				5	水利	13	信息技术
6	国防工业基础	14	核反应堆、材料和废弃物
				7	应急服务	15	运输系统
8	能源	16	水及污水处理系统

美国通过划分关键领域，可以基于特定联邦部门和机构现有的法规或规则权限，结合特定行业机构的专业制度和知识，部署关键基础设施的识别工作。美国制定的关键基础设施分类方法为，将基础设施依次按照领域、子领域、部门、子部门、资产的层级进行归类。如某发电厂可以按照如下步骤进行归类：能源→电力→燃料发电→天然气发电。每个设施都有明确的细节和功能描述。若一个基础设施同时可归属不同类别，则该设施可以拥有多种类别描述。

2.中国对于关键信息基础设施的识别认定方法

关键信息基础设施主要划分为三类，即网站类、平台类、生产业务类，其中确定步骤分为三步，一是确定关键业务，二是确定支撑关键业务的信息系统或工业控制系统，三是根据关键业务对信息系统或工业控制系统的依赖程度，以及信息系统发生网络安全事件后可能造成的损失认定关键信息基础设施。但是，由于需要采集的关键信息基础设施数据量大，识别的基础设施范围广、种类多，难以自动化提取出关键特征以实现高效率、高准确率的关键信息基础设施类型归属的识别判定，导致我国目前关于关键信息基础设施识别认定这项工作进度缓慢。

综上所述，关键信息基础设施的识别认定是对其进行安全保护的前提，也是实践中的难点之一。目前现有的对关键基础上设施的归属识别方法存在以下问题：(1)识别认定工作大部分都是人为标定的；(2)仅依据关键信息基础设施的内涵和外延，在识别国家关键信息关键基础设施时难以操作，且存在较大主观因素的影响；(3)基于后果的识别方法需要对设施开展充分的威胁分析，尤其是相互依赖性分析，最大化的减少主观因素，故需要大量的人力物力。因此有必要研究一种全面、系统、深入的关键信息基础设施资产特征优化表达与多目标分类技术研究方法，以便快速、准确、全面的对关键信息基础设施进行自动化身份判定，从而为保护关键信息基础设施铺平道路。

发明内容

本发明提出一种基于LightGBM的关键信息基础设施类型单位归属判定方法，结合多类型、多截面数据采集及特征表达的关键信息基础设施资产特征优化表达与多目标分类技术研究方法，在此基础上构建关键信息基础设施类型归属判别应用系统，根据设施资产数据判定其属于哪一类的关键信息基础设施(如政府机关、国防科工、广播电台、运营商等等)，实现对关键信息基础设施类型归属的识别认定。

本发明的设计原理包括三个部分，关键信息基础设施数据特征优化表达、关键影响因素提取、关键信息基础设施类型归属判定。关键信息基础设施数据特征优化表达部分，首先通过对关键信息基础设施的设备日志、网络流量等复杂数据进行数据清洗和特征优化表达，获得原始资产数据，然后结合专家经验和《关键信息基础设施确定指南》，对原始资产数据采用特征分割与融合的方法从关键字、时段节点、行为组合、地理关联四个方面构建特征，并进行归一化、标准化和哑变量处理获得关键词特征向量、时段特征向量、行为特征向量和地理特征向量，最后顺序拼接获得高维扩展特征向量。关键影响因素提取部分，建立在德尔菲专家咨询法和主成分分析法上，在客观上基于LightGBM机器学习的方法获得特征的权重集 Weight(N)＝{w₁,w₂,…w_k…,w_N}，其中w_k表示第k个特征的权重大小，w_k∈[0,1]，并结合专家经验，进行关键影响因素分析获得最终关键特征向量，兼顾关键特征向量的客观性和完备性。在关键信息基础设施类型归属判定部分，通过依据二元码拆分策略，设立编码规则将政府机关、国防科工、广播电台、高校网、运营商、云计算平台及其下属的子类的多分类任务划分多个二分类任务，并结合机器学习中轻量级梯度提升算法的LightGBM框架，进行模型训练获得多个二分类模型，在输出层，通过计算多模型对未知样本生成的编码与类别编码空间的欧式距离，实现对未知的关键信息基础设施类型归属的识别判定。

本发明的技术方案是通过如下步骤实现的：

步骤1，对关键信息基础设施的设备日志、网络流量等复杂原始数据进行特征优化表达和特征构建；

步骤1.1，对关键信息基础设施的结构化与非机构化数据进行清洗优化获得原始资产数据；

步骤1.2，然后结合专家经验和《关键信息基础设施确定指南》，基于原始资产数据采用特征分割与融合的方法从关键字、时段节点、行为组合、地理关联四个方面构建特征，并进行归一化、标准化和哑变量处理获得关键词特征向量、时段特征向量、行为特征向量和地理特征向量；

步骤1.3，通过归一化、标准化和哑变量处理获得关键词特征向量、时段特征向量、行为特征向量和地理特征向量，并顺序拼接获得高维扩展特征向量；

步骤2，为兼顾最终数据的客观性和完备性，结合德尔菲专家咨询法和主成分分析法，进行关键信息基础设施的关键影响因素分析，提取关键特征向量；

步骤2.1，在客观上基于LightGBM机器学习的方法获得特征的权重集 Weight(N)＝{w₁,w₂,…w_k…,w_N}，其中w_k表示第k个特征的权重大小， w_k∈[0,1]；

步骤2.2，获取所有特征的权重信息后，基于德尔菲专家咨询法原则，对 N个特征进行多轮经验分析，得到特征的重要性权重集Votes(N)＝ {v₁,v₂,…v_k…,v_N}；

步骤2.3，结合专家经验与机器学习方法得到的客观影响因素分析，计算Importance(N)＝{w₁*v₁,w₂*v₂,…w_k*v_k…,w_N*v_N}，进行关键影响因素提取，剔除掉非法特征和混淆特征，重点保留关键特征信息，获得最终的关键特征向量；

步骤3，通过二元码拆解策略，设立编码规则将政府机关、国防科工等多个类别及其子类进行编码规则的设定，将多分类任务划分为多个二分类任务实现细粒度分类，结合LightGBM梯度提升算法构建多个二分类模型，并通过计算多个模型结果的编码相似度，对关键信息基础设施的类型归属进行判定；

步骤3.1，依据二元码拆分策略，设立编码规则将政府机关、国防科工、广播电台、高校网、运营商、云计算平台及其下属的子类的多分类任务划分多个二分类任务。其编码的规则为将每个资产类型作为一个二元码，1表示是，0表示否，则多种资产类型组成的码元序列，即为一条二元码编码，所有编码的集合即是二元码编码空间；

步骤3.2，并结合机器学习中轻量级梯度提升算法的LightGBM框架，进行模型训练获得多个二分类模型，分别对位置一条样本进行预测，得到多个判定结果，组成预测编码；

步骤3.3，设定相似度计算预测编码与二元码编码空间内所有编码的相似度，选取编码相似度最大的标签作为判定结果，实现对未知的关键信息基础设施进行类型归属的识别判定。

有益效果

相比于传统的规则匹配方法，本发明可以利用关键信息基础设施的原始数据信息，构建多维度关键特征向量，二元码拆解策略和LightGBM梯度提升算法，实现多目标识别技术，对关键信息基础设施进行类型归属的识别判定，具有较高的查准率和查全率。

附图说明

图1为本发明基于机器学习算法的关键信息基础设施类型归属判定方法原理图。

图2为关键信息基础设施数据特征优化表达原理图。

具体实施方式

为了更好的说明本发明的目的和优点，下面结合实例对本发明方法的实施方式做进一步详细说明。

实验数据来自网络空间主机搜索引擎，包括撒旦(shodan.io)和佛法(fofa.so)，包含基础设施的服务组件、网络端口、地理位置等信息。网络流量数据分布如表1所示，。涵盖政府机关，国防科工、广播电台，高校网、运营商、云计算提供平台等多类关键信息基础设施的共计32186条样本数据。

为了保证判定算法的准确性，需要对原始数据进行多重处理(特征表达、特征构建等)，生成用数值化向量表示的扩展特征矩阵，将原始数据信息(网络流量抓包数据)转换为能够全面描述关键信息基础设施的特征向量，尽可能多的涵盖关键信息基础设施数据中所包含的信息，提升数据对判别模式的表达能力，更好地指导后续资产归属判别模型构建，从而为实现关键信息基础设施的识别、分类和保护提供研究基础。

表1.原始资产数据说明表

实验采用准确率(precission)和查全率(recall)评价关键信息基础设施类型归属判定的结果，计算方法如公式(1)、(2)所示：

本次实验在一台计算机和一台服务器上进行，计算机的具体配置为：Inter i7-6700，CPU 2.40GHz，内存4G，操作系统是windows 7，64位；服务器的具体配置为：E7-4820v4，RAM 256G，操作系统是Linux Ubuntu 64位。

本次实验的具体流程为：

步骤1，对关键信息基础设施的设备日志、网络流量等复杂原始数据进行特征优化表达和特征构建。

步骤1.1，对资产的结构化、半结构化原始数据进行数据清洗。

首先需要对原始网络流量数据进行数据清洗处理，主要有数据的数值化表示和标准化处理，生成原始特征向量，然后在此基础上，通过专家经验分析，构建高维特征向量。原始流量数据如表2所示：

表2.原始网络流量数据示例

对IP字段，可以将原始的点分十六进制转成十进制表示，如166.111.5.204 的十进制表示为：2792293836。

对于操作系统项，经过不完全统计分析，所有可能取值的范围为：windows， Unix，ubuntu，centos，debian，redhat等。可进行数值编码，如：

对于“端口”项，可构建特征：是否为80端口、是否为443端口、其它，三类特征。

对于经纬度字段，无需特别处理，保证为合理浮点数即可。

对于“国家”和“省份”字段，除了对所有值进行编码外，还可以构建多个新特征，如：是否为大陆东部地区，是否为大陆西部地区等等。

对于“更新时间”字段，将其转换为Unix时间戳，如2018-04-15 06:57的 Unix时间戳格式为：1523746620。另外，还可以根据小时时间，构建新特征：是否为上午，设定其值为1表示上午，其值为0表示下午。

对于“公司”、“域名”、“组件”字段，可以考虑首先进行分词，对不同词汇分配不同权重，比如“大学”、“政府”、“电视台”、“edu.cn”、“gov.cn”等等字符串赋予较高权重。

步骤1.2，从原始数据中提取资产的物理位置、网络位置、连接认证等信息。

步骤1.3，基于原始数据，构建设施资产的行为统计特征、活动统计特征和时间统计特征等等信息。

步骤1.4，对量化处理后的特征按照其变量类型进行归一化、标准化或哑变量处理。得到数值化资产特征向量，如表3所示：

表3.资产数值化特征向量示例

步骤2，结合德尔菲专家咨询法和主成分分析法，进行关键信息基础设施的关键影响因素分析，提取维度不高于50维的关键特征向量，主要包含有资产 IP、经纬度、城市名、操作系统、服务器组件、开放端口、域名和标题等等关键特征信息。

步骤2.1，在客观上基于LightGBM机器学习的方法获得特征的权重集 Weight(N)＝{w₁,w₂,…w_k…,w_N}，其中w_k表示第k个特征的权重大小， w_k∈[0,1]。

步骤2.2，获取所有特征的权重信息后，基于德尔菲专家咨询法原则，对 N个特征进行多轮经验分析，得到特征的重要性权重集Votes(N)＝ {v₁,v₂,…v_k…,v_N}。

步骤2.3，结合专家经验与机器学习方法得到的客观影响因素分析，计算Importance(N)＝{w₁*v₁,w₂*v₂,…w_k*v_k…,w_N*v_N}，进行关键影响因素提取，剔除掉非法特征和混淆特征，重点保留关键特征信息，获得最终的关键特征向量。

步骤3，通过二元码拆解策略，设立编码规则将政府机关、国防科工等多个类别及其子类进行编码规则的设定，将多分类任务划分为多个二分类任务实现细粒度分类，结合LightGBM梯度提升算法构建多个二分类模型，并通过计算多个模型结果的编码相似度，对关键信息基础设施的类型归属进行判定。

步骤3.1，依据二元码拆分策略，设立编码规则将政府机关、国防科工、广播电台、高校网、运营商、云计算平台及其下属的子类的多分类任务划分多个二分类任务。其编码的规则为将每个资产类型作为一个二元码，1表示是，0表示否，则多种资产类型组成的码元序列，即为一条二元码编码，所有编码的集合即是二元码编码空间。二元编码空间中横向为类别，竖向为分类器。例如，对于{国防科工，政府机关，交通运输}三类关键信息基础设施类型，建立码本并设定编码长度为5,一种可能的编码空间为：{国防科工： {1,0,0,1,1}，政府机关：{0,1,0,1,0}，交通运输：P{0,0,1,0,1}}。

步骤3.2，并结合机器学习中轻量级梯度提升算法的LightGBM框架，进行模型训练获得多个二分类模型，分别对位置一条样本进行预测，得到多个判定结果，组成预测编码。例如：对于第1个分类器，则根据码本得到编码为{1,0,0}，则将国防科工设为正类，国防科工、交通运输设为负类训练第一个LightGBM分类器。

步骤3.3，设定相似度计算为公式(1)预测编码与二元码编码空间内所有编码的相似度，选取编码相似度最大的标签作为判定结果，实现对未知的关键信息基础设施进行类型归属的识别判定。公式(1)中XNOR为同或， Y为类别的标签编码，Pred为预测编码。Pred_k为当前仅把第k类作为正样本，其他类作为负样本的分类器判定的结果，α为权衡因子，L为编码长度。例如已构建五个二分类器模型，设权衡因子为0.5，它们对样本的预测编码是 {1,0,0,1,1}，计算预测编码与标签编码空间的距离，与国防科工的相似度为1，与政府机关的相似度为0.1，与交通运输分类器的相似度为0.1，选取相似度最大的标签，即政府机关:{1,0,0,1,1}作为判定结果。

测试结果：实验基于轻量级梯度提升算法LightGBM，对关键信息基础设施的原始数据进行分类模型训练与识别，模型的准确率为96.06％和查全率为 49.46％，与规则匹配方法相比，本发明具有很好的判定效果。

以上所述的具体描述，对发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于LightGBM的关键信息基础设施类型单位归属判定方法，其特征在于所述方法包括如下步骤：

步骤1，对关键信息基础设施的设备日志、网络流量复杂原始数据进行特征优化表达和特征构建；

步骤1.2，基于原始资产数据采用特征分割与融合的方法从关键字、时段节点、行为组合、地理关联四个方面构建特征，并进行归一化、标准化和哑变量处理获得关键词特征向量、时段特征向量、行为特征向量和地理特征向量；

步骤2，结合德尔菲专家咨询法和主成分分析法，进行关键信息基础设施的关键影响因素分析，提取关键特征向量；

步骤2.1，基于LightGBM机器学习的方法获得特征的权重集Weight(N)＝{w₁,w₂,…w_k…,w_N}，其中w_k表示第k个特征的权重大小，w_k∈[0,1]；

步骤2.2，获取所有特征的权重信息后，基于德尔菲专家咨询法原则，对N个特征进行多轮经验分析，得到特征的重要性权重集Votes(N)＝{v₁,v₂,…v_k…,v_N}；

步骤2.3，结合专家经验与机器学习方法得到的客观影响因素分析，计算Importance(N)＝{w₁*v₁,w₂*v₂,…w_k*v_k…,w_N*v_N}，进行关键影响因素提取，剔除掉非法特征和混淆特征，保留关键特征信息，获得最终的关键特征向量；

步骤3，通过二元码拆解策略，设立编码规则将政府机关、国防科工、广播电台、高校网、运营网、云计算平台类别及其子类进行编码规则的设定，将多分类任务划分为多个二分类任务实现细粒度分类，结合LightGBM梯度提升算法构建多个二分类模型，并通过计算多个模型结果的编码相似度，对关键信息基础设施的类型归属进行判定；

步骤3.1，依据二元码拆分策略，设立编码规则将政府机关、国防科工、广播电台、高校网、运营商、云计算平台及其下属的子类的多分类任务划分多个二分类任务，其编码的规则为将每个资产类型作为一个二元码，1表示是，0表示否，则多种资产类型组成的码元序列，即为一条二元码编码，所有编码的集合即是二元码编码空间；

2.根据权利要求1所述的基于LightGBM的关键信息基础设施类型单位归属判定方法，其特征在于：步骤1中对关键信息基础设施的设备日志、网络流量复杂原始数据进行特征优化表达和特征构建，采用特征分割与融合的方法从关键字、时段节点、行为组合、地理关联四个方面构建多维度特征信息。

3.根据权利要求1所述的基于LightGBM的关键信息基础设施类型单位归属判定方法，其特征在于：步骤2中结合德尔菲专家咨询法和主成分分析法，基于德尔菲专家咨询法原则获得关键信息基础设施的关键特征重要性权重集，应用LightGBM梯度提升算法获取特征的权重向量，然后结合权重集和权重向量，提取出关键特征向量。

4.根据权利要求1所述的基于LightGBM的关键信息基础设施类型单位归属判定方法，其特征在于：步骤3中二元码拆解策略将关键信息基础设施的多种类型判定任务拆解为多个机器学习二分类任务，设定相似度计算为公式

表示预测编码与二元码编码空间内所有编码的相似度，选取编码相似度最大的标签作为判定结果，实现对未知的关键信息基础设施进行类型归属的识别判定，其中XNOR为同或，Y为类别的标签编码，Pred为预测编码，Pred_k为当前仅把第k类作为正样本，其他类作为负样本的分类器判定的结果，α为权衡因子，L为编码长度。