CN110334904B - 基于LightGBM的关键信息基础设施类型单位归属判定方法 - Google Patents

基于LightGBM的关键信息基础设施类型单位归属判定方法 Download PDF

Info

Publication number
CN110334904B
CN110334904B CN201910459822.9A CN201910459822A CN110334904B CN 110334904 B CN110334904 B CN 110334904B CN 201910459822 A CN201910459822 A CN 201910459822A CN 110334904 B CN110334904 B CN 110334904B
Authority
CN
China
Prior art keywords
key information
feature
information infrastructure
key
lightgbm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910459822.9A
Other languages
English (en)
Other versions
CN110334904A (zh
Inventor
潘丽敏
陈传涛
罗森林
门元昊
秦枭喃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN201910459822.9A priority Critical patent/CN110334904B/zh
Publication of CN110334904A publication Critical patent/CN110334904A/zh
Application granted granted Critical
Publication of CN110334904B publication Critical patent/CN110334904B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Strategic Management (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Marketing (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Operations Research (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及基于LightGBM的关键信息基础设施类型单位归属判定方法,属于网络空间安全与机器学习领域。主要为了解决传统的依赖人力对关键信息基础设施类型进行标注的效率低、可扩展性差的问题。本发明提出一种基于机器学习算法,结合多类型、多截面数据采集及特征表达的关键信息基础设施资产特征优化表达与多目标分类技术研究方法,在此基础上构建关键信息基础设施类型归属判别应用系统,根据设施资产数据判定其属于哪一类的关键信息基础设施(如政府机关、国防科工、广播电台、运营商等等),实现对关键信息基础设施类型归属的识别认定。实验结果表明,本发明提出的算法的准确率和查全率较好,与规则匹配方法相比,具有很好的判定效果。

Description

基于LightGBM的关键信息基础设施类型单位归属判定方法
技术领域
本发明涉及一种基于LightGBM的关键信息基础设施类型单位归属判定 方法,属于网络空间安全与机器学习领域。
背景技术
目前关键信息基础设施已经被视为国家的重要战略资源,关键信息基础 设施安全成为事关国家安全的重要问题。关键信息基础设施的识别认定是开 展关键信息基础设施保护工作的前提条件。各国在开展关键信息设施保护或 关键基础设施网络安全保护工作时,都研究提出了关键信息基础设施的范围, 制定了关键信息基础设施识别认定的标准和流程。美国很早就开始对关键基 础设施进行保护,在识别认定关键基础设施方面形成了相关经验。
1.美国对于关键信息基础设施的识别认定方法
目前,美国关键基础设施涉及的领域为16个,如下表所示:
序号 关键领域 序号 关键领域
1 化学 9 金融服务
2 商业设施 10 食品和农业
3 通讯 11 政府设施
4 关键制造 12 保健和公共健康
5 水利 13 信息技术
6 国防工业基础 14 核反应堆、材料和废弃物
7 应急服务 15 运输系统
8 能源 16 水及污水处理系统
美国通过划分关键领域,可以基于特定联邦部门和机构现有的法规或规 则权限,结合特定行业机构的专业制度和知识,部署关键基础设施的识别工 作。美国制定的关键基础设施分类方法为,将基础设施依次按照领域、子领 域、部门、子部门、资产的层级进行归类。如某发电厂可以按照如下步骤进 行归类:能源→电力→燃料发电→天然气发电。每个设施都有明确的细节和 功能描述。若一个基础设施同时可归属不同类别,则该设施可以拥有多种类 别描述。
2.中国对于关键信息基础设施的识别认定方法
关键信息基础设施主要划分为三类,即网站类、平台类、生产业务类, 其中确定步骤分为三步,一是确定关键业务,二是确定支撑关键业务的信息 系统或工业控制系统,三是根据关键业务对信息系统或工业控制系统的依赖 程度,以及信息系统发生网络安全事件后可能造成的损失认定关键信息基础 设施。但是,由于需要采集的关键信息基础设施数据量大,识别的基础设施 范围广、种类多,难以自动化提取出关键特征以实现高效率、高准确率的关 键信息基础设施类型归属的识别判定,导致我国目前关于关键信息基础设施 识别认定这项工作进度缓慢。
综上所述,关键信息基础设施的识别认定是对其进行安全保护的前提, 也是实践中的难点之一。目前现有的对关键基础上设施的归属识别方法存在 以下问题:(1)识别认定工作大部分都是人为标定的;(2)仅依据关键信 息基础设施的内涵和外延,在识别国家关键信息关键基础设施时难以操作, 且存在较大主观因素的影响;(3)基于后果的识别方法需要对设施开展充分 的威胁分析,尤其是相互依赖性分析,最大化的减少主观因素,故需要大量 的人力物力。因此有必要研究一种全面、系统、深入的关键信息基础设施资 产特征优化表达与多目标分类技术研究方法,以便快速、准确、全面的对关 键信息基础设施进行自动化身份判定,从而为保护关键信息基础设施铺平道 路。
发明内容
本发明提出一种基于LightGBM的关键信息基础设施类型单位归属判定 方法,结合多类型、多截面数据采集及特征表达的关键信息基础设施资产特 征优化表达与多目标分类技术研究方法,在此基础上构建关键信息基础设施 类型归属判别应用系统,根据设施资产数据判定其属于哪一类的关键信息基 础设施(如政府机关、国防科工、广播电台、运营商等等),实现对关键信 息基础设施类型归属的识别认定。
本发明的设计原理包括三个部分,关键信息基础设施数据特征优化表达、 关键影响因素提取、关键信息基础设施类型归属判定。关键信息基础设施数 据特征优化表达部分,首先通过对关键信息基础设施的设备日志、网络流量 等复杂数据进行数据清洗和特征优化表达,获得原始资产数据,然后结合专 家经验和《关键信息基础设施确定指南》,对原始资产数据采用特征分割与 融合的方法从关键字、时段节点、行为组合、地理关联四个方面构建特征, 并进行归一化、标准化和哑变量处理获得关键词特征向量、时段特征向量、行为特征向量和地理特征向量,最后顺序拼接获得高维扩展特征向量。关键 影响因素提取部分,建立在德尔菲专家咨询法和主成分分析法上,在客观上 基于LightGBM机器学习的方法获得特征的权重集 Weight(N)={w1,w2,…wk…,wN},其中wk表示第k个特征的权重大小,wk∈[0,1],并结合专家经验,进行关键影响因素分析获得最终关键特征向量, 兼顾关键特征向量的客观性和完备性。在关键信息基础设施类型归属判定部 分,通过依据二元码拆分策略,设立编码规则将政府机关、国防科工、广播 电台、高校网、运营商、云计算平台及其下属的子类的多分类任务划分多个 二分类任务,并结合机器学习中轻量级梯度提升算法的LightGBM框架,进 行模型训练获得多个二分类模型,在输出层,通过计算多模型对未知样本生 成的编码与类别编码空间的欧式距离,实现对未知的关键信息基础设施类型 归属的识别判定。
本发明的技术方案是通过如下步骤实现的:
步骤1,对关键信息基础设施的设备日志、网络流量等复杂原始数据进 行特征优化表达和特征构建;
步骤1.1,对关键信息基础设施的结构化与非机构化数据进行清洗优化 获得原始资产数据;
步骤1.2,然后结合专家经验和《关键信息基础设施确定指南》,基于 原始资产数据采用特征分割与融合的方法从关键字、时段节点、行为组合、 地理关联四个方面构建特征,并进行归一化、标准化和哑变量处理获得关键 词特征向量、时段特征向量、行为特征向量和地理特征向量;
步骤1.3,通过归一化、标准化和哑变量处理获得关键词特征向量、时 段特征向量、行为特征向量和地理特征向量,并顺序拼接获得高维扩展特征 向量;
步骤2,为兼顾最终数据的客观性和完备性,结合德尔菲专家咨询法和主 成分分析法,进行关键信息基础设施的关键影响因素分析,提取关键特征向量;
步骤2.1,在客观上基于LightGBM机器学习的方法获得特征的权重集 Weight(N)={w1,w2,…wk…,wN},其中wk表示第k个特征的权重大小, wk∈[0,1];
步骤2.2,获取所有特征的权重信息后,基于德尔菲专家咨询法原则,对 N个特征进行多轮经验分析,得到特征的重要性权重集Votes(N)= {v1,v2,…vk…,vN};
步骤2.3,结合专家经验与机器学习方法得到的客观影响因素分析,计 算Importance(N)={w1*v1,w2*v2,…wk*vk…,wN*vN},进行关键影响因素 提取,剔除掉非法特征和混淆特征,重点保留关键特征信息,获得最终的关 键特征向量;
步骤3,通过二元码拆解策略,设立编码规则将政府机关、国防科工等 多个类别及其子类进行编码规则的设定,将多分类任务划分为多个二分类任 务实现细粒度分类,结合LightGBM梯度提升算法构建多个二分类模型,并 通过计算多个模型结果的编码相似度,对关键信息基础设施的类型归属进行 判定;
步骤3.1,依据二元码拆分策略,设立编码规则将政府机关、国防科工、 广播电台、高校网、运营商、云计算平台及其下属的子类的多分类任务划分 多个二分类任务。其编码的规则为将每个资产类型作为一个二元码,1表示 是,0表示否,则多种资产类型组成的码元序列,即为一条二元码编码,所 有编码的集合即是二元码编码空间;
步骤3.2,并结合机器学习中轻量级梯度提升算法的LightGBM框架, 进行模型训练获得多个二分类模型,分别对位置一条样本进行预测,得到多 个判定结果,组成预测编码;
步骤3.3,设定相似度计算预测编码与二元码编码空间内所有编码的相 似度,选取编码相似度最大的标签作为判定结果,实现对未知的关键信息基 础设施进行类型归属的识别判定。
有益效果
相比于传统的规则匹配方法,本发明可以利用关键信息基础设施的原始数 据信息,构建多维度关键特征向量,二元码拆解策略和LightGBM梯度提升算 法,实现多目标识别技术,对关键信息基础设施进行类型归属的识别判定,具 有较高的查准率和查全率。
附图说明
图1为本发明基于机器学习算法的关键信息基础设施类型归属判定方法 原理图。
图2为关键信息基础设施数据特征优化表达原理图。
具体实施方式
为了更好的说明本发明的目的和优点,下面结合实例对本发明方法的实施 方式做进一步详细说明。
实验数据来自网络空间主机搜索引擎,包括撒旦(shodan.io)和佛法(fofa.so),包含基础设施的服务组件、网络端口、地理位置等信息。网络流量数据分布如 表1所示,。涵盖政府机关,国防科工、广播电台,高校网、运营商、云计算提 供平台等多类关键信息基础设施的共计32186条样本数据。
为了保证判定算法的准确性,需要对原始数据进行多重处理(特征表达、 特征构建等),生成用数值化向量表示的扩展特征矩阵,将原始数据信息(网络 流量抓包数据)转换为能够全面描述关键信息基础设施的特征向量,尽可能多 的涵盖关键信息基础设施数据中所包含的信息,提升数据对判别模式的表达能 力,更好地指导后续资产归属判别模型构建,从而为实现关键信息基础设施的 识别、分类和保护提供研究基础。
表1.原始资产数据说明表
Figure BDA0002077698660000051
实验采用准确率(precission)和查全率(recall)评价关键信息基础设施类 型归属判定的结果,计算方法如公式(1)、(2)所示:
Figure BDA0002077698660000061
Figure BDA0002077698660000062
本次实验在一台计算机和一台服务器上进行,计算机的具体配置为:Inter i7-6700,CPU 2.40GHz,内存4G,操作系统是windows 7,64位;服务器的具 体配置为:E7-4820v4,RAM 256G,操作系统是Linux Ubuntu 64位。
本次实验的具体流程为:
步骤1,对关键信息基础设施的设备日志、网络流量等复杂原始数据进 行特征优化表达和特征构建。
步骤1.1,对资产的结构化、半结构化原始数据进行数据清洗。
首先需要对原始网络流量数据进行数据清洗处理,主要有数据的数值化表 示和标准化处理,生成原始特征向量,然后在此基础上,通过专家经验分析, 构建高维特征向量。原始流量数据如表2所示:
表2.原始网络流量数据示例
Figure BDA0002077698660000063
对IP字段,可以将原始的点分十六进制转成十进制表示,如166.111.5.204 的十进制表示为:2792293836。
对于操作系统项,经过不完全统计分析,所有可能取值的范围为:windows, Unix,ubuntu,centos,debian,redhat等。可进行数值编码,如:
Figure BDA0002077698660000064
对于“端口”项,可构建特征:是否为80端口、是否为443端口、其它, 三类特征。
对于经纬度字段,无需特别处理,保证为合理浮点数即可。
对于“国家”和“省份”字段,除了对所有值进行编码外,还可以构建多 个新特征,如:是否为大陆东部地区,是否为大陆西部地区等等。
对于“更新时间”字段,将其转换为Unix时间戳,如2018-04-15 06:57的 Unix时间戳格式为:1523746620。另外,还可以根据小时时间,构建新特征: 是否为上午,设定其值为1表示上午,其值为0表示下午。
对于“公司”、“域名”、“组件”字段,可以考虑首先进行分词,对不同词 汇分配不同权重,比如“大学”、“政府”、“电视台”、“edu.cn”、“gov.cn”等等 字符串赋予较高权重。
步骤1.2,从原始数据中提取资产的物理位置、网络位置、连接认证等 信息。
步骤1.3,基于原始数据,构建设施资产的行为统计特征、活动统计特 征和时间统计特征等等信息。
步骤1.4,对量化处理后的特征按照其变量类型进行归一化、标准化或 哑变量处理。得到数值化资产特征向量,如表3所示:
表3.资产数值化特征向量示例
Figure BDA0002077698660000071
步骤2,结合德尔菲专家咨询法和主成分分析法,进行关键信息基础设施 的关键影响因素分析,提取维度不高于50维的关键特征向量,主要包含有资产 IP、经纬度、城市名、操作系统、服务器组件、开放端口、域名和标题等等关键 特征信息。
步骤2.1,在客观上基于LightGBM机器学习的方法获得特征的权重集 Weight(N)={w1,w2,…wk…,wN},其中wk表示第k个特征的权重大小, wk∈[0,1]。
步骤2.2,获取所有特征的权重信息后,基于德尔菲专家咨询法原则,对 N个特征进行多轮经验分析,得到特征的重要性权重集Votes(N)= {v1,v2,…vk…,vN}。
步骤2.3,结合专家经验与机器学习方法得到的客观影响因素分析,计 算Importance(N)={w1*v1,w2*v2,…wk*vk…,wN*vN},进行关键影响因素 提取,剔除掉非法特征和混淆特征,重点保留关键特征信息,获得最终的关 键特征向量。
步骤3,通过二元码拆解策略,设立编码规则将政府机关、国防科工等 多个类别及其子类进行编码规则的设定,将多分类任务划分为多个二分类任 务实现细粒度分类,结合LightGBM梯度提升算法构建多个二分类模型,并 通过计算多个模型结果的编码相似度,对关键信息基础设施的类型归属进行 判定。
步骤3.1,依据二元码拆分策略,设立编码规则将政府机关、国防科工、 广播电台、高校网、运营商、云计算平台及其下属的子类的多分类任务划分 多个二分类任务。其编码的规则为将每个资产类型作为一个二元码,1表示 是,0表示否,则多种资产类型组成的码元序列,即为一条二元码编码,所 有编码的集合即是二元码编码空间。二元编码空间中横向为类别,竖向为分 类器。例如,对于{国防科工,政府机关,交通运输}三类关键信息基础设施 类型,建立码本并设定编码长度为5,一种可能的编码空间为:{国防科工: {1,0,0,1,1},政府机关:{0,1,0,1,0},交通运输:P{0,0,1,0,1}}。
步骤3.2,并结合机器学习中轻量级梯度提升算法的LightGBM框架, 进行模型训练获得多个二分类模型,分别对位置一条样本进行预测,得到多 个判定结果,组成预测编码。例如:对于第1个分类器,则根据码本得到编 码为{1,0,0},则将国防科工设为正类,国防科工、交通运输设为负类训练第 一个LightGBM分类器。
步骤3.3,设定相似度计算为公式(1)预测编码与二元码编码空间内所 有编码的相似度,选取编码相似度最大的标签作为判定结果,实现对未知的 关键信息基础设施进行类型归属的识别判定。公式(1)中XNOR为同或, Y为类别的标签编码,Pred为预测编码。Predk为当前仅把第k类作为正样本, 其他类作为负样本的分类器判定的结果,α为权衡因子,L为编码长度。例如 已构建五个二分类器模型,设权衡因子为0.5,它们对样本的预测编码是 {1,0,0,1,1},计算预测编码与标签编码空间的距离,与国防科工的相似度为1, 与政府机关的相似度为0.1,与交通运输分类器的相似度为0.1,选取相似度 最大的标签,即政府机关:{1,0,0,1,1}作为判定结果。
Figure BDA0002077698660000081
测试结果:实验基于轻量级梯度提升算法LightGBM,对关键信息基础设 施的原始数据进行分类模型训练与识别,模型的准确率为96.06%和查全率为 49.46%,与规则匹配方法相比,本发明具有很好的判定效果。
以上所述的具体描述,对发明的目的、技术方案和有益效果进行了进一 步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不 用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修 改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.基于LightGBM的关键信息基础设施类型单位归属判定方法,其特征在于所述方法包括如下步骤:
步骤1,对关键信息基础设施的设备日志、网络流量复杂原始数据进行特征优化表达和特征构建;
步骤1.1,对关键信息基础设施的结构化与非机构化数据进行清洗优化获得原始资产数据;
步骤1.2,基于原始资产数据采用特征分割与融合的方法从关键字、时段节点、行为组合、地理关联四个方面构建特征,并进行归一化、标准化和哑变量处理获得关键词特征向量、时段特征向量、行为特征向量和地理特征向量;
步骤1.3,通过归一化、标准化和哑变量处理获得关键词特征向量、时段特征向量、行为特征向量和地理特征向量,并顺序拼接获得高维扩展特征向量;
步骤2,结合德尔菲专家咨询法和主成分分析法,进行关键信息基础设施的关键影响因素分析,提取关键特征向量;
步骤2.1,基于LightGBM机器学习的方法获得特征的权重集Weight(N)={w1,w2,…wk…,wN},其中wk表示第k个特征的权重大小,wk∈[0,1];
步骤2.2,获取所有特征的权重信息后,基于德尔菲专家咨询法原则,对N个特征进行多轮经验分析,得到特征的重要性权重集Votes(N)={v1,v2,…vk…,vN};
步骤2.3,结合专家经验与机器学习方法得到的客观影响因素分析,计算Importance(N)={w1*v1,w2*v2,…wk*vk…,wN*vN},进行关键影响因素提取,剔除掉非法特征和混淆特征,保留关键特征信息,获得最终的关键特征向量;
步骤3,通过二元码拆解策略,设立编码规则将政府机关、国防科工、广播电台、高校网、运营网、云计算平台类别及其子类进行编码规则的设定,将多分类任务划分为多个二分类任务实现细粒度分类,结合LightGBM梯度提升算法构建多个二分类模型,并通过计算多个模型结果的编码相似度,对关键信息基础设施的类型归属进行判定;
步骤3.1,依据二元码拆分策略,设立编码规则将政府机关、国防科工、广播电台、高校网、运营商、云计算平台及其下属的子类的多分类任务划分多个二分类任务,其编码的规则为将每个资产类型作为一个二元码,1表示是,0表示否,则多种资产类型组成的码元序列,即为一条二元码编码,所有编码的集合即是二元码编码空间;
步骤3.2,并结合机器学习中轻量级梯度提升算法的LightGBM框架,进行模型训练获得多个二分类模型,分别对位置一条样本进行预测,得到多个判定结果,组成预测编码;
步骤3.3,设定相似度计算预测编码与二元码编码空间内所有编码的相似度,选取编码相似度最大的标签作为判定结果,实现对未知的关键信息基础设施进行类型归属的识别判定。
2.根据权利要求1所述的基于LightGBM的关键信息基础设施类型单位归属判定方法,其特征在于:步骤1中对关键信息基础设施的设备日志、网络流量复杂原始数据进行特征优化表达和特征构建,采用特征分割与融合的方法从关键字、时段节点、行为组合、地理关联四个方面构建多维度特征信息。
3.根据权利要求1所述的基于LightGBM的关键信息基础设施类型单位归属判定方法,其特征在于:步骤2中结合德尔菲专家咨询法和主成分分析法,基于德尔菲专家咨询法原则获得关键信息基础设施的关键特征重要性权重集,应用LightGBM梯度提升算法获取特征的权重向量,然后结合权重集和权重向量,提取出关键特征向量。
4.根据权利要求1所述的基于LightGBM的关键信息基础设施类型单位归属判定方法,其特征在于:步骤3中二元码拆解策略将关键信息基础设施的多种类型判定任务拆解为多个机器学习二分类任务,设定相似度计算为公式
Figure FDA0003932997700000021
表示预测编码与二元码编码空间内所有编码的相似度,选取编码相似度最大的标签作为判定结果,实现对未知的关键信息基础设施进行类型归属的识别判定,其中XNOR为同或,Y为类别的标签编码,Pred为预测编码,Predk为当前仅把第k类作为正样本,其他类作为负样本的分类器判定的结果,α为权衡因子,L为编码长度。
CN201910459822.9A 2019-05-30 2019-05-30 基于LightGBM的关键信息基础设施类型单位归属判定方法 Active CN110334904B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910459822.9A CN110334904B (zh) 2019-05-30 2019-05-30 基于LightGBM的关键信息基础设施类型单位归属判定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910459822.9A CN110334904B (zh) 2019-05-30 2019-05-30 基于LightGBM的关键信息基础设施类型单位归属判定方法

Publications (2)

Publication Number Publication Date
CN110334904A CN110334904A (zh) 2019-10-15
CN110334904B true CN110334904B (zh) 2023-03-03

Family

ID=68140556

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910459822.9A Active CN110334904B (zh) 2019-05-30 2019-05-30 基于LightGBM的关键信息基础设施类型单位归属判定方法

Country Status (1)

Country Link
CN (1) CN110334904B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111126038B (zh) * 2019-12-24 2023-05-23 北京明略软件系统有限公司 信息获取模型生成方法、装置及信息获取方法、装置
CN111159493B (zh) * 2019-12-25 2023-07-18 乐山师范学院 一种基于特征权重的网络数据相似度计算方法与系统
CN112422505A (zh) * 2020-10-13 2021-02-26 北京理工大学 基于高维扩展关键特征向量的网络恶意流量识别方法
CN113158001B (zh) * 2021-03-25 2024-05-14 深圳市联软科技股份有限公司 一种网络空间ip资产归属及相关性判别方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
LU100069B1 (en) * 2017-02-10 2018-09-27 Univ Luxembourg Improved computing apparatus
CN108449366B (zh) * 2018-05-18 2019-01-22 广西电网有限责任公司 基于人工智能的关键信息基础设施安全威胁情报分析系统
CN108494807A (zh) * 2018-05-29 2018-09-04 广西电网有限责任公司 基于云计算的下一代关键信息基础设施网络入侵检测系统
CN109067587B (zh) * 2018-08-20 2020-09-04 腾讯科技(深圳)有限公司 关键信息基础设施的确定方法及装置

Also Published As

Publication number Publication date
CN110334904A (zh) 2019-10-15

Similar Documents

Publication Publication Date Title
CN110334904B (zh) 基于LightGBM的关键信息基础设施类型单位归属判定方法
Arabsheibani et al. Land suitability assessment for locating industrial parks: a hybrid multi criteria decision‐making approach using Geographical Information System
WO2023168781A1 (zh) 一种基于时空交互关系的土壤镉风险预测方法
CN106127360A (zh) 一种基于用户特性分析的多模型负荷预测方法
CN112288247B (zh) 一种基于空间交互关系的土壤重金属风险识别方法
CN106294319A (zh) 一种串并案识别方法
CN110245693B (zh) 结合混合随机森林的关键信息基础设施资产识别方法
Antanasijević et al. Forecasting human exposure to PM10 at the national level using an artificial neural network approach
CN105469219A (zh) 一种基于决策树的电力负荷数据处理方法
Danandeh Mehr Drought classification using gradient boosting decision tree
CN112905868A (zh) 事件抽取方法、装置、设备及存储介质
CN114529038A (zh) 一种基于企业需求的智能匹配招商策略系统及方法
CN113449111A (zh) 基于时空语义知识迁移的社会治理热点话题自动识别方法
Ivanov et al. Short-time particulate matter PM10 forecasts using predictive modeling techniques
CN116402187A (zh) 一种基于电力大数据的企业排污预测方法
CN114491081A (zh) 基于数据血缘关系图谱的电力数据溯源方法及系统
Alsaqabi et al. Using machine learning for prediction of factors affecting crimes in Saudi Arabia
CN113487241A (zh) 企业环保信用等级的分类方法、装置、设备及存储介质
Yu et al. Sports event model evaluation and prediction method using principal component analysis
Zhenkai et al. Analysis model of terrorist attacks based on big data
Li et al. Decision tree based station-level rail transit ridership forecasting
Zhang Remote sensing data processing of urban land using based on artificial neural network
CN113688940A (zh) 一种基于公开数据的疑似污染工业企业识别方法
CN114066077A (zh) 基于应急事件空间警兆分析的环卫风险预测方法
CN113191707A (zh) 快递编码生成方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant