CN110334904A - 基于LightGBM的关键信息基础设施类型单位归属判定方法 - Google Patents
基于LightGBM的关键信息基础设施类型单位归属判定方法 Download PDFInfo
- Publication number
- CN110334904A CN110334904A CN201910459822.9A CN201910459822A CN110334904A CN 110334904 A CN110334904 A CN 110334904A CN 201910459822 A CN201910459822 A CN 201910459822A CN 110334904 A CN110334904 A CN 110334904A
- Authority
- CN
- China
- Prior art keywords
- key message
- feature
- key
- lightgbm
- infrastructures
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000010801 machine learning Methods 0.000 claims abstract description 16
- 238000005457 optimization Methods 0.000 claims abstract description 8
- 239000013598 vector Substances 0.000 claims description 37
- 230000009977 dual effect Effects 0.000 claims description 22
- 238000004458 analytical method Methods 0.000 claims description 12
- 238000010276 construction Methods 0.000 claims description 7
- 230000006399 behavior Effects 0.000 claims description 5
- 230000003542 behavioural effect Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 5
- 239000000203 mixture Substances 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 238000003709 image segmentation Methods 0.000 claims description 4
- 238000000513 principal component analysis Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 2
- 230000004927 fusion Effects 0.000 claims 1
- 238000011160 research Methods 0.000 abstract description 4
- 230000000694 effects Effects 0.000 abstract description 3
- 238000004891 communication Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 241001269238 Data Species 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- VNWKTOKETHGBQD-UHFFFAOYSA-N methane Chemical compound C VNWKTOKETHGBQD-UHFFFAOYSA-N 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 230000007123 defense Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000003345 natural gas Substances 0.000 description 1
- 238000010248 power generation Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 239000010865 sewage Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Strategic Management (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Marketing (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Entrepreneurship & Innovation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Operations Research (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及基于LightGBM的关键信息基础设施类型单位归属判定方法,属于网络空间安全与机器学习领域。主要为了解决传统的依赖人力对关键信息基础设施类型进行标注的效率低、可扩展性差的问题。本发明提出一种基于机器学习算法,结合多类型、多截面数据采集及特征表达的关键信息基础设施资产特征优化表达与多目标分类技术研究方法,在此基础上构建关键信息基础设施类型归属判别应用系统,根据设施资产数据判定其属于哪一类的关键信息基础设施(如政府机关、国防科工、广播电台、运营商等等),实现对关键信息基础设施类型归属的识别认定。实验结果表明,本发明提出的算法的准确率和查全率较好,与规则匹配方法相比,具有很好的判定效果。
Description
技术领域
本发明涉及一种基于LightGBM的关键信息基础设施类型单位归属判定 方法,属于网络空间安全与机器学习领域。
背景技术
目前关键信息基础设施已经被视为国家的重要战略资源,关键信息基础 设施安全成为事关国家安全的重要问题。关键信息基础设施的识别认定是开 展关键信息基础设施保护工作的前提条件。各国在开展关键信息设施保护或 关键基础设施网络安全保护工作时,都研究提出了关键信息基础设施的范围, 制定了关键信息基础设施识别认定的标准和流程。美国很早就开始对关键基 础设施进行保护,在识别认定关键基础设施方面形成了相关经验。
1.美国对于关键信息基础设施的识别认定方法
目前,美国关键基础设施涉及的领域为16个,如下表所示:
序号 | 关键领域 | 序号 | 关键领域 |
1 | 化学 | 9 | 金融服务 |
2 | 商业设施 | 10 | 食品和农业 |
3 | 通讯 | 11 | 政府设施 |
4 | 关键制造 | 12 | 保健和公共健康 |
5 | 水利 | 13 | 信息技术 |
6 | 国防工业基础 | 14 | 核反应堆、材料和废弃物 |
7 | 应急服务 | 15 | 运输系统 |
8 | 能源 | 16 | 水及污水处理系统 |
美国通过划分关键领域,可以基于特定联邦部门和机构现有的法规或规 则权限,结合特定行业机构的专业制度和知识,部署关键基础设施的识别工 作。美国制定的关键基础设施分类方法为,将基础设施依次按照领域、子领 域、部门、子部门、资产的层级进行归类。如某发电厂可以按照如下步骤进 行归类:能源→电力→燃料发电→天然气发电。每个设施都有明确的细节和 功能描述。若一个基础设施同时可归属不同类别,则该设施可以拥有多种类 别描述。
2.中国对于关键信息基础设施的识别认定方法
关键信息基础设施主要划分为三类,即网站类、平台类、生产业务类, 其中确定步骤分为三步,一是确定关键业务,二是确定支撑关键业务的信息 系统或工业控制系统,三是根据关键业务对信息系统或工业控制系统的依赖 程度,以及信息系统发生网络安全事件后可能造成的损失认定关键信息基础 设施。但是,由于需要采集的关键信息基础设施数据量大,识别的基础设施 范围广、种类多,难以自动化提取出关键特征以实现高效率、高准确率的关 键信息基础设施类型归属的识别判定,导致我国目前关于关键信息基础设施 识别认定这项工作进度缓慢。
综上所述,关键信息基础设施的识别认定是对其进行安全保护的前提, 也是实践中的难点之一。目前现有的对关键基础上设施的归属识别方法存在 以下问题:(1)识别认定工作大部分都是人为标定的;(2)仅依据关键信 息基础设施的内涵和外延,在识别国家关键信息关键基础设施时难以操作, 且存在较大主观因素的影响;(3)基于后果的识别方法需要对设施开展充分 的威胁分析,尤其是相互依赖性分析,最大化的减少主观因素,故需要大量 的人力物力。因此有必要研究一种全面、系统、深入的关键信息基础设施资 产特征优化表达与多目标分类技术研究方法,以便快速、准确、全面的对关 键信息基础设施进行自动化身份判定,从而为保护关键信息基础设施铺平道 路。
发明内容
本发明提出一种基于LightGBM的关键信息基础设施类型单位归属判定 方法,结合多类型、多截面数据采集及特征表达的关键信息基础设施资产特 征优化表达与多目标分类技术研究方法,在此基础上构建关键信息基础设施 类型归属判别应用系统,根据设施资产数据判定其属于哪一类的关键信息基 础设施(如政府机关、国防科工、广播电台、运营商等等),实现对关键信 息基础设施类型归属的识别认定。
本发明的设计原理包括三个部分,关键信息基础设施数据特征优化表达、 关键影响因素提取、关键信息基础设施类型归属判定。关键信息基础设施数 据特征优化表达部分,首先通过对关键信息基础设施的设备日志、网络流量 等复杂数据进行数据清洗和特征优化表达,获得原始资产数据,然后结合专 家经验和《关键信息基础设施确定指南》,对原始资产数据采用特征分割与 融合的方法从关键字、时段节点、行为组合、地理关联四个方面构建特征, 并进行归一化、标准化和哑变量处理获得关键词特征向量、时段特征向量、行为特征向量和地理特征向量,最后顺序拼接获得高维扩展特征向量。关键 影响因素提取部分,建立在德尔菲专家咨询法和主成分分析法上,在客观上 基于LightGBM机器学习的方法获得特征的权重集 Weight(N)={w1,w2,…wk…,wN},其中wk表示第k个特征的权重大小,wk∈[0,1],并结合专家经验,进行关键影响因素分析获得最终关键特征向量, 兼顾关键特征向量的客观性和完备性。在关键信息基础设施类型归属判定部 分,通过依据二元码拆分策略,设立编码规则将政府机关、国防科工、广播 电台、高校网、运营商、云计算平台及其下属的子类的多分类任务划分多个 二分类任务,并结合机器学习中轻量级梯度提升算法的LightGBM框架,进 行模型训练获得多个二分类模型,在输出层,通过计算多模型对未知样本生 成的编码与类别编码空间的欧式距离,实现对未知的关键信息基础设施类型 归属的识别判定。
本发明的技术方案是通过如下步骤实现的:
步骤1,对关键信息基础设施的设备日志、网络流量等复杂原始数据进 行特征优化表达和特征构建;
步骤1.1,对关键信息基础设施的结构化与非机构化数据进行清洗优化 获得原始资产数据;
步骤1.2,然后结合专家经验和《关键信息基础设施确定指南》,基于 原始资产数据采用特征分割与融合的方法从关键字、时段节点、行为组合、 地理关联四个方面构建特征,并进行归一化、标准化和哑变量处理获得关键 词特征向量、时段特征向量、行为特征向量和地理特征向量;
步骤1.3,通过归一化、标准化和哑变量处理获得关键词特征向量、时 段特征向量、行为特征向量和地理特征向量,并顺序拼接获得高维扩展特征 向量;
步骤2,为兼顾最终数据的客观性和完备性,结合德尔菲专家咨询法和主 成分分析法,进行关键信息基础设施的关键影响因素分析,提取关键特征向量;
步骤2.1,在客观上基于LightGBM机器学习的方法获得特征的权重集 Weight(N)={w1,w2,…wk…,wN},其中wk表示第k个特征的权重大小, wk∈[0,1];
步骤2.2,获取所有特征的权重信息后,基于德尔菲专家咨询法原则,对 N个特征进行多轮经验分析,得到特征的重要性权重集Votes(N)= {v1,v2,…vk…,vN};
步骤2.3,结合专家经验与机器学习方法得到的客观影响因素分析,计 算Importance(N)={w1*v1,w2*v2,…wk*vk…,wN*vN},进行关键影响因素 提取,剔除掉非法特征和混淆特征,重点保留关键特征信息,获得最终的关 键特征向量;
步骤3,通过二元码拆解策略,设立编码规则将政府机关、国防科工等 多个类别及其子类进行编码规则的设定,将多分类任务划分为多个二分类任 务实现细粒度分类,结合LightGBM梯度提升算法构建多个二分类模型,并 通过计算多个模型结果的编码相似度,对关键信息基础设施的类型归属进行 判定;
步骤3.1,依据二元码拆分策略,设立编码规则将政府机关、国防科工、 广播电台、高校网、运营商、云计算平台及其下属的子类的多分类任务划分 多个二分类任务。其编码的规则为将每个资产类型作为一个二元码,1表示 是,0表示否,则多种资产类型组成的码元序列,即为一条二元码编码,所 有编码的集合即是二元码编码空间;
步骤3.2,并结合机器学习中轻量级梯度提升算法的LightGBM框架, 进行模型训练获得多个二分类模型,分别对位置一条样本进行预测,得到多 个判定结果,组成预测编码;
步骤3.3,设定相似度计算预测编码与二元码编码空间内所有编码的相 似度,选取编码相似度最大的标签作为判定结果,实现对未知的关键信息基 础设施进行类型归属的识别判定。
有益效果
相比于传统的规则匹配方法,本发明可以利用关键信息基础设施的原始数 据信息,构建多维度关键特征向量,二元码拆解策略和LightGBM梯度提升算 法,实现多目标识别技术,对关键信息基础设施进行类型归属的识别判定,具 有较高的查准率和查全率。
附图说明
图1为本发明基于机器学习算法的关键信息基础设施类型归属判定方法 原理图。
图2为关键信息基础设施数据特征优化表达原理图。
具体实施方式
为了更好的说明本发明的目的和优点,下面结合实例对本发明方法的实施 方式做进一步详细说明。
实验数据来自网络空间主机搜索引擎,包括撒旦(shodan.io)和佛法(fofa.so),包含基础设施的服务组件、网络端口、地理位置等信息。网络流量数据分布如 表1所示,。涵盖政府机关,国防科工、广播电台,高校网、运营商、云计算提 供平台等多类关键信息基础设施的共计32186条样本数据。
为了保证判定算法的准确性,需要对原始数据进行多重处理(特征表达、 特征构建等),生成用数值化向量表示的扩展特征矩阵,将原始数据信息(网络 流量抓包数据)转换为能够全面描述关键信息基础设施的特征向量,尽可能多 的涵盖关键信息基础设施数据中所包含的信息,提升数据对判别模式的表达能 力,更好地指导后续资产归属判别模型构建,从而为实现关键信息基础设施的 识别、分类和保护提供研究基础。
表1.原始资产数据说明表
实验采用准确率(precission)和查全率(recall)评价关键信息基础设施类 型归属判定的结果,计算方法如公式(1)、(2)所示:
本次实验在一台计算机和一台服务器上进行,计算机的具体配置为:Inter i7-6700,CPU 2.40GHz,内存4G,操作系统是windows 7,64位;服务器的具 体配置为:E7-4820v4,RAM 256G,操作系统是Linux Ubuntu 64位。
本次实验的具体流程为:
步骤1,对关键信息基础设施的设备日志、网络流量等复杂原始数据进 行特征优化表达和特征构建。
步骤1.1,对资产的结构化、半结构化原始数据进行数据清洗。
首先需要对原始网络流量数据进行数据清洗处理,主要有数据的数值化表 示和标准化处理,生成原始特征向量,然后在此基础上,通过专家经验分析, 构建高维特征向量。原始流量数据如表2所示:
表2.原始网络流量数据示例
对IP字段,可以将原始的点分十六进制转成十进制表示,如166.111.5.204 的十进制表示为:2792293836。
对于操作系统项,经过不完全统计分析,所有可能取值的范围为:windows, Unix,ubuntu,centos,debian,redhat等。可进行数值编码,如:
对于“端口”项,可构建特征:是否为80端口、是否为443端口、其它, 三类特征。
对于经纬度字段,无需特别处理,保证为合理浮点数即可。
对于“国家”和“省份”字段,除了对所有值进行编码外,还可以构建多 个新特征,如:是否为大陆东部地区,是否为大陆西部地区等等。
对于“更新时间”字段,将其转换为Unix时间戳,如2018-04-15 06:57的 Unix时间戳格式为:1523746620。另外,还可以根据小时时间,构建新特征: 是否为上午,设定其值为1表示上午,其值为0表示下午。
对于“公司”、“域名”、“组件”字段,可以考虑首先进行分词,对不同词 汇分配不同权重,比如“大学”、“政府”、“电视台”、“edu.cn”、“gov.cn”等等 字符串赋予较高权重。
步骤1.2,从原始数据中提取资产的物理位置、网络位置、连接认证等 信息。
步骤1.3,基于原始数据,构建设施资产的行为统计特征、活动统计特 征和时间统计特征等等信息。
步骤1.4,对量化处理后的特征按照其变量类型进行归一化、标准化或 哑变量处理。得到数值化资产特征向量,如表3所示:
表3.资产数值化特征向量示例
步骤2,结合德尔菲专家咨询法和主成分分析法,进行关键信息基础设施 的关键影响因素分析,提取维度不高于50维的关键特征向量,主要包含有资产 IP、经纬度、城市名、操作系统、服务器组件、开放端口、域名和标题等等关键 特征信息。
步骤2.1,在客观上基于LightGBM机器学习的方法获得特征的权重集 Weight(N)={w1,w2,…wk…,wN},其中wk表示第k个特征的权重大小, wk∈[0,1]。
步骤2.2,获取所有特征的权重信息后,基于德尔菲专家咨询法原则,对 N个特征进行多轮经验分析,得到特征的重要性权重集Votes(N)= {v1,v2,…vk…,vN}。
步骤2.3,结合专家经验与机器学习方法得到的客观影响因素分析,计 算Importance(N)={w1*v1,w2*v2,…wk*vk…,wN*vN},进行关键影响因素 提取,剔除掉非法特征和混淆特征,重点保留关键特征信息,获得最终的关 键特征向量。
步骤3,通过二元码拆解策略,设立编码规则将政府机关、国防科工等 多个类别及其子类进行编码规则的设定,将多分类任务划分为多个二分类任 务实现细粒度分类,结合LightGBM梯度提升算法构建多个二分类模型,并 通过计算多个模型结果的编码相似度,对关键信息基础设施的类型归属进行 判定。
步骤3.1,依据二元码拆分策略,设立编码规则将政府机关、国防科工、 广播电台、高校网、运营商、云计算平台及其下属的子类的多分类任务划分 多个二分类任务。其编码的规则为将每个资产类型作为一个二元码,1表示 是,0表示否,则多种资产类型组成的码元序列,即为一条二元码编码,所 有编码的集合即是二元码编码空间。二元编码空间中横向为类别,竖向为分 类器。例如,对于{国防科工,政府机关,交通运输}三类关键信息基础设施 类型,建立码本并设定编码长度为5,一种可能的编码空间为:{国防科工: {1,0,0,1,1},政府机关:{0,1,0,1,0},交通运输:P{0,0,1,0,1}}。
步骤3.2,并结合机器学习中轻量级梯度提升算法的LightGBM框架, 进行模型训练获得多个二分类模型,分别对位置一条样本进行预测,得到多 个判定结果,组成预测编码。例如:对于第1个分类器,则根据码本得到编 码为{1,0,0},则将国防科工设为正类,国防科工、交通运输设为负类训练第 一个LightGBM分类器。
步骤3.3,设定相似度计算为公式(1)预测编码与二元码编码空间内所 有编码的相似度,选取编码相似度最大的标签作为判定结果,实现对未知的 关键信息基础设施进行类型归属的识别判定。公式(1)中XNOR为同或, Y为类别的标签编码,Pred为预测编码。Predk为当前仅把第k类作为正样本, 其他类作为负样本的分类器判定的结果,α为权衡因子,L为编码长度。例如 已构建五个二分类器模型,设权衡因子为0.5,它们对样本的预测编码是 {1,0,0,1,1},计算预测编码与标签编码空间的距离,与国防科工的相似度为1, 与政府机关的相似度为0.1,与交通运输分类器的相似度为0.1,选取相似度 最大的标签,即政府机关:{1,0,0,1,1}作为判定结果。
测试结果:实验基于轻量级梯度提升算法LightGBM,对关键信息基础设 施的原始数据进行分类模型训练与识别,模型的准确率为96.06%和查全率为 49.46%,与规则匹配方法相比,本发明具有很好的判定效果。
以上所述的具体描述,对发明的目的、技术方案和有益效果进行了进一 步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不 用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修 改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.基于LightGBM的关键信息基础设施类型单位归属判定方法,其特征在于所述方法包括如下步骤:
步骤1,对关键信息基础设施的设备日志、网络流量等复杂原始数据进行特征优化表达和特征构建;
步骤1.1,对关键信息基础设施的结构化与非机构化数据进行清洗优化获得原始资产数据;
步骤1.2,然后结合专家经验和《关键信息基础设施确定指南》,基于原始资产数据采用特征分割与融合的方法从关键字、时段节点、行为组合、地理关联四个方面构建特征,并进行归一化、标准化和哑变量处理获得关键词特征向量、时段特征向量、行为特征向量和地理特征向量;
步骤1.3,通过归一化、标准化和哑变量处理获得关键词特征向量、时段特征向量、行为特征向量和地理特征向量,并顺序拼接获得高维扩展特征向量;
步骤2,为兼顾最终数据的客观性和完备性,结合德尔菲专家咨询法和主成分分析法,进行关键信息基础设施的关键影响因素分析,提取关键特征向量;
步骤2.1,在客观上基于LightGBM机器学习的方法获得特征的权重集Weight(N)={w1,w2,…wk…,wN},其中wk表示第k个特征的权重大小,wk∈[0,1];
步骤2.2,获取所有特征的权重信息后,基于德尔菲专家咨询法原则,对N个特征进行多轮经验分析,得到特征的重要性权重集Votes(N)={v1,v2,…vk…,vN};
步骤2.3,结合专家经验与机器学习方法得到的客观影响因素分析,计算Importance(N)={w1*v1,w2*v2,…wk*vk…,wN*vN},进行关键影响因素提取,剔除掉非法特征和混淆特征,重点保留关键特征信息,获得最终的关键特征向量;
步骤3,通过二元码拆解策略,设立编码规则将政府机关、国防科工等多个类别及其子类进行编码规则的设定,将多分类任务划分为多个二分类任务实现细粒度分类,结合LightGBM梯度提升算法构建多个二分类模型,并通过计算多个模型结果的编码相似度,对关键信息基础设施的类型归属进行判定;
步骤3.1,依据二元码拆分策略,设立编码规则将政府机关、国防科工、广播电台、高校网、运营商、云计算平台及其下属的子类的多分类任务划分多个二分类任务,其编码的规则为将每个资产类型作为一个二元码,1表示是,0表示否,则多种资产类型组成的码元序列,即为一条二元码编码,所有编码的集合即是二元码编码空间;
步骤3.2,并结合机器学习中轻量级梯度提升算法的LightGBM框架,进行模型训练获得多个二分类模型,分别对位置一条样本进行预测,得到多个判定结果,组成预测编码;
步骤3.3,设定相似度计算预测编码与二元码编码空间内所有编码的相似度,选取编码相似度最大的标签作为判定结果,实现对未知的关键信息基础设施进行类型归属的识别判定。
2.根据权利要求1所述的基于LightGBM的关键信息基础设施类型单位归属判定方法,其特征在于:步骤1中对关键信息基础设施的设备日志、网络流量等复杂原始数据进行特征优化表达和特征构建,采用特征分割与融合的方法从关键字、时段节点、行为组合、地理关联四个方面构建多维度特征信息。
3.根据权利要求1所述的基于LightGBM的关键信息基础设施类型单位归属判定方法,其特征在于:步骤2中结合德尔菲专家咨询法和主成分分析法,客观上,基于德尔菲专家咨询法原则融合多为专家经验,获得关键信息基础设施的关键特征,主观上,应用LightGBM梯度提升算法获取特征的权重向量,然后结合主观经验和客观知识,提取出关键特征向量。
4.根据权利要求1所述的基于LightGBM的关键信息基础设施类型单位归属判定方法,其特征在于:步骤3中二元码拆解策略将关键信息基础设施的多种类型判定任务拆解为多个机器学习二分类任务,设定相似度计算为公式表示预测编码与二元码编码空间内所有编码的相似度,选取编码相似度最大的标签作为判定结果,实现对未知的关键信息基础设施进行类型归属的识别判定,其中XNOR为同或,Y为类别的标签编码,Pred为预测编码,Predk为当前仅把第k类作为正样本,其他类作为负样本的分类器判定的结果,α为权衡因子,L为编码长度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910459822.9A CN110334904B (zh) | 2019-05-30 | 2019-05-30 | 基于LightGBM的关键信息基础设施类型单位归属判定方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910459822.9A CN110334904B (zh) | 2019-05-30 | 2019-05-30 | 基于LightGBM的关键信息基础设施类型单位归属判定方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110334904A true CN110334904A (zh) | 2019-10-15 |
CN110334904B CN110334904B (zh) | 2023-03-03 |
Family
ID=68140556
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910459822.9A Active CN110334904B (zh) | 2019-05-30 | 2019-05-30 | 基于LightGBM的关键信息基础设施类型单位归属判定方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110334904B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111126038A (zh) * | 2019-12-24 | 2020-05-08 | 北京明略软件系统有限公司 | 信息获取模型生成方法、装置及信息获取方法、装置 |
CN111159493A (zh) * | 2019-12-25 | 2020-05-15 | 乐山师范学院 | 一种基于特征权重的网络数据相似度计算方法与系统 |
CN112422505A (zh) * | 2020-10-13 | 2021-02-26 | 北京理工大学 | 基于高维扩展关键特征向量的网络恶意流量识别方法 |
CN113158001A (zh) * | 2021-03-25 | 2021-07-23 | 深圳市联软科技股份有限公司 | 一种网络空间ip资产归属及相关性判别方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018146207A1 (en) * | 2017-02-10 | 2018-08-16 | Université Du Luxembourg | Improved computing apparatus |
CN108449366A (zh) * | 2018-05-18 | 2018-08-24 | 广西电网有限责任公司 | 基于人工智能的关键信息基础设施安全威胁情报分析系统 |
CN108494807A (zh) * | 2018-05-29 | 2018-09-04 | 广西电网有限责任公司 | 基于云计算的下一代关键信息基础设施网络入侵检测系统 |
CN109067587A (zh) * | 2018-08-20 | 2018-12-21 | 腾讯科技(深圳)有限公司 | 关键信息基础设施的确定方法及装置 |
-
2019
- 2019-05-30 CN CN201910459822.9A patent/CN110334904B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018146207A1 (en) * | 2017-02-10 | 2018-08-16 | Université Du Luxembourg | Improved computing apparatus |
CN108449366A (zh) * | 2018-05-18 | 2018-08-24 | 广西电网有限责任公司 | 基于人工智能的关键信息基础设施安全威胁情报分析系统 |
CN108494807A (zh) * | 2018-05-29 | 2018-09-04 | 广西电网有限责任公司 | 基于云计算的下一代关键信息基础设施网络入侵检测系统 |
CN109067587A (zh) * | 2018-08-20 | 2018-12-21 | 腾讯科技(深圳)有限公司 | 关键信息基础设施的确定方法及装置 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111126038A (zh) * | 2019-12-24 | 2020-05-08 | 北京明略软件系统有限公司 | 信息获取模型生成方法、装置及信息获取方法、装置 |
CN111126038B (zh) * | 2019-12-24 | 2023-05-23 | 北京明略软件系统有限公司 | 信息获取模型生成方法、装置及信息获取方法、装置 |
CN111159493A (zh) * | 2019-12-25 | 2020-05-15 | 乐山师范学院 | 一种基于特征权重的网络数据相似度计算方法与系统 |
CN112422505A (zh) * | 2020-10-13 | 2021-02-26 | 北京理工大学 | 基于高维扩展关键特征向量的网络恶意流量识别方法 |
CN113158001A (zh) * | 2021-03-25 | 2021-07-23 | 深圳市联软科技股份有限公司 | 一种网络空间ip资产归属及相关性判别方法及系统 |
CN113158001B (zh) * | 2021-03-25 | 2024-05-14 | 深圳市联软科技股份有限公司 | 一种网络空间ip资产归属及相关性判别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110334904B (zh) | 2023-03-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110334904A (zh) | 基于LightGBM的关键信息基础设施类型单位归属判定方法 | |
CN109034448B (zh) | 基于车辆轨迹语义分析和深度信念网络的轨迹预测方法 | |
Bui et al. | A deep learning approach for forecasting air pollution in South Korea using LSTM | |
CN108572967A (zh) | 一种创建企业画像的方法及装置 | |
CN101692639A (zh) | 一种基于url的不良网页识别方法 | |
CN112989761B (zh) | 文本分类方法及装置 | |
CN110245693B (zh) | 结合混合随机森林的关键信息基础设施资产识别方法 | |
Kumaravel et al. | Web portal visits patterns predicted by intuitionistic fuzzy approach | |
CN112905868A (zh) | 事件抽取方法、装置、设备及存储介质 | |
CN115641162A (zh) | 一种基于建筑工程造价的预测数据分析系统和方法 | |
CN113705242B (zh) | 面向教育咨询服务的智能语义匹配方法和装置 | |
CN115906842A (zh) | 一种政策信息识别方法 | |
Li et al. | Big data and its key technology in the future | |
CN110609936A (zh) | 一种模糊地址数据智能分类的方法 | |
CN112257425A (zh) | 一种基于数据分级模型的电力数据分析方法及系统 | |
CN1936887A (zh) | 基于类别概念空间的自动文本分类方法 | |
Yang | LDA-based Topic Mining Research on China's Government Data Governance Policy | |
Gao et al. | Determining the weights of influencing factors of construction lands with a neural network algorithm: a case study based on Ya’an City | |
CN115204140A (zh) | 一种基于注意力机制与知识图谱的法律条文预测方法 | |
CN104298751A (zh) | 互联网虚拟身份特征信息的获取方法及装置 | |
CN113688940A (zh) | 一种基于公开数据的疑似污染工业企业识别方法 | |
CN113191707A (zh) | 快递编码生成方法、装置、设备及存储介质 | |
Wei et al. | Big Data Analysis and Forecast of Employment Position Requirements for College Students. | |
Soman et al. | Can Strategic Data Collection Improve the Performance of Poverty Prediction Models? | |
CN113742495B (zh) | 基于预测模型的评级特征权重确定方法及装置、电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |