CN117332095A

CN117332095A - 一种基于资产探测的网络空间知识图谱构建方法

Info

Publication number: CN117332095A
Application number: CN202311259817.6A
Authority: CN
Inventors: 邹振婉; 李峰; 陈涛; 尹军; 陈佳; 王斌
Original assignee: Electric Power Research Institute of State Grid Xinjiang Electric Power Co Ltd
Current assignee: Electric Power Research Institute of State Grid Xinjiang Electric Power Co Ltd
Priority date: 2023-09-27
Filing date: 2023-09-27
Publication date: 2024-01-02

Abstract

本发明公开了一种基于资产探测的网络空间知识图谱构建方法，属于网络资产识别技术领域，通过混合扫描技术对不同网络空间内的资产进行探测，获得存活资产。根据存活资产信息，结合指纹规则特征库匹配、深度学习和爬虫技术识别不同类别的资产；定义网络资产本体，设计深度学习模型ECNUniRel(ERNIE Chinese UniRel)和EBDC(ERNIE‑BiLSTM‑IDCNN‑CRF)对资产数据进行知识抽取，导入图数据库中形成完整的网络资产知识图谱。基于资产探测的网络空间知识图谱构建方法，有利于厘清网络空间内的资产之间的多种关系、资产属性特征等，有利于后续研究及实践过程中按生命周期、分级分类等方式对资产进行管理，从而提高网络空间领域内知识搜索、资产管理、攻击识别的效率。

Description

一种基于资产探测的网络空间知识图谱构建方法

技术领域

本发明涉及网络资产识别技术领域，特别是涉及一种基于资产探测的网络空间知识图谱构建方法。

背景技术

网络空间资产的实质在于其所承载的信息和资源。除了主机和服务器作为固定资产外，网络空间资产还包括IP资源、运行在主机和服务器上的Web服务、文件服务器、各类系统，以及组织单位的人员等。

随着信息化时代的来临，网络空间已成为人们生活中不可或缺的一部分。物联网、大数据、云计算等信息技术的发展，促进了网络空间中资产数量与种类的飞速增长。这些网络资产与民生和关键信息基础设施息息相关，是保护信息化资产和维护网络安全的基础。

网络环境错综复杂，各类终端系统数量庞大且更新换代快。现有的人力手工台账的记录方式容易出现遗漏或错误，难以快速统计与分类网络空间中各类资产信息。网络资产知识图谱的构建，可全面地记录网络空间中的资产信息和资产间的关联关系，全面了解和管理网络资产，从而更好地进行规划、维护和保护。

发明内容

为了解决上述现有技术中的不足，本发明的目的在于提供一种基于资产探测的网络空间知识图谱构建方法，采用混合扫描技术对不同网络空间内的资产进行探测。对内网，分别依次使用扫描工具发送特定数据包和分析网段节点流量数据，以获取网段内存活资产。对公开互联网资产，使用网络安全搜索引擎获取联网信息；综合以上方法完成资产探测。根据探测结果，提取关键字，生成不同类别资产的数据指纹特征。使用Web指纹识别和基于CNN模型的操作系统识别，完成资产分类和识别。采用BART标注工具，按BIEO格式标注资产数据，并使用知识抽取模型(如ERNIE Chinese UniRel,ECNUniRel和ERNIE-BiLSTM-IDCNN-CRF,EBDC)提取实体关系和实体。导入数据库形成完整的资产知识图谱。通过知识图谱综合集成不同类型的资产信息。资产关系和依赖管理揭示相互关系，有助于规划网络架构；资产属性和特征管理记录资产信息，支持维护和配置管理；知识图谱实现完整的资产生命周期管理，确保可用性和合规性。综合运用这些方法，提升网络资产管理的效率和可靠性。

本发明解决其技术问题所采用的技术方案为：

提供了一种基于资产探测的网络空间知识图谱构建方法，包括以下步骤：

S1：采用混合探测方法扫描目标网络内的网络资产；

S2：根据所获得的网络资产数据进行资产识别；

S3：构建面向网络空间的网络资产本体；

S4：利用知识抽取模型抽取三元组，构建网络资产知识图谱；

S5：根据网络资产知识图谱进行资产管理。

进一步的，步骤S1中，具体方法包括：

S101：使用主动扫描技术对目标网络内的资产进行，获得第一扫描数据；

S102：使用流量分析方法对目标网络内的终端设备和进行日志扫描，获得第二扫描数据；

S103：提取第一扫描数据和第二扫描数据的指纹特征，获得第一网络资产信息；

S104：使用网络空间搜索引擎对公开互联网进行扫描，获得第二网络资产信息。

进一步的，步骤S101中，获得第一扫描数据的方法为：

在对目标网络内的资产进行扫描之前，安装扫描工具Nmap和Masscan；结合两种扫描工具进行资产探测；

通过扫描工具主动向目标网络资产发送构造的特定数据包，并从返回数据包的相关信息(包括各层协议内容、包重传时间等)中获取目标资产信息；

或者，特定数据包的构造方法为：分别向目标网络的网络层、传输层和应用层发送对应数据包，探测存活资产。

具体的：

网络层：向该层发送探测协议，网际控制报文协议(Internet Control MessageProtocol,ICMP)和地址解析协议(Address Resolution Protocol,ARP)探测网络内主机的存活性；

传输层：向该层发送探测协议，传输控制协议(Transmission Control Protocol,TCP)和用户数据报协议(User Datagram Protocol,UDP)探测存活主机开放端口、端口服务、操作系统等信息；

应用层：向该层发送探测协议，简单网络管理协议(Simple Network ManagementProtocol,SNMP)探测操作系统和应用服务信息。

进一步的，步骤S102中，获得第二扫描数据的方法为：

终端设备信息：包括所述一项或多项；设备名称、设备类型、设备地址、操作系统、MAC地址、地址类型、生产厂商、系统首次启动时间、首次发现时间、最后通信时间和端口信息；

网络设备信息：包括所述一项或多项；VLAN接口、路由信息、集线器信息和交换机信息；

网络流量分析方法：通过在网络节点处部署探测器采集设备中的网络流量日志，进行流量数据字段分析；

分析TCP响应数据包中的端口字段，获取端口及端口服务信息；根据IP响应数据包中TTL字段获取设备操作系统信息；通过分析动态主机配置协议(Dynamic HostConfiguration Protocol,DHCP)响应数据中的其他字段，获取目标主机的IP地址、子网掩码、网关地址和DNS服务器地址等信息；

或者，

步骤S103中，获得第一网络资产信息的方法为：

根据第一扫描数据和第二扫描数据的指纹特征，使用指纹库中已有的资产指纹特征进行匹配，识别出目标网络内的资产信息。

进一步的，步骤S104中，获得第二网络资产信息的方法为：

作为第一网络资产信息的补充，基于网络空间搜索引擎对公开互联网资产进行扫描，获取接入互联网中各网络设备、安全设备、服务器、打印机、摄像头等的类型及版本、所处位置、开放端口及端口服务等网络资产信息；

使用网络空间搜索引擎探测存活主机和扫描存活端口，通过发送网络请求并观察响应，确定主机是否存活，并获取主机上开放的端口号及端口信息；

将网络空间搜索引擎获取到的信息进行整理和分析，获得第二网络资产信息。

进一步的，步骤S2中，资产识别的具体处理流程为：

S201：基于指纹规则特征库匹配方法，对网络设备、安全设备、通信设备和服务器等常见资产进行识别，获得资产数据，具体步骤如下：

(1)基于探测到的网络资产，通过提取网络资产数据中的关键词或预设资产类别-指纹特征相对应的资产特征字典，提取不同类别资产数据的指纹特征；

(2)根据指纹类别与重要性，为预先存储的常见资产指纹数据设置指纹命中率；

(3)对所提取资产指纹特征进行指纹规则特征库匹配，根据指纹命中率选择最优的资产指纹信息；其中，指纹命中率对每个指纹的命中率进行标识，在使用指纹时优先使用命中率高的指纹；

其中，资产类别分为：软件资产类，其指纹包括应用程序名称和版本信息、协议和端口号、关键词和特征等；硬件资产类，其指纹包括MAC地址、硬件类别名标识、硬件配置参数。各类资产具体包括，硬件类资产包括物理设备，例如服务器、路由器、交换机、防火墙和存储设备等；软件资产包括安装在硬件设备上的软件，例如数据库管理系统和应用程序等；

S202：利用爬虫技术识别Web服务信息，获取更丰富的资产数据，作为S201资产数据的补充，具体步骤如下：

(1)根据第一和第二网络资产筛选出启用HTTP/HTTPS服务的资产；

(2)通过爬虫技术，采用Python request get请求爬取网页内容；

(3)利用指纹识别引擎对Header/Body内容进行分析，识别主机响应头、标题、关键词、应用组件、开发框架、脚本语言和XMS等信息；

其中，爬虫技术可以获取网页内容(如，响应头、标题、关键词、应用组件等信息)，补充指纹规则特征库的识别结果，提供更详细的We b服务信息(如Web应用程序类型、版本号、开发框架等)；

S203：利用基于CNN的深度学习方法识别操作系统、数据库、应用程序信息，获得未知资产或难以准确匹配资产的数据，作为S201资产数据的补充，具体步骤如下：

(1)筛选指纹特征，获得与目标资产相关的指纹特征；

(2)对获取的资产指纹特征进行分词、转换等预处理操作；

(3)将目标指纹特征与映射文件中的特征向量进行匹配，得到所述目标指纹特征对应的输入向量；

(4)采用训练好的基于CNN的资产识别深度学习模型，对所述输入向量进行识别，得到目标资产的信息。

进一步的，步骤S3中，构建面向网络空间的网络资产本体，包括如下概念、属性与关系：资产信息包含如下类别与属性：

(1)服务协议类：属性包括请求头、端口号、IP信息、域名；

(2)操作系统类：属性包括系统类型标识、系统版本号、系统名称；

(3)业务层类：属性包括业务标识信息、应用软件名标识、IP信息、请求头；

(4)硬件类：属性包括MAC地址、硬件类别名标识、硬件配置参数。

其中，硬件类资产包括物理设备，例如服务器、路由器、交换机、防火墙和存储设备等。软件资产包括安装在硬件设备上的软件，例如操作系统、数据库管理系统和应用程序等。网络服务协议包括IP协议(Internet Protocol)、TCP协议(Transmission ControlProtocol)、UDP协议(User Datagram Protocol)、HTTP协议(Hypertext TransferProtocol)、FTP协议(File Transfer Protocol)、DNS协议(Domain Name System)和SMTP协议(Simple Mail Transfer Protocol)等。

硬件资产相关本体包括：

(1)网络设备类：设备名称、设备型号、设备IP地址、设备状态、厂商信息；

(2)安全设备类：设备名称、设备型号、设备IP地址、设备状态、厂商信息：

(3)通信设备类：设备名称、设备型号、设备IP地址、设备状态、厂商信息；

(4)服务器类：服务器名称、服务器IP地址、操作系统、CPU信息、内存信息；

软件资产相关本体包括：

(1)操作系统类：属性包括系统名称、系统类型标识、系统版本号；

(2)数据库类：数据库名称、数据库类型、版本号、数据库IP地址、数据库管理员；

(3)应用程序类：程序名称、程序类型、程序版本号；

(4)服务协议类：属性包括请求头、端口号、IP信息、域名；

企业相关本体包括：

(1)权属部门类：属性包括部门名称；

(2)负责人类：属性包括负责人名称、职位、联系方式；

(3)制造商类：属性包括公司名、主要业务、联系方式、公司地址；

(4)风险类：属性包括风险类型、风险等级、风险来源；

其中，网络设备包括路由器、交换机、防火墙、负载均衡器、VPN设备等；安全设备包括防火墙、入侵检测系统、入侵防御系统、安全信息和事件管理系统、防病毒和发恶意软件系统；通信设备包括IP电话、视频会议设备、语音网关、路由器、网关、交换机、中继器、集线器和网卡等；服务器类包括物理服务器(机架式服务器或塔架式服务器)、虚拟服务器、云服务器、数据库服务器、文件服务器、Web服务器、邮件服务器和DNS服务器等；操作系统包括Windows、Linux、macOS、Android和iOS等；数据库包括Oracle Database、Microsoft SQLServer、PostgreSQL、MongoDB和Redis等；终端设备类包括个人电脑、笔记本电脑、手机、平板电脑、打印机、网络摄像头等；应用程序和服务类包括中间件、邮件客户端、网络浏览器和即时通讯工具等。

实体间关系包括：

(1)面临关系：网络设备类、安全设备类、通信设备类与风险类之间存在面临关系，记录设备面临的风险，如硬件故障、网络攻击等；服务器类与风险类之间存在面临关系，记录服务器面临的风险，如服务器宕机、数据泄露、安全漏洞等；操作系统类、数据库类、应用程序类、服务协议类与风险类之间存在面临关系，记录软件资产面临的特定风险，如软件漏洞、未经授权访问、拒绝服务攻击等；

(2)负责关系：网络设备类、安全设备类、通信设备类、服务器类与负责人类关联，记录硬件资产的负责人；

(3)生产关系：网络设备类、安全设备类、通信设备类与制造商类关联，记录硬件资产的制造商；

(4)隶属关系：负责人类与权属部门关联，记录每个负责人隶属的部门。

进一步的，步骤S4中，三元组标注的具体流程如下：

首先，采用表填充方法对头实体-尾实体、尾实体-头实体、头实体-关系、关系-尾实体和关系-关系间的交互进行标注，将头实体-尾实体、尾实体-头实体、头实体-关系、关系-尾实体和关系-关系交互的位置在表中标注为1，其余位置标注为0，标注出(头实体，关系，尾实体)三元组；

其次，采用BIEO(Begin,Intermediate,End,Other)标注法对一句话中的所有实体的起始位置、中间位置和结束位置进行标注，抽取出一句话中所有的完整实体。其中“B”表示实体首字，“I”表示实体中间字，“E”表示实体结束字，“O”表示非实体字或标点；

最后，采用BRAT标注工具对数据集中的句子进行实体和三元组进行标注，生成训练语料。

进一步的，步骤S4中，构建网络资产知识图谱包括：

S401：根据网络资产指纹库，对识别后的资产进行筛选，去除冗余、错误、不完整的数据，并进行归一化处理；

S402：在经数据预处理的数据集上对ERNIE模型进行预训练，构建面向网络资产的ERNIE模型；

(1)三元组抽取

所述知识抽取模型包括三元组抽取模型(ERNIE-Chinese-UniRel,ECNUniRel)；其中，ERNIE用于对句子中的上下文语义信息进行融合，使得向量能够更好的表示整句话的语义关系；在中文环境下对UniRel模型进行了微调，将原来的一个单词构成的关系词扩展为多个字组成的中文词语，在获得词语的上下文表示后再池化为一个字向量，以便于更好地捕捉中文环境下的语义特征；除了捕捉实体和实体、实体和关系间的交互，还增加了对关系和关系间的交互的捕捉，融合了更多的关系特征，降低矩阵的稀疏性；

S403：为每个预定义关系选取最能定义该关系的一个词作为关系词；

S404：将句子文本和所有的关系词拼接，输入经过预训练的ERNIE模型，得到最后一层Transformer块的注意力分数矩阵，作为词级别的文本-关系交互矩阵T_word；

S405：按照关系词的构成，采用平均池化将超过一个字的关系词表示池化为一个字的向量表示，并替代原来以词为单位的向量表示，得到最终字级别的文本-关系交互矩阵T；

S406：采用Sigmoid函数作为激活函数，将所述步骤S405中的矩阵的每个元素映射到0-1之间，得到文本-关系交互得分矩阵T_score；

S407：对ECNUniRel(ERNIE-Chinese-UniRel)三元组抽取模型进行训练，计算损失函数：

其中，N和M分别表示句子的长度和预定义的关系数量；

S408：采用训练好的模型对语料库中的三元组进行抽取；

(2)实体抽取

所述知识抽取模型还包括命名实体识别模型(ERNIE-BiLSTM-IDCNN-CRF,EBDC)；其中，ERNIE用于提升模型对中文文本表示的能力，而BiLSTM和IDCNN用于捕获输入特征的全局和局部信息，分别关注句子之间和句子内部单词之间的不同距离的特征。CRF作为分类输出层，通过比较输出标签的相关性，选择全局最优的输出标签；

S409：将句子输入经过预训练的ERNIE模型，得到句子表示H；

S410：将所述步骤S409中的句子表示H输入Bi-LSTM层，得到充分融合上下文信息的句子表示H_lstm；

S411：将所述步骤S410的输出向量H_lstm，输送至不同膨胀率l(例如，l∈[1,2,3])的多个二维膨胀卷积(Dilated Convolution)中捕捉不同距离单词之间的相互作用，在标准卷积的基础上注入空洞，能够在不通过池化损失信息的情况下，增加感受视野，减少信息损失；一个膨胀卷积中的计算可以公式化为：

Q^l＝σ(DConv_l(H_lstm))

式中，σ是GELU激活函数，最终可以得到Q＝[Q¹,Q²,Q³]；

S412：采用条件随机场(Conditional Random Field，CRF)对所述步骤S411中的句子表示Q进行解码，得到全局最优的标签序列H_crf；

S413：对EBDC模型进行训练，计算损失；

S414：采用训练好的EBDC模型对语料库中的数据进行实体抽取；

S415：将抽取出的实体和三元组消歧匹配，获得完整的实体关系三元组；

S416：将所述步骤S415中的知识导入Neo4J数据库，利用“LOAD_CSV”命令将import目录中的实体和关系批量导入，生成网络资产知识图谱。

进一步的，步骤S5中，进行资产管理的内容包括：

综合信息集成：知识图谱可以将不同类型的资产信息进行整合，包括内部网络、外部网络和互联网上的资产；通过关联和连接，可以建立全面的网络资产关系和属性信息；

资产关系和依赖管理：在知识图谱中建立资产之间的连接和关联，追踪资产之间的依赖关系，包括硬件设备之间的连接、软件应用程序与操作系统的关系等，有助于理解资产之间的相互作用，揭示资产之间的关系和依赖性，更好地管理和规划网络架构；

资产属性和特征管理：记录并管理资产的属性和特征信息。包括硬件设备的型号、配置参数，软件应用程序的版本和网络协议的规范，通过将这些属性信息存放在知识图谱中，更好地管理和维护资产，例如软件升级和配置管理等；

资产生命周期管理：基于网络资产构建的知识图谱可以支持资产的完整生命周期管理，从资产的引入和部署到维护和退役，知识图谱可以记录和追踪资产的状态和变化，有助于确保资产的可用性、安全性和合规性，并能够规划和预测资产的更新和替换需求。

与现有技术相比，本发明的有益效果在于：

1、全面探测能力。通过采用混合扫描技术，结合内网和公开互联网的探测方法，实现对不同网络空间内资产的全面探测。从内网使用Nmap和Masscan工具获取存活资产，通过被动流量分析获取设备信息，通过网络安全搜索引擎获取公开互联网资产信息，综合以上方法完成资产探测任务，获取资产完整信息；

2、高效的资产识别和分类能力。根据探测到的网络资产信息，提取关键字并生成数据指纹特征，运用Web指纹识别和基于CNN的资产识别深度学习模型，实现对资产的识别和分类，该方法能够快速准确地区分不同类别的资产，提高资产识别的效率；

3、构建完整的网络资产知识图谱。通过使用BART标注工具按照BIEO格式对资产数据进行标注，以及利用知识抽取模型进行实体关系三元组抽取和实体抽取，将提取的信息导入数据库，构建完整的网络资产知识图谱，可以更好地管控资产安全和建立全面的网络资产关系和属性信息。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1为整体流程示意图；

图2为网络资产探测的流程示意图；

图3为网络资产识别的流程示意图；

图4为构建网络资产知识图谱的流程示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

如图1所示，本实施例提供了一种基于资产探测的网络空间知识图谱构建方法，包括以下步骤：

S1：采用混合探测方法扫描目标网络内的网络资产；

S2：根据所获得的网络资产数据进行资产识别；

S3：构建面向网络空间的网络资产本体；

S5：根据网络资产知识图谱进行资产管理。

具体的，基于资产探测的网络空间知识图谱构建方法，如图2所示，包括：

步骤S101：使用主动扫描技术对目标网络内的资产进行扫描，获得第一扫描数据；

步骤S102：使用流量分析方法对目标网络内的终端设备和网络设备进行网络流量日志扫描，获得第二扫描数据；

具体的，使用主动扫描技术对目标网络内的资产进行扫描，获得第一扫描数据：

Nmap工具主要功能，包括端口扫描、操作系统识别、漏洞扫描和网络映射；

Masscan工具主要功能，包括高速扫描、大规模扫描、端口扫描以及生成报告；

通过扫描工具主动向目标网络资产发送构造的特定数据包，并从返回数据包的相关信息(包括各层协议内容、包重传时间等)中获取目标资产信息。

具体的，主动向目标网络资产发送构造的特定数据包：

分别向目标网络的网络层、传输层和应用层发送对应数据包，探测存活资产。

具体的，使用流量分析方法对目标网络内的终端设备和网络设备进行网络流量日志扫描，获得第二扫描数据；

分析TCP响应数据包中的端口字段，获取端口及端口服务信息；根据IP响应数据包中TTL字段获取设备操作系统信息；通过分析动态主机配置协议(Dynamic HostConfiguration Protocol,DHCP)响应数据中的其他字段，获取目标主机的IP地址、子网掩码、网关地址和DNS服务器地址等信息。

具体的，提取第一扫描数据和第二扫描数据的指纹特征，获得第一网络资产信息：

获得第一网络资产信息。根据第一扫描数据和第二扫描数据的指纹特征。使用指纹库中已有的资产指纹特征进行匹配，识别出目标网络内的资产信息。

具体的，使用网络空间搜索引擎对公开互联网进行扫描，获得第二网络资产信息：

作为第一网络资产信息的补充。基于网络空间搜索引擎对公开互联网资产进行扫描，获取接入互联网中各网络设备、安全设备、服务器、打印机、摄像头等的类型及版本、所处位置、开放端口及端口服务等网络资产信息；

基于资产探测的网络空间知识图谱构建方法，如图3所示，包括步骤S2：根据所获取的网络资产数据进行资产识别；

具体的，步骤S201：基于指纹规则特征库匹配方法，对网络设备、安全设备、通信设备和服务器等常见资产进行识别，获得资产数据。具体步骤如下：

(3)对所提取资产指纹特征进行指纹规则特征库匹配，根据指纹命中率选择最优的资产指纹信息；其中，指纹命中率对每个指纹的命中率进行标识，在使用指纹时优先使用命中率高的指纹。

其中，资产类别分为：软件资产类，其指纹包括应用程序名称和版本信息、协议和端口号、关键词和特征等；硬件资产类，其指纹包括MAC地址、硬件类别名标识、硬件配置参数。各类资产具体包括，硬件类资产包括物理设备，例如服务器、路由器、交换机、防火墙和存储设备等；软件资产包括安装在硬件设备上的软件，例如数据库管理系统和应用程序等。

具体的，步骤S202：利用爬虫技术识别Web服务信息，获取更丰富的资产数据，作为S201资产数据的补充。具体步骤如下：

(1)根据第一和第二网络资产筛选出启用HTTP/HTTPS服务的资产；

(2)通过爬虫技术，采用Python request get请求爬取网页内容；

其中，爬虫技术可以获取网页内容(如，响应头、标题、关键词、应用组件等信息)，补充指纹规则特征库的识别结果，提供更详细的We b服务信息(如Web应用程序类型、版本号、开发框架等)。

具体的，步骤S203：利用基于CNN的深度学习方法识别操作系统、数据库、应用程序信息，获得未知资产或难以准确匹配资产的数据，作为S201资产数据的补充。具体步骤如下：

(1)筛选指纹特征，获得与目标资产相关的指纹特征；

(2)对获取的资产指纹特征进行分词、转换等预处理操作；

具体的，步骤S3构建面向网络空间的网络资产本体，包括如下概念、属性与关系：

硬件资产相关本体包括：

软件资产相关本体包括：

(3)应用程序类：程序名称、程序类型、程序版本号；

(4)服务协议类：属性包括请求头、端口号、IP信息、域名；

企业相关本体包括：

(1)权属部门类：属性包括部门名称；

(2)负责人类：属性包括负责人名称、职位、联系方式；

(4)风险类：属性包括风险类型、风险等级、风险来源；

实体间关系包括：

基于资产探测的网络空间知识图谱构建方法，如图4所示，包括：网络资产实体三元标注具体流程如下：

所述步骤S4利用知识抽取模型抽取数据，构建网络资产知识图谱，包括：

S402：在经数据预处理的数据集上对ERNIE模型进行预训练，构建面向网络资产的ERNIE模型。

具体的，三元组抽取：

其中，N和M分别表示句子的长度和预定义的关系数量；

S408：采用训练好的模型对语料库中的三元组进行抽取；

具体的，实体抽取：

S409：将句子输入经过预训练的ERNIE模型，得到句子表示H；

Q^l＝σ(DConv_l(H_lstm))

式中，σ是GELU激活函数，最终可以得到Q＝[Q¹,Q²,Q³]；

S413：对EBDC模型进行训练，计算损失；

具体的，步骤S5基于构建的网络资产知识图谱对资产进行管理，具体内容包括：

基于网络资产构建的知识图谱进行资产管理，可以更好地了解和掌握其资产，提高资产的可视性和管控能力，从而增强网络安全和运维的效率；

本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种基于资产探测的网络空间知识图谱构建方法，其特征在于，包括以下步骤：

S1：采用混合探测方法扫描目标网络内的网络资产；

S2：根据所获得的网络资产数据进行资产识别；

S3：构建面向网络空间的网络资产本体；

S5：根据网络资产知识图谱进行资产管理。

2.根据权利要求1所述的一种基于资产探测的网络空间知识图谱构建方法，其特征在于，步骤S1中，具体方法包括：

3.根据权利要求2所述的一种基于资产探测的网络空间知识图谱构建方法，其特征在于，步骤S101中，获得第一扫描数据的方法为：

通过扫描工具主动向目标网络资产发送构造的特定数据包，并从返回数据包的相关信息中获取目标资产信息；

4.根据权利要求2所述的一种基于资产探测的网络空间知识图谱构建方法，其特征在于，步骤S102中，获得第二扫描数据的方法为：

分析TCP响应数据包中的端口字段，获取端口及端口服务信息；根据IP响应数据包中TTL字段获取设备操作系统信息；通过分析动态主机配置协议响应数据中的其他字段，获取目标主机的IP地址、子网掩码、网关地址和DNS服务器地址信息；

或者，

步骤S103中，获得第一网络资产信息的方法为：

5.根据权利要求2所述的一种基于资产探测的网络空间知识图谱构建方法，其特征在于，步骤S104中，获得第二网络资产信息的方法为：

6.根据权利要求1所述的一种基于资产探测的网络空间知识图谱构建方法，其特征在于，步骤S2中，资产识别的具体处理流程为：

(1)根据第一和第二网络资产筛选出启用HTTP/HTTPS服务的资产；

(2)通过爬虫技术，采用Python request get请求爬取网页内容；

(1)筛选指纹特征，获得与目标资产相关的指纹特征；

(2)对获取的资产指纹特征进行分词、转换等预处理操作；

7.根据权利要求1所述的一种基于资产探测的网络空间知识图谱构建方法，其特征在于，步骤S3中，构建面向网络空间的网络资产本体，包括如下概念、属性与关系：

硬件资产相关本体包括：

软件资产相关本体包括：

(3)应用程序类：程序名称、程序类型、程序版本号；

(4)服务协议类：属性包括请求头、端口号、IP信息、域名；

企业相关本体包括：

(1)权属部门类：属性包括部门名称；

(2)负责人类：属性包括负责人名称、职位、联系方式；

(4)风险类：属性包括风险类型、风险等级、风险来源；

实体间关系包括：

(1)面临关系；

(2)负责关系；

(3)生产关系；

(4)隶属关系。

8.根据权利要求1所述的一种基于资产探测的网络空间知识图谱构建方法，步骤S4中，三元组标注的具体流程如下：

首先，采用表填充方法对头实体-尾实体、尾实体-头实体、头实体-关系、关系-尾实体和关系-关系间的交互进行标注，将头实体-尾实体、尾实体-头实体、头实体-关系、关系-尾实体和关系-关系交互的位置在表中标注为1，其余位置标注为0，标注出三元组；

其次，采用BIEO标注法对一句话中的所有实体的起始位置、中间位置和结束位置进行标注，抽取出一句话中所有的完整实体。其中“B”表示实体首字，“I”表示实体中间字，“E”表示实体结束字，“O”表示非实体字或标点；

9.根据权利要求1所述的一种基于资产探测的网络空间知识图谱构建方法，其特征在于，步骤S4中，构建网络资产知识图谱包括：

S407：对ECNUniRel三元组抽取模型进行训练，计算损失函数：

其中，N和M分别表示句子的长度和预定义的关系数量；

S408：采用训练好的模型对语料库中的三元组进行抽取；

S409：将句子输入经过预训练的ERNIE模型，得到句子表示H；

S411：将所述步骤S410的输出向量H_lstm，输送至不同膨胀率l的多个二维膨胀卷积中捕捉不同距离单词之间的相互作用，在标准卷积的基础上注入空洞，能够在不通过池化损失信息的情况下，增加感受视野，减少信息损失；一个膨胀卷积中的计算可以公式化为：

Q^l＝σ(DConv_l(H_lstm))

式中，σ是GELU激活函数，最终可以得到Q＝[Q¹,Q²,Q³]；

S412：采用条件随机场对所述步骤S411中的句子表示Q进行解码，得到全局最优的标签序列H_crf；

S413：对EBDC模型进行训练，计算损失；

10.根据权利要求1所述的一种基于资产探测的网络空间知识图谱构建方法，其特征在于，步骤S5中，进行资产管理的内容包括：