一种网络资产画像提取方法
技术领域
本发明属于网络资产管理技术领域,具体涉及一种网络资产画像提取方法。
背景技术
网络资产主要是计算机(或通讯)网络中使用的各种设备,主要包括主机、网络设备(路由器、交换机等)和安全设备(防火墙等),网络的价值与网络用户数量的平方成正比。
网络资产存在很大的自由性,安装部署的应用大相径庭,而且不利于管理,虽然各资产都部署了软件管理工具,但针对整个网络的资产软件管理工具少之又少。近年来网络安全问题日益凸显,尤其是迅速增长的网络设备安全问题,各类业务设备、网络设备和智能设备接入互联网,使得网络管理变得异常复杂。传统梳理资产设备的方法仅能获取资产的部分属性,已经无法满足用户网络安全需求。
现有技术中,一般都是通过人工维护资产库、AD域管理、主动扫描和部署终端代理的方式进行网络资产的管理。但是人工维护方式无法及时发现新增设备或者宕机设备,无法管理设备开放端口、服务等网络属性等,而采用AD域管理成本高且网络灵活性差,无法获取资产的实时通联属性;采用主动扫描则需要接入客户环境,主动发包过程则可能干扰正常业务系统;而部署终端代理,部署成本高。即,现有的技术方案存在以下问题:
(1)增加用户带宽负担:主动扫描需要设备向用户设备发送大量的请求,通过判断响应报文识别用户资产信息。这增大了用户设备的处理负担,而且还可能造成设备数据泄露。
(2)缺乏关联属性:常规探测只能获取孤立资产的属性描述,无法动态监测,同时缺乏关联资产的识别。
(3)无法适应复杂环境:部分方法需要安装终端代理,面对复杂的网络环境和设备,部署成本高升级难度大。
(4)实时性太差:依靠人工或者定期扫描,难易察觉生存时间较短的设备,无法发现其运行的服务、开放的端口。
而画像技术可以将研究对象标签化,选择并计算出一系列最能描述这个对象情况的属性,通过构建资产设备属性库,自动梳理网络资产画像,为资产安全分析提供丰富的分析数据,所以可以考虑通过画像技术来辅助提升企业的网络资产管理水平。
发明内容
本发明的目的在于针对现有技术的问题、结合画像技术、通过构建资产设备属性库、自动梳理网络资产画像、为资产安全分析提供丰富的分析数据的网络资产画像提取方法。
基于上述发明目的,本发明的技术方案,提供了一种网络资产画像提取方法,其特征在于:包括基础数据提取和处理步骤、网络数据提取和处理步骤、以及全局数据支持画像步骤;
所述基础数据提取及补充步骤,提取的基础数据包括互联网和内网的资产IP、互联网中资产的域名、以及内网资产的主机名;以及收集获取互联网中开源的IP的whois数据、和通过路由协议获取内网资产的资产分组和网络拓扑信息作为基础数据的补充;即基础数据可以涵盖源于流量和互联网中的全部基础数据;
所述网络数据提取和处理步骤,保护获取互联网和内网中的资产向其他网络提供服务时产生的IP会话,即包括局域网和专网等内网资产提供网络服务过程中携带的网络数据,以及内网资产与互联网资产网络服务过程中携带的网络数据,通过这两部分的数据来画像内网、互联网资产提供网络服务时携带的网络数据,提取所述IP会话中的网络数据,并进一步提取所述IP会话和网络数据中的通联数据、设备信息、资产应用属性、资产行为数据、威胁记录和角色属性,并对上述属性进行相似性提取和态势属性分析,最终形成资产分类的资产画像。
所述互联网的资产指互联网网络对外暴露出IP和/或域名的主机、服务器等网络设备;所述内网的资产指局域网网络资产或者专用网络资产,如企业内部网络、政府专有网络。
所述互联网的资产IP是从IP网络层获取的;内网的资产IP还包括网关、MAC,是从ARP、DHCP应用层中获取;互联网中资产的域名是从DNS应用层获取的;内网资产的主机名是从NBNS、NETBIOS、DHCP应用层中获取的。
所述路由协议为RIP、IGRP、EIGRP、ISIS和OSPF中的一种或多种。
所述开源的IP的whois数据中包括经纬度、国家属地、运营商、自治域在内的数据信息。
所述提取所述IP会话中的网络数据,包括互联网资产开放的端口和协议在内的网络数据通过会话重组提取IP会话中服务器响应的应用负载Payload,解析获取包含服务器名称、版本、操作系统、CPU型号在内的协议字段,如MysqlVersion、HTTPUA-OS\UA-CPU字段,还原IP会话中在加密协议的会话过程中交换的数字证书。
所述通联数据,是通过IP会话记录提取包括资产的网络出度和入度、网络会话五元组、资产的网络访问统计量、资产的网络会话量、资产的异常会话在内的资产通联数据;
所述设备信息是用于描述资产的硬件信息的属性,是通过自定义构建或者基于所述网络数据收集设备制造商提供的设备属性清单、通过所述应用负载Payload提取设备特征,通过特征识别的方法识别出的设备类别,提取的设备信息包括设备名称、设备制造商和设备操作系统信息。
所述设备特征包括协议相关的特征和会话交互特征的特征,所述协议相关的特征包括字段内关键字字符、正则特征、值特征、加密会话还原证书和操作系统特征;
字段内关键字字符,如主要包括应用协议所携带的特征值。HTTP、FTP、SMTP协议等在传真机、摄像头、打印机等物联网设备中经常被使用,其中如HTTP的Header中包含UA、UA-CPU、Server,FTP、SMTP220等字段都携带了设备基本信息,利用这类关键字字符串,可分析识别设备名称、设备类别、操作系统等属性。
正则特征,这类特征常用于识别有规律但内容包含了大量随机内容的字段,如WebTitle、HTMLScript代码、超链接等。通过识别页面代码特征,可以识别设备厂商、组件。
值特征,该类特征需要提取负载中包含的文本、图片、脚本等内容,通过计算hash、计算相似度、图片特征值作为设备特征。
加密会话还原证书,提取颁发者和使用者信息,与后台证书库匹配,输出物联网厂商。
操作系统特征,利用TCP/IP响应过程中存在一定的差异,TCP/IP元数据特征可识别操作系统。如握ACK+SYN+FIN过程中TTL、WindowsSize,应用协议DHCPOption值顺序,HTTP404响应等特征,自动可提取操作系统特征。
所述会话交互特征的特征包括基于IP的活跃周期的逻辑特征。
逻辑特征,通过统计IP的活跃周期,不限于上传字节速率、下载字节速率,常用协议分布,持续活跃时间字段,描述资产真实活动的规律。如摄像头上传常用协议为UDP、SIP,活跃时间为24小时,速率变化低于1倍方差等,而自动售货机、智能监控设备需要周期向服务中心发起心跳包,数据包大小恒定等特征。
所述资产应用属性包括数据库、邮箱、共享文件库、企业网盘在内的使用固定端口通信的应用,资产应用属性的识别并且包括使用如HTTPTitle和weblogo、FTP、SMTP等的协议字段识别web应用和本地软件,如识别CMS、OA,管理系统。
所述资产行为数据,是通过构建包括“端点资产+网络+端点资产”的行为模型,通过模型比对提取资产的行为数据;行为数据包括正常行为数据和异常行为数据;所述正常行为数据包括用协议访问行为、周期规律性行为和白名单行为;所述异常行为数据包括非标准协议的网络行为、利用过期和自签名的伪造证书行为、利用扫描器的资产扫描行为、违规黑名单访问行为等、资产外连行为、恶意漏洞利用行为。
所述威胁记录是基于网络开源数据API获取威胁属性数据,如常用的Virustotal.com、exchange.xforce.ibmcloud.com,收集关于资产的威胁记录,所述威胁记录包括威胁标签、是否为黑名单IP、域名、是否存在恶意文件下载、是否存在恶意url链接、是否为黑邮箱代理、是否受漏洞影响;
所述角色属性包括该资产是否为企业用户、数据中心、移动数据中心、校园网络和住宅用户;
所述相似性提取,是对所述通联数据、设备信息、资产应用属性、资产行为数据、威胁记录和角色属性进行相似性归集,相似性包括发现相似的通联属性、相似设备资产、相似的对外开放服务、显示的异常行为、存在相似的漏洞。
所述态势属性分析,包括资产分布、协议分布、地理分布、漏洞分布、业务分布、访问趋势、威胁应用范围。
所述形成资产分类的资产画像,资产分类包括资产功能设备分类和应用服务分类;所述资产功能分类包括物联网、服务器、工控、路由设备、访问控制等类别;所述应用服务分类包括通讯类服务、传输类服务、办公软服务、多媒体服务、开发类服务、安全类服务、邮件类服务、数据库服务等。
与现有技术相比,本发明的技术方案提出了一种用于资产分析需要的各类画像数据提取方法,通过被动流量和网络开源数据的分析提取,构建一个丰富的资产属性库,基于每个属性的功能特点,描述资产的各类属性画像。数据通过镜像采集单向传输到识别系统,无需介入用户环境,基于被动流量系统和自动化开源数据采集系统,自动学习多源数据特征和行为特性。通过该发明大幅度提高资产分类的准确性,帮助用户获取内外网物联网资产详细信息,方便用户完成资产管理,增强了资产管理的安全防御能力。
附图说明
本发明的前述和下文具体描述在结合以下附图阅读时变得更清楚,附图中:
图1是本发明一种基本方案的逻辑关系示意图。
具体实施方式
下面通过几个具体的实施例来进一步说明实现本发明目的技术方案,需要说明的是,本发明要求保护的技术方案包括但不限于以下实施例。
实施例1
作为本发明一种最基本的实施方案,如图1,本实施例公开的一种网络资产画像提取方法,包括基础数据提取和处理步骤、网络数据提取和处理步骤、以及全局数据支持画像步骤;
所述基础数据提取及补充步骤,提取的基础数据包括互联网和内网的资产IP、互联网中资产的域名、以及内网资产的主机名;以及收集获取互联网中开源的IP的whois数据、和通过路由协议获取内网资产的资产分组和网络拓扑信息作为基础数据的补充;即基础数据可以涵盖源于流量和互联网中的全部基础数据;
所述网络数据提取和处理步骤,保护获取互联网和内网中的资产向其他网络提供服务时产生的IP会话,即包括局域网和专网等内网资产提供网络服务过程中携带的网络数据,以及内网资产与互联网资产网络服务过程中携带的网络数据,通过这两部分的数据来画像内网、互联网资产提供网络服务时携带的网络数据,提取所述IP会话中的网络数据,并进一步提取所述IP会话和网络数据中的通联数据、设备信息、资产应用属性、资产行为数据、威胁记录和角色属性,并对上述属性进行相似性提取和态势属性分析,最终形成资产分类的资产画像。
通过被动流量和网络开源数据的分析提取,构建一个丰富的资产属性库,基于每个属性的功能特点,描述资产的各类属性画像。数据通过镜像采集单向传输到识别系统,无需介入用户环境,基于被动流量系统和自动化开源数据采集系统,自动学习多源数据特征和行为特性。通过该发明大幅度提高资产分类的准确性,帮助用户获取内外网物联网资产详细信息,方便用户完成资产管理,增强了资产管理的安全防御能力
实施例2
作为本发明一种优选地实施方案,如图1,本实施例公开的一种网络资产画像提取方法,具体包括以下步骤:
基础数据提取步骤,基础数据包括从IP网络层获取互联网资产IP,从DNS应用层获取互联网资产的域名;从ARP、DHCP应用层中获取内网资产的IP、网关、MAC,从NBNS、NETBIOS、DHCP应用层中获取内网资产的主机名;互联网资产指互联网网络对外暴露出IP和/或域名的主机、服务器等网络设备;所述内网资产指局域网网络资产或者专用网络资产,如企业内部网络、政府专有网络;
基础数据丰富化处理,收集获取互联网中开源的IP的whois数据,提取包括经纬度、国家属地、运营商、自治域在内的数据,以及通过路由协议获取内网资产的资产分组和网络拓扑信息;所述路由协议为RIP、IGRP、EIGRP、ISIS和OSPF中的一种或多种。
网络服务数据提取步骤,获取互联网和内网中的资产向其他网络提供服务时产生的IP会话,提取所述IP会话中包括互联网资产开放的端口和协议在内的网络数据,通过会话重组提取IP会话中服务器响应的应用负载Payload,解析获取包含服务器名称、版本、操作系统、CPU型号在内的协议字段,如MysqlVersion、HTTPUA-OS\UA-CPU字段,还原IP会话中在加密协议的会话过程中交换的数字证书;即提取局域网、专网等内网资产提供网络服务过程中携带的网络数据,以及内网资产与互联网资产网络服务过程中携带的网络数据,通过这两部分的数据来画像内网、互联网资产提供网络服务时携带的网络数据。
通联数据提取步骤,通过会话记录提取包括资产的网络出度和入度、网络会话五元组、资产的网络访问统计量、资产的网络会话量、资产的异常会话在内的资产通联数据;
设备信息提取步骤,基于网络服务数据提取步骤中的网络数据,提取资产的设备属性,设备属性是用于描述资产的硬件信息的属性,包括该设备名称、设备制造商和设备类型,是通过收集互联网中设备制造商提供的设备属性清单,或者在无法获取的设备通过自定义构建设备属性;通过所述应用负载Payload提取设备特征,通过特征识别的方法识别设备的类别,提取设备名称、设备制造商、设备操作系统信息。
而优选地,所述设备特征包括协议相关的特征和会话交互特征的特征,其中:
协议相关的特征包括:
(1)字段内关键字字符,如主要包括应用协议所携带的特征值。HTTP、FTP、SMTP协议等在传真机、摄像头、打印机等物联网设备中经常被使用,其中如HTTP的Header中包含UA、UA-CPU、Server,FTP、SMTP220等字段都携带了设备基本信息,利用这类关键字字符串,可分析识别设备名称、设备类别、操作系统等属性。
(2)正则特征,这类特征常用于识别有规律但内容包含了大量随机内容的字段,如WebTitle、HTMLScript代码、超链接等。通过识别页面代码特征,可以识别设备厂商、组件。
(3)值特征,该类特征需要提取负载中包含的文本、图片、脚本等内容,通过计算hash、计算相似度、图片特征值作为设备特征。
(4)加密会话还原证书,提取颁发者和使用者信息,与后台证书库匹配,输出物联网厂商。
(5)操作系统特征,利用TCP/IP响应过程中存在一定的差异,TCP/IP元数据特征可识别操作系统。如握ACK+SYN+FIN过程中TTL、WindowsSize,应用协议DHCPOption值顺序,HTTP404响应等特征,自动可提取操作系统特征。
而所述会话交互特征的特征包括:逻辑特征,通过统计IP的活跃周期,不限于上传字节速率、下载字节速率,常用协议分布,持续活跃时间字段,描述资产真实活动的规律。如摄像头上传常用协议为UDP、SIP,活跃时间为24小时,速率变化低于1倍方差等,而自动售货机、智能监控设备需要周期向服务中心发起心跳包,数据包大小恒定等特征。
接着进行资产应用属性提取步骤,基于网络服务数据提取步骤中的网络数据,提取资产的应用属性,包括使用固定端口通信的应用,包括数据库,邮箱,共享文件库,企业网盘,使用包括HTTP、FTP、SMTP等的协议字段识别web应用和本地软件,如HTTPTitle和weblogo,识别CMS、OA,管理系统。
资产行为数据提取步骤,基于所述网络服务数据提取步骤、通联数据提取步骤和设备信息提取步骤的结果,通过构建包括“端点资产+网络+端点资产”的行为模型,通过模型比对提取资产的行为数据;所述行为数据包括正常行为数据和异常行为数据,所述正常行为数据包括用协议访问行为、周期规律性行为和白名单行为;所述异常行为数据包括非标准协议的网络行为、利用过期和自签名的伪造证书行为、利用扫描器的资产扫描行为、违规黑名单访问行为等、资产外连行为、恶意漏洞利用行为。
威胁记录收集步骤,基于网络开源数据API获取威胁属性数据,如常用的Virustotal.com、exchange.xforce.ibmcloud.com,收集关于资产的威胁记录;所述威胁记录包括威胁标签、是否为黑名单IP、域名、是否存在恶意文件下载、是否存在恶意url链接、是否为黑邮箱代理、是否受漏洞影响。
角色属性提取步骤,基于自动开源数据收集系统的数据和设备信息提取步骤、资产应用属性提取步骤、资产行为数据提取步骤的结果,提取资产的角色属性;所述角色属性包括该资产是否为企业用户、数据中心、移动数据中心、校园网络和住宅用户。
相似属性提取步骤,基于上述步骤得到的包括通联数据、设备信息、资产应用属性、资产行为数据、威胁记录和角色属性在内的属性提取资产的相似属性,包括发现相似的通联属性、相似设备资产、相似的对外开放服务、显示的异常行为、存在相似的漏洞。
态势属性提取步骤,基于全局数据提取各类资产的态势属性,包括资产分布、协议分布、地理分布、漏洞分布、业务分布、访问趋势、威胁应用范围。
资产分类属性提取步骤,基于全局画像数据的资产分类属性,包括资产功能设备分类、应用服务分类,资产功能分类包括物联网、服务器、工控、路由设备、访问控制、等十个类别,应用服务分类为通讯类服务,传输类服务,办公软服务,多媒体服务,开发类服务,安全类服务、邮件类服务,数据库服务等十大类。
本技术方案的一个关键点是将多源数据提取出核心内容整合后共同描述资产,形成资产各类属性的画像数据。采用两种数据收集途径,分别是下载的镜像流量数据和网络中开源数据,通过自动化方法完成基础数据和关联分析数据的提取,使用机器学习的方案完成对资产的资产的设备识别、软件识别最后完成资产分类。