CN113572781A - 网络安全威胁信息归集方法 - Google Patents
网络安全威胁信息归集方法 Download PDFInfo
- Publication number
- CN113572781A CN113572781A CN202110867595.0A CN202110867595A CN113572781A CN 113572781 A CN113572781 A CN 113572781A CN 202110867595 A CN202110867595 A CN 202110867595A CN 113572781 A CN113572781 A CN 113572781A
- Authority
- CN
- China
- Prior art keywords
- network security
- security threat
- threat information
- information
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 230000002708 enhancing effect Effects 0.000 claims abstract description 24
- 238000004458 analytical method Methods 0.000 claims description 46
- 238000004422 calculation algorithm Methods 0.000 claims description 42
- 230000004927 fusion Effects 0.000 claims description 37
- 238000012545 processing Methods 0.000 claims description 30
- 238000004590 computer program Methods 0.000 claims description 23
- 238000005516 engineering process Methods 0.000 claims description 18
- 230000004931 aggregating effect Effects 0.000 claims description 13
- 238000011156 evaluation Methods 0.000 claims description 8
- 238000007635 classification algorithm Methods 0.000 claims description 6
- 230000009193 crawling Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 abstract description 12
- 238000010586 diagram Methods 0.000 description 8
- 230000002776 aggregation Effects 0.000 description 4
- 238000004220 aggregation Methods 0.000 description 4
- 238000012098 association analyses Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 241000700605 Viruses Species 0.000 description 2
- 238000010219 correlation analysis Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 230000007123 defense Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000002085 persistent effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000008685 targeting Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/20—Network architectures or network communication protocols for network security for managing network security; network security policies in general
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/57—Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
- G06F21/577—Assessing vulnerabilities and evaluating computer system security
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/04—Processing captured monitoring data, e.g. for logfile generation
- H04L43/045—Processing captured monitoring data, e.g. for logfile generation for graphical visualisation of monitoring data
Abstract
本申请涉及一种网络安全威胁信息归集方法、装置、计算机设备和存储介质,其中,方法包括通过多个数据平台采集网络安全威胁信息;对采集到的网络安全威胁信息进行增强处理;对增强处理后的网络安全威胁信息进行分析,得到分析后的数据;将分析后的数据进行检索查询,并可视化推送检索查询结果。整个过程中,通过多个数据平台来采集网络安全威胁信息,使得网络安全威胁信息更加全面,并且对采集到的网络安全威胁信息依次进行增强、分析、查询以及可视化推送处理,使得最终推送出的网络安全威胁信息得到高效且有效归集。
Description
技术领域
本申请涉及网络安全技术领域,特别是涉及一种网络安全威胁信息归集方法、装置、计算机设备和存储介质。
背景技术
随着IT技术的不断发展和应用,攻击变得越来越隐蔽和难以发现,诸如APT之类的攻击很难被发现和防止。层出不穷的数据泄漏事件和攻击对组织的声誉和财产,乃至国家安全造成了十分恶劣的影响,大多数组织没有足够的人员、时间、资金、和精力来应对威胁。因此,威胁情报在频繁受到攻击的高风险的重点行业大型企业和政府事业单位中,将会明显提升关联分析的准确性和目标性,帮助组织有效发现隐藏的威胁。
传统的技术中,监管人员通过防火墙来实现网络安全监控,在这个场景中,防火墙来拦截、发现存在的网络安全威胁信息,将发现的网络安全威胁信息直接推送给到监管人员。上述这种方式,虽然可以在一定程度上实现网络安全防护,但是如上述的现有的网络安全威胁种类和数量越来越多,简单网络安全威胁信息采集上传已经无法全面应对、了解网络安全威胁,因此,有必要提供一种网络安全威胁信息归集方案,以将网络安全威胁信息归集后推送至监管人员,支持网络安全防护。
发明内容
基于此,有必要针对上述技术问题,提供一种网络安全威胁信息归集方法、装置、计算机设备和存储介质。
一种网络安全威胁信息归集方法,方法包括:
通过多个数据平台采集网络安全威胁信息;
对采集到的网络安全威胁信息进行增强处理;
对增强处理后的网络安全威胁信息进行分析,得到分析后的数据;
将分析后的数据进行检索查询,并可视化推送检索查询结果。
在其中一个实施例中,通过多个数据平台采集网络安全威胁信息包括:
访问网络安全厂商网站、公共网络安全漏洞网站以及终端设备厂商网站;
通过网络爬虫技术爬取已访问网站中的网络安全威胁信息。
在其中一个实施例中,对采集到的网络安全威胁信息进行增强处理之前,包括:将采集的网络安全威胁信息进行基于正则表达式的格式化处理;对格式化处理后的网络安全威胁信息基于预设关键字的实体抽取,得到预处理后的网络安全威胁信息;对采集到的网络安全威胁信息进行增强处理包括:对预处理后的网络安全威胁信息进行增强处理。
在其中一个实施例中,对采集到的网络安全威胁信息进行增强处理包括:
提取采集到的网络安全威胁信息中关键信息,关键信息包括Passice DNS、WHOISdata、ASN Data以及GeoIP;
从情报可信度以及信息的可用性两个维度对关键信息进行增强对比。
在其中一个实施例中,对增强处理后的网络安全威胁信息进行分析,得到分析后的数据包括:
基于预设分析算法对增强处理后的信息进行情报源评估、情景分析以及回顾分析,得到分析后的数据。
在其中一个实施例中,预设分析算法包括Adaboost算法、Apriori算法、分类与回归树算法、K最近邻分类算法以及朴素贝叶斯算法。
在其中一个实施例中,上述网络安全威胁信息归集方法还包括:
将分析后的数据进行基于应用场景的融合,基于应用场景的融合包括基于威胁分析的融合、基于威胁特征分类的融合、基于威胁安全事件应急处理的融合以及基于威胁情报分享的融合中至少一种。
一种网络安全威胁信息归集装置,装置包括:
采集模块,用于通过多个数据平台采集网络安全威胁信息;
增强处理模块,用于对采集到的网络安全威胁信息进行增强处理;
分析模块,用于对增强处理后的网络安全威胁信息进行分析,得到分析后的数据;
查询模块,用于将分析后的数据进行检索查询,并可视化推送检索查询结果。
一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现以下步骤:
通过多个数据平台采集网络安全威胁信息;
对采集到的网络安全威胁信息进行增强处理;
对增强处理后的网络安全威胁信息进行分析,得到分析后的数据;
将分析后的数据进行检索查询,并可视化推送检索查询结果。
一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
通过多个数据平台采集网络安全威胁信息;
对采集到的网络安全威胁信息进行增强处理;
对增强处理后的网络安全威胁信息进行分析,得到分析后的数据;
将分析后的数据进行检索查询,并可视化推送检索查询结果。
上述网络安全威胁信息归集方法、装置、计算机设备和存储介质,通过多个数据平台采集网络安全威胁信息;对采集到的网络安全威胁信息进行增强处理;对增强处理后的网络安全威胁信息进行分析,得到分析后的数据;将分析后的数据进行检索查询,并可视化推送检索查询结果。整个过程中,通过多个数据平台来采集网络安全威胁信息,使得网络安全威胁信息更加全面,并且对采集到的网络安全威胁信息依次进行增强、分析、查询以及可视化推送处理,使得最终推送出的网络安全威胁信息得到高效且有效归集。
附图说明
图1为一个实施例中网络安全威胁信息归集方法的应用环境图;
图2为一个实施例中网络安全威胁信息归集方法的流程示意图;
图3为另一个实施例中网络安全威胁信息归集方法的流程示意图;
图4为另一个实施例中网络安全威胁信息归集方法的应用场景架构示意图;
图5为一个实施例中网络安全威胁信息归集装置的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的网络安全威胁信息归集方法,可以应用于如图1所示的应用环境中。其中,服务器102访问多个不同的数据采集平台服务器104来采集网络安全威胁信息;对采集到的网络安全威胁信息进行增强处理;对增强处理后的网络安全威胁信息进行分析,得到分析后的数据;将分析后的数据进行检索查询,并可视化推送检索查询结果。非必要的,服务器102可以将检索查询结果推送给到监管人员,例如直接在监管人员对应的终端上显示。其中,服务器102可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种网络安全威胁信息归集方法,以该方法应用于图1中的服务器102为例进行说明,包括以下步骤:
S200:通过多个数据平台采集网络安全威胁信息。
网络安全威胁信息收集技术研究目的是基于符合大型企业网络安全运行预警监测技术架构,应对网络安全威胁信息收集技术的研究,启明星辰会利用网络安全情报网络爬虫应用技术以及自然语言处理应用技术方向进行技术研究,通过设立一定的规则自动抓取特定网络安全相关网站资源情报,分析网络安全各类典型威胁信息与情报源数据结构特性,从各类网络安全情报数据中抽取归纳出针对某类或某次安全漏洞文协的情报及观点,并将具有数据结构特点的信息安全存储,提升数据可靠性。随着网络安全和信息化的高速发展,网络的规模日益增大,复杂度不断提高,网络内的服务器数量少则上千多则十几万,各类网络设备、安全设备、应用系统不仅品种多而且数量大,其次现在互联网信息化逐步发展,在网络中存在巨量的威胁情报信息,数据烦杂而威胁系数高,对众多的威胁情报数据进行海量收集,增加对自身网络安全的安全防范依据库。
威胁信息收集技术研究综合采用多种技术手段,充分适应用户实际网络环境的运行情况,采集用户网络中分散在各个位置的各种厂商、各种类型的海量日志以及互联网网络中的各种威胁情报数据。在这里,通过不同的数据平台采集网络安全威胁信息,不同的数据平台具体可以是不同类型的数据平台,例如网络安全厂商的数据平台、网络安全漏洞共享平台、终端设备厂商平台以及专业的社区平台等,这些平台会针对性的发布网络安全威胁数据,提醒当前主要面对、应对的网络安全威胁,并且还会提供一定的应急处理手段等数据。
S400:对采集到的网络安全威胁信息进行增强处理。
在采集环节采集回来的并处理过的数据,规模很大、类型很杂。这些采集得到的网络安全威胁情报数据,情报的初始数据,情报的可信度不高、可用性不强。在增强环节,区获取或者比对下面的数据,对采集数据的情报,增强两个维度:情报的可信度以及信息的可用性。通过数据对比增强能够凸显杂的网络安全威胁信息中有用的信息。
S600:对增强处理后的网络安全威胁信息进行分析,得到分析后的数据。
对增强处理后的新型进行分析分析主要包括情报源评估、情景分析以及回顾分析。在分析过程中,可以采用成熟的分析算法,来分析增强处理后的网络安全威胁信息。具体来说,上述分析包括要基于海量数据和大数据分析提取遍布全球的恶意域名、IP等攻击基础设施在网络流量中准确发现失陷主机与被控端的连接,此外应用深度学习方法的DGA算法,发现对恶意动态生成域名的访问,TIP还在通过在主机端指定目录和进程中进行恶意软件和木马的发现,进一步帮助定位失陷主机。在实际应用中,威胁情报主要包括恶意IP、恶意域名、恶意URL和恶意email,可来自公开的外部安全机构和社区,也可以来自商业威胁情报机构。针对大型企业,可建立自己的情报中心,系统可直接采集来自企业内部情报中心的威胁情报。同时,系统也可以自己产生威胁情报,例如安全分析师发现隐藏的攻击威胁后,可将威胁源的IP通过关联分析规则自动添加至动态威胁库以及威胁情报库中。实时采集到的威胁情报信息(如恶意ip地址、恶意URL、恶意域名、恶意email等)可与安全事件特定的信息(如源地址、目的地址、请求内容)进行实时关联分析。集成了威胁情报的安全管理平台,实现了威胁情报信息获取到威胁情报分析利用,与安全预警的一系列功能的具体落地,可帮助安全管理人员有效地弥补传统的安全防护体系架构针对APT等新兴攻击应对乏力的局面,比如0Day攻击等,可提前预防已发生在其他地点的攻击威胁,可为组织和企业的安全管理提供纵深防御能力。
S800:将分析后的数据进行检索查询,并可视化推送检索查询结果。
在分析后的网络安全威胁数据中存在大量关联且关键的数据,此时服务器可以响应管理人员的检索查询操作,对分析后的数据进行检索查询,得到检索查询结果,服务器可以采用可视化的方式将检索查询结果推送给到管理人员。如上述的,在分析后的网络安全威胁数据中存在关联且关键的数据,这些数据之间存在关联性并且还基于包括统计在内的分析,因此,可以制作成图表、图形等方式直观的展示给到管理人员。
上述网络安全威胁信息归集方法,通过多个数据平台采集网络安全威胁信息;对采集到的网络安全威胁信息进行增强处理;对增强处理后的网络安全威胁信息进行分析,得到分析后的数据;将分析后的数据进行检索查询,并可视化推送检索查询结果。整个过程中,通过多个数据平台来采集网络安全威胁信息,使得网络安全威胁信息更加全面,并且对采集到的网络安全威胁信息依次进行增强、分析、查询以及可视化推送处理,使得最终推送出的网络安全威胁信息得到高效且有效归集。
如图3所示,在其中一个实施例中S200包括:
S220:访问网络安全厂商网站、公共网络安全漏洞网站以及终端设备厂商网站;
S240:通过网络爬虫技术爬取已访问网站中的网络安全威胁信息。
网络安全威胁信息收集技术研究综合采用多种技术手段,充分适应用户实际网络环境的运行情况,采集用户网络中分散在各个位置的各种厂商、各种类型的海量日志以及互联网网络中的各种威胁情报数据。对内支持对业界大部分常见厂商和设备类型的日志收集,对于目前暂不支持的管理对象,提供方便灵活的扩展机制。
网络安全厂商网站是指关注网络安全或者提供专业网络安全产品的厂商网站,其通常会发布相关网络安全威胁报警信息、网络安全威胁类型、主要攻击方式以及基本的应急解决数据。公共网络安全漏洞网站是指服务于公众的安全漏洞共享平台,例如中国国家信息安全漏洞库、国家信息安全漏洞共享平台、国家计算机病毒应急处理中心、国家互联网应急中心、中国反网络病毒联盟等。终端设备厂商网站是指提供终端设备厂商的网站,这些终端厂商同样会关注自身终端设备在互联网中运行的安全,会发布一些当前流行的网络安全威胁信息以及对应的应急处理方式。通过访问这些网站,通过网络爬虫的方式来获取这网站中公开的网络安全威胁信息使得网络安全威胁信息获取面更广。非必要的,可以通过网络爬虫技术派去已访问网络中的日志信息,从日志信息中提取得到网络安全威胁信息。在采集日志信息过程中,可以采用支持多种协议支持通过多种协议方式采集日志,这些协议包括并不仅限于:Syslog、SNMPTrap、FTP、OPSECLEA、NETBIOS、ODBC、WMI、Shell脚本、VIP、WebService等等。
在其中一个实施例中,对采集到的网络安全威胁信息进行增强处理之前,包括:将采集的网络安全威胁信息进行基于正则表达式的格式化处理;对格式化处理后的网络安全威胁信息基于预设关键字的实体抽取,得到预处理后的网络安全威胁信息;对采集到的网络安全威胁信息进行增强处理包括:对预处理后的网络安全威胁信息进行增强处理。
采集到的网络安全威胁信息是一个杂乱的数据,其中可能包含有多种不同格式的网络安全威胁信息,不利于后续统一处理。因此,在对其进行进一步增强处理之前,将这些采集的网络安全威胁信息进行格式化处理,格式化处理是基于正则表达式执行的,格式化处理之后,再进行基于预设关键字的实体抽取,得到预处理后的网络安全威胁信息。经过预处理后网络安全威胁信息经过了格式化处理,杂乱的数据处理为格式统一的数据,并且还进行了实体抽取,抽取出有效、有用的关键数据,预处理后的网络安全威胁信息更利于后续的增强处理。在实际应用中,采集回来的网络安全威胁信息包括结构化数据(XLS、CSV、JSON)以及非结构化数据(威胁报告),对采集回来的结构化数据、非结构化数据进行格式化处理,不同的数据按同样的格式保存,用的“正则表达式”,格式化之后,抽取出来有用的数据,这个就是实体抽取,实体抽取可以基于关键字判断、类型判断等方式。
在其中一个实施例中,对采集到的网络安全威胁信息进行增强处理包括:提取采集到的网络安全威胁信息中关键信息,关键信息包括Passice DNS、WHOIS data、ASN Data以及GeoIP;从情报可信度以及信息的可用性两个维度对关键信息进行增强对比。
在采集环节采集回来的并处理过的数据,规模很大、类型很杂的网络安全威胁信息,其属于情报的初始数据,情报的可信度不高、可用性不强。在增强环节,获取或者比对关键信息,对采集数据的情报,增强两个维度:情报的可信度,信息的可用性。关键信息包括Passice DNS、WHOIS data、ASN Data以及GeoIP。即重点关注网络中设备的地址以及运行日志,增强凸显其中的恶意ip地址、恶意URL、恶意域名、恶意email等关键信息。
在其中一个实施例中,对增强处理后的网络安全威胁信息进行分析,得到分析后的数据包括:基于预设分析算法对增强处理后的信息进行情报源评估、情景分析以及回顾分析,得到分析后的数据。
在实际应用中,随着IT技术的不断发展和应用,攻击变得越来越隐蔽和难以发现,诸如APT之类的攻击很难被发现和防止,层出不穷的数据泄漏事件和攻击对组织的声誉和财产,乃至国家安全造成了十分恶劣的影响。大多数组织没有足够的人员、时间、资金、和精力来应对威胁。因此,威胁情报在频繁受到攻击的高风险的重点行业大型企业和政府事业单位中,将会明显提升关联分析的准确性和目标性,帮助组织有效发现隐藏的威胁。根据Gartner的定义,威胁情报描述了现存的、或者是即将出现针对资产的威胁或危险,并可以用于通知主体针对相关威胁或危险采取某种响应。威胁情报是一种基于证据的知识,包括了情境、机制、指示器、隐含和实际可行的建议。
在服务器中,系统集成了威胁情报的功能,其能够自动同步/导入/抓取来自内外部的威胁情报并予以利用,提高威胁分析的实效性和准确性。威胁情报主要包括恶意IP、恶意域名、恶意URL和恶意email,可来自公开的外部安全机构和社区,也可以来自商业威胁情报机构。系统也可以自己产生威胁情报,例如安全分析师发现隐藏的攻击威胁后,可将威胁源的IP通过关联分析规则自动添加至动态威胁库以及威胁情报库中。实时采集到的威胁情报信息(如恶意ip地址、恶意URL、恶意域名、恶意email等)可与安全事件特定的信息(如源地址、目的地址、请求内容)进行实时关联分析。集成了威胁情报的安全管理平台,实现了威胁情报信息获取到威胁情报分析利用,与安全预警的一系列功能的具体落地,可帮助安全管理人员有效地弥补传统的安全防护体系架构针对APT等新兴攻击应对乏力的局面,比如0Day攻击等,可提前预防已发生在其他地点的攻击威胁,可为组织和企业的安全管理提供纵深防御能力。
上述的分析主要包括情报源评估、情景分析以及回顾分析三类,主要可以采用的预设分析算法包括Adaboost算法、Apriori算法、分类与回归树算法、K最近邻分类算法以及朴素贝叶斯算法。下面将针对这些算法优劣以及处理过程展开描述。
Adaboost算法
本身是通过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练,最后将每次得到的分类器最后融合起来,作为最后的决策分类器。
Apriori算法
其寻找最大项目集的基本思想是:算法需要对数据集进行多步处理.第一步,简单统计所有含一个元素项目集出现的频率,并找出那些不小于最小支持度的项目集,即一维最大项目集L1.从第二步开始循环处理直到再没有最大项目集生成.循环过程是:第k步中,根据第k-1步生成的(k-1)维最大项目集产生k维侯选项目集CK,然后对数据库进行搜索,得到侯选项目集的项集支持度,与最小支持度比较,从而找到k维频繁项目集LK。
分类与回归树算法(CART)
CART采用一种二分递归分割的技术,将当前的样本集分为两个子样本集,使得生成的决策树的每个非叶子节点都有两个分支。CART算法生成的决策树是结构简洁的二叉树。
最大期望算法
EM算法在统计中被用于寻找,依赖于不可观察的隐性变量的概率模型中,参数的最大似然估计。在统计计算中,最大期望算法是在概率模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的隐藏变量。最大期望经常用在机器学习和计算机视觉的数据聚类领域。
K最近邻分类算法
是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。KNN算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。KNN方法虽然从原理上也依赖于极限定理,但在类别决策时,只与极少量的相邻样本有关。由于KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法更为适合。
KNN算法不仅可以用于分类,还可以用于回归。通过找出一个样本的k个最近邻居,将这些邻居的属性的平均值赋给该样本,就可以得到该样本的属性。更有用的方法是将不同距离的邻居对该样本产生的影响给予不同的权值(weight),如权值与距离成反比。
朴素贝叶斯分类是一种十分简单的分类算法,叫它朴素贝叶斯分类是因为这种方法的思想真的很朴素,朴素贝叶斯的思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。
在其中一个实施例中,上述网络安全威胁信息归集方法还包括:将分析后的数据进行基于应用场景的融合,基于应用场景的融合包括基于威胁分析的融合、基于威胁特征分类的融合、基于威胁安全事件应急处理的融合以及基于威胁情报分享的融合中至少一种。
分析后的数据在应用于不同的应用场景时需要进行不同层面的融合。具体来说应用场景主要包括以下几类:
1)、威胁分析:威胁的判断、分析、调查、保留记录等使用。
2)、威胁特征分类:威胁特征进行分类,以人工方式或自动化工具。
3)、威胁及安全事件应急处理:安全事件的防范、侦测、处理、总结等,在安全事件处置过程中可以有很好的借鉴,以前做事件处理没有这么详尽的信息。
4)、威胁情报分享:标准化的框架进行描述与分享。
在实际应用中,安全情报功能采用多种手段广泛采集安全情报数据,对原始信息进行索引、分类和存储,将浩瀚信息从无序化到有序化,结合企业业务环境数据对安全情报数据进行信息增强,从而帮助企业发现威胁,分析威胁并进行处置。本申请网络安全威胁信息归集方案整个应用场景如图4所示。
应该理解的是,虽然上述各流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述各流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
如图5所示,本申请还提供一种网络安全威胁信息归集装置,装置包括:
采集模块200,用于通过多个数据平台采集网络安全威胁信息;
增强处理模块400,用于对采集到的网络安全威胁信息进行增强处理;
分析模块600,用于对增强处理后的网络安全威胁信息进行分析,得到分析后的数据;
查询模块800,用于将分析后的数据进行检索查询,并可视化推送检索查询结果。
上述网络安全威胁信息归集装置,通过多个数据平台采集网络安全威胁信息;对采集到的网络安全威胁信息进行增强处理;对增强处理后的网络安全威胁信息进行分析,得到分析后的数据;将分析后的数据进行检索查询,并可视化推送检索查询结果。整个过程中,通过多个数据平台来采集网络安全威胁信息,使得网络安全威胁信息更加全面,并且对采集到的网络安全威胁信息依次进行增强、分析、查询以及可视化推送处理,使得最终推送出的网络安全威胁信息得到高效且有效归集。
在其中一个实施例中,采集模块200还用于访问网络安全厂商网站、公共网络安全漏洞网站以及终端设备厂商网站;通过网络爬虫技术爬取已访问网站中的网络安全威胁信息。
在其中一个实施例中,上述网络安全威胁信息归集装置还包括预处理模块,用于将采集的网络安全威胁信息进行基于正则表达式的格式化处理;对格式化处理后的网络安全威胁信息基于预设关键字的实体抽取,得到预处理后的网络安全威胁信息;增强处理模块400还用于对预处理后的网络安全威胁信息进行增强处理。
在其中一个实施例中,增强处理模块400还用于提取采集到的网络安全威胁信息中关键信息,关键信息包括Passice DNS、WHOIS data、ASN Data以及GeoIP;从情报可信度以及信息的可用性两个维度对关键信息进行增强对比。
在其中一个实施例中,分析模块600还用于基于预设分析算法对增强处理后的信息进行情报源评估、情景分析以及回顾分析,得到分析后的数据。
在其中一个实施例中,预设分析算法包括Adaboost算法、Apriori算法、分类与回归树算法、K最近邻分类算法以及朴素贝叶斯算法。
在其中一个实施例中,上述网络安全威胁信息归集装置还包括融合模块,用于将分析后的数据进行基于应用场景的融合,基于应用场景的融合包括基于威胁分析的融合、基于威胁特征分类的融合、基于威胁安全事件应急处理的融合以及基于威胁情报分享的融合中至少一种。
关于网络安全威胁信息归集装置的具体限定可以参见上文中对于网络安全威胁信息归集方法的限定,在此不再赘述。上述网络安全威胁信息归集装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储预设分析算法、模型以及数据平台访问地址以及端口等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种网络安全威胁信息归集方法。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
通过多个数据平台采集网络安全威胁信息;
对采集到的网络安全威胁信息进行增强处理;
对增强处理后的网络安全威胁信息进行分析,得到分析后的数据;
将分析后的数据进行检索查询,并可视化推送检索查询结果。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
访问网络安全厂商网站、公共网络安全漏洞网站以及终端设备厂商网站;通过网络爬虫技术爬取已访问网站中的网络安全威胁信息。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
将采集的网络安全威胁信息进行基于正则表达式的格式化处理;对格式化处理后的网络安全威胁信息基于预设关键字的实体抽取,得到预处理后的网络安全威胁信息;对预处理后的网络安全威胁信息进行增强处理。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
提取采集到的网络安全威胁信息中关键信息,关键信息包括Passice DNS、WHOISdata、ASN Data以及GeoIP;从情报可信度以及信息的可用性两个维度对关键信息进行增强对比。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
基于预设分析算法对增强处理后的信息进行情报源评估、情景分析以及回顾分析,得到分析后的数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
将分析后的数据进行基于应用场景的融合,基于应用场景的融合包括基于威胁分析的融合、基于威胁特征分类的融合、基于威胁安全事件应急处理的融合以及基于威胁情报分享的融合中至少一种。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
通过多个数据平台采集网络安全威胁信息;
对采集到的网络安全威胁信息进行增强处理;
对增强处理后的网络安全威胁信息进行分析,得到分析后的数据;
将分析后的数据进行检索查询,并可视化推送检索查询结果。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
访问网络安全厂商网站、公共网络安全漏洞网站以及终端设备厂商网站;通过网络爬虫技术爬取已访问网站中的网络安全威胁信息。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
将采集的网络安全威胁信息进行基于正则表达式的格式化处理;对格式化处理后的网络安全威胁信息基于预设关键字的实体抽取,得到预处理后的网络安全威胁信息;对预处理后的网络安全威胁信息进行增强处理。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
提取采集到的网络安全威胁信息中关键信息,关键信息包括Passice DNS、WHOISdata、ASN Data以及GeoIP;从情报可信度以及信息的可用性两个维度对关键信息进行增强对比。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
基于预设分析算法对增强处理后的信息进行情报源评估、情景分析以及回顾分析,得到分析后的数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
将分析后的数据进行基于应用场景的融合,基于应用场景的融合包括基于威胁分析的融合、基于威胁特征分类的融合、基于威胁安全事件应急处理的融合以及基于威胁情报分享的融合中至少一种。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种网络安全威胁信息归集方法,其特征在于,所述方法包括:
通过多个数据平台采集网络安全威胁信息;
对采集到的网络安全威胁信息进行增强处理;
对增强处理后的网络安全威胁信息进行分析,得到分析后的数据;
将分析后的数据进行检索查询,并可视化推送检索查询结果。
2.根据权利要求1所述的方法,其特征在于,所述通过多个数据平台采集网络安全威胁信息包括:
访问网络安全厂商网站、公共网络安全漏洞网站以及终端设备厂商网站;
通过网络爬虫技术爬取已访问网站中的网络安全威胁信息。
3.根据权利要求1所述的方法,其特征在于,
所述对采集到的网络安全威胁信息进行增强处理之前,包括:
将采集的网络安全威胁信息进行基于正则表达式的格式化处理;
对格式化处理后的网络安全威胁信息基于预设关键字的实体抽取,得到预处理后的网络安全威胁信息;
所述对采集到的网络安全威胁信息进行增强处理包括:对预处理后的网络安全威胁信息进行增强处理。
4.根据权利要求1所述的方法,其特征在于,所述对采集到的网络安全威胁信息进行增强处理包括:
提取采集到的网络安全威胁信息中关键信息,所述关键信息包括Passice DNS、WHOISdata、ASN Data以及GeoIP;
从情报可信度以及信息的可用性两个维度对所述关键信息进行增强对比。
5.根据权利要求1所述的方法,其特征在于,所述对增强处理后的网络安全威胁信息进行分析,得到分析后的数据包括:
基于预设分析算法对增强处理后的信息进行情报源评估、情景分析以及回顾分析,得到分析后的数据。
6.根据权利要求5所述的方法,其特征在于,所述预设分析算法包括Adaboost算法、Apriori算法、分类与回归树算法、K最近邻分类算法以及朴素贝叶斯算法。
7.根据权利要求1所述的方法,其特征在于,还包括:
将分析后的数据进行基于应用场景的融合,所述基于应用场景的融合包括基于威胁分析的融合、基于威胁特征分类的融合、基于威胁安全事件应急处理的融合以及基于威胁情报分享的融合中至少一种。
8.一种网络安全威胁信息归集装置,其特征在于,所述装置包括:
采集模块,用于通过多个数据平台采集网络安全威胁信息;
增强处理模块,用于对采集到的网络安全威胁信息进行增强处理;
分析模块,用于对增强处理后的网络安全威胁信息进行分析,得到分析后的数据;
查询模块,用于将分析后的数据进行检索查询,并可视化推送检索查询结果。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110867595.0A CN113572781A (zh) | 2021-07-28 | 2021-07-28 | 网络安全威胁信息归集方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110867595.0A CN113572781A (zh) | 2021-07-28 | 2021-07-28 | 网络安全威胁信息归集方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113572781A true CN113572781A (zh) | 2021-10-29 |
Family
ID=78169316
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110867595.0A Pending CN113572781A (zh) | 2021-07-28 | 2021-07-28 | 网络安全威胁信息归集方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113572781A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114448672A (zh) * | 2021-12-27 | 2022-05-06 | 奇安信科技集团股份有限公司 | 一种多源网络安全数据处理方法及装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106778253A (zh) * | 2016-11-24 | 2017-05-31 | 国家电网公司 | 基于大数据的威胁情景感知信息安全主动防御模型 |
CN109766695A (zh) * | 2018-12-14 | 2019-05-17 | 杭州迪普科技股份有限公司 | 一种基于融合决策的网络安全态势感知方法和系统 |
US20190260770A1 (en) * | 2018-02-20 | 2019-08-22 | Darktrace Limited | Appliance extension for remote communication with a cyber security appliance |
CN110390000A (zh) * | 2019-07-30 | 2019-10-29 | 同方赛威讯信息技术有限公司 | 一种法律文书自动识别、生成系统及其方法 |
CN111431939A (zh) * | 2020-04-24 | 2020-07-17 | 郑州大学体育学院 | 基于cti的sdn恶意流量防御方法及系统 |
CN112148956A (zh) * | 2020-09-30 | 2020-12-29 | 上海交通大学 | 一种基于机器学习的暗网威胁情报挖掘系统和方法 |
CN112261033A (zh) * | 2020-10-19 | 2021-01-22 | 北京京航计算通讯研究所 | 基于企业内网的网络安全防护方法 |
CN112839039A (zh) * | 2021-01-05 | 2021-05-25 | 四川大学 | 一种网络威胁事件攻击场景交互式自动还原方法 |
-
2021
- 2021-07-28 CN CN202110867595.0A patent/CN113572781A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106778253A (zh) * | 2016-11-24 | 2017-05-31 | 国家电网公司 | 基于大数据的威胁情景感知信息安全主动防御模型 |
US20190260770A1 (en) * | 2018-02-20 | 2019-08-22 | Darktrace Limited | Appliance extension for remote communication with a cyber security appliance |
CN109766695A (zh) * | 2018-12-14 | 2019-05-17 | 杭州迪普科技股份有限公司 | 一种基于融合决策的网络安全态势感知方法和系统 |
CN110390000A (zh) * | 2019-07-30 | 2019-10-29 | 同方赛威讯信息技术有限公司 | 一种法律文书自动识别、生成系统及其方法 |
CN111431939A (zh) * | 2020-04-24 | 2020-07-17 | 郑州大学体育学院 | 基于cti的sdn恶意流量防御方法及系统 |
CN112148956A (zh) * | 2020-09-30 | 2020-12-29 | 上海交通大学 | 一种基于机器学习的暗网威胁情报挖掘系统和方法 |
CN112261033A (zh) * | 2020-10-19 | 2021-01-22 | 北京京航计算通讯研究所 | 基于企业内网的网络安全防护方法 |
CN112839039A (zh) * | 2021-01-05 | 2021-05-25 | 四川大学 | 一种网络威胁事件攻击场景交互式自动还原方法 |
Non-Patent Citations (4)
Title |
---|
(美)保罗·戴特尔(PAUL DEITEL),(美)哈维·戴特尔(HARVEY DEITEL): "基于句子匹配分析的知识抽取", 科学技术文献出版社, pages: 203 * |
唐攀等: "IP威胁情报收集系统的设计与实现", 《信息通信》, no. 12, 15 December 2019 (2019-12-15), pages 1 - 2 * |
陈兴蜀等: "基于大数据的网络安全与情报分析", 《工程科学与技术》, no. 03 * |
高万林, 中国农业大学出版社 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114448672A (zh) * | 2021-12-27 | 2022-05-06 | 奇安信科技集团股份有限公司 | 一种多源网络安全数据处理方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210019674A1 (en) | Risk profiling and rating of extended relationships using ontological databases | |
US11425148B2 (en) | Identifying malicious network devices | |
CN110620759B (zh) | 基于多维关联的网络安全事件危害指数评估方法及其系统 | |
CN108471429B (zh) | 一种网络攻击告警方法及系统 | |
Vinayakumar et al. | Scalable framework for cyber threat situational awareness based on domain name systems data analysis | |
CN108881265B (zh) | 一种基于人工智能的网络攻击检测方法及系统 | |
CN108683687B (zh) | 一种网络攻击识别方法及系统 | |
CN108881263B (zh) | 一种网络攻击结果检测方法及系统 | |
Van Ede et al. | Deepcase: Semi-supervised contextual analysis of security events | |
CN114679329B (zh) | 用于基于赝象对恶意软件自动分组的系统 | |
CN111355697B (zh) | 僵尸网络域名家族的检测方法、装置、设备及存储介质 | |
CN108833185B (zh) | 一种网络攻击路线还原方法及系统 | |
US10505986B1 (en) | Sensor based rules for responding to malicious activity | |
KR20130126814A (ko) | 데이터마이닝을 이용한 트래픽 폭주 공격 탐지 및 심층적 해석 장치 및 방법 | |
KR102225040B1 (ko) | 인공 지능 기반의 통합 로그 관리 방법 및 그 시스템 | |
Tong et al. | A method for detecting DGA botnet based on semantic and cluster analysis | |
US20230033117A1 (en) | Systems and methods for analyzing cybersecurity events | |
Al-Utaibi et al. | Intrusion detection taxonomy and data preprocessing mechanisms | |
US20230252145A1 (en) | Cyber threat information processing apparatus, cyber threat information processing method, and storage medium storing cyber threat information processing program | |
Vinayakumar et al. | Improved DGA domain names detection and categorization using deep learning architectures with classical machine learning algorithms | |
Pallaprolu et al. | Zero-day attack identification in streaming data using semantics and Spark | |
CN113572781A (zh) | 网络安全威胁信息归集方法 | |
Anagnostopoulos | Weakly supervised learning: how to engineer labels for machine learning in cyber-security | |
EP4024252A1 (en) | A system and method for identifying exploited cves using honeypots | |
KR20230024184A (ko) | 사이버 위협 정보 처리 장치, 사이버 위협 정보 처리 방법 및 사이버 위협 정보 처리하는 프로그램을 저장하는 저장매체 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20211029 |