CN112532652A - 一种基于多源数据的攻击行为画像装置及方法 - Google Patents
一种基于多源数据的攻击行为画像装置及方法 Download PDFInfo
- Publication number
- CN112532652A CN112532652A CN202011514648.2A CN202011514648A CN112532652A CN 112532652 A CN112532652 A CN 112532652A CN 202011514648 A CN202011514648 A CN 202011514648A CN 112532652 A CN112532652 A CN 112532652A
- Authority
- CN
- China
- Prior art keywords
- attack
- data
- behavior
- attack behavior
- portrait
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 20
- 230000006399 behavior Effects 0.000 claims abstract description 80
- 238000002372 labelling Methods 0.000 claims abstract description 10
- 206010000117 Abnormal behaviour Diseases 0.000 claims abstract description 6
- 238000007636 ensemble learning method Methods 0.000 claims abstract description 6
- 238000012706 support-vector machine Methods 0.000 claims abstract description 6
- 238000013480 data collection Methods 0.000 claims description 18
- 238000004140 cleaning Methods 0.000 claims description 12
- 238000010276 construction Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000004891 communication Methods 0.000 claims description 3
- 230000007547 defect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- ZXQYGBMAQZUVMI-GCMPRSNUSA-N gamma-cyhalothrin Chemical compound CC1(C)[C@@H](\C=C(/Cl)C(F)(F)F)[C@H]1C(=O)O[C@H](C#N)C1=CC=CC(OC=2C=CC=CC=2)=C1 ZXQYGBMAQZUVMI-GCMPRSNUSA-N 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/57—Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L69/00—Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
- H04L69/18—Multiprotocol handlers, e.g. single devices capable of handling multiple protocols
Abstract
本发明公开一种基于多源数据的攻击行为画像装置及方法,利用隐马尔可夫模型和单分类支持向量机集群构建集成学习方法,组成一个提取攻击画像、计算攻击行为异常得分。对风险数据进行特征聚类,对攻击行为进行打标签,形成攻击画像仓库。不断采集攻击行为数据不断对攻击历史标签进行修正及新告警产生,不断丰富攻击画像仓库。全程自动化运行,自动对数据进行学习优化,节省人工成本及误报率,大大的增加攻击判断准确性。
Description
技术领域
本发明涉及网络安全技术领域,尤其涉及一种基于多源数据的攻击行为画像装置及方法。
背景技术
近年来,网络攻击事件频发,互联网上的木马、蠕虫、勒索软件层出不穷,这对网络安全乃至国家安全形成了严重的威胁。网络攻击是利用网络信息系统存在的漏洞和安全缺陷对系统和资源进行攻击。网络信息系统所面临的威胁来自很多方面,而且会随着时间的变化而变化。一般情况下企业都是使用WAF或应用防火墙等来获取攻击行为,或者通过特定的攻击规则策略配置,特征识别,算法识别等方式进行是否是攻击行为的判断。
对于传统的风险获取方式,由于告警预警漏洞种类繁多,所以就需要配置很多的拦截规则,识别方式等。由于攻击模式多样、攻击 样本缺乏、人工标记标签工作量大等困难,当前较 为成熟的有监督学习分类方法无法有效利用现有 数据进行训练。而且有些规则策略需要特定的技术人员去对海量数据进行风险判断,研判是风险后再进行规则配置,提取符合单一规则的数据进行攻击标识。由于攻击手段存在多样性,就需要分析程序的攻击识别也要不断的更新,这样才能满足攻击识别要求,因此这种识别方式最大的弊端就是相似的攻击行为如果和规则不完全匹配就不能进行攻击判定。虽然这种攻击发现方式能够发现许多攻击,但是漏报率很大,并且不能对过往数据进行修正,往往对于使用者使用起来体验不佳。
发明内容
本发明的目的在于提供一种基于多源数据的攻击行为画像装置及方法。
本发明采用的技术方案是:
一种基于多源数据的攻击行为画像装置,其包括依次连接的数据收集与整理模块、本体构建模块和相似行为聚类模块;
数据收集与整理模块:收集经多种协议接入的数据,并对所得数据进行清洗和预处理成属性数据收集和标签化工作形成攻击画像仓库;
本体构建模块:对风险数据的攻击属性进行属性数据收集和标签化,建立属性信息与攻击行为画像的沟通桥梁;
相似行为聚类模块:计算攻击行为画像间的相似度,将相似度高的攻击行为画像分为一类,得到行为模式相近的攻击群。
进一步地,数据收集与整理模块支持syslog、http、webservice、socket 多种协议数据接入,且数据接入程序支持分布式。
进一步地,数据收集与整理模块对数据中无法真实表现攻击特点的数据进行清理,理顺信息之间包含关系和消除模棱两可概念的歧义和不确定性;再将无法完全量化的指标按照实际情况进行等级划分。
进一步地,在基于本体的攻击属性画像中,有些属性是定量的,有些属性是定性的,因此,攻击行为画像之间的相似度计算需要结合定量相似度和定性相似度来进行计算。
一种基于多源数据的攻击行为画像方法,其包括以下步骤:
步骤1,通过多种数据接入协议获取多源数据,
步骤2,对所得数据进行清洗和预处理完成属性数据收集和标签化工作形成攻击画像仓库;
步骤3,对风险数据进行特征细节的提取,基于特征细节以攻击为基本单位进行攻击行为本体构建;
步骤4,计算攻击行为画像间的相似度,将相似度高的攻击行为画像分为一类,得到行为模式相近的攻击群。
进一步地,步骤1支持syslog、http、webservice、socket 多种协议数据接入,且数据接入程序支持分布式。
进一步地,步骤2的具体步骤为:首先对数据中无法真实表现攻击特点的数据进行清理;理顺信息之间包含关系和消除模棱两可概念的歧义和不确定性;将无法完全量化的指标,按照实际情况进行等级划分。
进一步地,步骤3利用隐马尔可夫模型和单分类支持向量机集群构建集成学习方法,组成一个提取攻击画像、计算攻击行为异常得分。
进一步地,步骤4中在基于本体的攻击属性画像中,有些属性是定量的,有些属性是定性的,因此,攻击行为画像之间的相似度计算需要结合定量相似度和定性相似度来进行计算。
本发明采用以上技术方案,对流量及主机日志数据进行采集,并对历史及实时告警、预警及漏洞数据进行机器学习,由于获取攻击行为样本代 价高、难度大,且正负例样本比例严重失衡,传统的二分类方法不能很好地适应该问题。因此,在画像提取部分,只能对单类行为细节和全局行为序列特征进行学习,并分别形成一个攻击行为的数据描述模型。而后,根据设定的阈值判断新行为样本的归属。利用隐马尔可夫模型和单分类支持向量机集群构建集成学习方法,组成一个提取攻击画像、计算攻击行为异常得分的框架。装置首先对风险数据进行特征聚类,对攻击行为进行打标签,形成攻击画像仓库。然后不断采集攻击行为数据不断对攻击历史标签进行修正及新告警产生,不断丰富攻击画像仓库。采集流量及主机日志后与攻击行为画像仓库进行匹配,匹配度达到一定阈值后判定为攻击行为并发出告警提供给技术人员进行研判,对产生的攻击行为进行一段时间研判后可基本省略人工研判过程。这种装置可以手动对规则进行优化,而且这个装置全程自动化运行,自动对数据进行学习优化,节省人工成本及误报率,大大的增加攻击判断准确性。
附图说明
以下结合附图和具体实施方式对本发明做进一步详细说明;
图1为本发明一种基于多源数据的攻击行为画像装置的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图对本申请实施例中的技术方案进行清楚、完整地描述。
如图1所示,本发明公开了一种基于多源数据的攻击行为画像装置,其包括依次连接的数据收集与整理模块、本体构建模块和相似行为聚类模块;
数据收集与整理模块:收集经多种协议接入的数据,并对所得数据进行清洗和预处理成属性数据收集和标签化工作形成攻击画像仓库;
本体构建模块:对风险数据的攻击属性进行属性数据收集和标签化,建立属性信息与攻击行为画像的沟通桥梁;
相似行为聚类模块:计算攻击行为画像间的相似度,将相似度高的攻击行为画像分为一类,得到行为模式相近的攻击群。
进一步地,数据收集与整理模块支持syslog、http、webservice、socket 多种协议数据接入,且数据接入程序支持分布式。
进一步地,数据收集与整理模块对数据中无法真实表现攻击特点的数据进行清理,理顺信息之间包含关系和消除模棱两可概念的歧义和不确定性;再将无法完全量化的指标按照实际情况进行等级划分。
进一步地,在基于本体的攻击属性画像中,有些属性是定量的,有些属性是定性的,因此,攻击行为画像之间的相似度计算需要结合定量相似度和定性相似度来进行计算。
一种基于多源数据的攻击行为画像方法,其包括以下步骤:
步骤1,通过多种数据接入协议获取多源数据,
步骤2,对所得数据进行清洗和预处理完成属性数据收集和标签化工作形成攻击画像仓库;
步骤3,对风险数据进行特征细节的提取,基于特征细节以攻击为基本单位进行攻击行为本体构建;
步骤4,计算攻击行为画像间的相似度,将相似度高的攻击行为画像分为一类,得到行为模式相近的攻击群。
进一步地,步骤1支持syslog、http、webservice、socket 多种协议数据接入,且数据接入程序支持分布式。
进一步地,步骤2的具体步骤为:首先对数据中无法真实表现攻击特点的数据进行清理;理顺信息之间包含关系和消除模棱两可概念的歧义和不确定性;将无法完全量化的指标,按照实际情况进行等级划分。
进一步地,步骤3利用隐马尔可夫模型和单分类支持向量机集群构建集成学习方法,组成一个提取攻击画像、计算攻击行为异常得分。
进一步地,步骤4中在基于本体的攻击属性画像中,有些属性是定量的,有些属性是定性的,因此,攻击行为画像之间的相似度计算需要结合定量相似度和定性相似度来进行计算。
本发明采用以上技术方案,对流量及主机日志数据进行采集,并对历史及实时告警、预警及漏洞数据进行机器学习,由于获取攻击行为样本代 价高、难度大,且正负例样本比例严重失衡,传统的二分类方法不能很好地适应该问题。因此,在画像提取部分,只能对单类行为细节和全局行为序列特征进行学习,并分别形成一个攻击行为的数据描述模型。而后,根据设定的阈值判断新行为样本的归属。利用隐马尔可夫模型和单分类支持向量机集群构建集成学习方法,组成一个提取攻击画像、计算攻击行为异常得分的框架。装置首先对风险数据进行特征聚类,对攻击行为进行打标签,形成攻击画像仓库。然后不断采集攻击行为数据不断对攻击历史标签进行修正及新告警产生,不断丰富攻击画像仓库。采集流量及主机日志后与攻击行为画像仓库进行匹配,匹配度达到一定阈值后判定为攻击行为并发出告警提供给技术人员进行研判,对产生的攻击行为进行一段时间研判后可基本省略人工研判过程。这种装置可以手动对规则进行优化,而且这个装置全程自动化运行,自动对数据进行学习优化,节省人工成本及误报率,大大的增加攻击判断准确性。
显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
Claims (9)
1.一种基于多源数据的攻击行为画像装置及方法,其特征在于:其包括依次连接的数据收集与整理模块、本体构建模块和相似行为聚类模块;
数据收集与整理模块:收集经多种协议接入的数据,并对所得数据进行清洗和预处理成属性数据收集和标签化工作形成攻击画像仓库;
本体构建模块:对风险数据的攻击属性进行属性数据收集和标签化,建立属性信息与攻击行为画像的沟通桥梁;
相似行为聚类模块:计算攻击行为画像间的相似度,将相似度高的攻击行为画像分为一类,得到行为模式相近的攻击群。
2.根据权利要求1所述的一种基于多源数据的攻击行为画像装置,其特征在于:数据收集与整理模块支持syslog、http、webservice、socket 多种协议数据接入,且数据接入程序支持分布式。
3.根据权利要求1所述的一种基于多源数据的攻击行为画像装置,其特征在于:数据收集与整理模块对数据中无法真实表现攻击特点的数据进行清理,理顺信息之间包含关系和消除模棱两可概念的歧义和不确定性;再将无法完全量化的指标按照实际情况进行等级划分。
4.根据权利要求1所述的一种基于多源数据的攻击行为画像装置,其特征在于:相似行为聚类模块进行攻击行为画像之间的相似度计算时结合定量相似度和定性相似度来进行计算。
5.一种基于多源数据的攻击行为画像方法,权利要求1至4之一所述的一种基于多源数据的攻击行为画像装置,其特征在于:方法包括以下步骤:
步骤1,通过多种数据接入协议获取多源数据,
步骤2,对所得数据进行清洗和预处理完成属性数据收集和标签化工作形成攻击画像仓库;
步骤3,对风险数据进行特征细节的提取,基于特征细节以攻击为基本单位进行攻击行为本体构建;
步骤4,计算攻击行为画像间的相似度,将相似度高的攻击行为画像分为一类,得到行为模式相近的攻击群。
6.根据权利要求5所述的一种基于多源数据的攻击行为画像方法,其特征在于:步骤1支持syslog、http、webservice、socket 多种协议数据接入,且数据接入程序支持分布式。
7.根据权利要求5所述的一种基于多源数据的攻击行为画像方法,其特征在于:步骤2的具体步骤为:首先对数据中无法真实表现攻击特点的数据进行清理;理顺信息之间包含关系和消除模棱两可概念的歧义和不确定性;将无法完全量化的指标,按照实际情况进行等级划分。
8.根据权利要求5所述的一种基于多源数据的攻击行为画像方法,其特征在于:步骤3利用隐马尔可夫模型和单分类支持向量机集群构建集成学习方法,组成一个提取攻击画像、计算攻击行为异常得分。
9.根据权利要求5所述的一种基于多源数据的攻击行为画像方法,其特征在于:步骤4中攻击行为画像之间的相似度计算需要结合定量相似度和定性相似度来进行计算。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011514648.2A CN112532652A (zh) | 2020-12-21 | 2020-12-21 | 一种基于多源数据的攻击行为画像装置及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011514648.2A CN112532652A (zh) | 2020-12-21 | 2020-12-21 | 一种基于多源数据的攻击行为画像装置及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112532652A true CN112532652A (zh) | 2021-03-19 |
Family
ID=75001969
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011514648.2A Pending CN112532652A (zh) | 2020-12-21 | 2020-12-21 | 一种基于多源数据的攻击行为画像装置及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112532652A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113408579A (zh) * | 2021-05-13 | 2021-09-17 | 桂林电子科技大学 | 一种基于用户画像的内部威胁预警方法 |
CN115396235A (zh) * | 2022-10-25 | 2022-11-25 | 北京天云海数技术有限公司 | 一种基于黑客画像的网络攻击者识别方法及系统 |
CN115865519A (zh) * | 2023-02-07 | 2023-03-28 | 苏州市卫生计生统计信息中心 | 适用于网络攻防虚拟仿真的数据处理方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107046543A (zh) * | 2017-04-26 | 2017-08-15 | 国家电网公司 | 一种面向攻击溯源的威胁情报分析系统 |
US20180262521A1 (en) * | 2017-03-13 | 2018-09-13 | Molbase (Shanghai) Biotechnology Co., Ltd | Method for web application layer attack detection and defense based on behavior characteristic matching and analysis |
CN110380896A (zh) * | 2019-07-04 | 2019-10-25 | 湖北央中巨石信息技术有限公司 | 基于攻击图的网络安全态势感知模型和方法 |
CN111641619A (zh) * | 2020-05-21 | 2020-09-08 | 杭州安恒信息技术股份有限公司 | 一种基于大数据构建黑客画像的方法、装置和计算机设备 |
CN111988285A (zh) * | 2020-08-03 | 2020-11-24 | 中国电子科技集团公司第二十八研究所 | 一种基于行为画像的网络攻击溯源方法 |
-
2020
- 2020-12-21 CN CN202011514648.2A patent/CN112532652A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180262521A1 (en) * | 2017-03-13 | 2018-09-13 | Molbase (Shanghai) Biotechnology Co., Ltd | Method for web application layer attack detection and defense based on behavior characteristic matching and analysis |
CN107046543A (zh) * | 2017-04-26 | 2017-08-15 | 国家电网公司 | 一种面向攻击溯源的威胁情报分析系统 |
CN110380896A (zh) * | 2019-07-04 | 2019-10-25 | 湖北央中巨石信息技术有限公司 | 基于攻击图的网络安全态势感知模型和方法 |
CN111641619A (zh) * | 2020-05-21 | 2020-09-08 | 杭州安恒信息技术股份有限公司 | 一种基于大数据构建黑客画像的方法、装置和计算机设备 |
CN111988285A (zh) * | 2020-08-03 | 2020-11-24 | 中国电子科技集团公司第二十八研究所 | 一种基于行为画像的网络攻击溯源方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113408579A (zh) * | 2021-05-13 | 2021-09-17 | 桂林电子科技大学 | 一种基于用户画像的内部威胁预警方法 |
CN115396235A (zh) * | 2022-10-25 | 2022-11-25 | 北京天云海数技术有限公司 | 一种基于黑客画像的网络攻击者识别方法及系统 |
CN115396235B (zh) * | 2022-10-25 | 2023-01-13 | 北京天云海数技术有限公司 | 一种基于黑客画像的网络攻击者识别方法及系统 |
CN115865519A (zh) * | 2023-02-07 | 2023-03-28 | 苏州市卫生计生统计信息中心 | 适用于网络攻防虚拟仿真的数据处理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111475804B (zh) | 一种告警预测方法及系统 | |
CN108881194B (zh) | 企业内部用户异常行为检测方法和装置 | |
US11301759B2 (en) | Detective method and system for activity-or-behavior model construction and automatic detection of the abnormal activities or behaviors of a subject system without requiring prior domain knowledge | |
CN112532652A (zh) | 一种基于多源数据的攻击行为画像装置及方法 | |
CN106888205B (zh) | 一种非侵入式基于功耗分析的plc异常检测方法 | |
CN106790256B (zh) | 用于危险主机监测的主动机器学习系统 | |
CN109768985A (zh) | 一种基于流量可视化与机器学习算法的入侵检测方法 | |
CN114124482B (zh) | 基于lof和孤立森林的访问流量异常检测方法及设备 | |
CN107483451B (zh) | 基于串并行结构网络安全数据处理方法及系统、社交网络 | |
CN116359218B (zh) | 一种工业聚集区大气污染移动监测系统 | |
CN105376193A (zh) | 安全事件的智能关联分析方法与装置 | |
CN112685459A (zh) | 一种基于K-means集群算法的攻击源特征识别方法 | |
CN114553475A (zh) | 一种基于网络流量属性有向拓扑的网络攻击检测方法 | |
CN111126820A (zh) | 反窃电方法及系统 | |
CN110851422A (zh) | 一种基于机器学习的数据异常监测模型构建方法 | |
CN114553591A (zh) | 随机森林模型的训练方法、异常流量检测方法及装置 | |
CN111600878A (zh) | 一种基于maf-adm的低速率拒绝服务攻击检测方法 | |
CN117081858B (zh) | 一种基于多决策树入侵行为检测方法、系统、设备及介质 | |
CN111461231A (zh) | 一种短信息的发送控制方法、装置及存储介质 | |
CN115225373B (zh) | 一种信息不完备条件下的网络空间安全态势表达方法及装置 | |
CN113593605B (zh) | 一种基于深度神经网络的工业音频故障监测系统和方法 | |
CN114553468A (zh) | 一种基于特征交叉与集成学习的三级网络入侵检测方法 | |
CN115643153A (zh) | 基于图神经网络的报警关联分析方法 | |
CN114218569A (zh) | 数据分析方法、装置、设备、介质和产品 | |
CN115964478A (zh) | 网络攻击检测方法、模型训练方法及装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210319 |