CN108924163A - 基于无监督学习的攻击者画像方法及系统 - Google Patents

基于无监督学习的攻击者画像方法及系统 Download PDF

Info

Publication number
CN108924163A
CN108924163A CN201810925031.6A CN201810925031A CN108924163A CN 108924163 A CN108924163 A CN 108924163A CN 201810925031 A CN201810925031 A CN 201810925031A CN 108924163 A CN108924163 A CN 108924163A
Authority
CN
China
Prior art keywords
information
data
cluster
data information
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810925031.6A
Other languages
English (en)
Inventor
王祖俪
李飞
王娟
吴春旺
赵军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu University of Information Technology
Original Assignee
Chengdu University of Information Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu University of Information Technology filed Critical Chengdu University of Information Technology
Priority to CN201810925031.6A priority Critical patent/CN108924163A/zh
Publication of CN108924163A publication Critical patent/CN108924163A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/552Detecting local intrusion or implementing counter-measures involving long-term monitoring or reporting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/145Countermeasures against malicious traffic the attack involving the propagation of malware through the network, e.g. viruses, trojans or worms
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L2463/00Additional details relating to network architectures or network communication protocols for network security covered by H04L63/00
    • H04L2463/146Tracing the source of attacks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Virology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于无监督学习的攻击者画像方法及系统,该方法包括步骤:对获取的报警数据进行预处理,使来源不同的报警数据具有相同的格式及维度;对预处理之后的报警数据进行聚类分析,得到聚类后的数据集;将聚类后的数据集中的信息与预先设立的静态信息库中的信息进行交互,实现维度扩充和/或信息补充;对数据进行归类,得到攻击者的画像集合。通过本发明方法及系统得到的攻击者画像的特征信息更全面,且更准确,具有重用性。

Description

基于无监督学习的攻击者画像方法及系统
技术领域
本发明涉及信息安全技术领域,特别涉及一种基于无监督学习的攻击者画 像方法及系统。
背景技术
网络安全和信息化是事关国家安全和国家发展、事关广大人民群众工作生 活的重大战略问题,随着检测技术的不断提升,所能提供的攻击信息越来越多。 在加强攻击检测技术的同时,其中网络溯源是安全态势感知中重要的一环。其 中,溯源的一个重要内容就是希望掌握攻击者的特征,并由此掌握其攻击偏好, 攻击意图等。
申请号为201711392050.9的中国专利申请公开了一种攻击者画像方法,其 是利用PDB文件的调试信息找出攻击者的IP、所属国家等信息,但网络环境中 IP地址等信息容易伪造,使得无法最终得到准确的结果,同时给出的攻击者自 身的信息较为单一(往往只有一个IP),而且信息不具备重用性,如果之后再出 现类似或者相同的事件,必须重头来追踪一次。
发明内容
本发明的目的在于改善现有技术中所存在的上述不足,提供一种基于无监 督学习的攻击者画像方法及系统。
为了实现上述发明目的,本发明实施例提供了以下技术方案:
一方面,本发明实施例提供了一种基于无监督学习的攻击者画像方法,包 括以下步骤:
步骤1,获取报警数据信息;
步骤2,对获取的报警数据信息进行预处理,使来源不同的报警数据信息具 有相同的格式及维度;
步骤3,对预处理之后的报警数据信息进行聚类分析,得到聚类后的数据集;
步骤4,将聚类后的数据集中的信息与预先设立的静态信息库中的信息进行 交互,实现维度扩充和/或信息补充;
步骤5,对步骤4中得到的数据进行整理,得到攻击者的画像集合。
另一方面,本发明实施例同时提供了一种基于无监督学习的攻击者画像系 统,包括以下模块:
数据收集模块,用于获取报警数据信息;
数据预处理模块,用于对获取的报警数据信息进行预处理,使来源不同的 报警数据信息具有相同的格式及维度;
数据分析模块,用于对预处理之后的报警数据信息进行聚类分析,得到聚 类后的数据集;
数据扩充模块,用于将聚类后的数据集中的信息与预先设立的静态信息库 中的信息进行交互,实现维度扩充和/或信息补充;
画像形成模块,用于对数据扩充模块输出的数据进行归类,得到攻击者的 画像集合。
再一方面,本发明实施例同时提供了一种包括计算机可读指令的计算机可 读存储介质,所述计算机可读指令在被执行时使处理器执行本发明实施例中所 述方法中的操作。
再一方面,本发明实施例同时提供了一种电子设备,包括:存储器,存储 程序指令;处理器,与所述存储器相连接,执行存储器中的程序指令,实现本 发明实施例中所述方法中的步骤。
与现有技术相比,本发明的有益效果:区别于现有只分析出IP地址的方式, 本发明方法及系统从用户行为习惯、目标偏好等方面,构建一个全面多维的攻 击者及群体的画像,形成的经验集可以重用,并可以不断扩充、调整。通过多 次无监督学习和调整后形成的经验集,可用于对攻击者及群体的锁定和对攻击 行为、攻击目标的预测中。该方法和系统可运用于网络安全中的查找攻击者、 攻击行为预测等方面,同时也可以运用于城市公共安全、智能安防、工控安全, 智能汽车安全等多领域。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使 用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例, 因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创 造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明较佳实施例提供的基于无监督学习的攻击者画像方法的流程 图。
图2为实施例中所述攻击者群体示意图。
图3为实施例中所述攻击者画像方法中聚类步骤的流程示意图。
图4为本发明较佳实施例提供的基于无监督学习的攻击者画像系统的功能 模块图。
图5是本发明实施例中所述电子设备的组成结构方框示意图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、 完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部 的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不 同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细 描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施 例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所 获得的所有其他实施例,都属于本发明保护的范围。
本实施例中提供了一种基于无监督学习的攻击者画像方法,所谓攻击者画 像是指通过网络攻击者在实施犯罪过程中留下的线索,获取与攻击者自身相关 的信息。
请参阅图1,上述基于无监督学习的攻击者画像方法包括以下步骤:
步骤1,获取报警数据信。该报警数据信息可以是来源于各种安全设备的报 警数据信息,例如来自入侵检测系统的报警数据信息,来源于防火墙的报警数 据信息,来自于系统日志的报警数据信息,等等。
报警数据信息是指各种安全设备按照各自安全规则在检测到出现违背安全 规则的威胁时,产生的报警结果,提示威胁的出现。不同安全设备的报警数据 信息格式不同,同一种类型的安全设备的报警数据信息格式也可能略有不同。 例如:入侵检测系统snort可以提供文本格式、Libpcap格式和数据库三种报警 形式,报警数据信息包括攻击事件发生的时间,snort提示信息(报警分类和优 先级),源IP地址,源端口号,目标IP地址,目标端口号;防火墙常用日志格式 为:PRI号,发生时间,严重程度,具体事件描述ID,源IP,目标IP,源端口, 目标端口持续时间,字节数,涉及协议;系统安全日志常用格式为:操作时间, 操作人员账户名,目标系统编码,源IP,客户端计算机名称,源MAC地址,操作 名称、操作结果、失败原因。
步骤2,对获取的报警数据信息进行预处理,使来自各种安全设备的报警数 据信息标准化,标准化包括格式统一、标准化处理及维度调整,使来源不同的 报警数据信息具有相同的格式及维度。容易理解的,若报警数据信息来自于同 一种类型的安全设备,因为格式是相同的,因此无需进行格式统一,若报警数 据信息来自于不同类型的安全设备,由于不同类型安全设备的数据格式不一致, 因此需要进行格式统一,以使得预处理后的报警数据信息具有相同的格式。
其中,格式统一包括指将不同资源获取的报警数据信息采用相同的存储格 式进行存储,例如,统一按照以下格式进行存储:攻击时间,源IP,源端口, 攻击名称,攻击类型,目标IP,目标端口。
对数据进行标准化处理,是将报警数据信息的属性中较大数据值转换为较 小数据值,例如采用0均值标准化(Z-score standardization)对数据做规范化。 因为在聚类步骤中求相似性时,每个属性都要参与,但有的属性数值过大(例 如端口,拆分的IP等),会导致抹杀其他数值较小的元素的属性在整个相似性中 的影响,因此需要进行数据值转换,比提高后续聚类步骤的聚类结果的准确性。
维度调整指调整各个报警数据信息的维度,选取对报警数据分析有用的属 性,用于数据集聚类处理。维度就是指报警数据信息中属性的个数,例如,格 式统一后的数据信息格式包括:攻击时间,源IP,源端口,攻击名称,攻击类 型,目标IP,目标端口,共7项属性,则其维度为7。一般地,报警数据信息的 维度都比较大,而维度调整的目的是便于后续的聚类分析,聚类分析时只针对 重要的或者是用户感兴趣的、能体现攻击者特征或者偏好的信息进行聚类,如 果维度太高会导致计算复杂度增加,也没有实际意义(例如序号,日期等属性 对于寻找相似的攻击者群体没有实质的帮助,这些可以不纳入聚类的计算中), 所以维度调整一般是降低维度。属性的选择代表了使用该方法的用户的偏好, 选取有用的属性是指用户根据自己的侧重点选取适当的属性,例如:如果用户 对攻击者攻击的目标感兴趣,则可以重点选择源IP、目标IP、源端口、目标端 口等信息作为聚类依据,即维度由“攻击时间、源IP、源端口、攻击名称、攻 击类型、目标IP、目标端口”调整为“源IP、目标IP、源端口、目标端口”;若 用户对攻击者的攻击手段感兴趣,则重点选择攻击类型、攻击名称、攻击影响 程序等属性作为聚类依据;若攻击者对多个因素都感兴趣则可以选择多个属性 进行聚类,在此没有统一的标准,也没必要建立统一的标准。通常是源IP,目 标IP,源端口,目标端口,攻击类型,影响程度等。
在进一步优化的方案中,为了使得后文中步骤3的聚类更准确,本步骤中 的预处理过程还包括群体初识别,通过不同的报警数据信息找寻报警数据信息 中主体对象即攻击发起者(源IP)可能存在的从属关系。对存在从属关系的报 警数据信息进行初始归类处理,即,将存在从属关系的主体对象归类于同一群 体。
从属关系是指,若报警事件中存在A实体对象(可用IP地址来区别)拥有对 B对象的控制权(一般攻击类型为“主动攻击”),且报警事件中存在B对象拥有C 对象的控制权,则认为B从属于A(或为合作者),对象A与B故可看做一个攻击群 体。若还查有C对象对D对象有控制权限的安全报警事件,则可以把A、B、C看作 一个可能的攻击群体(B、C很有可能是跳板或傀儡主机),当两个群体呈包含关 系时,认定元素多的为攻击者群体。群体初识别过程有助于发现一些僵尸网络 或傀儡主机,使攻击者画像更为全面。
群体初识别的算法思想是,通过不断在当前数据集中,寻找以当前数据IP 为攻击源地址,且攻击类型为“主动攻击”的目标IP集合,将这些IP集合中的 每个对象又作为攻击源地址,按时间轴顺序不断重复上述操作进行查找,直至 找到最终攻击目标,在此之前所经过的对象集合为存在可能的攻击群体。该步 骤结束后原有数据元素集合,有的数据信息仍然是单个存在,有的则以群体存 在,攻击者群体示意图如图2所示。图2是一个从属关系定义的解释图,在这 个图中,表示ABC是存在从属关系的一个群体,EF是存在从属关系的一个群体。 从属关系确认是有一个算法的,就是群体初识别那个部分描述的。假设现在收 集到A,B,C,E,F,X,Y是7个报警数据信息的主体对象(即源IP),经过若干条报 警数据信息的群体初识别后,假设他们的相互关系如图2所示,则最后得出结 果,ABC可以看作一个群体,EF可以看做一个群体,而X,Y则是两个各自独立的 主体对象。带着这个结果进入聚类算法,可以更好的进行聚类。
步骤3,对预处理之后的报警数据进行聚类分析,得到聚类后的数据集。
在传统的聚类处理中最常用的是k-means算法,但该算法需要事先指定分 类的个数,本实施例中,修改了传统k-means算法,首先去除孤立结点,然后 在聚类过程中通过自适应调整聚类个数k,可以使得聚类效果更加准确。
去除孤立结点(偏离点)的算法,其思想为:对于数据集合中的所有的数据 信息X,计算出每个结点(一个结点就代表一条数据信息),i与剩余结点(剩 余结点指的是预处理过后的数据集合点中除了结点i以外的其他结点)的距离 和Si,同时计算出距离均和H,当Si>H时,则数据信息i被当做孤立结点处理, 做删除标记,不参与聚类操作。其中,
公式中,n为结点的个数,xij为当前结点,xji为剩余结点,d表示 一个结点的数据维数(一条报警数据信息的维度,也就是属性个数)。
K值自适应调整为的思想为:初始状态先给定一个合适的数值K(可以由以 往经验或惯例,例如可以选用(表示向上取整)),在经过一次聚类后得到 k个聚类中心,对得到的K个聚类中心计算此时数据集的类间分散度和类内聚合 度,并得到判定标准E,同时找到距离最近的两个类,合并这两个类,得到新的 K-1个聚类中心,再次计算新的E值(可记作E'),若E-E'超过设定的阈值,则 不用再合并,否则继续选取最接近的两个类进行合并,计算新的E值,直至到 达设定的阈值。其中,dij=||vi-vj||(公式3),表示第i个簇(也就是聚类 的基本单位)与第j个簇之间的距离,其中||||表示两个聚类中心间的欧几 里得距离,vi、vj分别表示第i个簇(即第i个类的含义,聚类中的结果多用 “簇”cluster来表示)的聚类中心和第j个簇的聚类中心。类内聚合度Ri表示 为:其中ci表示第i个簇中数据信息个数,x 表示第i个簇中各个数据信息。在有k个簇的整个数据集所有类的类间分散度 Disp为:在有K个类的所有类的类内聚 合度Aggr表示为:则在k-1个类时(合并后)的 判定函数E为:
请参阅图3,数据分析聚类过程具体包括以下步骤:
1)输入预处理后得到的数据集,针对于每个节点i,利用公式(1)、(2) 计算出该结点i的si,H的值。
2)判断每个结点i是否满足孤立结点条件Si>H,若满足则做删除该结点, 不纳入聚类操作中,若不满足则保留,进入步骤3)。
3)完成对所有结点的分析后,形成去除了孤立结点后的新的数据集。
4)给出初始k值(例如)。
5)从新的数据集中随机选取K个数据信息作为初始聚类中心。
6)计算此时数据集的Dispk和Aggrk值,得到初始E值Ek
7)利用公式(3)求出当前两个距离最近的聚类子集X,Y。
8)合并两个距离最近的两个聚类子集,得到新的K-1个聚类中心,计算此 时的Dispk-1和Aggrk-1
9)计算此时的E值Ek-1
10)若Ek-Ek-1的值未超过设定的阈值(通常是经验设置,例如1,),则令 Ek=Ek-1,重复步骤7)8)9)10);若超过阈值,则停止合并,完成聚类。
例如已知数据集为N={ABCDEFGH},每个数据信息都由若干个属性组成。聚 类的结果可能是:cluster1:{ABCH},cluster2:{DF},cluster3:{EG}。
步骤4,将聚类后的数据集中的信息和之前暂时删除的孤立节点,与预先设 立的静态信息库中的信息进行交互,实现维度扩充和/或信息补充。例如通过静 态信息库中的DNS映射关系找到原数据中IP地址对应的目标类型,通过社工库查 找是否有匹配的攻击者真实信息以扩充信息(如论坛网名,性别等)。
静态信息库中的信息通常来自于开放数据库(可以从互联网下载或者在线 使用,或者第三方提供开放接口用于实现系统中),有关社工库,或者用户以往 自身构建数据库等,例如:DNS映射库中会有常用的IP地址对应的DNS名,通过 社工库可以查到常见僵尸网络的IP,C&C服务器地址,公开的CVE漏洞信息库。 设置静态信息库的目的是丰富攻击者的画像,静态信息库中的信息越多,攻击 者的画像将会越完善,但是对于静态信息库中的信息来源、信息种类和数量没 有限定。
信息补充是指利用静态信息库中的信息对聚类后的数据集中的节点或删除 的孤立节点进行补充,以便更丰富攻击者的画像。例如,可以将IP与实际域名 对应,如果存在僵尸网络可以通过常用C&C服务器地址信息(静态信息库中的内 容)补充识别报警信息中是否有僵尸网络;此外在报警数据信息中有的信息可 能不完整,如没有目标端口号等,此步骤中也可以作为补充,例如可以通过CVE 漏洞库查询漏洞信息,由此得知涉及的端口号,并补充报警数据信息中对应的 端口号。维度扩充是指可以根据与静态数据库中所匹配的数据信息带来更多的 信息。例如:若一条报警数据信息攻击类型为某种CVE漏洞攻击,通过静态信息 库可以了解到该漏洞攻击的具体信息,包括其涉及到的操作系统,由此扩充原 有报警信息的内容。再例如,可以根据IP地址,结合静态数据库,得到IP地址 所在的区域,城市,使用的网络类型等。通过信息补充可以更细致地勾勒出攻 击者的形象。
步骤5,对步骤4中得到的数据进行整理,未聚类的信息(即聚类步骤中暂 时删除的孤立节点)按个体信息记录,聚类后的信息按集合记录,得到攻击者 及群体的画像集合。另外还可以进一步做更深层次的整理,例如寻找数据信息 之间的规律,进行总结,形成一条条独立的经验,形成经验集。经验的条数与 报警数据信息的个数有关,在聚类后会将重复的数据合并。经验会分成两种, 一种是个体攻击者画像(经验)(每个源IP一条经验);一种是群体画像,以 群为单位的经验,两种经验都必须对之前得到的所有信息进行汇总,整理。
作为示意性的举例,攻击者画像经验可以包含以下内容:
攻击者画像={ID,画像类别(个体或群体),IP,所在国家,所处位置,使 用语言,攻击发起时间,持续时间,攻击类型,攻击影响程度,攻击目标所在 国家,攻击目标所在位置,使用工具}
区别于现有只从IP定位攻击者的方法,本发明方法从用户行为习惯、目标 偏好等方面(聚类时是根据报警数据信息的各个属性进行的综合聚类,这些属 性就代表了用户的习惯和目标偏好),构建一个全面多维的攻击者及群体的画像, 形成的经验集可以重用(当有新的报警数据信息产生时可以抽象这些报警数据 信息到经验集中寻找是否有相同或者类似信息,以确定攻击者,并不用每次都 从头再来计算),形成的经验集可以扩充,如通过增加经验集,修改经验集等方 式进行扩充。通过多次无监督学习和调整后形成的经验集可用于对攻击者及群 体的锁定和对攻击行为、攻击目标的预测中。该方法和系统可运用于网络安全 中的查找攻击者、攻击行为预测等方面,同时也可以运用于城市公共安全、智 能安防、工控安全,智能汽车安全等多领域。
请参阅图3,图3中的箭头表示数据流的传输方向googel。基于相同的构思, 本实施例中同时给出了一种基于无监督学习的攻击者画像系统,包括以下模块:
数据收集模块,用于获取报警数据信息;
数据预处理模块,用于对获取的报警数据信息进行预处理,使来源不同的 报警数据信息具有相同的格式及维度;
数据分析模块,用于对预处理之后的报警数据进行聚类分析,得到聚类后 的数据集;
数据扩充模块,用于将聚类后的数据集中的信息与预先设立的静态信息库 中的信息进行交互,实现维度扩充和/或信息补充;
画像形成模块,用于对数据扩充模块输出的数据进行整理,得到攻击者的 画像集合。
其中,所述数据预处理模块包括数据格式统一子模块、属性选取子模块及 群体初识别子模块;其中,
数据格式统一子模块用于将来源不同的报警数据信息统一为标准的格式;
属性选取子模块用于将来源不同的报警数据信息统一为相同的维度;
群体初识别子模块用于判断报警数据信息中报警事件的主体对象间是否存 在从属关系,以及将存在从属关系的主体对象归类于同一群体。
其中,所述数据分析模块具体包括剔除子模块和聚类子模块;其中,
剔除子模块针对于数据集中的每个报警数据信息,计算出每个结点i与剩余 结点的距离和Si及距离均和H,若Si>H,则将结点i作为孤立结点予以去除,得到 新的数据集;其中,n为结点的个数,xij为 当前结点,xji为剩余结点,d表示一个结点的维度;
聚类子模块采用k-means算法,且自适应调整聚类个数的方式进行聚类,直至Ek-Ek-1的值超过设定阈值,其中, dij=||vi-vj||,vi、vj分别表示第 i个簇的聚类中心和第j簇的聚类中心,ci表示第i个簇中数 据信息个数,x表示第i个簇中各个数据信息。
对于系统中其他模块的具体执行过程及组成结构,可以参见前述方法实施 例中的相应描述,此处为节约篇幅,不再赘述。
如图5所示,本实施例同时提供了一种电子设备,该电子设备可以包括处 理器51和存储器52,其中存储器52耦合至处理器51。值得注意的是,该图是 示例性的,还可以使用其他类型的结构来补充或替代该结构,实现数据提取、 图表重绘、通信或其他功能。
如图5所示,该电子设备还可以包括:输入单元53、显示单元54和电源 55。值得注意的是,该电子设备也并不是必须要包括图5中显示的所有部件。 此外,电子设备还可以包括图5中没有示出的部件,可以参考现有技术。
处理器51有时也称控制器或操作控件,可以包括微处理器或其他处理器装 置和/或逻辑装置,该处理器51接收输入并控制电子设备的各个部件的操作。
其中,存储器52例如可以是缓存器、闪存、硬驱、可移动介质、易失性存 储器、非易失性存储器或其他合适装置中的一种或多种,可存储上述处理器51 的配置信息、处理器51执行的指令、记录的表格数据等信息。处理器51可以 执行存储器52存储的程序,以实现信息存储或处理等。在一个实施例中,存储 器52中还包括缓冲存储器,即缓冲器,以存储中间信息。
输入单元53例如用于向处理器51提供来自各个安全设备的报警数据。显 示单元54用于显示各个步骤处理后得到的数据,该显示单元例如可以为LCD 显示器,但本发明并不限于此。电源55用于为电子设备提供电力。
本发明实施例还提供一种计算机可读指令,其中当在电子设备中执行所述 指令时,所述程序使得电子设备执行本发明方法所包含的操作步骤。
本发明实施例还提供一种存储有计算机可读指令的存储介质,其中所述计 算机可读指令使得电子设备执行本发明方法所包含的操作步骤。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示 例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现, 为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地 描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决 于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用 来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范 围。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统和方法,可 以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例 如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划 分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特 征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或 通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是 电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为 单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者 也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部 单元来实现本发明实施例方案的目的。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或 使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明 的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部 或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介 质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器, 或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述 的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、 随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存 储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于 此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到 变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应 所述以权利要求的保护范围为准。

Claims (10)

1.一种基于无监督学习的攻击者画像方法,其特征在于,包括以下步骤:
步骤1,获取报警数据信息;
步骤2,对获取的报警数据信息进行预处理,使来源不同的报警数据信息具有相同的格式及维度;
步骤3,对预处理之后的报警数据信息进行聚类分析,得到聚类后的数据集;
步骤4,将聚类后的数据集中的信息与预先设立的静态信息库中的信息进行交互,实现维度扩充和/或信息补充;
步骤5,对步骤4中得到的数据进行整理,得到攻击者的画像集合。
2.根据权利要求1所述的方法,其特征在于,所述步骤2中,对获取的报警数据信息进行预处理,包括:
将来自不同资源的报警数据信息采用相同的存储格式进行存储,并进行标准化处理;
选取报警数据信息的属性,调整各个报警数据信息的维度,使来自不同资源的报警数据信息维度相同,所述维度指报警数据信息中属性的个数。
3.根据权利要求2所述的方法,其特征在于,所述步骤2中还包括:判断报警数据信息中报警事件的主体对象间是否存在从属关系,以及将存在从属关系的主体对象归类于同一群体。
4.根据权利要求1所述的方法,其特征在于,所述步骤3中,通过去除数据集中报警数据信息中的孤立结点,且采用自适应调整聚类个数K的方式进行聚类分析。
5.根据权利要求4所述的方法,其特征在于,所述步骤3具体包括:
步骤31,针对于数据集中的每个报警数据信息,计算出每个结点i与剩余结点的距离和Si及距离均和H,若Si>H,则将结点i作为孤立结点予以去除,得到新的数据集;其中,n为结点的个数,xij为当前结点,xji为剩余结点,d表示一个结点的维度;
步骤32,设置初始的K值,针对于新的数据集,随机选取K个数据信息作为初始聚类中心;
步骤33,计算当前数据集的类间分散度Dispk和类内聚合度Aggrk,并得到初始E值Ek;其中, dij=||vi-vj||,vi、vj分别表示第i个簇的聚类中心和第j簇的聚类中心,ci表示第i个簇中数据信息个数,x表示第i个簇中各个数据信息;
步骤34,求出当前数据集中两个距离最近的聚类子集X,Y;
步骤35,合并距离最近的两个聚类子集,得到新的k-1个聚类中心,计算此时的Dispk-1和Aggrk-1,Ek-1
步骤36,判断Ek-Ek-1的值是否超过设定阈值,如果否,则令Ek=Ek-1,重复步骤34至步骤36;若超过阈值,则完成聚类。
6.一种基于无监督学习的攻击者画像系统,其特征在于,包括以下模块:
数据收集模块,用于获取报警数据信息;
数据预处理模块,用于对获取的报警数据信息进行预处理,使来源不同的报警数据信息具有相同的格式及维度;
数据分析模块,用于对预处理之后的报警数据信息进行聚类分析,得到聚类后的数据集;
数据扩充模块,用于将聚类后的数据集中的信息与预先设立的静态信息库中的信息进行交互,实现维度扩充和/或信息补充;
画像形成模块,用于对数据扩充模块输出的数据进行整理,得到攻击者的画像集合。
7.根据权利要求6所述的系统,其特征在于,所述数据预处理模块包括数据格式统一子模块、属性选取子模块及群体初识别子模块;其中,
数据格式统一子模块用于将来源不同的报警数据信息统一为标准的格式;
属性选取子模块用于将来源不同的报警数据信息统一为相同的维度;
群体初识别子模块用于判断报警数据信息中报警事件的主体对象间是否存在从属关系,以及将存在从属关系的主体对象归类于同一群体。
8.根据权利要求6所述的系统,其特征在于,所述数据分析模块具体包括剔除子模块和聚类子模块;其中,
剔除子模块针对于数据集中的每个报警数据信息,计算出每个结点i与剩余结点的距离和Si及距离均和H,若Si>H,则将结点i作为孤立结点予以去除,得到新的数据集;其中,n为结点的个数,xij为当前结点,xji为剩余结点,d表示一个结点的维度;
聚类子模块采用k-means算法,且自适应调整聚类个数的方式进行聚类,直至Ek-Ek-1的值超过设定阈值,其中, dij=||vi-vj||,vi、vj分别表示第i个簇的聚类中心和第j簇的聚类中心,ci表示第i个簇中数据信息个数,x表示第i个簇中各个数据信息。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-5任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-5任一项所述方法的步骤。
CN201810925031.6A 2018-08-14 2018-08-14 基于无监督学习的攻击者画像方法及系统 Pending CN108924163A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810925031.6A CN108924163A (zh) 2018-08-14 2018-08-14 基于无监督学习的攻击者画像方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810925031.6A CN108924163A (zh) 2018-08-14 2018-08-14 基于无监督学习的攻击者画像方法及系统

Publications (1)

Publication Number Publication Date
CN108924163A true CN108924163A (zh) 2018-11-30

Family

ID=64404834

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810925031.6A Pending CN108924163A (zh) 2018-08-14 2018-08-14 基于无监督学习的攻击者画像方法及系统

Country Status (1)

Country Link
CN (1) CN108924163A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109729095A (zh) * 2019-02-13 2019-05-07 北京奇安信科技有限公司 数据处理方法、装置和计算设备及介质
CN109978070A (zh) * 2019-04-03 2019-07-05 北京市天元网络技术股份有限公司 一种改进的K-means异常值检测方法以及装置
CN110535866A (zh) * 2019-09-02 2019-12-03 杭州安恒信息技术股份有限公司 系统画像的生成方法、装置及服务器
CN110740144A (zh) * 2019-11-27 2020-01-31 腾讯科技(深圳)有限公司 确定攻击目标的方法、装置、设备及存储介质
CN111641619A (zh) * 2020-05-21 2020-09-08 杭州安恒信息技术股份有限公司 一种基于大数据构建黑客画像的方法、装置和计算机设备
CN112565226A (zh) * 2020-11-27 2021-03-26 深信服科技股份有限公司 请求处理方法、装置、设备及系统和用户画像生成方法
CN113282651A (zh) * 2021-04-25 2021-08-20 青岛海尔科技有限公司 数据处理方法及装置、存储介质及电子装置
CN113496179A (zh) * 2020-04-08 2021-10-12 中国电信股份有限公司 攻击者分析方法和装置
CN114024774A (zh) * 2022-01-05 2022-02-08 北京微步在线科技有限公司 一种攻击者画像的生成方法、装置及电子设备
CN115495026A (zh) * 2022-11-21 2022-12-20 杭州字节方舟科技有限公司 一种优化内存处理方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103746961A (zh) * 2013-12-12 2014-04-23 中国人民解放军63928部队 一种网络攻击场景的因果知识挖掘方法、装置及服务器
CN104601591A (zh) * 2015-02-02 2015-05-06 中国人民解放军国防科学技术大学 网络攻击源组织检测方法
CN107566390A (zh) * 2017-09-20 2018-01-09 东北大学 一种基于威胁情报的工业控制系统网络安全性分析系统及方法
US20180097828A1 (en) * 2016-09-30 2018-04-05 Yahoo! Inc. Computerized system and method for automatically determining malicious ip clusters using network activity data
CN108073808A (zh) * 2017-12-21 2018-05-25 哈尔滨安天科技股份有限公司 基于pdb调试信息生成攻击者画像的方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103746961A (zh) * 2013-12-12 2014-04-23 中国人民解放军63928部队 一种网络攻击场景的因果知识挖掘方法、装置及服务器
CN104601591A (zh) * 2015-02-02 2015-05-06 中国人民解放军国防科学技术大学 网络攻击源组织检测方法
US20180097828A1 (en) * 2016-09-30 2018-04-05 Yahoo! Inc. Computerized system and method for automatically determining malicious ip clusters using network activity data
CN107566390A (zh) * 2017-09-20 2018-01-09 东北大学 一种基于威胁情报的工业控制系统网络安全性分析系统及方法
CN108073808A (zh) * 2017-12-21 2018-05-25 哈尔滨安天科技股份有限公司 基于pdb调试信息生成攻击者画像的方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
李芳: "《K-Means算法的k值自适应优化方法研究》", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
杨义先等: "《2011年全国通信安全学术会议论文集》", 31 July 2011 *
谭智: "《基于大数据技术的网络异常行为检测系统设计与实现》", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109729095B (zh) * 2019-02-13 2021-08-24 奇安信科技集团股份有限公司 数据处理方法、装置和计算设备及介质
CN109729095A (zh) * 2019-02-13 2019-05-07 北京奇安信科技有限公司 数据处理方法、装置和计算设备及介质
CN109978070A (zh) * 2019-04-03 2019-07-05 北京市天元网络技术股份有限公司 一种改进的K-means异常值检测方法以及装置
CN110535866A (zh) * 2019-09-02 2019-12-03 杭州安恒信息技术股份有限公司 系统画像的生成方法、装置及服务器
CN110535866B (zh) * 2019-09-02 2022-01-28 杭州安恒信息技术股份有限公司 系统画像的生成方法、装置及服务器
CN110740144A (zh) * 2019-11-27 2020-01-31 腾讯科技(深圳)有限公司 确定攻击目标的方法、装置、设备及存储介质
CN113496179A (zh) * 2020-04-08 2021-10-12 中国电信股份有限公司 攻击者分析方法和装置
CN113496179B (zh) * 2020-04-08 2023-12-26 中国电信股份有限公司 攻击者分析方法和装置
CN111641619A (zh) * 2020-05-21 2020-09-08 杭州安恒信息技术股份有限公司 一种基于大数据构建黑客画像的方法、装置和计算机设备
CN112565226A (zh) * 2020-11-27 2021-03-26 深信服科技股份有限公司 请求处理方法、装置、设备及系统和用户画像生成方法
CN113282651A (zh) * 2021-04-25 2021-08-20 青岛海尔科技有限公司 数据处理方法及装置、存储介质及电子装置
CN114024774A (zh) * 2022-01-05 2022-02-08 北京微步在线科技有限公司 一种攻击者画像的生成方法、装置及电子设备
CN115495026A (zh) * 2022-11-21 2022-12-20 杭州字节方舟科技有限公司 一种优化内存处理方法、装置、设备及存储介质
CN115495026B (zh) * 2022-11-21 2023-03-10 杭州字节方舟科技有限公司 一种优化内存处理方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN108924163A (zh) 基于无监督学习的攻击者画像方法及系统
Qi et al. Fast anomaly identification based on multiaspect data streams for intelligent intrusion detection toward secure industry 4.0
US11606373B2 (en) Cyber threat defense system protecting email networks with machine learning models
Zhang et al. Robust network traffic classification
Shittu et al. Intrusion alert prioritisation and attack detection using post-correlation analysis
US10833954B2 (en) Extracting dependencies between network assets using deep learning
US20190349391A1 (en) Detection of user behavior deviation from defined user groups
Elshoush et al. An improved framework for intrusion alert correlation
Elshoush et al. Reducing false positives through fuzzy alert correlation in collaborative intelligent intrusion detection systems—A review
HACIBEYOĞLU et al. Design of multilevel hybrid classifier with variant feature sets for intrusion detection system
CN110545250A (zh) 一种多源攻击痕迹融合关联的溯源方法
Shi et al. A framework of intrusion detection system based on Bayesian network in IoT
Noorbehbahani et al. A new semi-supervised method for network traffic classification based on X-means clustering and label propagation
Manna et al. Detecting network anomalies using machine learning and SNMP-MIB dataset with IP group
Adaniya et al. Anomaly detection using metaheuristic firefly harmonic clustering
Fan et al. A real-time network security visualization system based on incremental learning (ChinaVis 2018)
El-Kadhi et al. A Mobile Agents and Artificial Neural Networks for Intrusion Detection.
Yu Beng et al. A survey of intrusion alert correlation and its design considerations
Barve et al. Detecting and Fact-checking Misinformation using “Veracity Scanning Model”
Markam et al. A general study of associations rule mining in intrusion detection system
CN108173818B (zh) 一种基于Proxy日志数据的网络安全威胁分析方法及系统
Skillicorn et al. Spectral embedding for dynamic social networks
Zhao Research on network security defence based on big data clustering algorithms
Termos et al. Intrusion Detection System for IoT Based on Complex Networks and Machine Learning
Seelammal et al. Multi-criteria decision support for feature selection in network anomaly detection system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181130

RJ01 Rejection of invention patent application after publication