CN110311902B - 一种异常行为的识别方法、装置及电子设备 - Google Patents
一种异常行为的识别方法、装置及电子设备 Download PDFInfo
- Publication number
- CN110311902B CN110311902B CN201910544335.2A CN201910544335A CN110311902B CN 110311902 B CN110311902 B CN 110311902B CN 201910544335 A CN201910544335 A CN 201910544335A CN 110311902 B CN110311902 B CN 110311902B
- Authority
- CN
- China
- Prior art keywords
- behavior
- behaviors
- abnormal
- unknown
- sample set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例提供了一种异常行为的识别方法、装置及电子设备,包括:获取对待识别业务进行访问的待识别行为的行为信息;基于该行为信息,生成该待识别行为的行为特征;将该行为特征输入预先训练的有监督机器学习模型,得到表示该待识别行为是否为异常的识别结果,其中,有监督机器学习模型为基于样本集训练得到的,样本集包括黑样本集和白样本集,黑样本集中包括已知异常行为的行为特征,白样本集中包括已知正常行为的行为特征。本发明通过建立有监督机器学习模型,能够提升识别异常访问行为的准确度,准确的对异常访问行为进行拦截。
Description
技术领域
本发明涉及网络安全防护技术领域,特别是涉及一种异常行为的识别方法、装置及电子设备。
背景技术
随着全球信息化时代的到来,互联网技术的应用领域不断扩大,互联网工程开始涉及到社会发展的方方面面,自然的,就需要一定的网络安全防护手段,来保证网络安全。当下互联网领域中最主要的技术手段是联防联控方法。这种方法实现原理是将其它业务识别到的异常用户或者异常设备放入黑名单,在此我们称之为安全画像,然后基于此安全画像在目标业务中予以拦截。但是,这种联防联控方法只能基于安全画像对异常业务进行拦截,而对于安全画像中未记载的异常用户或设备,将无法判断其访问业务是否异常,就不能对其访问业务进行拦截,对网络安全造成重大威胁。
发明内容
本发明实施例的目的在于提供一种异常行为的识别方法、装置及电子设备,用以解决现有安全防护方法识别异常行为不够准确的问题。具体技术方案如下:
第一方面,本发明实施提供了一种异常行为的识别方法,所述方法包括:
获取对待识别业务进行访问的待识别行为的行为信息;
基于所述行为信息,生成所述待识别行为的行为特征;
将所述行为特征输入预先训练的有监督机器学习模型,得到表示所述待识别行为是否为异常的识别结果,其中,所述有监督机器学习模型为基于样本集训练得到的,所述样本集包括黑样本集和白样本集,所述黑样本集中包括已知异常行为的行为特征,所述白样本集中包括已知正常行为的行为特征。
可选的,所述样本集包括对第一类业务进行访问的行为的行为特征,以及对第二类业务进行访问的行为的行为特征,其中,所述第一类业务为所述第二类业务的前置业务,所述待识别业务为所述第一类业务或所述第二类业务。
可选的,所述黑样本集的创建步骤,包括:
基于多个未知行为的行为特征,使用预先建立的行为识别模型,从所述多个未知行为的行为特征中,识别出异常行为,所述未知行为是不确定属于正常行为还是属于异常行为的行为;
创建包括识别出的异常行为的行为特征,以及实际发生的已知异常行为的行为特征的黑样本集。
可选的,所述基于多个未知行为的行为特征,使用预先建立的行为识别模型,从所述多个未知行为的行为特征中,识别出异常行为,包括:
基于多个未知行为的行为特征,使用预先建立的孤立森林模型,从所述多个未知行为的行为特征中,识别出异常行为;或者
基于多个未知行为的行为特征,以及多个实际发生的已知异常行为的行为特征,使用预先建立的高斯混合模型,从所述多个未知行为的行为特征中,识别出异常行为。
可选的,所述基于多个未知行为的行为特征,使用预先建立的孤立森林模型,从所述多个未知行为的行为特征中,识别出异常行为,包括:
针对多个未知行为中的每个未知行为,将该未知行为的行为特征输入预先建立的孤立森林模型模型中的多个孤立树中,得到该未知行为在每个所述孤立树中的高度;
计算该未知行为在所述多个孤立树中的高度的平均值,作为该未知行为针对所述孤立森林模型的平均高度;
基于平均高度越低异常程度越大的原则,确定该未知行为是否异常。
可选的,所述高斯混合模型包括多个多元高斯分布模型;
所述基于多个未知行为的行为特征,以及多个实际发生的已知异常行为的行为特征,使用预先建立的高斯混合模型,从所述多个未知行为中,识别出异常行为,包括:
使用所述多个多元高斯分布模型,对多个未知行为的行为特征和多个实际发生的已知异常行为的行为特征,进行聚类,得到分别与每个多元高斯分布模型对应的行为特征簇;
针对每个行为特征簇,当该行为特征簇中已知异常行为的行为特征的数量大于预设数量阈值时,确定该行为特征簇中的未知行为是异常行为。
第二方面,本发明实施提供了一种异常行为的识别装置,所述装置包括:
行为信息获取模块,用于获取对待识别业务进行访问的待识别行为的行为信息;
行为特征生成模块,用于基于所述行为信息,生成所述待识别行为的行为特征;
异常行为识别模块,用于将所述行为特征输入预先训练的有监督机器学习模型,得到表示所述待识别行为是否为异常的识别结果,其中,所述有监督机器学习模型为基于样本集训练得到的,所述样本集包括黑样本集和白样本集,所述黑样本集中包括已知异常行为的行为特征,所述白样本集中包括已知正常行为的行为特征。
可选的,所述样本集包括对第一类业务进行访问的行为的行为特征,以及对第二类业务进行访问的行为的行为特征,其中,所述第一类业务为所述第二类业务的前置业务,所述待识别业务为所述第一类业务或所述第二类业务。
可选的,所述装置还包括:
黑样本集创建模块,用于创建所述黑样本集;
所述黑样本集创建模块,包括:
异常行为识别子模块,用于基于多个未知行为的行为特征,使用预先建立的行为识别模型,从所述多个未知行为的行为特征中,识别出异常行为,所述未知行为是不确定属于正常行为还是属于异常行为的行为;
黑样本集创建子模块,用于创建包括识别出的异常行为的行为特征,以及实际发生的已知异常行为的行为特征的黑样本集。
可选的,所述异常行为识别子模块,具体用于基于多个未知行为的行为特征,使用预先建立的孤立森林模型,从所述多个未知行为中,识别出异常行为;或者,基于多个未知行为的行为特征,以及多个实际发生的已知异常行为的行为特征,使用预先建立的高斯混合模型,从所述多个未知行为中,识别出异常行为。
可选的,所述异常行为识别子模块,具体用于针对多个未知行为中的每个未知行为,将该未知行为的行为特征输入预先建立的孤立森林模型模型中的多个孤立树中,得到该未知行为在每个所述孤立树中的高度;并计算该未知行为在所述多个孤立树中的高度的平均值,作为该未知行为针对所述孤立森林模型的平均高度;以及基于平均高度越低异常程度越大的原则,确定该未知行为是否异常。
可选的,所述高斯混合模型包括多个多元高斯分布模型;
所述异常行为识别子模块,具体用于使用所述多个多元高斯分布模型,对多个未知行为的行为特征和多个实际发生的已知异常行为的行为特征,进行聚类,得到分别与每个多元高斯分布模型对应的行为特征簇;并针对每个行为特征簇,当该行为特征簇中已知异常行为的行为特征的数量大于预设数量阈值时,确定该行为特征簇中的未知行为是异常行为。
第三方面,本发明实施提供了一种异常行为的识别的电子设备,所述电子设备包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一所述的异常行为的识别方法的步骤。
第四方面,本发明实施还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一异常行为的识别方法的步骤。
第五方面,本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一异常行为的识别方法的步骤。
本发明实施例有益效果:
本发明实施例提供的方案中,获取对待识别业务进行访问的待识别行为的行为信息,基于该行为信息,生成该待识别行为的行为特征,将该行为特征输入预先训练的有监督机器学习模型,得到表示该待识别行为是否为异常的识别结果,其中,有监督机器学习模型为基于样本集训练得到的,样本集包括黑样本集和白样本集,黑样本集中包括已知异常行为的行为特征,白样本集中包括已知正常行为的行为特征。本发明通过预先训练的有监督机器学习模型,对于未在实际应用中发生过的行为,也能够识别出该行为是否异常,从而能够提升识别异常行为的准确度,准确的对异常行为进行拦截。
当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种异常行为的识别方法的流程图;
图2为本发明实施例提供的一种创建黑样本集的流程图;
图3为本发明实施例提供的另一种创建黑样本集的流程图;
图4为本发明实施例提供的另一种创建黑样本集的流程图;
图5为本发明实施例提供的一种异常行为的识别装置的结构示意图;
图6为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了能够提升识别异常行为的准确度,对异常行为进行准确的拦截,本发明实施例提供了一种异常行为的识别方法、装置及电子设备。
下面首先对本发明实施例所提供的一种异常行为的识别方法进行介绍。
本发明实施例所提供的一种异常行为的识别方法可以应用于任意需要联网的电子设备,例如电脑、手机、服务器等,在此不做具体限定。
如图1所示,本发明实施例提供一种异常行为的识别方法,具体可以包括如下步骤:
S101,获取对待识别业务进行访问的待识别行为的行为信息;
S102,基于该行为信息,生成该待识别行为的行为特征;
S103,将该行为特征输入预先训练的有监督机器学习模型,得到表示待识别行为是否为异常的识别结果,其中,有监督机器学习模型为基于样本集训练得到的,样本集包括黑样本集和白样本集,黑样本集中包括已知异常行为的行为特征,白样本集中包括已知正常行为的行为特征。
采用图1所示的本发明实施例所提供的方案,预先训练的有监督机器学习模型,对于未在实际应用中发生过的行为,也能够识别出该行为是否异常,从而能够提升识别异常行为的准确度,准确的对异常行为进行拦截。
上述待识别行为是由待识别用户对待识别业务进行访问得到的,对于上述有监督机器学习模型得到的表示该待识别行为为异常行为的识别结果,可以得到产生该异常行为的用户是异常用户的结果。
本发明实施例中,上述待识别业务可以是实际网络应用的各种业务,例如,可以是登录业务、验证码业务、短信业务等,也可以是视频播放业务、提交评论业务、投票业务等,在此不做具体限定。
本发明实施例中,待识别行为的行为特征,可以是表示待识别行为的行为特点的各种特征,例如,当待识别业务为视频播放业务时,对该视频播放业务进行访问的待识别行为可以是视频播放请求行为,其行为信息可以包括:IP地址、用户名、请求播放的视频的视频名称、请求时间等,基于这些行为信息,生成的行为特征,可以包括:请求播放的视频的视频种类、单位时间内该用户请求的频次等。
本发明实施例提供的上述异常行为的识别方法中所使用的有监督机器学习模型,可以是预先基于样本集训练得到的,该有监督机器学习模型具体可以是梯度提升决策树模型,并通过对初始决策树模型进行有监督的训练得到的。并且,该有监督机器学习模型的格式可以是pmml(预测模型标记语言,Predictive Model Markup Language)格式。
上述梯度提升决策树模型是一种集成模型,相比其它模型如孤立森林模型,梯度提升决策树模型具有更好的稳定性,且能够更准确的识别异常行为,具备较高准确率,具有更好的性能。
本发明实施例中,白样本集中包括已知正常行为的行为特征,白样本集的创建步骤为:创建黑样本集后,从已知正常的行为中随机挑选与黑样本集中异常行为数量相等的正常行为,作为白样本集。
作为本发明实施例的一种实施方式,训练有监督机器学习模型所使用的样本集可以包括对第一类业务进行访问的行为的行为特征,以及对第二类业务进行访问的行为的行为特征,其中,第一类业务为第二类业务的前置业务,也就是说,第二类业务为第一类业务的后置业务。
第一类业务可以包括注册业务、登录业务、验证码业务等,第二类业务可以包括播放视频业务、投票业务等。针对不同的应用场合,上述第一类业务和第二类业务的内容也会发生变化,所以在此不做具体限定。
相应的,在对行为进行识别时,上述待识别业务可以为第一类业务,也可以为第二类业务。
由于样本集包括了对多个类别的业务进行访问的行为的行为特征,且该多个类别的业务为前置业务与后置业务的关系,所以扩大了样本集中的行为特征,进而能够实现跨业务的对异常行为进行识别,即扩大了异常行为的识别范围,使对异常行为的识别更全面。
作为本发明实施例的一种实施方式,如图2所示,为本发明实施例中创建黑样本集的流程图,具体可以包括如下步骤:
S201,基于多个未知行为的行为特征,使用预先建立的行为识别模型,从所述多个未知行为中,识别出异常行为,所述未知行为是不确定属于正常行为还是属于异常行为的行为。
本步骤中,可以获取多个未知行为的行为信息,并基于这些行为信息生成这些未知行为的行为特征,上述多个未知行为是不确定是否属于正常行为的行为。
更具体的,可以理解为,将行为划分为至少三种,一种是异常行为,一种是正常行为,一种是未知行为;
也可以理解为,将行为划分为至少四种,一种是高危行为,一种是中危行为,一种是低危行为,一种是正常行为,其中,高危行为属于异常行为,中危行为和低危行为属于未知行为。
本步骤中,所采用的预先建立的行为识别模型,具体可以采用孤立森林模型,也可以采用高斯混合模型。
S202,创建包括识别出的异常行为的行为特征,以及实际发生的已知异常行为的行为特征的黑样本集。
也就是说,采用图2所示流程创建的黑样本集中,不仅包括了实际发生的已知异常行为的行为特征,还进一步对黑样本进行扩充,加入了一些初步识别时属于未知行为的行为特征,即扩大了黑样本集中黑样本的数量。
采用上述黑样本集的创建方式,通过使用预先建立的行为识别模型对为原本为未知是否异常的未知行为进行进一步的识别,并将识别出的异常行为的行为特征加入黑样本集,增加了黑样本集中黑样本的数量,从而使得基于该黑样本集训练得到的有监督机器学习模型更精准,能够更准确、更全面的识别异常行为。
下面对使用上述孤立森林模型对未知行为进行识别,以及使用上述高斯混合模型对未知行为进行识别,分别进行详细描述。
如图3所示,基于多个未知行为的行为特征,使用预先建立的孤立森林模型,从该多个未知行为中,识别出异常行为,具体可以包括如下步骤:
S301,针对多个未知行为中的每个未知行为,将该未知行为的行为特征输入预先建立的孤立森林模型模型中的多个孤立树中,得到该未知行为在每个孤立树中的高度。
本步骤中,首先针对多个未知行为中的一个未知行为,将该未知行为的行为特征输入预先建立的孤立森林模型模型中的多个孤立树中,得到该未知行为在每个孤立树中的高度。同样的,针对上述多个未知行为中的其他每一个未知行为执行同样的操作,即可以获得上述多个未知行为中每一个未知行为在每一个孤立树中的高度。
上述孤立森林模型由多个孤立树组成,每个孤立树都是一个二叉树结构,每个孤立树的建立过程如下:
获取N个未知行为作为样本,并获取该N个未知行为的行为特征,其中,N可以为预先设定的。
本实施例中,该N个未知行为可以是从上述多个未知行为中随机挑选的,也可以是除上述多个未知行为之外的未知行为。
以上述获取的N个未知行为作为样本空间,放入孤立树的根节点。
随机指定该N个未知行为的一类行为特征A,并在该N个未知行为的该行为特征A的最小值与最大值之间随机选一个值B,对样本空间进行二叉树划分。将该N个未知行为中,该行为特征A的值小于该随机选值B的未知行为划分到孤立树的左孩子节点,该行为特征A的值不小于该随机选值B的未知行为划分到孤立树的右孩子节点。得到与根节点对应的分裂条件,以及根节点的两个孩子节点各自的样本空间,该分裂条件为上述指定类别的行为特征A的随机选值B。重复此步骤,直到孩子节点的样本空间不可再划分,或者该孤立树已达到限定高度。
相应的,本步骤中,将一个未知行为的行为特征输入预先建立的孤立森林模型模型中的一个孤立树中,得到该未知行为在该孤立树中的高度,具体可以是:
上述孤立树的每个节点都包含一个分裂条件。
对于一个未知行为,首先在该孤立树的根节点根据分裂条件进行划分,若该未知行为被划分到该孤立树的左孩子节点,则下一步根据此左孩子节点的分裂条件再次划分,同理若该未知行为被划分到该孤立树的右孩子节点,则下一步根据此右孩子节点的分裂条件再次划分。
当该未知行为不可被继续划分时,以该未知行为被划分的次数作为该未知行为在该孤立树的高度。
S302,计算该未知行为在多个孤立树中的高度的平均值,作为该未知行为针对孤立森林模型的平均高度。
当电子设备获得该未知行为在每个孤立树中的高度后,可以执行该步骤S302,求该未知行为在每个孤立树中的高度的平均值。例如:某一未知行为X,和10个孤立树,编号分别为1、2、3、4、5、6、7、8、9、10,此未知行为X在这10个孤立树上的高度为分别为h1、h2、h3、h4、h5、h6、h7、h8、h9、h10,那么平均高度为:
S303,基于平均高度越低异常程度越大的原则,确定该未知行为是否异常。
本步骤中,具体可以将平均高度与预设高度阈值进行比较,将平均高度低于该预设高度阈值的未知行为,确定为异常行为。
如图4所示,基于多个未知行为的行为特征,以及多个实际发生的已知异常行为的行为特征,使用预先建立的高斯混合模型,从该多个未知行为中,识别出异常行为,具体可以包括如下步骤:
S401,使用多个多元高斯分布模型,对多个未知行为的行为特征和多个实际发生的已知异常行为的行为特征,进行聚类,得到分别与每个多元高斯分布模型对应的行为特征簇。
本步骤中,所使用的高斯混合模型具体可以包括多个多元高斯分布模型。
本步骤中,以上述多个已知异常行为的行为特征作为标注数据,与上述多个未知行为的行为特征进行聚类,所得到的聚类数量与多个多元高斯分布模型的数量是一致的,即每一个行为特征簇所包括的行为特征,服从该行为特征簇所对应的多元高斯分布模型表示的多元高斯分布。
上述高斯混合模型的建立过程如下:
以多个未知行为和多个已知异常行为作为样本,获取该多个未知行为和多个已知异常行为的行为特征;
建立K个多元高斯分布模型,其中,K可以为预先设定的;
将每个样本行为的行为特征输入每个多元高斯分布模型,得出每个样本的每个行为特征在每个多元高斯分布模型中的期望值,基于此期望值计算该K个多元高斯分布模型的参数。重复此步骤,直到达到最大迭代次数,或者似然函数增加值已小于收敛阈值,其中,似然函数是关于该K个多元高斯分布模型的参数的函数,且对于每个多元高斯分布模型,都有一个对应的似然函数,由于似然函数的建立方法为现有技术,在此不进行具体说明。
S402,针对每个行为特征簇,当该行为特征簇中已知异常行为的行为特征的数量大于预设数量阈值时,确定该行为特征簇中的未知行为是异常行为。
本步骤中,针对每一个行为特征簇,根据预先设置的预设数量阈值,对该行为特征簇中的异常行为的行为特征的数量进行比较,即比较该行为特征簇中异常行为的行为特征的数量,是否大于预设数量阈值,如果大于,表示构造该行为特征簇的未知行为也属于异常行为,如果不大于,表示构造该行为特征簇的未知行为属于正常行为。
基于同一发明构思,根据本发明上述实施例提供的异常行为的识别方法,相应地,本发明另一实施例还提供了一种异常行为的识别装置,其结构示意图如图5所示,具体包括:
行为信息获取模块501,用于获取对待识别业务进行访问的待识别行为的行为信息;
行为特征生成模块502,用于基于所述行为信息,生成所述待识别行为的行为特征;
异常行为识别模块503,用于将所述行为特征输入预先训练的有监督机器学习模型,得到表示所述待识别行为是否为异常的识别结果,其中,所述有监督机器学习模型为基于样本集训练得到的,所述样本集包括黑样本集和白样本集,所述黑样本集中包括已知异常行为的行为特征,所述白样本集中包括已知正常行为的行为特征。
进一步,所述样本集包括对第一类业务进行访问的行为的行为特征,以及对第二类业务进行访问的行为的行为特征;
所述第一类业务为所述第二类业务的前置业务;
所述待识别业务为所述第一类业务或所述第二类业务。
进一步的,上述装置,还包括:
黑样本集创建模块504,用于创建所述黑样本集;
所述黑样本集创建模块504,包括:
异常行为识别子模块,用于基于多个未知行为的行为特征,使用预先建立的行为识别模型,从所述多个未知行为的行为特征中,识别出异常行为,所述未知行为是不确定属于正常行为还是属于异常行为的行为;
黑样本集创建子模块,用于创建包括识别出的异常行为的行为特征,以及实际发生的已知异常行为的行为特征的黑样本集。
进一步,所述异常行为识别子模块,具体用于基于多个未知行为的行为特征,使用预先建立的孤立森林模型,从所述多个未知行为中,识别出异常行为;或者,基于多个未知行为的行为特征,以及多个实际发生的已知异常行为的行为特征,使用预先建立的高斯混合模型,从所述多个未知行为中,识别出异常行为。
进一步,所述异常行为识别子模块,具体用于针对多个未知行为中的每个未知行为,将该未知行为的行为特征输入预先建立的孤立森林模型模型中的多个孤立树中,得到该未知行为在每个所述孤立树中的高度;并计算该未知行为在所述多个孤立树中的高度的平均值,作为该未知行为针对所述孤立森林模型的平均高度;以及基于平均高度越低异常程度越大的原则,确定该未知行为是否异常。
进一步,所述高斯混合模型包括多个多元高斯分布模型;
所述异常行为识别子模块,具体用于使用所述多个多元高斯分布模型,对多个未知行为的行为特征和多个实际发生的已知异常行为的行为特征,进行聚类,得到分别与每个多元高斯分布模型对应的行为特征簇;并针对每个行为特征簇,当该行为特征簇中已知异常行为的行为特征的数量大于预设数量阈值时,确定该行为特征簇中的未知行为是异常行为。
基于同一发明构思,根据本发明上述实施例提供的异常行为的识别方法,相应地,本发明实施例还提供了一种电子设备,如图6所示,包括处理器601、通信接口602、存储器603和通信总线604,其中,处理器601,通信接口602,存储器603通过通信总线604完成相互间的通信,
存储器603,用于存放计算机程序;
处理器601,用于执行存储器603上所存放的程序时,实现如下步骤:
获取对待识别业务进行访问的待识别行为的行为信息;
基于所述行为信息,生成所述待识别行为的行为特征;
将所述行为特征输入预先训练的有监督机器学习模型,得到表示所述待识别行为是否为异常的识别结果,其中,所述有监督机器学习模型为基于样本集训练得到的,所述样本集包括黑样本集和白样本集,所述黑样本集中包括已知异常行为的行为特征,所述白样本集中包括已知正常行为的行为特征。
作为本发明实施例的一种实施方式,所述样本集包括对第一类业务进行访问的行为的行为特征,以及对第二类业务进行访问的行为的行为特征;
所述第一类业务为所述第二类业务的前置业务;
所述待识别业务为所述第一类业务或所述第二类业务。
作为本发明实施例的一种实施方式,采用如下步骤创建黑样本集,包括:
基于多个未知行为的行为特征,使用预先建立的行为识别模型,从所述多个未知行为的行为特征中,识别出异常行为,所述未知行为是不确定属于正常行为还是属于异常行为的行为;
创建包括识别出的异常行为的行为特征,以及实际发生的已知异常行为的行为特征的黑样本集。
作为本发明实施例的一种实施方式,上述基于多个未知行为的行为特征,使用预先建立的行为识别模型,从所述多个未知行为的行为特征中,识别出异常行为,包括:
基于多个未知行为的行为特征,使用预先建立的孤立森林模型,从所述多个未知行为的行为特征中,识别出异常行为;或者,
基于多个未知行为的行为特征,以及多个实际发生的已知异常行为的行为特征,使用预先建立的高斯混合模型,从所述多个未知行为的行为特征中,识别出异常行为。
作为本发明实施例的一种实施方式,上述基于多个未知行为的行为特征,使用预先建立的孤立森林模型,从所述多个未知行为的行为特征中,识别出异常行为,包括:
针对多个未知行为中的每个未知行为,将该未知行为的行为特征输入预先建立的孤立森林模型模型中的多个孤立树中,得到该未知行为在每个所述孤立树中的高度;
计算该未知行为在所述多个孤立树中的高度的平均值,作为该未知行为针对所述孤立森林模型的平均高度;
基于平均高度越低异常程度越大的原则,确定该未知行为是否异常。
作为本发明实施例的一种实施方式,所述高斯混合模型包括多个多元高斯分布模型;
上述基于多个未知行为的行为特征,以及多个实际发生的已知异常行为的行为特征,使用预先建立的高斯混合模型,从所述多个未知行为中,识别出异常行为,包括:
使用所述多个多元高斯分布模型,对多个未知行为的行为特征和多个实际发生的已知异常行为的行为特征,进行聚类,得到分别与每个多元高斯分布模型对应的行为特征簇;
针对每个行为特征簇,当该行为特征簇中已知异常行为的行为特征的数量大于预设数量阈值时,确定该行为特征簇中的未知行为是异常行为。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取对待识别业务进行访问的待识别行为的行为信息;
基于所述行为信息,生成所述待识别行为的行为特征;
将所述行为特征输入预先训练的有监督机器学习模型,得到表示所述待识别行为是否为异常的识别结果,其中,所述有监督机器学习模型为基于样本集训练得到的,所述样本集包括黑样本集和白样本集,所述黑样本集中包括已知异常行为的行为特征,所述白样本集中包括已知正常行为的行为特征。
本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一异常行为的识别方法。
需要说明的是,对于上述装置、电子设备及计算机可读存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于上述装置、电子设备、计算机可读存储介质及包含指令的计算机程序产品实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (9)
1.一种异常行为的识别方法,其特征在于,包括:
获取对待识别业务进行访问的待识别行为的行为信息;
基于所述行为信息,生成所述待识别行为的行为特征;
将所述行为特征输入预先训练的有监督机器学习模型,得到表示所述待识别行为是否为异常的识别结果,其中,所述有监督机器学习模型为基于样本集训练得到的,所述样本集包括黑样本集和白样本集,所述黑样本集中包括已知异常行为的行为特征,所述白样本集中包括已知正常行为的行为特征,所述样本集包括对第一类业务进行访问的行为的行为特征,以及对第二类业务进行访问的行为的行为特征;所述第一类业务为所述第二类业务的前置业务;
采用如下步骤创建所述黑样本集,包括:
基于多个未知行为的行为特征,使用预先建立的行为识别模型,从所述多个未知行为的行为特征中,识别出异常行为,所述未知行为是不确定属于正常行为还是属于异常行为的行为;
创建包括识别出的异常行为的行为特征,以及实际发生的已知异常行为的行为特征的黑样本集;
所述基于多个未知行为的行为特征,使用预先建立的行为识别模型,从所述多个未知行为的行为特征中,识别出异常行为,包括:
基于多个未知行为的行为特征,使用预先建立的孤立森林模型,从所述多个未知行为的行为特征中,识别出异常行为;或者
基于多个未知行为的行为特征,以及多个实际发生的已知异常行为的行为特征,使用预先建立的高斯混合模型,从所述多个未知行为的行为特征中,识别出异常行为。
2.根据权利要求1所述的方法,其特征在于,所述待识别业务为所述第一类业务或所述第二类业务。
3.根据权利要求1所述的方法,其特征在于,所述基于多个未知行为的行为特征,使用预先建立的孤立森林模型,从所述多个未知行为的行为特征中,识别出异常行为,包括:
针对多个未知行为中的每个未知行为,将该未知行为的行为特征输入预先建立的孤立森林模型中的多个孤立树中,得到该未知行为在每个所述孤立树中的高度;
计算该未知行为在所述多个孤立树中的高度的平均值,作为该未知行为针对所述孤立森林模型的平均高度;
基于平均高度越低异常程度越大的原则,确定该未知行为是否异常。
4.根据权利要求1所述的方法,其特征在于,所述高斯混合模型包括多个多元高斯分布模型;
所述基于多个未知行为的行为特征,以及多个实际发生的已知异常行为的行为特征,使用预先建立的高斯混合模型,从所述多个未知行为的行为特征中,识别出异常行为,包括:
使用所述多个多元高斯分布模型,对多个未知行为的行为特征和多个实际发生的已知异常行为的行为特征,进行聚类,得到分别与每个多元高斯分布模型对应的行为特征簇;
针对每个行为特征簇,当该行为特征簇中已知异常行为的行为特征的数量大于预设数量阈值时,确定该行为特征簇中的未知行为是异常行为。
5.一种异常行为的识别装置,其特征在于,所述装置包括:
行为信息获取模块,用于获取对待识别业务进行访问的待识别行为的行为信息;
行为特征生成模块,用于基于所述行为信息,生成所述待识别行为的行为特征;
异常行为识别模块,用于将所述行为特征输入预先训练的有监督机器学习模型,得到表示所述待识别行为是否为异常的识别结果,其中,所述有监督机器学习模型为基于样本集训练得到的,所述样本集包括黑样本集和白样本集,所述黑样本集中包括已知异常行为的行为特征,所述白样本集中包括已知正常行为的行为特征,所述样本集包括对第一类业务进行访问的行为的行为特征,以及对第二类业务进行访问的行为的行为特征;所述第一类业务为所述第二类业务的前置业务;
还包括:
黑样本集创建模块,用于创建所述黑样本集;
所述黑样本集创建模块,包括:
异常行为识别子模块,用于基于多个未知行为的行为特征,使用预先建立的行为识别模型,从所述多个未知行为的行为特征中,识别出异常行为,所述未知行为是不确定属于正常行为还是属于异常行为的行为;
黑样本集创建子模块,用于创建包括识别出的异常行为的行为特征,以及实际发生的已知异常行为的行为特征的黑样本集;
所述异常行为识别子模块,具体用于基于多个未知行为的行为特征,使用预先建立的孤立森林模型,从所述多个未知行为中,识别出异常行为;或者,基于多个未知行为的行为特征,以及多个实际发生的已知异常行为的行为特征,使用预先建立的高斯混合模型,从所述多个未知行为中,识别出异常行为。
6.根据权利要求5所述的装置,其特征在于,所述待识别业务为所述第一类业务或所述第二类业务。
7.根据权利要求5所述的装置,其特征在于,所述异常行为识别子模块,具体用于针对多个未知行为中的每个未知行为,将该未知行为的行为特征输入预先建立的孤立森林模型中的多个孤立树中,得到该未知行为在每个所述孤立树中的高度;并计算该未知行为在所述多个孤立树中的高度的平均值,作为该未知行为针对所述孤立森林模型的平均高度;以及基于平均高度越低异常程度越大的原则,确定该未知行为是否异常。
8.根据权利要求5所述的装置,其特征在于,所述高斯混合模型包括多个多元高斯分布模型;
所述异常行为识别子模块,具体用于使用所述多个多元高斯分布模型,对多个未知行为的行为特征和多个实际发生的已知异常行为的行为特征,进行聚类,得到分别与每个多元高斯分布模型对应的行为特征簇;并针对每个行为特征簇,当该行为特征簇中已知异常行为的行为特征的数量大于预设数量阈值时,确定该行为特征簇中的未知行为是异常行为。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-4任一所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910544335.2A CN110311902B (zh) | 2019-06-21 | 2019-06-21 | 一种异常行为的识别方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910544335.2A CN110311902B (zh) | 2019-06-21 | 2019-06-21 | 一种异常行为的识别方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110311902A CN110311902A (zh) | 2019-10-08 |
CN110311902B true CN110311902B (zh) | 2022-04-22 |
Family
ID=68076669
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910544335.2A Active CN110311902B (zh) | 2019-06-21 | 2019-06-21 | 一种异常行为的识别方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110311902B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110990810B (zh) * | 2019-11-28 | 2022-06-28 | 中国建设银行股份有限公司 | 一种用户操作数据处理方法、装置、设备及存储介质 |
CN111159251A (zh) * | 2019-12-19 | 2020-05-15 | 青岛聚好联科技有限公司 | 一种异常数据的确定方法及装置 |
CN113497785B (zh) * | 2020-03-20 | 2023-05-12 | 深信服科技股份有限公司 | 恶意加密流量检测方法、系统、存储介质和云端服务器 |
CN113468519A (zh) * | 2020-03-30 | 2021-10-01 | 中国移动通信集团浙江有限公司 | 外挂操作识别方法、装置及设备 |
CN111541687B (zh) * | 2020-04-21 | 2022-10-11 | 厦门网宿有限公司 | 一种网络攻击检测方法及装置 |
CN113159793A (zh) * | 2020-12-09 | 2021-07-23 | 同盾控股有限公司 | 数据处理方法、装置、电子设备及计算机存储介质 |
CN113537363B (zh) * | 2021-07-20 | 2023-12-15 | 北京奇艺世纪科技有限公司 | 一种异常对象检测方法及装置、电子设备及存储介质 |
CN113488187B (zh) * | 2021-08-03 | 2024-02-20 | 南通市第二人民医院 | 一种麻醉意外案例收集分析方法及系统 |
CN113630415A (zh) * | 2021-08-10 | 2021-11-09 | 工银科技有限公司 | 网络准入控制方法、装置、系统、设备、介质和产品 |
CN113987240B (zh) * | 2021-12-27 | 2022-04-08 | 智器云南京信息科技有限公司 | 一种基于知识图谱的海关检样溯源方法及系统 |
CN114449106B (zh) * | 2022-02-10 | 2024-04-30 | 恒安嘉新(北京)科技股份公司 | 一种异常电话号码的识别方法、装置、设备和存储介质 |
CN114567697A (zh) * | 2022-03-01 | 2022-05-31 | 恒安嘉新(北京)科技股份公司 | 一种异常电话的识别方法、装置、设备及存储介质 |
CN115168848B (zh) * | 2022-09-08 | 2022-12-16 | 南京鼎山信息科技有限公司 | 基于大数据分析拦截的拦截反馈处理方法 |
CN116244659B (zh) * | 2023-05-06 | 2023-07-28 | 杭州云信智策科技有限公司 | 一种识别异常设备的数据处理方法、装置、设备及介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106469276A (zh) * | 2015-08-19 | 2017-03-01 | 阿里巴巴集团控股有限公司 | 数据样本的类型识别方法及装置 |
CN106683662A (zh) * | 2015-11-10 | 2017-05-17 | 中国电信股份有限公司 | 一种语音识别方法和装置 |
CN106789844A (zh) * | 2015-11-23 | 2017-05-31 | 阿里巴巴集团控股有限公司 | 一种恶意用户识别方法及装置 |
CN107133265A (zh) * | 2017-03-31 | 2017-09-05 | 咪咕动漫有限公司 | 一种识别行为异常用户的方法及装置 |
CN108234463A (zh) * | 2017-12-22 | 2018-06-29 | 杭州安恒信息技术有限公司 | 一种基于多维行为模型的用户风险评估与分析方法 |
CN109413023A (zh) * | 2018-08-24 | 2019-03-01 | 阿里巴巴集团控股有限公司 | 机器识别模型的训练及机器识别方法、装置、电子设备 |
CN109561069A (zh) * | 2018-10-25 | 2019-04-02 | 阿里巴巴集团控股有限公司 | 一种识别模型的生成方法及装置、一种识别方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU7107700A (en) * | 1999-08-31 | 2001-03-26 | Accenture Llp | A system, method and article of manufacture for business logic services patternsin a netcentric environment |
US20030167182A1 (en) * | 2001-07-23 | 2003-09-04 | International Business Machines Corporation | Method and apparatus for providing symbolic mode checking of business application requirements |
US9292797B2 (en) * | 2012-12-14 | 2016-03-22 | International Business Machines Corporation | Semi-supervised data integration model for named entity classification |
CN109325525A (zh) * | 2018-08-31 | 2019-02-12 | 阿里巴巴集团控股有限公司 | 样本属性评估模型训练方法、装置及服务器 |
CN109903166B (zh) * | 2018-12-25 | 2024-01-30 | 创新先进技术有限公司 | 一种数据风险预测方法、装置及设备 |
-
2019
- 2019-06-21 CN CN201910544335.2A patent/CN110311902B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106469276A (zh) * | 2015-08-19 | 2017-03-01 | 阿里巴巴集团控股有限公司 | 数据样本的类型识别方法及装置 |
CN106683662A (zh) * | 2015-11-10 | 2017-05-17 | 中国电信股份有限公司 | 一种语音识别方法和装置 |
CN106789844A (zh) * | 2015-11-23 | 2017-05-31 | 阿里巴巴集团控股有限公司 | 一种恶意用户识别方法及装置 |
CN107133265A (zh) * | 2017-03-31 | 2017-09-05 | 咪咕动漫有限公司 | 一种识别行为异常用户的方法及装置 |
CN108234463A (zh) * | 2017-12-22 | 2018-06-29 | 杭州安恒信息技术有限公司 | 一种基于多维行为模型的用户风险评估与分析方法 |
CN109413023A (zh) * | 2018-08-24 | 2019-03-01 | 阿里巴巴集团控股有限公司 | 机器识别模型的训练及机器识别方法、装置、电子设备 |
CN109561069A (zh) * | 2018-10-25 | 2019-04-02 | 阿里巴巴集团控股有限公司 | 一种识别模型的生成方法及装置、一种识别方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110311902A (zh) | 2019-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110311902B (zh) | 一种异常行为的识别方法、装置及电子设备 | |
US11620204B2 (en) | Methods and systems for determining system capacity | |
US10785241B2 (en) | URL attack detection method and apparatus, and electronic device | |
CN110210617B (zh) | 一种基于特征增强的对抗样本生成方法及生成装置 | |
TWI700632B (zh) | 使用者意圖識別方法及裝置 | |
CN108920947B (zh) | 一种基于日志图建模的异常检测方法和装置 | |
CN109246064B (zh) | 安全访问控制、网络访问规则的生成方法、装置及设备 | |
US20130246290A1 (en) | Machine-Assisted Legal Assessments | |
CN109165691B (zh) | 用于识别作弊用户的模型的训练方法、装置及电子设备 | |
CN107204956B (zh) | 网站识别方法及装置 | |
CN106874253A (zh) | 识别敏感信息的方法及装置 | |
US10601857B2 (en) | Automatically assessing a severity of a vulnerability via social media | |
CN110110139B (zh) | 一种对推荐结果进行解释的方法、装置及电子设备 | |
CN111224941B (zh) | 一种威胁类型识别方法及装置 | |
US20140258987A1 (en) | Determining correctness of an application | |
CN108335131B (zh) | 一种预估用户年龄段的方法、装置及电子设备 | |
US10909235B1 (en) | Password security warning system | |
US9582586B2 (en) | Massive rule-based classification engine | |
CN110351299B (zh) | 一种网络连接检测方法和装置 | |
CN111324810A (zh) | 一种信息过滤方法、装置及电子设备 | |
CN110109888A (zh) | 一种文件处理方法及装置 | |
CN110995681B (zh) | 用户识别方法、装置、电子设备及存储介质 | |
CN115830649A (zh) | 一种网络资产指纹特征的识别方法、装置及电子设备 | |
CN111062490B (zh) | 一种包含隐私数据的网络数据的处理、识别方法及装置 | |
CN111966920A (zh) | 舆情传播的稳定条件的预测方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |