CN110019074A - 访问路径的分析方法、装置、设备及介质 - Google Patents
访问路径的分析方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN110019074A CN110019074A CN201711491590.2A CN201711491590A CN110019074A CN 110019074 A CN110019074 A CN 110019074A CN 201711491590 A CN201711491590 A CN 201711491590A CN 110019074 A CN110019074 A CN 110019074A
- Authority
- CN
- China
- Prior art keywords
- log
- access path
- access
- clustering
- decision tree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 71
- 238000003066 decision tree Methods 0.000 claims abstract description 64
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 49
- 238000007621 cluster analysis Methods 0.000 claims abstract description 9
- 238000003860 storage Methods 0.000 claims abstract description 8
- 230000002159 abnormal effect Effects 0.000 claims description 56
- 238000000034 method Methods 0.000 claims description 48
- 230000006399 behavior Effects 0.000 claims description 18
- 238000005065 mining Methods 0.000 claims description 11
- 230000001502 supplementing effect Effects 0.000 claims description 10
- 238000012098 association analyses Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 8
- 238000010219 correlation analysis Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000012550 audit Methods 0.000 abstract description 9
- 206010000117 Abnormal behaviour Diseases 0.000 abstract description 5
- 230000005856 abnormality Effects 0.000 abstract 2
- 230000008569 process Effects 0.000 description 15
- 238000012360 testing method Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 238000004519 manufacturing process Methods 0.000 description 6
- 239000013589 supplement Substances 0.000 description 6
- 230000008859 change Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000009469 supplementation Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/1805—Append-only file systems, e.g. using logs or journals to store data
- G06F16/1815—Journaling file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明实施例公开了一种访问路径的分析方法、访问路径的分析装置、计算机设备和计算机可读存储介质。其中,访问路径的分析方法包括:从日志库中获取登录日志;采用决策树算法对登录日志进行关联分析,构建日志决策树模型;根据日志决策树模型中登录日志的日志类型的关联,补充访问路径,以获取全部访问路径;采用聚类算法K‑means对全部访问路径进行聚类分析;根据聚类分析结果输出异常访问路径和访问路径基线。本发明使用决策树算法、聚类算法K‑means,实现了访问路径分析以及更有效的发现异常访问路径,提高了异常发现的准确性,挖掘出隐秘访问通道,进而实现异常行为的审计,提高了访问溯源的准确性。
Description
技术领域
本发明涉及信息安全管理技术领域,尤其涉及一种访问路径的分析方法、访问路径的分析装置、计算机设备及计算机可读存储介质。
背景技术
为了保护企业内部生产数据的安全,企业通过建立完整的日志审计系统,从技术上保证操作及行为的合规性,以减小审计管理员的压力,消除生产数据的安全风险。审计系统通过采集和处理各种主机、网络设备、安全设备、数据库、中间件以及应用系统的日志信息,对各业务系统维护过程中的必要行为进行审计,实现操作行为的可查、可控。
企业依据法律法规及安全管理办法,进行IT信息系统安全建设,规范企业员工的操作行为,日志审计系统依据上述规则规范,通过行为分析,从技术角度进行企业员工的操作行为审计。通常,审计系统建立5W1H(WHO何人、WHEN何时、WHERE何地、WHAT何事、WHY何因、HOW何法)模型,从WHO、WHEN、WHERE、WHAT、WHY、HOW几个方面,通过规则、特征、关键字匹配及统计分析来进行审计。
作为审计里面的重要要素,WHERE,操作地点,从哪里来到哪里去,也就是整个操作访问路径的审计,至关重要。可以通过访问路径补全、溯源和分析,审计发现来自非常用地点、非安全专区、非授权IP(Internet Protocol,网络之间互联协议)的用户访问以及通过多级跳转规避源IP的违规操作,还可以挖掘出网络策略未覆盖到的隐秘安全通道。
现有的访问路径分析,主要基于资源和系统的登录日志,通过解析日志中的源地址和目的地址,依据事先制定的访问规则字典,通过关键字匹配、统计对比来进行审计,而这些审计方法依赖的审计规则、审计策略和样本数据,主要依靠审计人员的判断、过往的经验来制定或者设定,在准确性和灵活性方面大打折扣,无法应对手段丰富的恶意访问,产生大量的漏审和误审,远远无法满足审计要求,普遍存在如下缺点:
1)溯源能力不够:
对于多级跳转的访问,获取不到准确的源地址,因而无法准地通过源地址进行审计。
2)审计发现异常路径的准确性不够:
生产环境情况复杂,很多时候也并不是非黑即白,所以目前主流的基于源IP地址的黑白名单的分析,其判断依据的准确性直接影响到分析结果,由于分析依据主要靠人工依靠经验来设定,所以可靠性并没有那么高。
3)无法挖掘隐秘安全通道:
实际生产中,网络环境复杂,有时候一条网络策略的改变会影响很多网络通道,会造成一些安全隐患,有些隐秘通道被恶意打通或者已经被利用,由于现有审计分析无法实现访问路径溯源补全,因而也无法获取完整的访问路径,实现不了隐秘安全通道的挖掘。
发明内容
本发明实施例提供了一种访问路径的分析方法、访问路径的分析装置、计算机设备和计算机可读存储介质。
第一方面,本发明实施例提供了一种访问路径的分析方法,方法包括:从日志库中获取登录日志;采用决策树算法对登录日志进行关联分析,构建日志决策树模型;根据日志决策树模型中登录日志的日志类型的关联,补充访问路径,以获取全部访问路径;采用聚类算法K-means(K均值)对全部访问路径进行聚类分析;根据聚类分析结果输出异常访问路径和访问路径基线。
第二方面,本发明实施例提供了一种访问路径的分析装置,装置包括:获取模块,用于从日志库中获取登录日志;关联模块,用于采用决策树算法对登录日志进行关联分析,构建日志决策树模型;补充模块,用于根据日志决策树模型中登录日志的日志类型的关联关系,补充访问路径,以获取全部访问路径;聚类模块,用汉语采用聚类算法K-means对全部访问路径进行聚类分析;输出模块,用于根据聚类分析结果输出异常访问路径和访问路径基线。
第三方面,本发明实施例提供了一种计算机设备,包括:至少一个处理器、至少一个存储器以及存储在存储器中的计算机程序指令,当计算机程序指令被处理器执行时实现如上述实施方式中第一方面的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序指令,当计算机程序指令被处理器执行时实现如上述实施方式中第一方面的方法。
本发明实施例提供的访问路径的分析方法、装置、设备及介质,从日志库中根据预设规则获取登录日志,采用决策树算法对所述登录日志进行关联分析,使得构建日志决策树模型的平均深度小,提高了分类效率和分类的准确性,根据所述日志决策树模型中所述登录日志的日志类型的关联关系,补充访问路径,采用聚类算法K-means进行聚类分析,实现了访问路径分析以及更有效的发现异常访问路径,提高了异常发现的准确性,挖掘出隐秘访问通道,进而实现异常行为的审计,提高了访问溯源的准确性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明一个实施例提供的访问路径的分析方法的流程示意图;
图2示出了本发明一个具体实施例提供的日志决策树模型的示意图;
图3示出了本发明一个具体实施例提供的聚类分析结果的示意图;
图4示出了本发明一个实施例提供的聚类分析方法的流程示意图;
图5示出了本发明一个实施例提供的访问路径的分析装置的示意框图;
图6示出了本发明实施例提供的计算机设备的硬件结构示意图。
具体实施方式
下面将详细描述本发明的各个方面的特征和示例性实施例,为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本发明,并不被配置为限定本发明。对于本领域技术人员来说,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本发明第一方面的实施例提供了一种访问路径的分析,图1示出了本发明一个实施例提供的访问路径的分析的流程示意图。该方法包括:
步骤102,从日志库中获取登录日志;
步骤104,采用决策树算法对登录日志进行关联分析,构建日志决策树模型;
步骤106,根据日志决策树模型中登录日志的日志类型的关联关系,补充访问路径,以获取全部访问路径;
步骤108,采用聚类算法K-means对全部访问路径进行聚类分析;
步骤110,根据聚类分析结果输出异常访问路径和访问路径基线。
本发明实施例提供的访问路径的分析方法,从日志库中根据预设规则获取登录日志,采用决策树算法对所述登录日志进行关联分析,使得构建日志决策树模型的平均深度小,提高了分类效率和分类的准确性,根据所述日志决策树模型中所述登录日志的日志类型的关联关系,补充访问路径,采用聚类算法K-means进行聚类分析,实现了访问路径分析以及更有效的发现异常访问路径,提高了异常发现的准确性,挖掘出隐秘访问通道,进而实现异常行为的审计,提高了访问溯源的准确性。
在一个示例中,步骤104采用决策树算法对登录日志进行关联分析,构建日志决策树模型,包括:根据登录日志中登录登出日志和跳转操作日志的关联规则,计算各个访问路径之间的顺序和关联关系;根据顺序和关联关系补充客户端IP地址;采用决策树算法,根据顺序和关联关系和补充的客户端IP地址构建日志决策树模型。
在该示例中,利用登录登出日志,结合跳转操作日志的关联规则,计算访问路径之间的顺序和关联关系,判断并补全真实的客户端IP地址,进行访问源地址的溯源。采用决策树算法ID3构建出日志决策树模型,如图2所示的一个具体实施例的日志决策树模型。
ID3算法基于信息熵来选择最佳的测试属性,它选择当前样本集中具有最大信息增益值的属性作为测试属性;样本集的划分则依据测试属性的取值进行,测试属性有多少个不同的取值就将样本集划分为多少个子样本集,同时决策树上相应于该样本集的节点长出新的叶子节点。ID3算法(一种贪心算法,用来构造决策树)根据信息论的理论,采用划分后样本集的不确定性作为衡量划分好坏的标准,用信息增益值度量不确定性:信息增益值越大,不确定性越小。因此,ID3算法在每个非叶节点选择信息增益最大的属性作为测试属性,这样可以得到当前情况下最纯的划分,从而得到较小的决策树。
设S是s个数据样本的集合。假定类别属性具有m个不同的值:Ci(i=1,2,...,m),设si是类Ci中的样本数。对一个给定的样本,它总的信息熵为其中,Pi是任意样本属于Ci的概率,一般可以用si/s估计。
设一个属性A具有k个不同的值{α1,α2,...,αk},利用属性A将集合S划分为k个子集{S1,S2,...,Sk},其中sj包含了集合S中属性A取αj值的样本。若选择属性A为测试属性,则这些子集就是从集合S的节点生长出来的新的叶节点。设sij是子集sj中类别为Cj的样本数,则根据属性A划分样本的信息熵为:
其中,是子集sj中类别为Cj的样本的概率。
最后,用属性A划分样本集S后所得的信息增益(Gain)为:
Gain(A)=I(s1,s2,...,sm)-E(A)
显然E(A)越小,Gain(A)的值就越大,说明选择测试属性A对于分类提供的信息越大,选择A之后对分类的不确定程度越小。属性A的k个不同的值对应的样本集S的k个子集或分支,通过递归调用上述过程(不包括已经选择的属性),生成其他属性作为节点的子节点和分支来生成整个决策树。ID3决策树算法作为一个典型的决策树学习算法,其核心是在决策树的各级节点上都用信息增益作为判断标准来进行属性的选择,使得在每个非叶子节点上进行测试时,都能获得最大的类别分类增益,使分类后的数据集的熵最小。这样的处理方法使得树的平均深度较小,从而有效地提高了分类效率。
ID3算法构建的决策树模型是通过机器学习的方法实现,可以自动调整和修正。决策树是一树状结构,它的每一个叶子节点对应着一个日志分类,非叶子节点对应着在日志某个属性值域的划分,根据样本在该属性上的不同取值将其划分成若干个子集,在每一步如何选择适当的属性对样本进行拆分,对每类日志进行分类和关联,从已知类标记的训练样本中学习并构造出决策树,是一个自上而下分而治之的过程,其核心是在决策树的各级节点上都用信息增益作为判断标准来进行属性的选择,使得在每个非叶子节点上进行测试时,都能获得最大的类别分类增益,使分类后的数据集的熵最小,这样的处理方法使得树的平均深度较小,从而有效地提高了分类效率及准确性。传统方法通常利用日志属性设定一些固定的关联关系,这样构建出来的关联模型,在应对新类型的日志属性时无法处理,依靠固定规则的提取,在分类和预测方面有着天然的缺点,因此,采用ID3算法构建的日志决策树模型解决了当前方法通过日志的关联关系建立灵活的分析模型的技术问题,有效的提高了分类效率和分类的准确性。
在上述任一示例中,步骤106根据日志决策树模型中登录日志的日志类型的关联关系,补充访问路径,以获取全部访问路径,包括:获取日志决策树模型中登录日志的日志类型的关联关系;根据日志类型的关联关系获取源IP地址、各个跳转IP地址和目标资源IP地址;根据取源IP地址、各个跳转IP地址和目标资源IP地址补充访问路径,获取全部访问路径。
在该示例中,根据之前构建出的决策树模型进行日志类型的关联,补全访问的整个过程,从登录开始,经过多级跳转,到最后的访问目标资源,实现真正的从源地址到经过的跳板到目标资源的真正访问路径补全。
在上述任一示例中,步骤108采用聚类算法K-means对全部访问路径进行聚类分析,包括:对所述全部访问路径进行预处理,分别计算所述源IP地址、所述各个跳转IP和所述目标资源IP地址所属的对应IP网段;以各个所述对应IP网段及其发生次数组成预设集合,从所述预设集合中随机选取K个元素分别作为K个聚类簇的簇中心;分别计算除所述K个元素之外的其他元素到所述簇中心的相异度,将所述其他元素划分到与其相异度最小的聚类簇;对所述K个聚类簇进行训练,直至聚类分析的结果保持不变,输出所述聚类分析结果。
在该示例中,采用聚类分析k-means算法,k-means是一种聚类算法,其目的也是把数据分类,但是事先并不需要知道如何去分的,分多少类,只需要通过不断设置聚类中心点个数,进行收敛计算,直到聚类结果达符合要求为止,完全是算法自己来判断各条数据之间的相似性,把相似数据放在一起,如图3示出了一个具体实施例的聚类分析结果。而当前使用分类统计来做路径的相似性分析,通过对已知分类的数据进行训练和学习,找到这些不同类的特征,再对未分类的数据进行分类,根据文本的特征或属性,划分到已有的类别中。当前方法要事先人为制定分类,而面对复杂的网络环境,人为制定路径分类的方法主要依靠分类规则制定者的主观经验,具有片面性,同时对于不属于已知分类的数据,无法进行精细的处理,只能笼统划归到异类中,从而导致准确性下降。因此,面对繁多的访问路径,聚类算法更适合访问路径基线分析建立的场景,通过聚类算法K-means,将补全后的访问路径进行相似性分析,计算各个网段或者服务器地址的访问特点,以及不符合通常访问规律的访问通道。
如图4所示的聚类分析的具体过程包括:
步骤402,数据预处理:抽取补全后的访问路径日志,降噪清洗程序账号访问日志和应用互访日志等;计算源IP、跳转IP、目的IP各自属于的IP网段,以IP网段替代IP地址形成访问路径关系,进行统计计数;
步骤404,中心点选取:以IP段形式的访问路径及其发生次数组成的集合,从中随机取k个元素,作为k个簇的各自的中心。
步骤406,相异度计算:分别计算剩下的元素到簇中心的相异度,将这些元素分别划归到相异度最低的簇。相异度的数学定义:设X={x1,x2,…,xn},Y={y1,y2,…,yn},其中X,Y是两个元素项,各自具有n个可度量特征属性,那么X和Y的相异度定义为:d(X,Y)=f(X,Y)→R,其中R为实数域。也就是说相异度是两个元素对实数域的一个映射,所映射的实数定量表示两个元素的相异度。常用作度量标量相异度的有欧氏距离、曼哈顿距离和闵可夫斯基距离,该示例中采用欧氏距离,其定义如下:
步骤408,算法训练:根据聚类结果的收敛情况,重新计算k个簇各自的中心,计算方法是选取簇中所有元素各自维度的算术平均数,将集合中全部元素按照新的中心重新聚类。计算公式如下:
重复此训练过程,直到聚类结果不再发生变化,也就是说目标函数达到最优或者达到最大的迭代次数即可终止。对于不同的距离度量,目标函数往往不同,该示例中采用欧式距离,目标函数取最小化对象到其簇质心的距离的平方和,如下:
步骤410,聚类结果输出:将聚类分析的结果输出。
在上述任一示例中,步骤110根据聚类分析结果输出异常访问路径和访问路径基线,包括:根据所述聚类分析结果获得聚类簇和离群点;对所述离群点进行分析,输出异常访问路径;根据所述聚类簇确认并输出访问路径基线。
在该示例中,根据补全的访问路径在分析周期内的发生次数进行聚类划分,同时结合二维图上的数据对访问路径进行聚类簇和离群点划分,结合结合访问规则、黑白名单等字典类数据,以及维护终端、资产、业务系统等数据,找出离群点里面的异常路径,根据正常的聚类簇建立正常访问路径基线。
在上述任一示例中,对所述离群点进行分析,输出异常访问路径的步骤包括:对所述离群点进行挖掘,获得异常访问行为;根据异常访问行为输出异常访问路径;其中,所述异常访问行为包括:非常用地点访问、安全专区外访问、非授权IP访问、多级跳转。
在该示例中,基于异常路径分析的结论,分析出异常访问路径,挖掘出包括非常用地点访问、安全专区外访问、非授权IP访问、多级跳转等异常行为,实现了对异常访问行为的挖掘。
在上述任一示例中,在所述根据异常访问行为输出异常访问路径之后,还包括:生成异常访问路径告警;对所述异常访问路径挖掘分析,获得隐秘的安全通道和问题网络策略;根据所述隐秘的安全通道和所述问题网络策略进行网络封堵。
在该示例中,在输出异常访问路径之后,生成异常访问路径告警,并输出异常访问路径报表,异常访问路径经过人工确认和分析,挖掘出隐秘的安全通道,暴露出问题网络策略,并以此结论作为网络封堵的参考。
在上述任一示例中,所述根据所述聚类簇确认并输出访问路径基线的步骤,包括:根据所述聚类簇获得正常访问路径;根据预设访问规则对所述正常访问路径进行筛选;将筛选后的正常访问路径作为所述访问路径基线,输出所述访问路径基线。
在该示例中,将分析结论中的符合访问习惯和访问规则的路径,经过确认后,作为访问基线,用于以后的异常访问路径判别。
在上述任一示例中,所述登录日志包括:管控平台记录的单点登录日志、堡垒主机记录的资源登录日志和远程登录操作日志、资源记录的登录日志和操作日志。
在该示例中,获取的全面的登录类日志,为后续访问路径分析提供分析基础,最终实现准确的发现异常访问路径、准确的溯源、挖掘隐秘访问通道。
上述任一示例中的访问路径的分析方法具有如下优点:
1)准确的溯源能力:
创建日志关联分析模型,判断访问源IP的真实性,回溯整个访问过程,补全完整的访问路径。
2)异常访问路径的发现能力:
不同于人工规则设置,采用除规则外,基于场景数据建模、算法、机器学习等手段,通过自动归纳访问路径来建立业务模型和访问路径基线。分析模型的和访问路径基线的形成经过了机器学习和算法的反复训练,贴合实际的业务规律,较之传统方式能够将误差降到最低,更有效准确的发现异常。
3)隐秘访问通道的挖掘能力:
在实际的维护生产过程中,一条网络策略的变更可能会造成很多网络通道的改变,而这些通过人工来判断并管理显然有相当难度,因此会有很多未进行管控的访问通道,给系统和生产带来安全隐患。通过对整个访问路径的分析和补全,进而进行异常路径分析,把被利用的异常的网络安全通道给挖掘出来。
本发明第二方面的实施例提供了一种访问路径的分析装置500,图5示出了本发明一个实施例提供的访问路径的分析装置500的示意框图。如图5所示,访问路径的分析装置500包括:获取模块50、关联模块52、补充模块54、聚类模块56和输出模块58。
本发明实施例提供的访问路径的分析装置500中,获取模块50用于从日志库中获取登录日志;关联模块52用于采用决策树算法对登录日志进行关联分析,构建日志决策树模型;补充模块54用于根据日志决策树模型中登录日志的日志类型的关联关系,补充访问路径,以获取全部访问路径;聚类模块56用汉语采用聚类算法K-means对全部访问路径进行聚类分析;输出模块58用于根据聚类分析结果输出异常访问路径和访问路径基线。获取模块50从日志库中根据预设规则获取登录日志,关联模块52采用决策树算法对所述登录日志进行关联分析,使得构建日志决策树模型的平均深度小,提高了分类效率和分类的准确性,补充模块54根据所述日志决策树模型中所述登录日志的日志类型的关联关系,补充访问路径,聚类模块56采用聚类算法K-means进行聚类分析,输出模块58根据聚类分析结果输出异常访问路径和访问路径基线,实现了访问路径分析以及更有效的发现异常访问路径,提高了异常发现的准确性,挖掘出隐秘访问通道,进而实现异常行为的审计,提高了访问溯源的准确性。
在一个示例中,关联模块52具体用于根据所述登录日志中登录登出日志和跳转操作日志的关联规则,计算各个所述访问路径之间的顺序和关联关系;根据所述顺序和所述关联关系补充客户端IP地址;采用所述决策树算法,根据所述顺序和所述关联关系和补充的所述客户端IP地址构建所述日志决策树模型。
在一个示例中,补充模块54具体用于获取所述日志决策树模型中所述登录日志的日志类型的关联关系;根据所述日志类型的关联关系获取源IP地址、各个跳转IP地址和目标资源IP地址;根据所述取源IP地址、所述各个跳转IP地址和所述目标资源IP地址补充访问路径,获取所述全部访问路径。
在一个示例中,聚类模块56具体用于对所述全部访问路径进行预处理,分别计算所述源IP地址、所述各个跳转IP和所述目标资源IP地址所属的对应IP网段;以各个所述对应IP网段及其发生次数组成预设集合,从所述预设集合中随机选取K个元素分别作为K个聚类簇的簇中心;分别计算除所述K个元素之外的其他元素到所述簇中心的相异度,将所述其他元素划分到与其相异度最小的聚类簇;对所述K个聚类簇进行训练,直至聚类分析的结果保持不变,输出所述聚类分析结果。
在一个示例中,输出模块58具体用于根据所述聚类分析结果获得聚类簇和离群点;对所述离群点进行分析,输出异常访问路径;根据所述聚类簇确认并输出访问路径基线。
在一个示例中,输出模块58对所述离群点进行分析,输出异常访问路径的步骤,包括:对所述离群点进行挖掘,获得异常访问行为;根据异常访问行为输出异常访问路径;其中,所述异常访问行为包括:非常用地点访问、安全专区外访问、非授权IP访问、多级跳转。
在一个示例中,访问路径的分析装置500还用于生成异常访问路径告警;对所述异常访问路径挖掘分析,获得隐秘的安全通道和问题网络策略;根据所述隐秘的安全通道和所述问题网络策略进行网络封堵。
在一个示例中,输出模块58根据所述聚类簇确认并输出访问路径基线的步骤,包括:根据所述聚类簇获得正常访问路径;根据预设访问规则对所述正常访问路径进行筛选;将筛选后的正常访问路径作为所述访问路径基线,输出所述访问路径基线。
在一个示例中,所述登录日志包括:管控平台记录的单点登录日志、堡垒主机记录的资源登录日志和远程登录操作日志、资源记录的登录日志和操作日志。
另外,结合图1至图4描述的本发明实施例的访问路径的分析方法可以由计算机设备来实现。图6示出了本发明实施例提供的计算机设备的硬件结构示意图。
计算机设备可以包括处理器601以及存储有计算机程序指令的存储器602。
具体地,上述处理器601可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本发明实施例的一个或多个集成电路。
存储器602可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器602可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器602可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器602可在数据处理装置的内部或外部。在特定实施例中,存储器602是非易失性固态存储器。在特定实施例中,存储器602包括只读存储器(ROM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。
处理器601通过读取并执行存储器602中存储的计算机程序指令,以实现上述实施例中的任意一种访问路径的分析方法。
在一个示例中,计算机设备还可包括通信接口603和总线610。其中,如图6所示,处理器601、存储器602、通信接口603通过总线610连接并完成相互间的通信。
通信接口603,主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。
总线610包括硬件、软件或两者,将计算机设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线610可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线,但本发明考虑任何合适的总线或互连。
另外,结合上述实施例中的访问路径的分析方法,本发明实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种访问路径的分析方法。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
以上所述,仅为本发明的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。
Claims (12)
1.一种访问路径的分析方法,其特征在于,所述方法包括:
从日志库中获取登录日志;
采用决策树算法对所述登录日志进行关联分析,构建日志决策树模型;
根据所述日志决策树模型中所述登录日志的日志类型的关联关系,补充访问路径,以获取全部访问路径;
采用聚类算法K-means对所述全部访问路径进行聚类分析;
根据聚类分析结果输出异常访问路径和访问路径基线。
2.根据权利要求1所述的方法,其特征在于,所述采用决策树算法对所述登录日志进行关联分析,构建日志决策树模型的步骤,包括:
根据所述登录日志中登录登出日志和跳转操作日志的关联规则,计算各个所述访问路径之间的顺序和关联关系;
根据所述顺序和所述关联关系补充客户端IP地址;
采用所述决策树算法,根据所述顺序和所述关联关系和补充的所述客户端IP地址构建所述日志决策树模型。
3.根据权利要求1所述的方法,其特征在于,所述根据所述日志决策树模型中所述登录日志的日志类型的关联关系,补充访问路径,以获取全部访问路径的步骤,包括:
获取所述日志决策树模型中所述登录日志的日志类型的关联关系;
根据所述日志类型的关联关系获取源IP地址、各个跳转IP地址和目标资源IP地址;
根据所述取源IP地址、所述各个跳转IP地址和所述目标资源IP地址补充访问路径,获取所述全部访问路径。
4.根据权利要求3所述的方法,其特征在于,所述采用聚类算法K-means对所述全部访问路径进行聚类分析的步骤,包括:
对所述全部访问路径进行预处理,分别计算所述源IP地址、所述各个跳转IP和所述目标资源IP地址所属的对应IP网段;
以各个所述对应IP网段及其发生次数组成预设集合,从所述预设集合中随机选取K个元素分别作为K个聚类簇的簇中心;
分别计算除所述K个元素之外的其他元素到所述簇中心的相异度,将所述其他元素划分到与其相异度最小的聚类簇;
对所述K个聚类簇进行训练,直至聚类分析的结果保持不变,输出所述聚类分析结果。
5.根据权利要求1所述的方法,其特征在于,所述根据所述聚类分析结果输出异常访问路径和访问路径基线的步骤,包括:
根据所述聚类分析结果获得聚类簇和离群点;
对所述离群点进行分析,输出异常访问路径;
根据所述聚类簇确认并输出访问路径基线。
6.根据权利要求5所述的方法,其特征在于,所述对所述离群点进行分析,输出异常访问路径的步骤,包括:
对所述离群点进行挖掘,获得异常访问行为;
根据异常访问行为输出异常访问路径;
其中,所述异常访问行为包括:非常用地点访问、安全专区外访问、非授权IP访问、多级跳转。
7.根据权利要求6所述的方法,其特征在于,在所述根据异常访问行为输出异常访问路径之后,还包括:
生成异常访问路径告警;
对所述异常访问路径挖掘分析,获得隐秘的安全通道和问题网络策略;
根据所述隐秘的安全通道和所述问题网络策略进行网络封堵。
8.根据权利要求5所述的方法,其特征在于,所述根据所述聚类簇确认并输出访问路径基线的步骤,包括:
根据所述聚类簇获得正常访问路径;
根据预设访问规则对所述正常访问路径进行筛选;
将筛选后的正常访问路径作为所述访问路径基线,输出所述访问路径基线。
9.根据权利要求1至8中任一项所述的方法,其特征在于,
所述登录日志包括:管控平台记录的单点登录日志、堡垒主机记录的资源登录日志和远程登录操作日志、资源记录的登录日志和操作日志。
10.一种访问路径的分析装置,其特征在于,所述装置包括:
获取模块,用于从日志库中获取登录日志;
关联模块,用于采用决策树算法对所述登录日志进行关联分析,构建日志决策树模型;
补充模块,用于根据所述日志决策树模型中所述登录日志的日志类型的关联关系,补充访问路径,以获取全部访问路径;
聚类模块,用汉语采用聚类算法K-means对所述全部访问路径进行聚类分析;
输出模块,用于根据聚类分析结果输出异常访问路径和访问路径基线。
11.一种计算机设备,其特征在于,包括:至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令,当所述计算机程序指令被所述处理器执行时实现如权利要求1至9中任一项所述的方法。
12.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,当所述计算机程序指令被处理器执行时实现如权利要求1至9中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711491590.2A CN110019074B (zh) | 2017-12-30 | 2017-12-30 | 访问路径的分析方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711491590.2A CN110019074B (zh) | 2017-12-30 | 2017-12-30 | 访问路径的分析方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110019074A true CN110019074A (zh) | 2019-07-16 |
CN110019074B CN110019074B (zh) | 2021-03-23 |
Family
ID=67187225
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711491590.2A Active CN110019074B (zh) | 2017-12-30 | 2017-12-30 | 访问路径的分析方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110019074B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110460587A (zh) * | 2019-07-23 | 2019-11-15 | 平安科技(深圳)有限公司 | 一种异常账号检测方法、装置及计算机存储介质 |
CN110602046A (zh) * | 2019-08-13 | 2019-12-20 | 上海陆家嘴国际金融资产交易市场股份有限公司 | 数据监控处理方法、装置、计算机设备和存储介质 |
CN111143178A (zh) * | 2019-12-12 | 2020-05-12 | 支付宝(杭州)信息技术有限公司 | 用户行为分析方法、装置及设备 |
CN111756731A (zh) * | 2020-06-23 | 2020-10-09 | 全球能源互联网研究院有限公司 | 一种专用网络的可信测度方法及系统 |
CN111917801A (zh) * | 2020-08-18 | 2020-11-10 | 南京工业大学浦江学院 | 私有云环境下基于Petri网的用户行为认证方法 |
CN112231479A (zh) * | 2020-10-23 | 2021-01-15 | 新华三信息安全技术有限公司 | 一种安全审计方法及装置 |
CN112261019A (zh) * | 2020-10-13 | 2021-01-22 | 中移(杭州)信息技术有限公司 | 分布式拒绝服务攻击检测方法、装置及存储介质 |
CN113434745A (zh) * | 2021-06-24 | 2021-09-24 | 未鲲(上海)科技服务有限公司 | 基于聚类算法的用户行为分析方法、装置、设备及介质 |
CN114185761A (zh) * | 2021-12-17 | 2022-03-15 | 建信金融科技有限责任公司 | 日志采集方法、装置及设备 |
CN115329379A (zh) * | 2022-08-16 | 2022-11-11 | 中国电信股份有限公司 | 资产访问防护方法、装置、设备及存储介质 |
CN115408701A (zh) * | 2022-08-30 | 2022-11-29 | 周康发 | 人工智能与大数据结合的数据资产漏洞分析方法及系统 |
CN115454781A (zh) * | 2022-10-08 | 2022-12-09 | 杭银消费金融股份有限公司 | 基于企业架构系统的数据可视化展现方法及系统 |
CN117349126A (zh) * | 2023-12-05 | 2024-01-05 | 国网辽宁省电力有限公司大连供电公司 | 一种基于大数据的实时信息网络日志分析方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102393849A (zh) * | 2011-07-18 | 2012-03-28 | 电子科技大学 | 一种Web日志数据的预处理方法 |
CN106227790A (zh) * | 2016-07-19 | 2016-12-14 | 北京北信源软件股份有限公司 | 一种使用Apache Spark分类与解析海量日志的方法 |
CN106789912A (zh) * | 2016-11-22 | 2017-05-31 | 清华大学 | 基于分类回归决策树的路由器数据平面异常行为检测方法 |
CN107437026A (zh) * | 2017-07-13 | 2017-12-05 | 西北大学 | 一种基于广告网络拓扑的恶意网页广告检测方法 |
-
2017
- 2017-12-30 CN CN201711491590.2A patent/CN110019074B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102393849A (zh) * | 2011-07-18 | 2012-03-28 | 电子科技大学 | 一种Web日志数据的预处理方法 |
CN106227790A (zh) * | 2016-07-19 | 2016-12-14 | 北京北信源软件股份有限公司 | 一种使用Apache Spark分类与解析海量日志的方法 |
CN106789912A (zh) * | 2016-11-22 | 2017-05-31 | 清华大学 | 基于分类回归决策树的路由器数据平面异常行为检测方法 |
CN107437026A (zh) * | 2017-07-13 | 2017-12-05 | 西北大学 | 一种基于广告网络拓扑的恶意网页广告检测方法 |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110460587A (zh) * | 2019-07-23 | 2019-11-15 | 平安科技(深圳)有限公司 | 一种异常账号检测方法、装置及计算机存储介质 |
CN110460587B (zh) * | 2019-07-23 | 2022-01-25 | 平安科技(深圳)有限公司 | 一种异常账号检测方法、装置及计算机存储介质 |
CN110602046B (zh) * | 2019-08-13 | 2022-04-26 | 未鲲(上海)科技服务有限公司 | 数据监控处理方法、装置、计算机设备和存储介质 |
CN110602046A (zh) * | 2019-08-13 | 2019-12-20 | 上海陆家嘴国际金融资产交易市场股份有限公司 | 数据监控处理方法、装置、计算机设备和存储介质 |
CN111143178A (zh) * | 2019-12-12 | 2020-05-12 | 支付宝(杭州)信息技术有限公司 | 用户行为分析方法、装置及设备 |
CN111143178B (zh) * | 2019-12-12 | 2022-07-29 | 支付宝(杭州)信息技术有限公司 | 用户行为分析方法、装置及设备 |
CN111756731A (zh) * | 2020-06-23 | 2020-10-09 | 全球能源互联网研究院有限公司 | 一种专用网络的可信测度方法及系统 |
CN111917801A (zh) * | 2020-08-18 | 2020-11-10 | 南京工业大学浦江学院 | 私有云环境下基于Petri网的用户行为认证方法 |
CN112261019A (zh) * | 2020-10-13 | 2021-01-22 | 中移(杭州)信息技术有限公司 | 分布式拒绝服务攻击检测方法、装置及存储介质 |
CN112231479A (zh) * | 2020-10-23 | 2021-01-15 | 新华三信息安全技术有限公司 | 一种安全审计方法及装置 |
CN112231479B (zh) * | 2020-10-23 | 2023-03-31 | 新华三信息安全技术有限公司 | 一种安全审计方法及装置 |
CN113434745A (zh) * | 2021-06-24 | 2021-09-24 | 未鲲(上海)科技服务有限公司 | 基于聚类算法的用户行为分析方法、装置、设备及介质 |
CN114185761A (zh) * | 2021-12-17 | 2022-03-15 | 建信金融科技有限责任公司 | 日志采集方法、装置及设备 |
CN114185761B (zh) * | 2021-12-17 | 2024-08-23 | 建信金融科技有限责任公司 | 日志采集方法、装置及设备 |
CN115329379A (zh) * | 2022-08-16 | 2022-11-11 | 中国电信股份有限公司 | 资产访问防护方法、装置、设备及存储介质 |
CN115408701A (zh) * | 2022-08-30 | 2022-11-29 | 周康发 | 人工智能与大数据结合的数据资产漏洞分析方法及系统 |
CN115408701B (zh) * | 2022-08-30 | 2023-06-27 | 上海聚均科技有限公司 | 人工智能与大数据结合的数据资产漏洞分析方法及系统 |
CN115454781A (zh) * | 2022-10-08 | 2022-12-09 | 杭银消费金融股份有限公司 | 基于企业架构系统的数据可视化展现方法及系统 |
CN115454781B (zh) * | 2022-10-08 | 2023-05-16 | 杭银消费金融股份有限公司 | 基于企业架构系统的数据可视化展现方法及系统 |
CN117349126A (zh) * | 2023-12-05 | 2024-01-05 | 国网辽宁省电力有限公司大连供电公司 | 一种基于大数据的实时信息网络日志分析方法及系统 |
CN117349126B (zh) * | 2023-12-05 | 2024-02-09 | 国网辽宁省电力有限公司大连供电公司 | 一种基于大数据的实时信息网络日志分析方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110019074B (zh) | 2021-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110019074B (zh) | 访问路径的分析方法、装置、设备及介质 | |
US20240028571A1 (en) | Automatic entity resolution with rules detection and generation system | |
CN110414555B (zh) | 检测异常样本的方法及装置 | |
CN111107072B (zh) | 一种基于认证图嵌入的异常登录行为检测方法及系统 | |
CN116739389A (zh) | 基于云计算的智慧城市管理方法及系统 | |
CN108809745A (zh) | 一种用户异常行为检测方法、装置及系统 | |
US11533373B2 (en) | Global iterative clustering algorithm to model entities' behaviors and detect anomalies | |
CN111026653B (zh) | 异常程序行为检测方法、装置、电子设备和存储介质 | |
CN109818961B (zh) | 一种网络入侵检测方法、装置和设备 | |
Sahlabadi et al. | Detecting abnormal behavior in social network websites by using a process mining technique | |
CN113221104B (zh) | 用户异常行为的检测方法及用户行为重构模型的训练方法 | |
US11568179B2 (en) | Selecting an algorithm for analyzing a data set based on the distribution of the data set | |
US20190026650A1 (en) | Bootstrapping multiple varieties of ground truth for a cognitive system | |
CN112733146B (zh) | 基于机器学习的渗透测试方法、装置、设备及存储介质 | |
CN111047173B (zh) | 基于改进d-s证据理论的社团可信度评估方法 | |
CN114841789B (zh) | 基于区块链的审计审价故障数据在线编辑方法及系统 | |
CN112202718B (zh) | 一种基于XGBoost算法的操作系统识别方法、存储介质及设备 | |
CN118052558B (zh) | 基于人工智能的风控模型决策方法及系统 | |
CN114328106A (zh) | 日志数据处理方法、装置、设备及存储介质 | |
CN117056834A (zh) | 基于决策树的大数据分析方法 | |
CN116662817A (zh) | 物联网设备的资产识别方法及系统 | |
CN115577357A (zh) | 一种基于堆叠集成技术的Android恶意软件检测方法 | |
CN109344913B (zh) | 一种基于改进MajorClust聚类的网络入侵行为检测方法 | |
JP7274162B2 (ja) | 異常操作検知装置、異常操作検知方法、およびプログラム | |
CN110765329A (zh) | 一种数据的聚类方法和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |