CN107239704A

CN107239704A - 恶意网页发现方法及装置

Info

Publication number: CN107239704A
Application number: CN201710374994.7A
Authority: CN
Inventors: 李鹏霄; 杜翠兰; 任彦; 刘晓辉; 易立; 钮艳; 佟玲玲; 张鹏; 陈志鹏
Original assignee: Institute of Information Engineering of CAS; National Computer Network and Information Security Management Center
Current assignee: Institute of Information Engineering of CAS; National Computer Network and Information Security Management Center
Priority date: 2017-05-24
Filing date: 2017-05-24
Publication date: 2017-10-10

Abstract

本发明公开了一种恶意网页发现方法及装置，所述方法包括：确定每个预先选取的低可信度用户的网页资源访问集合；从确定的访问集合中确定出所有低可信度用户的网页资源访问交集；对所述访问交集中网页资源进行恶意网页检测，根据检测结果，确定恶意网页。本发明有效地解决现有恶意网页分类技术易漏判、准确率低和效率低的问题。

Description

恶意网页发现方法及装置

技术领域

本发明涉及网络安全技术领域，特别是涉及一种恶意网页发现方法及装置。

背景技术

为了保护用户的计算机免受恶意网站攻击，现有技术中浏览器往往采用内置恶意网址列表的方法为用户提供安全服务。这类安全服务的原理简单且易于实现，因此在工业界被广泛应用。然而，随着互联网的发展和网络攻击方式的层出不穷，这种方法逐渐面临一些新的挑战，包括：在大规模的网络数据环境下，由于恶意网址列表的更新速度远远跟不上恶意网页的更新速度，容易出现漏判的情况；随着恶意网页隐匿技术的逐步应用，恶意网页的发现难度也越来越大；由于不均衡数据集特点，少量恶意网页往往淹没在海量的正常网页中，如果对每个网页都进行分析，资源利用率将十分低下。因此，如何快速准确地从大量正常网页中筛选出新出现的恶意网页成为一个迫切需要解决的问题。

而针对恶意网页分类问题，随着存储技术的不断提升，恶意网页的检测方法也不断发展。按照检测思路可以大致分为：基于黑名单的方法、基于深度包检测的方法和基于机器学习的方法等三种思路。基于黑名单的方法相对比较简单，易于实现。它首先对恶意网页URL进行标注，然后利用字符串匹配等技术恶意网页URL的识别。而恶意网页URL的人工标注需要标注人员有专业的领域知识，且耗时较长，只适合低速、小规模的网络环境。自动标注多利用启发式的网络爬虫技术进行标注，可以进行并行化处理，但不够准确。为了解决基于黑名单方法存在的网站漏判问题，W.Pak等提出基于深度包检测的分类方法。但在执行内容检测时，由于分析处理的网页内容较多，数据格式复杂，这一方法需要消耗很多计算资源和时间。为了降低计算资源的消耗和减少对领域知识的依赖，Justin.Ma等利用机器学习方法以恶意网页URL词汇特征和主机特征为基础建立统一的分类模型(例如，SVM模型等)，进而根据已有标注集合识别恶意网页URL。但该方法的分类准确性依赖于样本集的选取，且部分主机特征受网络延迟影响较大。

发明内容

为了克服上述现有技术的缺陷，本发明要解决的技术问题是提供一种恶意网页发现方法及装置，用以解决现有恶意网页分类技术易漏判、准确率低和效率低的问题。

为解决上述技术问题，本发明中的一种恶意网页发现方法，包括：

确定每个预先选取的低可信度用户的网页资源访问集合；

从确定的访问集合中确定出所有低可信度用户的网页资源访问交集；

对所述访问交集中网页资源进行恶意网页检测，根据检测结果，确定恶意网页。

可选地，所述确定每个预先选取的低可信度用户的网页资源访问集合，包括：

从访问日志中提取用户与网页资源之间访问关系；

根据所述访问关系，确定每个预先选取的低可信度用户的网页资源访问集合。

可选地，所述对所述访问交集中网页资源进行恶意网页检测，包括：

根据预先获取的非恶意网页资源，对所述访问交集中网页资源进行过滤；

对过滤后的网页资源进行恶意网页检测。

可选地，所述确定每个预先选取的低可信度用户的网页资源访问集合之前，还包括：

对访问种子的各用户进行用户行为可信度计算；所述种子为预先获得的恶意网页集合；

根据计算结果，按照从小到大的顺序，从最低用户行为可信度开始，选取预设数量的低可信度用户。

具体地，所述用户行为可信度的计算方式包括：

在预设的计算时间区间确定用户访问网页资源的访问次数；

根据每次访问的网页资源对应的网页类型，确定每次访问评价值；

根据各访问评价值和访问次数，确定用户行为可信度。

为解决上述技术问题，本发明中的一种恶意网页发现装置，其特征在于，所述装置包括：

低可信度用户追踪模块，用于确定每个预先选取的低可信度用户的网页资源访问集合；

可疑URL收集模块，用于从确定的访问集合中确定出所有低可信度用户的网页资源访问交集；

分析模块，用于对所述访问交集中网页资源进行恶意网页检测，根据检测结果，确定恶意网页。

可选地，所述低可信度用户追踪模块，具体用于从访问日志中提取用户与网页资源之间访问关系；

可选地，所述分析模块，具体用于根据预先获取的非恶意网页资源，对所述访问交集中网页资源进行过滤；

对过滤后的网页资源进行恶意网页检测；

根据检测结果，确定恶意网页。

可选地，所述低可信度用户追踪模块，还用于对访问种子的各用户进行用户行为可信度计算；所述种子为预先获得的恶意网页集合；

具体地，所述用户行为可信度的计算方式包括：

在预设的计算区间确定用户访问网页资源的访问次数；

根据各访问评价值和访问次数，确定用户行为可信度。

本发明有益效果如下：

本发明中发现方法及装置，通过确定每个预先选取的低可信度用户的网页资源访问集合，从确定的访问集合中确定出所有低可信度用户的网页资源访问交集，然后对所述访问交集中网页资源进行恶意网页检测，根据检测结果，确定恶意网页，从而可以有效解决现有恶意网页分类技术易漏判、准确率低和效率低的问题。

附图说明

图1是本发明实施例中一种恶意网页发现方法的流程图；

图2是实施本发明实施例中访问关系示意图；

图3是本发明实施例中恶意网页发现方法的系统架构示意图；

图4是本发明实施例中浓度、扩展度实验对比示意图；

图5是本发明实施例中一种恶意网页发现装置的结构示意图。

具体实施方式

为了至少解决现有恶意网页分类技术易漏判、准确率低和效率低的问题，本发明提供了一种恶意网页发现方法及装置，以下结合附图以及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不限定本发明。

如图1所示，本发明第一实施例提出一种恶意网页发现方法，包括：

S101，确定每个预先选取的低可信度用户的网页资源访问集合；

S102，从确定的访问集合中确定出所有低可信度用户的网页资源访问交集；

S103，对所述访问交集中网页资源进行恶意网页检测，根据检测结果，确定恶意网页。

其中，恶意网页是一类以网页木马、钓鱼网站为代表的网页。不同于正常网页，恶意网页通过伪装成合法网站或在页面中嵌入恶意脚本等方式，在用户访问时对其网络安全构成威胁。通常恶意网页的表单内容和URL会呈现出很强的特征，如表1所示。

表1

如图2所示，其中访问集合是指访问者所访问的所有网页资源所构成的集合，它包含了访问者访问过的所有网页资源。访问者A的访问集合UA＝{P₁,P₂}。

访问交集是指两个或多个访问集合的交集。一般地，对于给定的两个访问集合A和B的交集是指含有所有既属于A又属于B的元素，而没有其他元素的访问集合。

访问关系是一种建立在访问者和网页资源之间的关系，是访问者通过访问网页资源产生的一种对应关系。访问者A和网页资源p1的访问关系r＝<A,P₁>。

本发明实施例通过确定每个预先选取的低可信度用户的网页资源访问集合，从确定的访问集合中确定出所有低可信度用户的网页资源访问交集，然后对所述访问交集中网页资源进行恶意网页检测，根据检测结果，确定恶意网页，从而可以有效解决现有恶意网页分类技术易漏判、准确率低和效率低的问题。

简述本发明实施原理。

针对现有技术的问题，本发明第一实施例提出了一种基于用户访问行为的恶意网页发现UVBM(User Visit Behavior Mining Approach)方法。本方法将存储在访问日志中的访问关系引入网页信誉评价问题中，以弥补恶意网页漏判和错判可能产生的不良影响。

详细说，如图3所示，UVBM方法可以包括：

步骤1，可以预先确定一些种子；种子为预先获得的恶意网页集合。在具体实现时，可以通过直接读取现有的恶意网页集合，也可以通过预先检测获得恶意网页集合。例如，采用分析技术对日志中出现的每个网页进行深入分析，如DPI(Deep Packet Inspection)深度包检测、关键词扫描等检测方式，基于此积累一些恶意网页作为“种子”。

步骤2，从这些“种子”出发，对访问过这些已知恶意网页的用户的可信度进行打分。对这些用户进行分类筛选出一部分可信度较低的用户，利用他们的访问日志以发现潜在的恶意网页。

也就是说，在本发明的一个实施例中，在S101之前还可以包括：

其中，所述用户行为可信度的计算方式包括：

在预设的计算时间区间确定用户访问网页资源的访问次数；

根据各访问评价值和访问次数，确定用户行为可信度。

具体说，用户行为可信度是指恶意网页识别系统对访问用户根据用户此前访问记录而产生的信任程度。通常来说，从不访问恶意网页的用户行为可信度较高，经常访问恶意网页的用户行为可信度较低。

因此，可以通过用户过去一段时间内的访问记录来预测用户未来行为的可信任程度。例如在计算时间区间t(t视具体应用而定，如3个月)内，假设用户i的访问次数为n，则用户i行为可信度可通过公式(1)进行计算：

其中，V(i,P_k)表示用户i第k次访问的网页P的评价结果，它通过公式(2)进行计算：

进一步说，为了获取种子集合，可以在网络流量捕包平台中设置表1中的URL(Uniform Resource Locator，统一资源定位符)特征，然后，通过特征匹配从流量中获取对应的URL并进行过滤、去重处理，获得疑似恶意网页URL。接着，采用WebDriver自动化验证工具模拟访问这些疑似恶意网页，并根据访问返回结果判定其有效性。将有效的恶意网页加入到种子集合中，并通过分析这些低可信度用户的访问日志，发现潜在的恶意网页。

步骤3，确定每个预先选取的低可信度用户的网页资源访问集合。

具体说，低可信度用户往往访问过已知的恶意网页并且具有较高概率访问类似网页。因此，将低可信度用户集合提交至可疑URL收集器(也称之为可疑URL收集器)中。通过在网络流量中标识低可信度的用户，UVBM方法就有可能发现它们的访问历史并识别出其他恶意网页。

通过在设置的低可信度用户追踪器(也称之为低可信度用户追踪模块)输入种子(包含恶意网页的集合)以及“多对多”的访问关系。

基于对已知恶意网页和访问关系的分析，低可信度用户追踪器产生低可信度用户的集合，如图3所示的过程①。用户的可信度可以通过公式(1)计算得到。

也就是说，在本发明的一个实施例中，所述确定每个预先选取的低可信度用户的网页资源访问集合，包括：

从访问日志中提取用户与网页资源之间访问关系；

步骤4，从确定的访问集合中确定出所有低可信度用户的网页资源访问交集。

例如，通过设置的可疑URL收集器基于低可信度用户集合对他们的访问交集进行收集，即只有多个低可信度的用户访问的URL才会被收集从而产生一个可疑URL的集合，并将它们发送给一组分析器。

步骤5，对所述访问交集中网页资源进行恶意网页检测，根据检测结果，确定恶意网页。

在具体实现时，可以选择由google提供的safebrowsing黑名单组成的分析器(分析模块)。这个黑名单已经被google用来实时处理数以亿计的网页，并有API提供给外部调用者使用。此外，它不断更新并且其误判率很低。

当然，在本步骤中也可以对输入分析器的URL中的已知非恶意网页资源进行过滤，从而进一步提高发现效率。

也就是说，所述对所述访问交集中网页资源进行恶意网页检测，包括：

对过滤后的网页资源进行恶意网页检测。

本发明实施例通过用户恶意网页访问日志中访问关系的概念，提出了一种新的恶意网页发现UVBM方法。UVBM方法从已有的恶意网页集合出发，自动发现可信度低的用户和对应的访问关系，从而进一步利用低可信度用户对其他网页的访问关系来发现未知的恶意网页集合。

本发明实施例通过混合使用恶意网页黑名单以及“用户-网站”间的访问关系，实现了恶意网页的轻量级分类，并且有效提高黑名单的可扩展性，使其能够应用于动态网络环境中。主要包含两个方面：一是从已有的恶意网页集合出发，自动发现可信度低的用户和对应的访问关系；二是利用低可信度用户对其他网页的访问关系来发现未知的恶意网页集合。

本发明实施例与人工报告和启发式爬虫相比，提供了一种更好的动态黑名单的产生方法。一方面，它通过使用访问关系，限制了恶意网页的检测范围，避免了对访问流中所有未知URLs的详细检测。另一方面，和人工报告相比，它避免了更多的人为干预。此外，该方法通过保存部分访问日志，可以有效地缩小内容检测范围并帮助发现潜在的恶意网页。

基于上述的UVBM方法，在中国网站排名上选取了10类共6353个网址，并将它们作为网页访问的代表。本发明设计了两个实验来分别验证UVBM方法的浓度、扩展度和时间性能。

第一个实验通过和传统检查方法进行对比来验证UVBM方法发现恶意网页URL的能力。首先，对很小的一部分网址进行深入分析和检查，得到一部分恶意网页URL(又称“种子”，下同，本文中为67个URL)。其次，充分使用“种子”来识别可信度低的用户并继续产生新的恶意网页URL，如表2所示实验组别1-3。最后，将UVBM方法同其他传统检测半数检查和全面检查方法进行比较，见实验组别4-5。其中半数检查是指检查一半的访问日志以发现恶意网页网址，全面检查是指检查全部访问日志以发现恶意网页网址。

表2

如表2所示，初始阶段，UVBM从浓度为1.06％的URL库里，分析并识别出67个恶意网页URL作为“种子”。在对“种子”分析的基础上，UVBM提交了18440条URL给分析器，其中254条URL被最终认定为恶意网页。由表2可知，其浓度由1.29％提高到1.94％。此外，与全面检查访问记录相比，只对可信度低的用户的访问日志进行分析，其恶意网页URL浓度分别上升7.1％-51.14％。即用户的可信度越低，其访问日志中包含浓度更高的恶意网页URL。

扩展度实验。如表2和浓度扩展度实验对比图4所示，只分析低可信度用户的日志，其实际产生恶意网页URL的数量初始恶意网页URL数量的3.25倍以上。

表3比较了不同方法的时间性能。

表3

如表3所示，检查低可信度用户访问记录是发现恶意网页URL的一种有效方法。采用这种方法可以减少约33.89％的平均检测时间。特别地，如果系统选取恶意用户的比例较小，其用于发现一个恶意网页URL的平均时间将大大缩短。这种情况出现的可能原因是每次实验进行前，将用户按照可信度从低到高进行了排序。

实验结果显示，相比于全部检查，UVBM方法可以显著提高恶意网页URL的浓度，从而大大降低平均检测时间。此外，给定一定数量的恶意网页，UVBM方法能够发现大量额外的恶意网页。相比全面检查，检查同样数量的URL，UVBM可以发现3倍以上的恶意网页。这一对比结果显示，UVBM在提高URL浓度，降低平均检测时间方面具有较大优势。同时，该方法需要部分恶意网页作为“种子”以产生更多的恶意网页。因此可以扩大“种子”恶意网页的选取范围，或者提升“种子”恶意网页质量，即可更进一步解决现有恶意网页分类技术易漏判、准确率低和效率低的问题。

基于本发明提出的UVBM方法，本发明进一步提出一种恶意网页发现装置，所述装置包括：

低可信度用户追踪模块510，用于确定每个预先选取的低可信度用户的网页资源访问集合；

可疑URL收集模块520，用于从确定的访问集合中确定出所有低可信度用户的网页资源访问交集；

分析模块530，用于对所述访问交集中网页资源进行恶意网页检测，根据检测结果，确定恶意网页。

在本发明的一个实施例中，所述低可信度用户追踪模块510，具体用于从访问日志中提取用户与网页资源之间访问关系；

在本发明的另一个实施例中，所述分析模块530，具体用于根据预先获取的非恶意网页资源，对所述访问交集中网页资源进行过滤；

对过滤后的网页资源进行恶意网页检测；

根据检测结果，确定恶意网页。

在本发明的又一个实施例中，所述低可信度用户追踪模块510，还用于对访问种子的各用户进行用户行为可信度计算；所述种子为预先获得的恶意网页集合；

进一步说，所述用户行为可信度的计算方式包括：

在预设的计算区间确定用户访问网页资源的访问次数；

根据各访问评价值和访问次数，确定用户行为可信度。

虽然本申请描述了本发明的特定示例，但本领域技术人员可以在不脱离本发明概念的基础上设计出来本发明的变型。

本领域技术人员在本发明技术构思的启发下，在不脱离本发明内容的基础上，还可以对本发明做出各种改进，这仍落在本发明的保护范围之内。

Claims

1.一种恶意网页发现方法，其特征在于，所述方法包括：

确定每个预先选取的低可信度用户的网页资源访问集合；

2.如权利要求1所述的方法，其特征在于，所述确定每个预先选取的低可信度用户的网页资源访问集合，包括：

从访问日志中提取用户与网页资源之间访问关系；

3.如权利要求1所述的方法，其特征在于，所述对所述访问交集中网页资源进行恶意网页检测，包括：

对过滤后的网页资源进行恶意网页检测。

4.如权利要求1-3中任意一项所述的方法，其特征在于，所述确定每个预先选取的低可信度用户的网页资源访问集合之前，还包括：

5.如权利要求4所述的方法，其特征在于，所述用户行为可信度的计算方式包括：

在预设的计算时间区间确定用户访问网页资源的访问次数；

根据各访问评价值和访问次数，确定用户行为可信度。

6.一种恶意网页发现装置，其特征在于，所述装置包括：

7.如权利要求6所述的装置，其特征在于，所述低可信度用户追踪模块，具体用于从访问日志中提取用户与网页资源之间访问关系；

8.如权利要求6所述的装置，其特征在于，所述分析模块，具体用于根据预先获取的非恶意网页资源，对所述访问交集中网页资源进行过滤；

对过滤后的网页资源进行恶意网页检测；

根据检测结果，确定恶意网页。

9.如权利要求6-8中任意一项所述的装置，其特征在于，所述低可信度用户追踪模块，还用于对访问种子的各用户进行用户行为可信度计算；所述种子为预先获得的恶意网页集合；

10.如权利要求9所述的装置，其特征在于，所述用户行为可信度的计算方式包括：

在预设的计算区间确定用户访问网页资源的访问次数；

根据各访问评价值和访问次数，确定用户行为可信度。