CN104766014A

CN104766014A - 用于检测恶意网址的方法和系统

Info

Publication number: CN104766014A
Application number: CN201510219801.1A
Authority: CN
Inventors: 唐呈光; 杨念; 耿志峰
Original assignee: Anyi Hengtong Beijing Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-04-30
Filing date: 2015-04-30
Publication date: 2015-07-08
Anticipated expiration: 2035-04-30
Also published as: CN104766014B; US10567407B2; WO2016173200A1; US20180041530A1

Abstract

本申请公开了一种恶意网址检测方法和系统。该方法包括：接收用户上报的统一资源定位符URL；获取与URL关联的超文本传输协议HTTP请求链，HTTP请求链是包含访问URL的多次HTTP请求-响应交互信息的时序链表；以及分析HTTP请求链以确定URL是否为恶意网址。按照本申请的技术方案，对恶意网址的检测结果准确，能够检测各种新出现的恶意网址，而且用户友好，用户只需要上传URL，无需提供更多信息。

Description

用于检测恶意网址的方法和系统

技术领域

本公开一般涉及计算机技术领域，具体涉及网络信息安全领域，尤其涉及一种用于检测恶意网址的方法和系统。

背景技术

在互联网上浏览网页时，一些恶意网站，例如钓鱼网站、挂马网站、欺诈网站等，使得网络用户的信息安全受到威胁。

目前，基于网页文本内容的恶意网页检测方法已经比较完善。然而，黑色产业站长为了绕过安全厂商的检测引擎，新出的恶意网址不再是包含大量的网页文本内容，而是通过加密算法和网页图片化技术对恶意网页进行处理，同时增加有依赖的网页跳转。有依赖的网页跳转具体表现为一次完整的网页请求中的下游网页依赖上游网页的相关信息，例如refer、cookie等，从而导致检测引擎获取到的网页结果缺少文本内容特征，检测能力急剧下降。

现有技术中一般通过静态爬虫抓取网页内容。静态爬虫的原理类似于Wget。Wget是“World Wide Web(万维网)”与“get(获取)”的结合，它是一个从网络上自动下载文件的自由工具，支持通过HTTP(超文本传输协议)、HTTPS(超文本传输安全协议)以及FTP(文件传输协议)这三个最常见的TCP/IP(传输控制协议/互联网协议)下载，并可以使用HTTP代理。

Wget将包括HTML(超文本标记语言)、css(级联样式表)、JavaScript、Flash文件等的网页内容下载下来，供检测引擎分析。检测引擎只能依赖网页中某些固定成分进行恶意网页打击。然而，这些固定成分依靠人工总结，依赖先验知识，费时费力，而且检测效果不好。

部分有研发实力的安全厂商会尝试动态爬虫。通过对开源的浏览器内核(诸如webkit或gecko之类的排版引擎)进行封装，使得爬虫能够渲染网页。然后输出网页渲染后的内容以供检测引擎分析。

然而，上述检测方案无法应对新出现的恶意网址。

发明内容

鉴于现有技术中的上述缺陷或不足，期望提供一种能够有效提高恶意网址检测能力的方案。

第一方面，本申请实施例提供了一种检测恶意网址的方法，包括：接收用户上报的统一资源定位符URL；获取与该URL关联的超文本传输协议HTTP请求链，HTTP请求链是包含访问URL的多次HTTP请求-响应交互信息的时序链表；以及分析该HTTP请求链以确定URL是否为恶意网址。

第二方面，本申请实施例还提供了一种检测恶意网址的系统，包括爬虫子系统和检测子系统。爬虫子系统包括爬虫调度服务器以及一个或多个动态爬虫服务器。爬虫调度服务器配置用于接收用户上报的统一资源定位符URL，以及调度动态爬虫服务器。动态爬虫服务器配置用于根据爬虫调度服务器的调度获取与URL关联的超文本传输协议HTTP请求链，HTTP请求链是包含访问所述URL的多次HTTP请求-响应交互信息的时序链表。检测子系统包括分析单元，配置用于分析HTTP请求链以确定URL是否为恶意网址。

本申请实施例提供的检测恶意网址的方案，通过获取与URL关联的HTTP请求链，能够得到较为全面的URL关联的网页内容，从而能够对恶意网址进行准确检测。按照本申请实施例的技术方案，对恶意网址的检测结果准确，能够检测各种新出现的恶意网址，而且用户友好，用户只需要上传URL，无需提供更多信息。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1示出了其中可以应用本申请实施例的示例性系统架构；

图2示出了根据本申请实施例的用于检测恶意网址的方法的示例性流程图；

图3示出了HTTP请求链的一个示例性屏幕截图；

图4示出了HTTP请求链的一种示例性抽象表示方式；

图5示出了根据本申请一个实施例的用于获取HTTP请求链的方法的示例性流程图；

图6示出了根据本申请一个实施例的用于分析HTTP请求链的方法的示例性流程图；

图7示出了根据本申请另一实施例的用于检测恶意网址的方法的示例性流程图；

图8示出了一个仿冒QQ登录的恶意网址的页面截图；

图9示出了官方网站的页面截图；

图10示出了访问官方网站时的HTTP请求链信息；

图11、图12和图13分别示出了访问上述仿冒QQ登录的恶意网址的HTTP请求链信息中的一部分；

图14示出了根据本申请一个实施例的用于检测恶意网址的系统的示例性结构框图；以及

图15示出了适于用来实现本申请实施例的服务器的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

请参考图1，其示出了可以应用本申请实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、网络103和服务器104、105、106和107。网络103用以在终端设备101、102和服务器104、105、106、107之间提供通信链路的介质。网络103可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户110可以使用终端设备101、102通过网络103与服务器104、105、106、107交互，以访问各种服务，例如浏览网页、下载数据等。终端设备101、102上可以安装有各种客户端应用，例如可以接入统一资源定位符URL云服务的应用，包括但不限于浏览器、安全应用等。

终端设备101、102可以是各种电子设备，包括但不限于个人电脑、智能手机、智能电视、平板电脑、个人数字助理、电子书阅读器等等。

服务器104、105、106、107可以是提供各种服务的服务器。服务器可以响应于用户的服务请求而提供服务。可以理解，一个服务器可以提供一种或多种服务，同一种服务也可以由多个服务器来提供。在本申请的实施例中，所涉及的服务器可以包括但不限于，爬虫调度服务器、动态爬虫服务器、网页服务器、检测服务器、图像识别服务器、语义分析服务器等。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

如背景技术中所提到的，现有技术一般通过静态爬虫抓取网页内容。然而，由于静态爬虫的方案孤立地看待每条URL，不关心完整的HTTP请求会话过程，因此会丢失上下文信息，不能获取网页最终的渲染结果，从而导致检测引擎获取的网页内容和普通用户看到的网页内容不一致，继而导致检测结果不准确。此外，网页中的特征规律难以寻找，即使找到一些，检测的误报率也很高。

另一方面，动态爬虫的方案只关心网页最终的结果，忽略中间过程。动态爬虫的方案关注网页内容本身，也即网页body(主体)部分，忽略外部描述信息，例如header(首部)部分，丢失了网页描述信息。而且，即使使用部分header信息，也仅仅是通过人工设置判断规则集(例如，if-else语句)来进行分类，费时费力，并且准确率低。

鉴于现有技术的上述缺陷，本申请实施例提供了一种基于HTTP请求链的恶意网址检测方案。HTTP请求链是包含访问URL的多次HTTP请求-响应交互信息的时序链表。通过获取网页完整的HTTP请求链信息，可以获得包括上下文信息在内的丰富信息，从而有效排查待检测的URL是否为恶意网址。下面将结合流程图来描述本申请实施例的方法。

参考图2，其示出了根据本申请一个实施例的用于检测恶意网址的方法的示例性流程图。图2所示的方法可以在图1中的服务器端执行。

如图2所示，在步骤210中，接收用户上报的统一资源定位符URL。

用户在通过浏览器等应用访问网页时，可能会发现一些可疑的URL，用户可以将这些可疑的URL上报给服务器进行检测，以分辨其是否为恶意网址。用户可以经由其终端设备上安装的应用来上报可疑的URL。这些应用可以是能够接入URL云服务的应用，例如包括但不限于，浏览器，杀毒应用，安全卫士等。

接着，在步骤220中，获取与上报的URL关联的HTTP请求链，该HTTP请求链是包含访问此URL的多次HTTP请求-响应交互信息的时序链表。

现在的网页通常都包含多个图片、CSS(级联样式表)外部文件链接、Flash文件、Javascript外部脚本链接等。因此，当访问一个网页时，需要发起多次HTTP请求，以向服务器请求这些文件。针对每次请求，服务器会返回对应的响应。这些请求-响应交互按照时间顺序排列成一个时序链表，在本文中称为HTTP请求-响应链，简称为HTTP请求链。因此，简单地说，HTTP请求链是一种时序链表，是一次浏览会话，是访问一个网页多次HTTP请求-响应交互的完整表示。

当客户端(例如，浏览器)向Web服务器发出请求时，它向Web服务器传递一个数据块，也就是请求报文。针对该请求，Web服务器向客户端返回一个数据块，也就是响应报文。HTTP请求报文和HTTP响应报文中包含了与所访问的网页有关的各种信息，诸如外部描述信息、上下文信息、网页内容等。因此，通过获取HTTP请求报文和HTTP响应报文，可以从中获得有助于检测恶意网站的信息。

HTTP请求报文和HTTP响应报文都由3部分组成：起始行(startline)、首部(header)和实体的主体(entity-body)。请求报文和响应报文只是起始行不同。在HTTP协议中，对请求报文和响应报文的各部分规定了不同的内容。

例如，请求报文的起始行(或称为请求行)包含了一个方法(method)和一个请求的URL(request-URL)。这个方法描述了服务器应该执行的操作，请求URL描述了要对哪个资源执行这个方法。请求行中还包含HTTP协议的版本(version)，用来告知服务器，客户端使用的是哪种HTTP版本。请求报文中的方法例如可以包括：GET(从服务器获取一份文档)，HEAD(只从服务器获取文档的首部)，POST(向服务器发送需要处理的数据)，PUT(将请求的主体部分存储在服务器上)，TRACE(对可能经过代理服务器传送到服务器上去的报文进行跟踪)，OPTIONS(决定可以在服务器上执行哪些方法)，以及DELETE(从服务器上删除一份文档)。

响应报文的起始行(或称为状态行)也包含HTTP协议的版本。响应报文的起始行中还包含状态码(status)和原因短语(reason-phrase)。状态码为三个数字，其描述请求过程中所发生的情况。每个状态码的第一位数字都用于描述状态的一般类别(“成功”、“出错”等)。常用的状态码例如包括：1xx，信息性状态码，例如100、101；2xx，成功状态码，例如200OK；3xx，重定向状态码，例如301永久重定向，302临时重定向；4xx，客户端错误状态码，例如404未找到，请求的URL资源不存在；5xx，服务器端错误状态码，例如500，服务器内部错误。原因短语是数字状态码的可读版本，也即关于数字状态码的简短的文字描述。原因短语只是对状态码的说明，客户端依然采用状态码来判断请求/响应是否成功。

首部(header)向请求报文和响应报文中添加一些附加信息，这些附加信息以用户代理-主机成对的值的形式出现。可以有0个或多个首部。

实体的主体(entity-body)是HTTP报文的负荷，也就是HTTP要传输的内容。实体的主体包含一个由任意数据组成的数据块，其可以承载很多类型的数字数据，例如图片、视频、HTML文档、软件应用程序、信用卡事务、电子邮件等。并不是所有的报文都包含实体的主体部分，如GET请求就不包含实体。

以上简要描述了HTTP请求报文和响应报文，本领域技术人员根据需要可以查阅HTTP协议以了解关于HTTP报文的详细信息，此处不再赘述。

图3示出了HTTP请求链的一个示例性屏幕截图。如图3所示，在访问网页www.trugogo.com时，客户端会向服务器发送多个HTTP请求，这些请求可以按照时间排序形成一个HTTP请求链。在访问上述网页的过程中总共发送了89个请求，图3的屏幕截图中仅示出了前面若干个请求。屏幕截图中记载了每次请求-响应交互的相关信息，例如包括状态(status)、方法(method)、文件或路径名称、域名、类型、大小和等待时间。此外，针对每次请求-响应交互，还可以查看其HTTP请求报文和响应报文。

图3中的上述HTTP请求链可以进行抽象，以便更形象地表示各URL之间的关系。图4示出了HTTP请求链的一种示例性抽象表示方式。

如图4所示，URL按照父子关系排列，每个URL的详细信息在旁边的方框中列出，其中包括引用、时间、状态、大小等信息。

返回图2，在获取了访问一个网页时的HTTP请求链之后，在步骤230中，分析HTTP请求链以确定URL是否为恶意网址。

从前面可以看出，由于HTTP请求链包含了丰富的信息，因此可以基于这些信息所传递的含义，来判断URL是否为恶意网址。

一般而言，恶意网址的制作较为简陋，代码没有进行优化，因此通常存在加载时间长，页面渲染不完全，css加载不完整等现象。通过从HTTP请求链中挖掘出有价值的特征，可以有效地对URL进行检测。下面将结合流程图进一步描述HTTP请求链的获取和分析。

图5示出了根据本申请一个实施例的用于获取HTTP请求链的方法的示例性流程图。在此实施例中，利用基于用户地理位置的分布式动态爬虫子系统来获取HTTP请求链。也即，图5所示的方法可以由服务器端的分布式动态爬虫子系统来执行。分布式动态爬虫子系统包括爬虫调度服务器以及分布在不同地理位置的一个或多个动态爬虫服务器。

如图5所示，在步骤510中，确定上报URL的用户所在的地理位置和网络环境信息。

用户利用其终端设备接入URL云服务时，爬虫调度服务器可以获取用户上报URL的互联网协议IP地址。基于该IP地址，爬虫调度服务器可以确定用户的地理位置(例如国别-省份-城市-小区)以及所使用的网络运营商信息(例如，电信或联通等)。进一步地，基于网络运营商信息可以确定用户的网络环境信息，其中网络环境信息至少包括网络带宽。

接着，在步骤520中，爬虫调度服务器将所上报的URL调度至地理位置和网络环境信息与用户接近的动态爬虫服务器。例如，爬虫调度服务器可以将上报的URL调度至离用户最近、带宽环境和用户相同的(或者最接近的)动态爬虫服务器上下载网页内容。

有些黑产站长可能会在网站上应用爬取屏蔽策略，例如通过预先保存爬虫服务器的IP地址、网络出口等信息，对爬虫服务器的爬取进行屏蔽，例如将爬虫服务器引导到其他网址，诸如正确的网址。这样，爬虫服务器所抓取的网页内容与用户访问的网页内容不一致，从而导致检测结果不准确。在本实施例中，通过在步骤520中将URL调度至地理位置和网络环境信息与用户接近的动态爬虫服务器，可以尽可能的在服务器端模拟用户真实的访问环境，保证爬虫下载的网页内容尽可能接近用户看到的真实网页内容，同时能提高网页下载成功率。此外，根据本申请实施例的分布式爬虫子系统，其包含的动态爬虫服务器的数量庞大，并且动态爬虫服务器的位置和配置也可以不断变化，例如撤销或加入新的动态爬虫服务器等，因而不容易被恶意网址所屏蔽。

继而，在步骤530中，在所调度的动态爬虫服务器处下载与URL关联的网页内容以获得HTTP请求链。

如前面所提到的，目前的恶意网址增加了许多有依赖的网页跳转，这些跳转导致获取到的网页结果缺少文本内容特征。因此，在本实施例中，动态爬虫服务器出了按照正常操作爬取网页内容之外，还抓取经过跳转的网页内容并保存中间结果。

研究发现，在浏览器端能够产生网页跳转主要有以下三种技术：HTML的iframe(内联框架)标签、JavaScript和Flash。因此，针对这三种技术，可以分别采取相应的方式来抓取经由它们跳转的网页内容。

HTML文档中的iframe元素会创建包含另外一个文档的内联框架(即行内框架)。在一些实现中，可以利用浏览器的排版引擎对HTMLDOM(文档对象模型)树进行渲染，以抓取通过HTML文档中的iframe标签进行跳转的网页内容。排版引擎例如可以包括但不限于webkit或gecko。在一种实现中，动态爬虫可以利用开源的webkit内核完成HTML DOM树的渲染，让iframe得以加载，从而抓取通过iframe跳转的网页内容。

JavaScript是因特网上最流行的脚本语言，其可插入HTML页面中，并且插入HTML页面后，可由浏览器执行。JavaScript被数以百万计的网页用来改进设计、验证表单、检测浏览器、创建cookies以及更多其他应用。JavaScript可以用于改变HTML页面的内容。针对采用JavaScript技术进行跳转的网页内容，可以通过开源的JavaScript引擎(例如谷歌开源的V8引擎)执行JavaScript代码，从而抓取通过JavaScript代码进行跳转的网页内容。

Flash是一种多媒体格式。Flash player(Flash播放器)使用的SWF文件可由Adobe Flash、Adobe Flex或者其他软件或第三方工具创建。它同时使用位图和矢量图形，利用ActionScript脚本语言进行编程，支持双向视频流和音频流。Flash适合开发创造丰富型互联网应用程序、流视频音频。Flash播放器使用矢量图形的技术来最小化文件的大小以及创造节省网络带宽和下载时间的文件。因此Flash成为嵌入网页中的小游戏、动画、广告、以及图形用户界面常用的格式。在本申请实施例的一些实现中，通过编译Flash播放器插件，使得动态爬虫拥有Flash执行能力，在加上动态爬虫的会话保持功能，因此动态爬虫可以执行Flash以抓取通过Flash进行跳转的网页内容。

从上面描述可以看出，在本申请的一些实施例中，针对有依赖的网页跳转问题，提出了针对不同跳转技术采取不同的爬取方案以抓取经过多次跳转的网页内容，同时还可以保存中间结果。这样做的目的是尽可能多地抓取网页的内容，以便获得丰富的页面内容特征供后续检测子系统的分析。

参考图6，其示出了根据本申请一个实施例的用于分析HTTP请求链的方法的示例性流程图。图6所示的方法可以由服务器端的检测子系统来执行。

如图6所示，在步骤610中，从获取的HTTP请求链中进行特征提取。

为了从HTTP请求链中挖掘出有价值的特征，可以比较恶意网址和正常网址在各个方面的差异，从而确定需要提取的特征。

对于恶意网址，黑产站长为了节约成本，一般都是采用租用虚拟主机的方式，不会采用CDN(内容分发网络)技术。

虚拟主机的操作系统一般是Windows Server，Web Server一般采用IIS。IIS(Internet Information Services，互联网信息服务)，是由微软公司提供的基于运行Microsoft Windows的互联网基本服务。IIS是一种Web(网页)服务组件，其中包括Web服务器、FTP服务器、NNTP服务器和SMTP服务器，分别用于网页浏览、文件传输、新闻服务和邮件发送等方面，它使得在网络(包括互联网和局域网)上发布信息变得容易。IIS Web Server运行的程序一般都是用ASP(Active ServerPages，动态服务器页面)语言编写的，因为ASP是脚本语言，入门门槛低，易于上手。很多虚拟主机提供商会直接提供这样的集成环境，黑产站长只要上传写好的恶意代码，就可以用来欺诈用户了，非常方便。

除了IIS，有的黑产站长还可能使用netbox、kangle之类的Web服务器。这些服务器是IIS的升级版，原理类似，但功能更强大。大公司一般不采用这些服务器。

另外，黑产站长一般会租用境外和香港的虚拟主机，IP地址是境外或者香港的，因为这样就不需要在国内工信部备案，少了很多审核流程。

由于服务器放在境外或者香港，在国内访问的延迟比较高，比正常的网站延迟要高很多，而且不稳定，经常有404子URL。

而且，黑产站长一般会注册一个免费二级域名(一般以.tk、.pw等结尾)，因为这样很方便。与之相比，申请正规域名如.com、.cn、.org都是很麻烦的，需要提交材料和备案。

在网页编写方面，黑产站长一般都会把网页写得很复杂，存在多次有依赖的跳转行为。这样做的目的是使得网页爬虫难以获取网页的最终结果。而且，下游的子HTML页面请求经常是通过上游的JavaScript代码内部发起的。另外，黑产站长还喜欢对网页内容进行加密。

相比于恶意网址，对于正常的网址，大中型网站站长或者公司一般有较强的技术实力和财力。因此，为了保证用户体验，很多网站都采用CDN技术，HTML页面都是静态化处理过的，不会用脚本语言实时生成页面内容，这样便于缓存在CDN中。

对于网页中一些需要异步加载的资源，后端的接口一般都采用C、C++或者Java之类的语言编写，因为这些编程语言编写的程序性能都比较高。针对性能要求不是很高的情况可能会采用PHP(超文本预处理器)，但基本不会用ASP语言来写代码。因为一旦用了ASP，那么就得买Windows Server和IIS这些配套的设施，就会受局限，一般大中型公司都不会这么做。

正规的网站大多数采用Linux操作系统，因为大多数Linux操作系统都是开源而且是免费的。服务器IP基本在国内，一般采用nginx或者apache服务器作为Web服务器，访问延迟较低，资源加载一般很少有HTTP 404找不到资源的情况。正规的网站一般不存在多次跳转行为，也不会对网页内容进行加密。此外，正规的网站一般在工信部有备案信息。

从上面分析可知，可以从以下至少一个维度进行特征提取：上下游信息，服务器维度，网页编程语言维度，时间维度，网页自身描述信息。

更具体而言，上下游信息可以包括以下至少一项信息：302跳转次数(例如是否超过预定阈值，比如大于5次)，404页面占比(例如是否超过预定比例，诸如大于50％)，子URL是否包含广告联盟链接，子URL是否包含恶意子链接，子URL是否包含小型网站统计工具。

服务器维度可以包括以下至少一项信息：是否为境外互联网协议IP地址，是否是Windows IIS，是否采用内容分发网络CDN技术，是否是kangle服务器，是否是netbox服务器，是否是nginx服务器，是否是apache服务器，是否是多媒体视频。

网页编程语言维度可以包括以下至少一项信息：是否由动态服务器页面ASP语言编写，是否由超文本预处理器PHP语言编写。

时间维度可以包括以下至少一项信息：是否是热点时间(例如，五一、十一、双十一、春节等)，是否是周末。通常来说，热点时间和周末的网络浏览量加大，因此恶意网址一般会选择这些时间出现，以增大其被访问的概率。

网页自身描述信息可以包括以下至少一项信息：网页大小，单个URL加载时间，网站是否备案，是否经过加密处理，是否是免费二级域名。

继续图6，在提取了有价值的特征之后，在步骤620中，利用建立的、经过机器学习的分类模型，基于所提取的特征确定URL是正常网址还是可疑恶意网址。

机器学习是从数据中自动分析获得规律，并利用规律对未知数据进行预测的方法。分类模型进行机器学习，是指利用一组已知类别的样本调整分类模型的参数，使其达到所要求性能的过程。

可以采用多种算法对分类模型进行建模和机器学习，例如决策树、线性判别分析、最近邻居法、支持向量机等。在本申请的一些实施例中，利用GBDT(Gradient Boosted Decision Tree，梯度提升决策树)对步骤610中提取的特征进行建模，用于判断一个URL是正常网址(也称为灰)还是可疑恶意网址(也称为可疑黑)。具体的建模过程对于本领域技术人员而言是已知的，此处省略其详细描述。

从上面描述可知，在本申请的一些实施例中，采用分类建模的方式，基于从HTTP请求链中提取的特征，对用户上报的URL进行判断。相比于现有技术中通过人工设置if-else规则集进行分类的方式，本申请的实施例可以极大地提高检测效率，并且准确率高。

图7示出了根据本申请另一实施例的用于检测恶意网址的方法的示例性流程图。

如图7所示，步骤710-730与图2中的步骤210-230相同，此处不再赘述。

当步骤730中的分析结果表明该URL为正常网址时，可以将结果返回给客户端(未示出)。如果结果表明该URL是可疑恶意网址，则可选的，在步骤740中，响应于确定URL是可疑恶意网址，将与URL关联的网页内容渲染成图片并利用光学字符识别OCR技术提取网页文本内容。网络爬虫具备将网页内容渲染成图片的功能。通过利用OCR技术，对图片内容进行识别和抽取，可以获得网页文本内容。OCR技术是本领域技术人员公知的，本申请可以使用任何现在已知或未来开发的OCR技术来识别网页内容，本申请在此方面没有限制。

继而，在步骤750中，通过隐含语义模型对所识别的网页文本内容进行主题判断。

可以采用多种主题模型对网页文本内容进行主题判断。在一些实施例中，可以采用隐含狄利克雷分布，简称LDA(Latent Dirichletallocation)。LDA是一种主题模型，它可以将文档集中每篇文档的主题按照概率分布的形式给出。同时它是一种无监督学习算法，在训练时不需要手工标注的训练集，需要的仅仅是文档集以及指定主题的数量即可。此外LDA的另一个优点则是，对于每一个主题均可找出一些词语来描述它。LDA目前在文本挖掘领域包括文本主题识别、文本分类以及文本相似度计算方面都有应用。本申请可以使用任何现在已知或未来开发的主题判断技术，本申请在此方面没有限制。

可选地或附加的，在步骤760中，对主题判断结果进行去误报处理。

由于OCR转换和主题判断存在一定的误差，因此，可以进一步对主题判断结果进行去误报处理。可以通过以下至少一项来执行去误报处理：根据白名单判断被确定为恶意网址的URL是否为误报；查询与URL相关的访问信息，判断是否为误报；查询URL的互联网内容提供商ICP备案信息，判断是否为误报；以及查询与URL相关的资质数据，判断是否为误报。

白名单中可以保存一些已经明确确认不是恶意网址的名单列表。因此，通过比较白名单，可以确定主题判断结果中判断为恶意网址的URL是否存在误报。

与URL相关的访问信息可以包括但不限于如下信息：站点的外部链接数，站点域名下的子URL数目，最近站点搜索热门指数等。从这些访问信息的角度考虑，可以避免将一些热门站点误报为恶意网址。针对此类访问信息，可以相应的设定阈值，当超过设定阈值时，则可以认为是误报。阈值可以根据经验进行设置。

互联网内容提供商ICP备案信息可以指示站点是否是企业备案或事业单位备案。

另外，还可以查询与URL相关的资质数据，比如医疗资质、机票联盟数据等。如果站点拥有相关资质，则认为是误报。

图7的实施例相比于图2的实施例，当基于HTTP请求链的判断结果表面URL为可疑恶意网址时，进一步通过OCR技术和主题判断技术进行判别，以提高检测准确率。此外，还可以增加去误报处理，以降低恶意网址的误报率。由于首先基于HTTP请求链进行了初步判断，因此可以大大减少需要应用OCR和主题判断的可疑网址，提高了检测效率。

应当注意，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

下面结合一个具体的例子来描述根据本申请实施例的恶意网址检测方法。

图8示出了一个仿冒QQ登录的恶意网址的页面截图，其URL地址为http://aa.tenncentt.com/？JYDEMCEEQEEZJNHAEQWDFVTPZPTOQT MTBBTUGSWE＝91916762190584.html，与官方页面(http://aq.qq.com/)极其相似。图9为官方网站页面截图。

图10示出了访问官方网站时的HTTP请求链信息。通过获取访问官方页面的HTTP请求链信息可知，QQ的官方网站代码写得很清晰，加载速度很快(4秒左右)，IP地址140.207.69.100，是上海市联通的IP地址，采用Apache作为Web服务器。并且，官方网站的源代码没有加密。

图11、图12和图13分别示出了访问上述仿冒QQ登录的恶意网址的HTTP请求链信息中的部分。从图11中可以看出，该恶意网址存在很多302跳转。从图12中可以看出，该恶意网址网页加载有失败的情况，例如存在403禁止和失败，而且加载延迟很高(例如8秒)。从图13中可以看出，该恶意网址的IP地址是45.64.112.76，来自美国，Web服务器采用NetBox。并且，该恶意网址的源代码很短，缺少文字内容。

当应用根据本申请实施例的方案时，可以按如下进行检测。

第一步，通过分布式动态爬虫子系统跟踪网页的跳转过程，获取中间结果和最终结果。获取的结果例如可以包括如下代码：

从结果可以看出，第三个页面里面的JavaScript内容包含字符串拼接，实现iframe跳转。因此，根据本申请实施例的动态爬虫在解析网页的过程中发现有iframe标签，就会继续加载iframe的内容。

第二步，通过特征提取工具，将预先定义好的特征提取出来，输入分类模型(例如GBDT模型)进行分类。

第三步，如果GBDT模型输出的结果是可疑恶意网址，那么爬虫先将该网页渲染成图片，再利用图像OCR技术，提取网页文本内容。

第四步，基于提取的网页文本内容，利用语义模型进行主题判断。

第五步，对主题判断结果进行去误报处理。

最后，输出最终的分类结果为确定上述可疑网址为恶意网址。

进一步参考图14，其示出了根据本申请一个实施例的用于检测恶意网址的系统的示例性结构框图。

如图14所示，用于检测恶意网址的系统1400可以包括爬虫子系统1410和检测子系统1420。

爬虫子系统1410包括爬虫调度服务器1411以及一个或多个动态爬虫服务器1412-1414。爬虫调度服务器1411配置用于接收用户上报的统一资源定位符URL，以及调度动态爬虫服务器1412-1414。动态爬虫服务器1412-1414配置用于根据爬虫调度服务器1411的调度获取与用户上报的URL关联的HTTP请求链。HTTP请求链是包含访问该URL的多次HTTP请求-响应交互信息的时序链表。

在一些实施例中，爬虫调度服务器1411可疑配置用于通过如下来调度动态爬虫服务器：确定用户所在的地理位置和网络环境信息；以及将用户上报的URL调度至地理位置和网络环境信息与该用户接近的动态爬虫服务器。

在一些实现中，爬虫调度服务器1411可疑配置用于通过如下来确定用户所在的地理位置和网络环境信息：基于用户上报URL的互联网协议IP地址确定用户的地理位置以及所使用的网络运营商信息；以及基于网络运营商信息确定用户的网络环境信息，其中网络环境信息至少包括网络带宽。

在一些实施例中，动态爬虫服务器1412-1414获取HTTP请求链可以包括：下载与URL关联的网页内容以获得HTTP请求链。

在一些实现中，动态爬虫服务器1412-1414可以配置用于通过以下至少一项来抓取经过跳转的网页内容并保存中间结果：利用浏览器的排版引擎对超文本标记语言文档对象模型HTML DOM树进行渲染，以抓取通过HTML文档中的内联框架iframe标签进行跳转的网页内容；通过JavaScript引擎执行JavaScript代码，以抓取通过JavaScript代码进行跳转的网页内容；以及通过Flash播放器插件执行Flash以抓取通过Flash进行跳转的网页内容。

检测子系统1420包括分析单元1421，配置用于分析爬虫子系统1410所获取的HTTP请求链以确定URL是否为恶意网址。

在一些实施例中，分析单元1421可以包括：特征提取子单元1422，配置用于从HTTP请求链中提取以下至少一个维度的特征：上下游信息，服务器维度，网页编程语言维度，时间维度，网页自身描述信息；以及分类子单元1423，配置用于利用建立的、经过机器学习的分类模型，基于所提取的特征确定URL是正常网址还是可疑恶意网址。

可选的或附加的，检测子系统1420可以进一步包括：图像识别单元1424，配置用于针对分类子单元1423确定为可疑恶意网址的URL，利用光学字符识别OCR技术，从被渲染成图片的、与该URL关联的网页内容中提取网页文本内容；以及语义解析单元1425，配置用于通过隐含语义模型对网页文本内容进行主题判断以确定URL是否为恶意网址。

可选的或附加的，检测子系统1420还可以进一步包括：去误报单元1426，配置用于对主题判断的结果进行去误报处理。

应当理解，系统1400中记载的诸子系统或单元与参考图2-图7描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征同样适用于系统1400及其中包含的单元，在此不再赘述。

下面参考图15，其示出了适于用来实现本申请实施例的服务器的计算机系统1500的结构示意图。

如图15所示，计算机系统1500包括中央处理单元(CPU)1501，其可以根据存储在只读存储器(ROM)1502中的程序或者从存储部分1508加载到随机访问存储器(RAM)1503中的程序而执行各种适当的动作和处理。在RAM 1503中，还存储有系统1500操作所需的各种程序和数据。CPU 1501、ROM 1502以及RAM 1503通过总线1504彼此相连。输入/输出(I/O)接口1505也连接至总线1504。

以下部件连接至I/O接口1505：包括键盘、鼠标等的输入部分1506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1507；包括硬盘等的存储部分1508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1509。通信部分1509经由诸如因特网的网络执行通信处理。驱动器1510也根据需要连接至I/O接口1505。可拆卸介质1511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1510上，以便于从其上读出的计算机程序根据需要被安装入存储部分1508。

特别地，根据本公开的实施例，上文参考图2-图7描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，所述计算机程序包含用于执行图2-图7的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1509从网络上被下载和安装，和/或从可拆卸介质1511被安装。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，例如，可以描述为：一种处理器包括爬虫单元和检测单元。其中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。

作为另一方面，本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中所述装置中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，所述程序被一个或者一个以上的处理器用来执行描述于本申请的公式输入方法。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种检测恶意网址的方法，包括：

接收用户上报的统一资源定位符URL；

获取与所述URL关联的超文本传输协议HTTP请求链，所述HTTP请求链是包含访问所述URL的多次HTTP请求-响应交互信息的时序链表；以及

分析所述HTTP请求链以确定所述URL是否为恶意网址。

2.根据权利要求1所述的方法，其中，获取HTTP请求链包括：

利用基于用户地理位置的分布式动态爬虫子系统来获取HTTP请求链。

3.根据权利要求2所述的方法，其中，利用基于用户地理位置的分布式动态爬虫子系统来获取HTTP请求链包括：

确定所述用户所在的地理位置和网络环境信息；

将所述URL调度至地理位置和网络环境信息与所述用户接近的动态爬虫服务器；以及

在所述动态爬虫服务器处下载与所述URL关联的网页内容以获得HTTP请求链。

4.根据权利要求3所述的方法，其中，确定所述用户所在的地理位置和网络环境信息包括：

基于所述用户上报URL的互联网协议IP地址确定所述用户的地理位置以及所使用的网络运营商信息；以及

基于所述网络运营商信息确定所述用户的网络环境信息，其中所述网络环境信息至少包括网络带宽。

5.根据权利要求3所述的方法，其中，下载与所述URL关联的网页内容以获得HTTP请求链包括：

抓取经过跳转的网页内容并保存中间结果。

6.根据权利要求5所述的方法，其中，抓取经过跳转的网页内容包括以下至少一项：

利用浏览器的排版引擎对超文本标记语言文档对象模型HTMLDOM树进行渲染，以抓取通过HTML文档中的内联框架iframe标签进行跳转的网页内容；

通过JavaScript引擎执行JavaScript代码，以抓取通过JavaScript代码进行跳转的网页内容；以及

通过Flash播放器插件执行Flash以抓取通过Flash进行跳转的网页内容。

7.根据权利要求1-6任一所述的方法，其中，分析所述HTTP请求链以确定所述URL是否为恶意网址包括：

从所述HTTP请求链中提取以下至少一个维度的特征：上下游信息，服务器维度，网页编程语言维度，时间维度，网页自身描述信息；以及

利用建立的、经过机器学习的分类模型，基于所提取的特征确定所述URL是正常网址还是可疑恶意网址。

8.根据权利要求7所述的方法，其中，

所述上下游信息包括以下至少一项信息：302跳转次数，404页面占比，子URL是否包含广告联盟链接，子URL是否包含恶意子链接，子URL是否包含小型网站统计工具；

所述服务器维度包括以下至少一项信息：是否为境外互联网协议IP地址，是否是Windows IIS，是否采用内容分发网络CDN技术，是否是kangle服务器，是否是netbox服务器，是否是nginx服务器，是否是apache服务器，是否是多媒体视频；

所述网页编程语言维度包括以下至少一项信息：是否由动态服务器页面ASP语言编写，是否由超文本预处理器PHP语言编写；

所述时间维度包括以下至少一项信息：是否是热点时间，是否是周末；并且

所述网页自身描述信息包括以下至少一项信息：网页大小，单个URL加载时间，网站是否备案，是否经过加密处理，是否是免费二级域名。

9.根据权利要求7所述的方法，其中，所述方法进一步包括：

响应于确定所述URL是可疑恶意网址，将与所述URL关联的网页内容渲染成图片并利用光学字符识别OCR技术提取网页文本内容；

通过隐含语义模型对所述网页文本内容进行主题判断；以及

基于主题判断结果确定所述URL是否为恶意网址。

10.根据权利要求9所述的方法，其中，所述方法进一步包括：

对所述主题判断结果进行去误报处理。

11.根据权利要求10所述的方法，其中，所述去误报处理包括以下至少一项：

根据白名单判断被确定为恶意网址的URL是否为误报；

查询与所述URL相关的访问信息，判断是否为误报；

查询所述URL的互联网内容提供商ICP备案信息，判断是否为误报；以及

查询与所述URL相关的资质数据，判断是否为误报。

12.一种检测恶意网址的系统，包括爬虫子系统和检测子系统，其中，

所述爬虫子系统包括爬虫调度服务器以及一个或多个动态爬虫服务器，所述爬虫调度服务器配置用于接收用户上报的统一资源定位符URL，以及调度动态爬虫服务器；所述动态爬虫服务器配置用于根据所述爬虫调度服务器的调度获取与所述URL关联的超文本传输协议HTTP请求链，所述HTTP请求链是包含访问所述URL的多次HTTP请求-响应交互信息的时序链表；并且

所述检测子系统包括分析单元，配置用于分析所述HTTP请求链以确定所述URL是否为恶意网址。

13.根据权利要求12所述的系统，其中，所述爬虫调度服务器配置用于通过如下来调度动态爬虫服务器：

确定所述用户所在的地理位置和网络环境信息；以及

将所述URL调度至地理位置和网络环境信息与所述用户接近的动态爬虫服务器。

14.根据权利要求13所述的系统，其中，所述爬虫调度服务器配置用于通过如下来确定所述用户所在的地理位置和网络环境信息：

15.根据权利要求12所述的系统，其中所述动态爬虫服务器获取HTTP请求链包括：

所述动态爬虫服务器下载与所述URL关联的网页内容以获得HTTP请求链。

16.根据权利要求15所述的系统，其中，所述动态爬虫服务器配置用于通过以下至少一项来抓取经过跳转的网页内容并保存中间结果：

17.根据权利要求12-16任一所述的系统，其中，所述分析单元包括：

特征提取子单元，配置用于从所述HTTP请求链中提取以下至少一个维度的特征：上下游信息，服务器维度，网页编程语言维度，时间维度，网页自身描述信息；以及

分类子单元，配置用于利用建立的、经过机器学习的分类模型，基于所提取的特征确定所述URL是正常网址还是可疑恶意网址。

18.根据权利要求17所述的系统，其中，

所述网页编程语言维度包括以下至少一项信息：是否由动态服务器页面ASP语言编写，是否由超文本预处理器PHP语言编写asp语言编写；

19.根据权利要求17所述的系统，其中，所述检测子系统进一步包括：

图像识别单元，配置用于针对所述分类子单元确定为可疑恶意网址的URL，利用光学字符识别OCR技术，从被渲染成图片的、与所述URL关联的网页内容中提取网页文本内容；以及

语义解析单元，配置用于通过隐含语义模型对所述网页文本内容进行主题判断以确定所述URL是否为恶意网址。

20.根据权利要求19所述的系统，其中，所述检测子系统进一步包括：

去误报单元，配置用于对所述主题判断的结果进行去误报处理。