CN101594261B

CN101594261B - 一种假冒网站监测方法及其系统

Info

Publication number: CN101594261B
Application number: CN200810113252XA
Authority: CN
Inventors: 刘文印; 邱彼特; 张加龙
Original assignee: BEIJING BAIWENBAIDA NETWORK TECHNOLOGIES Co Ltd
Current assignee: Dongguan South China Design and Innovation Institute
Priority date: 2008-05-28
Filing date: 2008-05-28
Publication date: 2011-06-15
Anticipated expiration: 2028-05-28
Also published as: CN101594261A

Abstract

本发明公开了一种假冒网站监测方法及其系统，其中该方法包括：包括：步骤一，监测Web服务器中的HTTP请求，获取HTTP请求信息；步骤二，根据所述HTTP请求信息中的引荐者参数、所述HTTP请求行中的Url参数对所述引荐者指向的网址进行过滤，获取可疑网址；步骤三，计算所述可疑网址与要保护的真实网页之间的相似度，得到评估结果并发出相关通知。采用本发明方法实现了对假冒网站的监测。

Description

一种假冒网站监测方法及其系统

技术领域

本发明涉及假冒网站监测技术，特别是涉及一种假冒网站监测方法及其系统。

背景技术

随着互联网的快速发展，其安全问题不断出现，除了病毒及黑客攻击外，网站(特别是银行等在线金融网站)被假冒用以诱骗客户提供密码或信用卡号码等个人(身份)机密信息的案例也越来越多起来。

目前已经存在一些反诱骗的技术及策略，但分析之后不难发现已知技术及策略普遍存在一些缺陷和不足较大地制约了其反诱骗过程的效率与可靠性。如有些反诱骗技术及策略主要侧重于对诱骗所用的“诱饵”——即所发邀请邮件一一进行处理，如在客户端或在网关处检测及过滤该类有害邮件(像过滤垃圾邮件一样)，或验证邮件的数字签名，或验证所发出邮件的IP地址以确定其真实性。该类方法可靠性并不高，不能完全解决问题，且给客户带来很大负担，需要安装及学习相关软件。在网站一端能做的包括在登陆时采取双重验证，即采用网站先前提供的软件(如电子证书)或硬件设备(如智能卡)。但是该类方法不但管理成本很高，且使网上活动的便利大打折扣。

另外有一种使用黑名单策略来减少诱骗发生率的方法，有些机构/组织能够提供他们收集到的黑名单数据，如www.internetidentity.com，www.phishtank.org和www.antiphishing.org。黑名单策略的一个明显缺陷在于其时效性：新的黑名单数据的加入前必须先由互联网用户报告后经过人工审核确认是假冒网站后才可加入黑名单。首先，互联网用户的报告时间因依赖于众多的不确定因素而缺乏可控性，如用户的个人习惯和收集黑名单的机构/组织的知名度等。其次，人工审核过程对比前一过程虽然具有更高的可控程度，但由于没有实现自动化审核过程，也难免需要耗费额外的时间。

有一些技术则采用主动式/自发式的假冒网站监测过滤策略，其往往包含2个步骤，即1)生成待检测的假冒网站URL和2)利用某些有效算法对该URL指向的页面和受保护网站页面的比对来计算诱骗的可能性。该类技术的优点在于将审核的过程自动化，并计算出诱骗的可能性。但此类过程过分依赖于前期生成的待检测的假冒网站集对真实假冒网站集的覆盖率，而通过组合一些URI的基本元素来生成的待检测假冒网站集很难充分囊括真实的假冒网站。

因此有必要发明一种新的反诱骗技术，使得反诱骗过程能够更准确，更及时，同时能尽量减少人工的参与。通过分析发现，目前的大部分假冒网站包含很多真实网站中的资源。这样，当某个互联网浏览用户点击了一个假冒网站，势必会发出很多对真实网站中的一些资源(如LOGO图片、用户协议、帮助页面等)的请求(HTTP Request)，而现在并没有方法知道对真实网站中的资源的该请求是从哪个网站/网页发出的，因此这些网站/网页的网址属于可疑网址。因此有必要提出一种方法，来获得有可能为假冒网站的可疑网址，然后作进一步评估，判断其是否为假冒网站。

发明内容

本发明所要解决的技术问题在于提供一种假冒网站监测方法及其系统，用于假冒网站进行监测。

为了实现上述目的，本发明提供了一种假冒网站监测方法，其特征在于，包括：

步骤一，监测Web服务器中的HTTP请求，获取HTTP请求信息；

步骤二，根据所述HTTP请求信息中的引荐者参数、所述HTTP请求行中的Url参数对所述引荐者指向的网址进行过滤，获取可疑网址；

步骤三，计算所述可疑网址与要保护的真实网页之间的相似度，得到评估结果并发出相关通知。

所述的假冒网站监测方法，其中，所述步骤一中，进一步包括：

通过所述Web服务器中的特定接口获取所述Web服务器收到的每一个HTTP请求信息的步骤。

所述的假冒网站监测方法，其中，所述步骤二中，进一步包括：当所述HTTP请求满足以下条件之一时，过滤掉所述HTTP请求的步骤：

a1)引荐者的值为空；或

a2)引荐者指向的网址在受保护的网站列表或白名单中出现；或

a3)Url所访问的资源不在受保护资源列表中。

所述的假冒网站监测方法，其中，所述步骤三中，进一步包括：将所述评估结果以如下处理方式中的任一种或多种方式进行输出；

b1)将所述评估结果以预定的格式保存成日志文件；或

b2)对假冒可能性高于预定值的网站发送警报给所保护的网站的管理员；或

b3)以软件使用者期望的处理方法添加到结果处理组件中；或

b4)将所述评估结果以设置的方式发出通知。

为了实现上述目的，本发明还提供了一种假冒网站监测系统，其特征在于，包括：

请求信息监测模块，用于监测Web服务器中的HTTP请求，获取HTTP请求信息，以及所述HTTP请求信息中的引荐者参数、所述HTTP请求行中的Url参数；

假冒网站分析模块，用于接收来自所述请求信息监测模块的所述引荐者、所述Url，根据所述引荐者、所述Url对所述引荐者指向的网址进行过滤以获取可疑网址，计算所述可疑网址与要保护的真实网页之间的相似度，得到评估结果并发出相关通知。

所述的假冒网站监测系统，其中，所述请求信息监测模块通过所述Web服务器中的特定接口成功登记/注册到所述Web服务器，所述Web服务器收到的每一个HTTP请求通过调用所述特定接口传回所述请求信息监测模块。

所述的假冒网站监测系统，其中，还包括：

共享数据池，连接所述请求信息监测模块、所述假冒网站分析模块，用于存储所述引荐者、所述Url；所述Url为被访问资源的Url，所述引荐者为请求访问所述Url的HTTP请求头信息中的引荐者；所述共享数据池顺次存储Url的长度、Url、引荐者的长度、引荐者。

所述的假冒网站监测系统，其中，所述请求信息监测模块、所述假冒网站分析模块通过所述共享数据池对从所述Web服务器获得的数据进行数据共享；

所述请求信息监测模块根据事件状态判断是否有将会使用该共享数据的所述假冒网站分析模块存在，若无，则返回给所述Web服务器，若有，则获取所述引荐者和所述Url，并等待所述共享数据池可写的信号，若等待时间超过一设定值，则默认所述假冒网站分析模块退出，将所述假冒网站分析模块的事件信号设置为无，将下一个HTTP请求返回给所述Web服务器，直到所述假冒网站分析模块重新开启并将所存在的信号通知给所述请求信息监测模块；若所述共享数据池可写，则将所述引荐者和所述Url的数据和长度信息拷贝到所述共享数据池中，并触发一个所述共享数据池可读的信号，结束处理。

所述的假冒网站监测系统，其中，所述假冒网站分析模块包括：

接收模块，用于对应于所述请求信息监测模块向所述共享数据池中写入的所述引荐者、所述Url，从所述共享数据池中读出所述引荐者、所述Url；

预处理模块，连接所述接收模块，用于对所述接收模块转交的所述引荐者、所述Url进行预处理，得到预处理后的所述引荐者、所述Url；

任务处理模块，连接所述预处理模块，用于对预处理后的所述引荐者、所述Url进行封装；

分析运算模块，连接所述任务处理模块，用于对所述引荐者和要保护的网站进行分析，并将分析结果封装成结果对象；

结果处理模块，连接所述分析运算模块，用于根据软件使用者/Admin的设置处理所述结果对象得到结果数据。

所述的假冒网站监测系统，其中，所述接收模块是工作者线程，在启动后寻找所述共享数据池，并当寻找到所述共享数据池后，等待所述共享数据池可读的信号，当一个HTTP请求发送到所述Web服务器时，由所述请求信息监测模块将该HTTP请求写入到所述共享数据池中，触发所述共享数据池可读的信号；

所述接收模块将所述共享数据池中的数据读出，触发一个共享数据池可写的信号，所述请求信息监测模块继续对所述共享数据池进行数据写入。

所述的假冒网站监测系统，其中，所述预处理模块当所述HTTP请求满足以下条件之一时，过滤掉所述HTTP请求：

a1)引荐者的值为空；或

a3)Url所访问的资源不在受保护资源列表中。

所述的假冒网站监测系统，其中，所述结果处理模块将所述评估结果以如下处理方式中的任一种或多种形式进行输出；

b1)将所述评估结果以预定的格式保存成日志文件；或

b3)以软件使用者期望的处理方法添加到结果处理组件中；或

b4)将所述评估结果以设置的方式发出通知。

为了实现上述目的，本发明还提供了一种假冒网站监测装置，包括计算机终端、Web服务器、假冒网站监测系统，所述假冒网站监测系统又包括：

请求信息监测模块，用于监测所述计算机终端向所述Web服务器发出的HTTP请求，获取HTTP请求信息，以及所述HTTP请求信息中的引荐者参数、所述HTTP请求行中的Url参数；

假冒网站分析模块，用于接收来自所述请求信息监测模块的所述引荐者、所述Url，根据所述引荐者、所述Url对所述引荐者指向的网址进行过滤以获取可疑网址，计算所述可疑网址与系统要保护的真实网页之间的相似度，得到评估结果并发出相关通知。

采用本发明方法能够知道对真实网站中的资源的请求是从哪个网站/网页发出的，并能够获得有可能为假冒网站的可疑网址，然后作进一步评估，判断其是否为假冒网站。

以下结合附图和具体实施例对本发明进行详细描述，但不作为对本发明的限定。

附图说明

图1是本发明的基于HTTP引荐者的假冒网站监测方法流程图；

图2是本发明的假冒网站监测系统结构图；

图3是本发明的假冒网站分析模块的功能模块结构图；

图4是本发明的数据池示意图；

图5是本发明的线程池示意图；

图6a、图6b是本发明的在接收到任务时用户界面更新前后示意图。

具体实施方式

下面结合附图和具体实施方式对本发明的技术方案作进一步更详细的描述。

在本发明的一个实施例中，本发明假设大部分假冒网站包含很多真实网站中的资源(事实中大量实例确实如此)。这样，当某个互联网浏览用户点击了一个假冒网站，势必会发出很多对真实网站中的一些资源(如LOGO图片、用户协议、帮助页面等)的请求(HTTP Request，在本说明书中简称为HTTP请求，其中包括HTTP请求头信息)，而在请求头信息(header)中，有一个HTTP引荐者(即HTTP Referer，是HTTP请求头信息的一部分，当浏览器向Web服务器发送请求时，一般带有真实的引荐者信息，告诉Web服务器该请求来自的网页所处的网址，在本说明书中简称为引荐者)，通过引荐者能够知道对真实网站中的资源的该请求是从哪个网址/页发出的。然后，过滤掉可靠的网址，并评估剩下的可疑网址。由于该方法的前提条件是，某一网址(可疑网址)已经发出对真实网站中资源的请求，因此由该方法获得的有可能为假冒网站的可疑网址有很高的价值。

如图1所示，是本发明基于HTTP引荐者的假冒网站监测方法流程图。结合图2，该流程描述了一种基于HTTP引荐者的假冒网站监测方法，通过监测HTTP请求，过滤并获得可能为假冒网页的可疑网址，然后作进一步评估，判断其是否为假冒网站。该方法具体包括如下步骤：

步骤S101，HTTP请求监测步骤，监测Web服务器30中的HTTP请求，并获取HTTP请求信息；

步骤S102，HTTP请求过滤步骤，根据HTTP请求信息中的引荐者和HTTP请求行中的Url(或URI，即表示该请求欲访问的资源的网址，详情请参考w3的规范：http://www.w3.org/Protocols/rfc2616/rfc2616-sec5.html)属性，过滤并获得可能为假冒网页的可疑网址；

步骤S103，可疑网址评估步骤，根据网页相似度算法，计算可疑网页与要保护的真实网页之间的相似度，得到评估结果；

步骤S104，评估结果输出步骤，根据本发明的系统的使用者(以下简称软件使用者/Admin)的设置，将评估结果以相应的方式通知给相应的用户(包括本发明的系统的使用者、相关的安全官员、相关的安全系统、甚至一些互联网浏览用户)，起到警示作用。

在步骤S101中，利用Web服务器30(如IIS服务器中的ISAPI Filter，Apache服务器的Apache Module)中的特定接口把请求信息监测模块41成功登记/注册到Web服务器30，之后，Web服务器30收到的每一个HTTP请求都会通过调用这些接口传回请求信息监测模块41以实现对Web服务器30收到的HTTP请求的监测。

在一个实施例中，Web服务器30为微软公司的IIS(Internet InformationServer，互联网信息服务器)。在步骤S101中，是利用IIS服务器30中的ISAPIFilter(过滤器)对来自于计算机终端10的HTTP请求进行监测。

在步骤S101中，利用IIS服务器30中的ISAPI Filter进行监测中，进一步包括：通过特定的接口把请求信息监测模块41(一个ISAPI Filter)成功登记(或注册)到IIS服务器30上，IIS服务器30收到的每一个HTTP请求都会通过调用这些接口传回请求信息监测模块41。

在另一个实施例中，Web服务器30为Apache HTTP Server(以下简称Apache)。在步骤S101中，是利用Apache服务器30中的Apache Module(Apache模组)对来自计算机终端20的HTTP请求进行监测。

在步骤S101中，利用Apache服务器30中的Apache Module进行监测中，进一步包括：通过在请求信息监测模块41(一个Apache Module)中实现特定的Hook(钩子)并通过在配置文件httpd.conf中使用LoadModule指令将请求信息监测模块41登记(或注册)到Apache服务器30中，Apache服务器30收到的每一个HTTP请求都会通过调用这个Hook传回到请求信息监测模块41。

在以下的步骤描述中，如未加特殊说明，则默认其适用于所有的Web服务器30。

在步骤S101中，HTTP请求搭载的信息根据互联网浏览用户所用的浏览器的不同会有一定程度的差异，比如，当一个用户用Firefox 2.0.0.14访问www.buyans.com时，Firefox发出的对一个LOGO图片(logo_buyans.gif)的HTTP请求信息是这样的(用live http headers插件截获，live http headers插件见https://addons.mozilla.org/en-US/firefox/addon/3829)：

“Get/img/logo_buyans.gif HTTP/1.1

Host:www.buyans.com

User-Agent:Mozilla/5.0(Winidows；U；Windows NT5.1；en-US；rv:1.8.1.14)Gecko/20080404 Firefox/2.0.0.14

Accept:image/png，*/*；q＝0.5

Accept-Language:en-us，en；q＝0.5

Accept-Encoding:gzip，deflate

Accept-Charset：ISO-8859-1，utf-8；q＝0.7，*；q＝0.7

Keep-Alive:300

Connection:keep-alive

Referer:http://www.buyans.com/

Cookie:ASP.NET_SessionID＝y5oi2ayvtriwbqfm31fwj4a5；QASys＝selectedUILang＝0&selectedQuestioinLang＝(‘English’…

If-Modified-Since:Fri，15Dec 2006 07:15:09 GMT

If-None-Match:“d8286ec11820c71:458”

Cache-Control:max-age＝0”

而如果用户用Internet Explorer 6.0访问www.buyans.com时，访问同一个LOGO图片(logo_buyans.gif)时，Internet Explorer 6.0发出的HTTP请求信息是这样的(用Web Development Helper截获)：

“Get/img/logo_buyans.gif HTTP/1.1

Accept */*

Referer http://www.buyans.com/

Accept-Language en-US

Accept-Encoding gzip，deflate

If-Modified-Since Fri，15 Dec 2006 07:15:09 GMT

If-None-Match “d8286ec11820c71:458”

User-Agent Mozilla/4.0(compatible；MSIE6.0；WindowsNT5.1；SV1；.NET CLR2.0.50727；InfoPath.2)

Host www.buyans.com

Connection Keep-Alive

Cookie ASP.NET_SessionID＝cekyfoultktth245sceopjqt；

QASys＝selectedUILang＝0&selectedQu…”

如果用其他浏览器作同样的操作还可能产生另一种不同的HTTP请求。但这些HTTP请求中都包含了对本发明假冒网站监测系统非常重要的属性，即HTTP请求头信息中的引荐者(即上述HTTP请求中的Referer)。

在步骤S101中，还包括：当某一资源的Url(网址)中包含如空格等非法字符时，Web服务器30(如，微软公司的IIS(Internet Information Server，互联网信息服务器)，Apache软件基金会的Apache服务器等)会对其进行encode(编码)操作，将非法字符转换为其他特定字符。上例中，如果资源的Url为/img/logo buyans.gif(注意：logo和buyans之间为空格)，则HTTP请求的请求行中将显示/img/logo％20buyans.gif。因此，步骤S101中进一步包括：对监测到的HTTP请求行中的Url进行解码的步骤。在与IIS服务器30有关的实施例中，该步骤通过调用下面的方法实现：

InternetCanonicalizeUrl(UrlEncoded，Url，&UrlLength，ICU_DECODE|ICU_NO_ENCODE)；

其中，式中参数意义如下：

UrlEncoded：要解码的Url；

Url：解码后所得到的结果；

&UrlLength：解码后Url的长度；

ICU_DECODE|ICU_NO_ENCODE：将原Url中的“％XX”转换为对应的字符，并且忽略不安全的字符。而在与Apache服务器30有关的实施例中，由于对Url进行解码(在Apache中称作translation)的操作可由Apache Core完成，故在读取Url前可省去这一步。

在步骤S102中，满足以下任意一个条件的请求将被过滤掉：

a1)引荐者的值为空；或

a2)引荐者的值所表示的站点在受保护的网站列表或白名单中出现；或

a3)Url所访问的资源不在受保护资源列表中。

其中，白名单和受保护资源列表将在后面介绍。

其中，白名单为软件使用者/Admin认为安全可靠的网站地址列表，即如果请求是由白名单中的某个网页发出，则认为是安全的。

在步骤S103中，进一步包括：采用一种或多种计算两个网页间相似度的计算方法，如语义相似度、视觉相似度等计算方法。参见中国发明专利“一种检测鉴别假冒网页的方法及系统，专利号为200410009873.5中的网页相似度计算方法”。

在步骤S104中，评估结果采用如下多种处理方式进行输出：

b1)将评估结果以预定的格式保存成日志文件；

b2)将假冒可能性高于预定值的网站发送警报给网站管理员；

b3)以其他软件使用者期望的处理方法都可以添加到结果处理组件中。

在步骤S104中，根据软件使用者/Admin的设置，将评估结果以相应的方式通知给相应的用户，起到警示作用。比如，当相似度大于一个事先设定的阈值时，向被假冒网站(要保护的真实网页)的管理员或其他有关人员/系统发送Email、短信或其他方式的通知等。上述假冒网站监测方法中，进一步包括：通过一共享数据池来存储HTTP请求信息中的引荐者和Url属性，以实现请求信息监测模块41和假冒网址分析模块42之间的数据共享。

上述共享数据池中头四个字节用于存储被访问资源的Url的长度，接着存储被访问资源的Url，该Url的大小为Url的字节数；然后存储被访问资源的Url的引荐者的长度，接着存储被访问资源的Url的引荐者，该引荐者的大小为引荐者的字节数。当原始数据(Url和引荐者)被读取后，新的数据将覆盖原来的数据。

上述共享数据池针对Web服务器30传回的数据，实现请求信息监测模块41和假冒网址分析模块42之间的数据共享步骤进一步包括：

c1)请求信息监测模块41根据事件状态判断是否有对该数据感兴趣的假冒网站分析模块42，如果没有，略过下面步骤c2)、c3)直接返回给Web服务器30；

c2)如果有假冒网站分析模块42在监听，获取引荐者和Url后，先等待共享数据池可写的信号，如果等待时间超过300ms，则默认监听数据的假冒网站分析模块42因不明原因退出，之后将假冒网站分析模块42的事件信号设置为无，并略过下面的操作c3)返回给Web服务器30，下一个请求将不作任何操作直接返回给Web服务器30，直到假冒网站分析模块42重新开启并将自身存在的信号通知给请求信息监测模块41；

c3)如果共享数据池可写，则不加任何分析直接将引荐者和Url的数据和长度信息拷贝到共享数据池中，接着触发一个共享数据池可读的信号，然后立即结束处理。

如图2所示，是本发明的假冒网站监测系统部署图。该图给出了基于HTTP引荐者的假冒网站监测系统40与计算机终端20、Web服务器30之间的连接关系。假冒网站监测系统40与计算机终端20、Web服务器30共同组成了假冒网站监测装置200。其中，假冒网站监测系统40具体包括：

请求信息监测模块41，用于获取每一个HTTP请求，并将获得的请求头信息中的引荐者属性做初步处理；

假冒网站分析模块42，用于接收来自请求信息监测模块41的原始信息，对原始信息进行处理后得到假冒网站的可能性。

具体地，假冒网站分析模块42对原始信息进行判别后进行复杂的分析运算并得出是假冒网站的可能性，最后将得到的结果通过事先设定的方式储存备份和/或发送邮件警报给相关人士。

进一步，请求信息监测模块41包括HTTP请求监测模块44，用于监测Web服务器30中的HTTP请求，并获取HTTP请求信息。

进一步，请求信息监测模块41是利用Web服务器30(如IIS服务器中的ISAPI Filter，Apache服务器的Apache Module)中的特定接口对HTTP请求进行监测。请求信息监测模块41通过特定的接口成功登记/注册到Web服务器30上，Web服务器30收到的每一个HTTP请求都会通过调用这些接口传回请求信息监测模块41。

如图3所示，是本发明假冒网站分析模块的功能模块结构图。结合图2，该图描述了假冒网站分析模块42的组成，包括：

接收模块51，对应于请求信息监测模块41中向共享数据池43中写入数据的部分，从共享数据池43中读出数据并转交给预处理模块52；

预处理模块52，用于对接收模块51接收的原始数据进行预处理，得到处理后的原始数据；

任务处理模块53，用于对预处理模块52处理后的原始数据进行封装，以使其适应多线程的工作环境，以保证对原始数据读写操作的原子性；

分析运算模块54，由任务处理线程调用，并调用核心算法对引荐者和受保护网站进行复杂的分析对比，并最终将运算的结果封装成一个结果对象，交给结果处理模块55进行后继处理；

结果处理模块55，用于将根据软件使用者/Admin事先设置处理分析运算模块54交给的数据，得到结果数据；

配置模块56，用于从配置文件中读取配置数据，对配置数据进行读取和存储操作的封装，以使配置数据的保存方法对配置数据的使用者透明。从而向预处理模块52提供数据处理依据。

假冒网站分析模块42还进一步包括工具模块、线程管理器。其中工具模块是其他模块可能用到的一些特殊功能的一个封装的集合；线程管理器用于管理除UI主线程之外的其他所有用到的线程的生命周期。该线程管理器与任务处理线程一起组成线程池模式。

上述线程池中的每个线程(即工作者线程)一旦由UI或者线程管理器创建，将会一直运行，当完成一个任务，即到共享数据池43读取下一个原始数据。并且线程的个数可以由软件使用者/Admin手动设置。

接收模块51是一个工作者线程，由UI或者线程管理器启动，启动后，首先寻找共享数据池43，如果共享数据池43没有被创建，说明请求信息监测模块41不存在或者未成功登记/注册到IIS服务器30中；

当寻找到共享数据池43后，接收模块51开始等待共享数据池43可读的信号，此等待是永恒的，也就是说没有超时限定。等待直到有一个HTTP请求发送到IIS服务器30，然后由请求信息监测模块41将该HTTP请求中的Url以及引荐者写入到共享数据池43中，并触发共享数据池43可读的信号后才结束。

接收模块51将共享数据池43中的原始数据读出并触发一个共享数据池43可写信号，以便数据写入方可以继续写入其他数据，如果这个信号在300ms内没有触发，请求信息监测模块41将假定接收模块51已经不能正常工作并放弃等待。

预处理模块52判断原始数据是否属于以下所列状态的任何一种，若符合其中任意一种，则将原始数据抛弃：

a1)引荐者的值为空；或

a3)Url所访问的资源不在受保护资源列表中。

任务处理模块53包含一组分析处理任务列表中每一个任务的线程，这组线程由线程管理器控制，它们一起实现了线程池的模式。

分析运算模块54采用一种或多种计算两个网页间相似度的计算方法，如语义相似度、视觉相似度等计算方法。参见中国发明专利“一种检测鉴别假冒网页的方法及系统，专利号为200410009873.5中的网页相似度计算方法”。并将分析运算结果以结果列表的形式进行存储。

结果处理模块55采用如下几种处理方式：

b1)将评估结果以预定的格式保存成日志文件；

b2)将假冒可能性高于预定值的网站发送警报给要保护的网站的管理员；

配置模块56配置数据的种类包括以下几种，这些种类的配置数据将分别被不同的模块以及不同的线程读取：

d1)受保护的网站列表，即软件使用者/Admin设定的其要保护的网站；

d2)受保护的网站资源列表，即由软件使用者/Admin设定的其要保护的网站中的资源；

d3)网站白名单，即由软件使用者/Admin设定的其认为安全可靠的网址。

进一步地，任务处理线程的个数可由用户设定；此外，用户还可以设定：

e1)结果数据的默认处理方式；

e2)结果数据默认处理方式的相关预设值；

工具模块包括以下几个对象：

f1)EventTrigger，包含所有与事件(Event)有关的操作，在接收模块51与请求信息监测模块41通信时会用到。目前用到的事件包括：

将假冒网站分析模块42的启动或者准备接收数据的信号传递给请求信息监测模块41；

将共享数据池43可写信号通知给请求信息监测模块41；

等待共享数据池43可读信号；

将假冒网站分析模块42的关闭或者未准备接收数据的信号传递给请求信息监测模块41。

f2)Global，包含所有系统中用到的常量信息，如配置文件的文件名，共享数据池43的名字等；

f3)PInvokeWrapper，与请求信息监测模块41通信过程中调用了一些非托管的系统API。

进一步地，该系统40还包括一些用户操作界面，包含了主界面和选项设置界面。选项设置界面是设置配置所涉及的信息的一个portal。主界面展示了假冒网站分析模块42的工作状态，如接收到的任务列表、任务的处理状态、结果列表信息等。另外它还提供对一些特定操作的开始和暂停操作，如开始接收数据或者暂停接收数据等。

进一步地，该系统40包括一共享数据池43，用来存储HTTP请求信息中的引荐者和Url属性，实现请求信息监测模块41和假冒网址分析模块42之间的数据共享。

共享数据池43的大小可以由软件使用者/Admin设定，一般应大于可能最长的Url的长度与最长的引荐者的长度之和，一般设为2048字节即足够用，但为安全起见也可设得更长；头四个字节用来存储被访问资源的Url的长度，接着存储被访问资源的Url，其大小为Url字节数；然后存储被访问资源的Url的引荐者的长度，接着存储被访问资源的Url的引荐者，其大小为引荐者的字节数。引荐者的长度存储在Url后面的头四个字节中。当原始数据(Url和引荐者)被读取后，新的数据将覆盖原来的数据。

上述共享数据池43针对IIS服务器30传回的数据，实现请求信息监测模块41和假冒网址分析模块42之间的数据共享步骤进一步包括：

c1)请求信息监测模块41根据事件状态判断是否有对该数据感兴趣的假冒网站分析模块42在运行，如果没有，略过下面步骤c2)、c3)直接返回给IIS服务器30；

c2)如果有假冒网站分析模块42在监听，请求信息监测模块41获取引荐者和Url后，先等待共享数据池43可写的信号，如果等待时间超过300ms，则默认监听数据的假冒网站分析模块42因不明原因退出，之后将假冒网站分析模块42的事件信号设置为无，并略过下面的操作c3)返回给IIS服务器30，下一个请求将不作任何操作直接返回给IIS服务器30，直到假冒网站分析模块42重新开启并将自身存在的信号通知给请求信息监测模块41；

c3)如果共享数据池43可写，则不加任何分析直接将引荐者和Url的数据和长度信息拷贝到共享数据池43中，接着触发一个共享数据池43可读的信号，然后立即结束处理。

下面以本发明要保护的网站www.buyans.com为例，进一步描述本发明的技术方案。首先由请求信息监测模块41从Web服务器30获取HTTP请求，以及HTTP请求头信息中的引荐者。

本发明的目的是要获得引荐者，引荐者是包含在HTTP请求头信息中的一个属性参数，所以必须监测Web服务器30的HTTP请求，并读取HTTP请求头信息中的引荐者的值。每一个Web服务器30都提供有特定的应用程序接口(API)以便网站能够定制和扩展Web服务器30的功能，如IIS服务器30中的ISAPI(一个应用程序接口API)，以及Apache服务器30中的Apache ModuleAPI。对于不同的Web服务器30，获取HTTP请求的方法也不同。如在基于IIS服务器30的实施例中，请求信息监测模块41可由一个ISAPI过滤器(Filter)表示，其作用是通过IIS服务器30指定的GetFilterVersion和HttpFilterProc两个接口(可参考MSDN来了解关于这两个函数的更详细的信息MSDN：http://msdn.microsoft.com/en-us/library/ms826751.aspx)从IIS服务器30中获取HTTP请求。在基于Apache服务器30的实施例中，请求信息临测模块41可由一个Apache Module表示，Apache Module中需实现一个Hook函数，并用ap_hook_header_parser方法将这个Hook函数注册到Apache服务器30的header parse(头信息解析)阶段的处理过程中，之后Apache服务器30在收到HTTP请求后进入header parse阶段时会调用所述Hook函数，由此在Hook函数中获得HTTP请求的信息。值得一提的是，在Apache Module发挥作用前，需要在Apache服务器30的配置文件httpd.conf中使用LoadModule指令来将该Apache Module加载到Apache服务器30中。

当请求信息监测模块41通过合适的接口成功登记/注册到Web服务器30上之后，Web服务器30收到的每一个HTTP请求都会通过调用这些接口/钩子传递给请求信息监测模块41，此时请求信息监测模块41具有获取所有HTTP信息的能力。

在众多的HTTP信息属性当中，本发明只需要获得HTTP请求头信息中的引荐者属性和HTTP请求行中的Url属性。其中引荐者将由假冒网站分析模块42进行网站假冒与否的判定，如在以上两个HTTP请求中，引荐者分别对应于：

Referer:http://www.buyans.com/

Referer http://www.buyans.com/

Url属性则用来判定访问的资源是否为受保护的资源对象。举例说明，如只设定logo.jpg文件为受保护的网站资源，一个访问others.aspx文件的HTTP请求显然不是本发明所关心的可疑请求，因此这类请求信息不需要被派送到假冒网站分析模块42作分析，由于后续分析是一个非常复杂的过程，如果通过Url属性事先加以判别则可以大大减少派送给假冒网站分析模块42的无用任务，结果显然是系统整体性能得到了很大的提高。并且，为了减少对IIS服务器30性能的影响，请求信息监测模块41传递给假冒网站分析模块42的是原始数据，分析和处理引荐者和Url的任务都被放到了假冒网站分析模块42中。

在本发明的一个实施例中，由于请求信息监测模块41与IIS服务器30是同步工作的，而分析每一个假冒网站都是一个相当复杂的过程，其耗用的时间可以让原本正常的HTTP请求返回超时错误。为了避免这样的事情发生，获取和处理引荐者的模块应该是通过某种机制实现异步操作，并且获取引荐者的请求信息监测模块41应该做尽可能少的工作，这也是为什么将分析和处理引荐者和Url的任务交由假冒网站分析模块42的一个主要原因。要实现异步处理，请求信息监测模块41必须将获得的引荐者和Url属性放到某个共享的共享数据池43中，然后通知假冒网站分析模块42从共享数据池43中读取数据从而能够在不影响IIS服务器30性能的情况下异步地分析判别假冒网站。

在本发明的一个实施例中，共享数据池43的大小为2048字节；头四个字节用来存储被访问资源的Url的长度，接着存储被访问资源的Url，其大小为Url字节数；然后存储被访问资源的Url的引荐者的长度，接着存储被访问资源的Url的引荐者，其大小为引荐者的字节数。引荐者的长度存储在Url后面的头四个字节中。当原始数据(Url和引荐者)被读取后，新的数据将覆盖原来的数据。该共享数据池43如图4所示(这里假设Url和引荐者的长度均为4的整数倍)。

在图4中，1代表被访问资源的Url长度；2代表Url；3代表被访问资源的Url的引荐者的长度；4代表引荐者；5代表未使用的共享数据池43。

在本发明的另一个实施例中，共享数据池43可以由一队列实现(即先进先出，由请求信息监测模块41最先放入共享数据池43的数据由假冒网站分析模块42最先取出处理，取出后，后面的数据在队列中一样顶上来等待处理)。

在本发明的某些实施例中，采用如下方式来实现请求信息监测模块41和假冒网址分析模块42之间的数据共享。当Web服务器30将数据传递给请求信息监测模块41时，请求信息监测模块41首先通过一个事件状态来判断有没有对这些数据感兴趣的假冒网站分析模块42正在运行。如果没有这样的假冒网站分析模块42则略过所有操作直接返回给Web服务器30。如果有假冒网站分析模块42在监听，当获取引荐者和Url后，先等待共享数据池43可写的信号，如果等待时间超过300ms，则默认监听数据的假冒网站分析模块42因不明原因退出，之后将有假冒网站分析模块42的事件信号设置为无，并略过下面的操作返回给Web服务器30，下一个请求将不作任何操作直接返回给Web服务器30，直到假冒网站分析模块42重新开启并将自身存在的信号通知给请求信息监测模块41。如果共享数据池43可写，则不加任何分析直接将它们的数据和长度信息拷贝到共享数据池43中，接着触发一个共享数据池43可读的信号，然后立即结束处理。这样确保了请求信息监测模块41的高效性和稳定性，可以不处理的信息绝不处理，且监听端意外退出时供应端可以判断出来，不至于在等待可写信号时引起Web进程挂起。

在本发明的某些实施例中，如图2所示，请求信息监测模块41通过Web服务器30提供的接口监听所有互联网浏览用户10通过计算机终端20发出的HTTP请求中，当共享数据池43可写，该请求信息监测模块41将请求信息中的Url和引荐者写入共享数据池43；当共享数据池43可读时，假冒网站分析模块42将从共享数据池43中读出原始数据，然后做一系列评估处理。

如图3所示，是本发明假冒网站分析模块的模块结构图。

假冒网站分析模块42主要用于接收来自请求信息监测模块41的原始信息，进行判别后通过复杂的网页相似度计算得出是假冒网站的可能性，最后将得到的结果通过事先设定的方式存储备份或者发送邮件警报给相关人士和/或相关系统。假冒网站分析模块42具体包括：接收模块51、预处理模块52、任务处理模块53、分析运算模块54、结果处理模块55、配置模块56等。

在假冒网站分析模块42中，首先由接收模块51从共享数据池43中读取原始数据。接收模块51其实是一个工作者线程，由用户界面(User Interface，UI)或者线程管理器启动，启动后首先寻找共享数据池43，如果共享数据池43没有被创建，说明请求信息监测模块41不存在或者未成功登记/注册到Web服务器30中。当寻找到共享数据池43后，接收模块51开始等待共享数据池43可读的信号，此等待是永恒的，也就是说没有超时限定。等待直到有一个请求发送到Web服务器30，然后由请求信息监测模块41写入到共享数据池43中，并触发共享数据池43的可读信号后才结束。此时接收模块51立即将共享数据池43中原始数据读出并触发一个共享数据池43可写信号，以便请求信息监测模块41可以继续写入其他数据，如果这个信号在300ms内没有触发，请求信息监测模块41将假定接收模块51已经不能正常工作并放弃等待。

接收模块51接收到原始数据，即引荐者和Url后，将交由预处理模块52对其作进一步处理。如果预处理模块52判断原始数据属于以下所列状态的任何一种时，将对其抛弃：

a1)引荐者的值为空；或

a3)Url所访问的资源不在受保护资源列表中。

如果原始数据不属于以上3种情况的任意一种时，预处理模块52将原始数据送至任务处理模块53，由任务处理模块53作进一步处理。

上述实施例中，请求的资源为/img/logo_buyans.gif，由于该网站www.buyans.com为本发明要保护的网站，因此该图片资源在受保护的网站资源列表，但该请求的引荐者是本发明要保护的网站，因此该请求将被过滤掉。

任务处理模块53首先对原始数据进行封装，使其适应多线程的工作环境，以保证对原始数据读写操作的原子性(因为任务列表将同时被任务处理模块53读取、分析、修改，被主线程读取以更新用户界面(如图6a、图6b所示)，所以对任务列表的访问须保证原子性，即该操作必须由一个线程一次连续完成，不可以再细分为更小的、可被多个线程独立完成或被一个线程分段完成的操作)。任务处理模块53中包括一任务列表。由于任务列表将同时被多个任务处理线程访问，所以对原始数据进行封装是非常必要的。对任务列表的每一个读写操作都必须在拿到同步锁之后进行，操作完成后则立即释放同步锁。任务处理模块53包含一组分析处理任务列表中每一个任务的线程，这组线程由线程管理器控制，跟线程管理器一起实现了线程池的模式。在图6a中，61为接收到任务时，更新用户界面前的任务列表；在图6b中，62为接收到任务时，更新用户界面后的任务列表。

传统的数据处理方式为每一个任务创建一个独立的工作者线程后台处理数据，当数据处理结束后，该工作者线程也随即结束，而后该线程被系统销毁。而数据池模式则在第一次数据处理前一次性创建指定数目的线程，这些线程不断地从数据列表(本例中可以看作任务列表)中读取数据单元并处理，处理一个数据后接着读取下一个数据再处理，直到系统退出或者数据处理过程全部结束这些线程才被销毁。为了验证这两种方式对性能的影响，现在假设数据处理量为N，数据处理总耗时为T，单个数据处理时间为Δtp(time process)，单个线程的创建和销毁时间分别为Δtc(time create)和Δtt(time terminate)，线程池中的线程个数为a，由此得出未采用数据池的传统数据处理方式的总耗时为

T(传统模式)＝N*(Δtc+Δtp+Δtt)

而采用数据池的数据处理模型时，则数据处理的总耗时T为：

T(线程池模式)＝a*Δtc+N*Δtp+a*Δtt

假设采用线程池模式带来的时间优化度为ΔT，则：

ΔT＝T(传统模式)-T(线程池模式)

得出：

ΔT＝(N-a)*(Δtc+Δtt)

由此可以看出，当N＞a时，线程池模式提高系统性能，而当N＜a时，线程池模式降低系统性能。在实际情况中，由于受到CPU处理能力和系统资源的制约，线程池中合理的线程数目一般分布在0-30之间，而N值则与网站的实际访问量有关，假设网站的实际访问量为A，被预处理模块52淘汰掉的废弃数据淘汰率w，则N的值为：

N＝A*(1-w)

根据统计信息，预处理模块52淘汰数据的比率为1％-20％之间，而一般网站每天的实际访问量则在1,000-1,000,000之间，因此得出N的取值范围V约为：

V(N)＝[800,990000]

由此可以证明，在实际情况中N是绝对大于a的，也就是说线程池模型是可以有效提高系统处理数据的效能的，并且网站的访问量越大，ΔT就越大，系统性能提升也就越明显。在这个设计中，任务处理线程的个数是可调节的，管理员可以在通过UI组件来设置任务处理线程的个数。线程池模式如下图5所示。

接着，由分析运算模块54调用核心算法对任务中的引荐者和受保护网站进行复杂的分析对比，并最终将运算的结果封装成一个结果对象，交给结果处理模块55进行后续处理。核心算法集为一种或多种计算两个网页间相似度的计算方法，如语义相似度、视觉相似度等。见中国发明专利“一种检测鉴别假冒网页的方法及系统，专利号为200410009873.5中的网页相似度计算方法”。

分析运算模块54为结果、由任务到结果的运算过程进行了一定的封装，因此可以大大减少在任务处理线程所对应的方法中用到的代码，并给系统后期扩展和维护带来了一定的便利。对结果的封装同样是为了使其适应多线程的工作环境，保证了对结果数据读写的原子性。

最后，分析运算模块54将封装后的结果送给结果处理模块55进行处理。结果处理模块55将根据软件使用者/Admin事先的设定进行处理。可能的处理方法有很多，比如：

b1)将评估结果以预定的格式保存成日志文件；

b2)将假冒可能性高于预定值的网站发送警报给网站管理员；

在本发明的一个实施例中，还包括一些用户操作界面，包含了主界面和选项设置界面。选项设置界面是设置配置模块56所涉及的信息的一个portal。主界面展示了假冒网站分析模块42的工作状态，如接收到的任务列表、任务的处理状态、结果列表信息等。另外它还提供对一些特定操作的开始和暂停操作，如开始接收数据或者暂停接收数据等。

采用本发明方法能够知道对真实网站中的资源的该请求是从哪个网站/网页发出的，并能够获得有可能为假冒网站的可疑网址，然后作进一步评估，判断其是否为假冒网站。

当然，本发明还可有其他多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种假冒网站监测方法，其特征在于，包括：

步骤一，监测Web服务器中的HTTP请求，获取HTTP请求信息；

步骤二，根据所述HTTP请求信息中的引荐者参数、HTTP请求行中的Url参数对所述引荐者指向的网址进行过滤，获取可疑网址，所述引荐者是HTTP请求头信息的一部分，当浏览器向所述Web服务器发送请求时，一般带有真实的引荐者信息，告诉所述Web服务器该请求来自的网页所处的网址；

步骤三，根据网页相似度算法计算所述可疑网址的网页与要保护的真实网页之间的相似度，得到评估结果并发出相关通知；

所述步骤二中，进一步包括：当所述HTTP请求满足以下条件之一时，过滤掉所述HTTP请求的步骤：

a1)引荐者的值为空；或

a3)Url所访问的资源不在受保护资源列表中。

2.根据权利要求1所述的假冒网站监测方法，其特征在于，所述步骤一中，进一步包括：

3.根据权利要求1所述的假冒网站监测方法，其特征在于，所述步骤三中，进一步包括：将所述评估结果以如下处理方式中的任一种或多种方式进行输出；

b1)将所述评估结果以预定的格式保存成日志文件；或

b3)以软件使用者期望的处理方法添加到结果处理组件中。

4.一种假冒网站监测系统，其特征在于，包括：

请求信息监测模块，用于监测Web服务器中的HTTP请求，获取HTTP请求信息，以及所述HTTP请求信息中的引荐者参数、HTTP请求行中的Url参数，所述引荐者是HTTP请求头信息的一部分，当浏览器向所述Web服务器发送请求时，一般带有真实的引荐者信息，告诉所述Web服务器该请求来自的网页所处的网址；

假冒网站分析模块，用于接收来自所述请求信息监测模块的所述引荐者、所述Url，根据所述引荐者、所述Url对所述引荐者指向的网址进行过滤以获取可疑网址，根据网页相似度算法计算所述可疑网址的网页与要保护的真实网页之间的相似度，得到评估结果并发出相关通知；

所述假冒网站分析模块当所述HTTP请求满足以下条件之一时，过滤掉所述HTTP请求：

a1)引荐者的值为空；或

a3)Url所访问的资源不在受保护资源列表中。

5.根据权利要求4所述的假冒网站监测系统，其特征在于，所述请求信息监测模块通过所述Web服务器中的特定接口成功登记/注册到所述Web服务器，所述Web服务器收到的每一个HTTP请求通过调用所述特定接口传回所述请求信息监测模块。

6.根据权利要求4或5所述的假冒网站监测系统，其特征在于，还包括：

7.根据权利要求6所述的假冒网站监测系统，其特征在于，所述请求信息监测模块、所述假冒网站分析模块通过所述共享数据池对从所述Web服务器获得的HTTP请求信息中的引荐者参数和Url参数进行存储，以实现数据共享；

所述请求信息监测模块根据事件状态判断是否有将会使用该共享数据的所述假冒网站分析模块存在，若无，则将从所述Web服务器获得的HTTP请求返回给所述Web服务器，若有，则获取所述引荐者和所述Url，并等待所述共享数据池可写的信号，若等待时间超过一设定值，则默认所述假冒网站分析模块退出，将所述假冒网站分析模块的事件信号设置为无，将下一个HTTP请求返回给所述Web服务器，直到所述假冒网站分析模块重新开启并将所存在的信号通知给所述请求信息监测模块；若所述共享数据池可写，则将所述引荐者和所述Url的数据和长度信息拷贝到所述共享数据池中，并触发一个所述共享数据池可读的信号，结束处理。

8.根据权利要求7所述的假冒网站监测系统，其特征在于，所述假冒网站分析模块包括：

9.根据权利要求8所述的假冒网站监测系统，其特征在于，所述接收模块是工作者线程，在启动后寻找所述共享数据池，并当寻找到所述共享数据池后，等待所述共享数据池可读的信号，当一个HTTP请求发送到所述Web服务器时，由所述请求信息监测模块将该HTTP请求中Url以及引荐者写入到所述共享数据池中，触发所述共享数据池可读的信号；

10.根据权利要求8或9所述的假冒网站监测系统，其特征在于，所述结果处理模块将所述评估结果以如下处理方式中的任一种或多种形式进行输出；

b1)将所述评估结果以预定的格式保存成日志文件；或

b3)以软件使用者期望的处理方法添加到结果处理组件中。

11.一种假冒网站监测装置，包括计算机终端、Web服务器、假冒网站监测系统，所述假冒网站监测系统又包括：

请求信息监测模块，用于监测所述计算机终端向所述Web服务器发出的HTTP请求，获取HTTP请求信息，以及所述HTTP请求信息中的引荐者参数、HTTP请求行中的Url参数，所述引荐者是HTTP请求头信息的一部分，当浏览器向所述Web服务器发送请求时，一般带有真实的引荐者信息，告诉所述Web服务器该请求来自的网页所处的网址；

假冒网站分析模块，用于接收来自所述请求信息监测模块的所述引荐者、所述Url，根据所述引荐者、所述Url对所述引荐者指向的网址进行过滤以获取可疑网址，根据网页相似度算法计算所述可疑网址的网页与系统要保护的真实网页之间的相似度，得到评估结果并发出相关通知；

a1)引荐者的值为空；或

a3)Url所访问的资源不在受保护资源列表中。