CN101436210B

CN101436210B - 一种识别假冒网页的方法及系统

Info

Publication number: CN101436210B
Application number: CN2008102397354A
Authority: CN
Inventors: 刘文印; 邱彼特; 刘罡; 张加龙
Original assignee: BEIJING BAIWENBAIDA NETWORK TECHNOLOGIES Co Ltd
Current assignee: Liu Wenyin
Priority date: 2008-12-16
Filing date: 2008-12-16
Publication date: 2010-08-18
Anticipated expiration: 2028-12-16
Also published as: CN101436210A

Abstract

本发明公开了一种识别假冒网页的方法及系统，该方法包括以下步骤：步骤1，针对一给定网页，构造与该给定网页具备关联关系的寄生网页社区；步骤2，逐个计算该给定网页相对该寄生网页社区中的每个网页的寄生因数，根据每个网页的寄生因数，判断该给定网页与寄生网页社区中的网页是否存在假冒关系。本发明实现的效果在于，根据给定的网页，识别出其是否为一假冒网页，识别出与该给定网页存在假冒关系的网页，即，该假冒网页所模仿的真实网站的网页，避免冒然提交个人数据而造成相关财产、隐私等权益的损失。同时，本发明的识别方法准确率高，操作方便。

Description

一种识别假冒网页的方法及系统

技术领域

本发明涉及一种信息安全领域的计算机技术，特别是涉及一种通过挖掘寄生社区来自动识别假冒网页及其所假冒的对象的方法及系统。

背景技术

网络欺诈是一种通过假冒真实网站来获取人们敏感信息如用户名、密码等信用卡信息的犯罪行为。近几年，网络欺诈案例不断增加，并且识破难度也越来越大。在过去的一年里，有363662个网站被列为假冒网站。根据Gartner的调查(http://www.gartner.com/it/page.jsp？id＝565125)，美国因网络欺诈2007年经济损失超过30亿美元。

假冒网页通常在外观上与真实网站相近似，在视觉上具有极高的相似度。同时，带有指向该真实网站所包括的真实网页的链接或者其他直接关联的方式，使得用户在执行一些常规操作时，能够跳转到对应的真实的网页，故而，迷惑性较强，使得浏览用户误认为该欺诈网页是真实的。又由于该欺诈网页常设置有用户登录信息的输入框，使得用户在完全没有防备的情况下，轻易发送个人敏感信息至欺诈服务器中，造成了数据泄漏。

目前，人们提出了一些反网络欺诈领域的技术及方法。其中，有的专注于电子邮件欺诈，通过电邮认证以及垃圾邮件过滤来减弱网络欺诈的攻击。然而，可能有丢失重要电子邮件的风险。使用最多的最直接的方法为黑/白名单检测，如PhishTank SiteChecker(http://www.phishtank.com/)、Google SafeBrowsing(http://www.google.com/tools/firfox/safebrowsing/)、FirePhish(http://opdb.herlios.de/)，以及CallingID Link Advisor(http://www.callingid.com/DesktopSolutions/CallingIDLinkAdvisor.aspx)等。白名单是一个合法公司的域名列表，其需要注册并频繁地动态更新。这样，维护列表是一项较繁复的密集型劳动。同样，维护假冒网站列表也如此。

发明专利“一种检测鉴别假冒网页的方法及系统(申请号200410009873.5)”提出基于视觉相似度的方法。即通过计算可疑网页与受保护网页之间的视觉相似度来判断其是否为假冒网页。然而，该方法要求事先指定受保护网站，其适用于企业级用户保护自己的网站不被别人假冒。

发明内容

本发明解决的技术问题在于，可针对一给定网页，判断其是否为假冒网页，识别出其所假冒的对象。

为解决上述问题，本发明公开了一种识别假冒网页的方法，包括以下步骤：

步骤1，针对一给定网页，构造与该给定网页具备关联关系的寄生网页社区；

步骤2，逐个计算该给定网页相对该寄生网页社区中的每个网页的寄生因数，根据每个网页的寄生因数，判断该给定网页与寄生网页社区中的网页是否存在假冒关系。

本发明还公开了一种识别假冒网页的系统，运行于网络服务器端，包括：

寄生网页社区构造模块，用于根据一给定网页，构造与该给定网页具备关联关系的寄生网页社区；

假冒网页识别模块，用于逐个计算该给定网页相对该寄生网页社区中的每个网页的寄生因数，根据每个网页的寄生因数，判断该给定网页与寄生网页社区中的网页是否存在假冒关系。

本发明实现的技术效果在于，根据给定的网页，识别出其是否为一假冒网页，识别出与该给定网页存在假冒关系的网页，即，该假冒网页所模仿的真实网站的网页，避免冒然提交个人数据而造成相关财产、隐私等权益的损失。同时，本发明的识别方法准确率高，操作方便。

附图说明

图1A、图1B、图1C、图1D所示为识别假冒网页的系统的结构示意图；

图2所示为本发明的识别假冒网页的方法流程图；

图3A、3B所示为本发明的识别假冒网页的具体方法流程图；

图4所示为本发明一用户界面的示意图。

具体实施方式

本发明公开了一种识别假冒网页的方法及系统，可针对一给定网页，判断出其是否为假冒网页，并识别出其所假冒的真实网站。使得用户在浏览网页并针对当前网页提供个人数据的步骤前，能够对当前网页的真实性作出判断，避免冒然提交个人数据而造成相关财产、隐私等权益的损失。

本发明的识别假冒网页的系统100设置于网络中的服务器端或任意计算机系统中。该服务器端或计算机系统包括现有技术中的常用模块，容不赘述。识别假冒网页的系统的结构示意图如图1A、图1B、图1C、图1D所示。

本发明的该系统100包括寄生网页社区构造模块110和假冒网页识别模块120。识别假冒网页的系统100获取一个网页P的地址，对该网页的真实性进行判断，该识别假冒网页的系统100可以通过网络接收客户端的地址，或者，直接通过该识别假冒网页的系统100的输入装置而获取该地址。由于假冒网页通常在视觉效果上与真实网站的网页具备较高的相似度，同时，假冒网页也通常与真实网站的网页相关联，例如，具备直接指向该真实网站的网页的链接等，故而，本发明利用寄生网页社区构造模块110，构建与网页P具备关联关系的寄生网页社区。也就是说，首先挖掘与网页P存在直接指向和/或具备页面内容相关性的网页，再利用假冒网页识别模块120从中识别存在假冒关系的网页，即，通过该网页P所寄生的网页集合，分析该网页P的真实性，并识别出被网页P假冒的真实网页。

该寄生网页社区构造模块110中进一步包括：

初始关联网页集构建模块111，用于根据该给定网页P建立一初始关联网页集。该初始关联网页集包括与该给定的网页P直接关联或间接关联的网页，或者同时包括与该给定的网页P直接关联和间接关联的网页，但不包括该给定网页P。

即，首先构建一个空的关联网页集A，根据该给定网页P，寻找与P关联的网页并加入到关联网页集A中，形成初始关联网页集。

网络图构建模块112，用于根据该初始关联网页集，获取与该初始关联网页集中的初始关联网页具备关联关系的网页，并根据该网页间的关系构建网络图；

网络图分割模块113，利用分割算法对该网络图进行分割，以得到与该给定页面具备紧密关联关系的寄生网页社区。

在本申请的另一具体实施例中，该寄生网页社区构造模块110中还可以包括：

修正模块114，用于对该初始关联网页集进行修正，修正后的初始关联网页集发送至该网络图构建模块，循环执行网络图构建模块112和网络图分割模块113，以构建具备极为紧密关联关系的寄生网页社区。

以下结合上述识别假冒网页的系统结构示意图图1，介绍本申请的识别假冒网页的方法。图2所示为本发明的识别假冒网页的方法流程图。

步骤201，利用寄生网页社区构造模块110针对用户给定的网页P，构造与该给定网页具备关联关系的寄生网页社区；

步骤202，利用假冒网页识别模块120逐个计算该给定网页相对该寄生网页社区中的每个网页的寄生因数，根据每个网页的寄生因数，判断该给定网页与寄生网页社区中的网页是否存在假冒关系。

图3A、3B所示为本发明的识别假冒网页的具体方法流程图，请同时参考图1A、图1B、图1C、图1D。该步骤201包括如下步骤：

步骤301，用户提供一给定网页P的地址至识别假冒网页的系统。

步骤302，初始关联网页集构建模块111接收该给定网页P的地址，根据该给定网页P建立该给定网页的初始关联网页集，该初始关联网页集包括与该网页P直接关联和/或间接关联的网页。

由于假冒网页在一定程度上与真实网页存在相似性或关联性，故而，欲确认给定网页是否为假冒网页，假冒的是哪个真实网站的网页，需首先确定该给定网页与哪些网页存在关联关系，再从中进行识别。

在本步骤中，可首先构建一个空的关联网页集A，接收该给定网页P，寻找与P关联的网页并加入关联网页集A，以形成初始关联网页集，该初始关联网页集A包括与该网页P直接关联和/或间接关联的网页。

其中，该直接关联的网页为与给定网页P存在直接关联关系的网页，例如包括但不限于该给定网页P中的链接所指向的网页。

该间接关联的网页为与给定网页P存在间接关联关系的网页，例如包括但不限于，具有相同或相似的文本和/或视觉信息的网页。

在一实施例中，步骤302进一步包括步骤3021，在搜索引擎中检索关键词，得到该间接关联的网页。该关键词包括但不限于该网页P的标题、Meta标记和网页中出现频率高于一预设阈值的高频单词中的一种或几种。或者，进行基于视觉相似度的搜索(见″A Statistical Bigram Correlation Modelfor Image Retrieval，″US Patent#6,901,411，issued date：May 31，2005，Inventors：Li Mingjing，Chen Zhen，Liu Wenyin，and Zhang Hongjiang。还有很多关于基于视觉相似度的搜索的论文，如：Michael S.Lew，“Next-Generation Web Searches for Visual Content，”Computer 33(11)：46-53，November 2000。Datta，Ritendra；Dhiraj Joshi，Jia Li，JamesZ.Wang(2008).″Image Retrieval：Ideas，Influences，and Trends of theNew Age″.ACM Computing Surveys 40(2)，Article#5，April 2008也介绍了很多相关论文)，即搜索包含该给定网页P中类似视觉元素(例如图片、Flash等)的网页，得到该间接关联的网页。

步骤303，网络图构建模块112根据该初始关联网页集A，进一步获取与该初始关联网页集A中的初始关联网页具备关联关系的网页，并根据该网页间的关系构建网络图。

本步骤用于进一步挖掘与给定网页存在关联关系的网页，并扩大该关联网页集的范围。

在本发明的一个实施例中，网络图用G＝(V，E)表示，其中，V表示点的集合，即为初始网页集A中的所有网页；E表示连接两个点的边的集合，初始为空。网络图G的构建过程为：首先通过前向链接和/或反向链接找到与初始关联网页集A中的网页相关联的网页，从而得到一个新的网页集N和链接集L。把他们分别加到V和E中，即G＝(A+N，L)。然后，通过前向链接找到与N中的网页相关联的网页，从而，得到一个新的网页集N^*和链接集L^*，同样加到网络图中，即G＝(A+N+N^*，L+L^*)。

该步骤303中进一步包括步骤3031，利用判断模块1121判断网页P是否出现在该新找到的网页集中，如果出现，即P∈(N∪N^*)，那么，P的寄生社区为NULL，并且认定其为合法网站，整个过程结束。由于通常情况下，假冒网页存在指向真实网页的链接，而真实网页不存在指向假冒网页的链接，真实网页只存在指向其他真实网页的链接，故而，通过前向链接以及反向链接所找到的网页，如果能够包括网页P，证明该网页P为真实网页。如果不能够包括该网页P，则该网页P有可能是假冒网页，继续执行后续的步骤。

步骤304，利用网络图分割模块113采用分割算法对该网络图进行分割，生成与该给定页面具备紧密关联关系的寄生网页社区。

在本发明的一个实施例中，利用现有技术中的s-t最小切割算法(见T.H.Cormen，C.E.Leiserson，and R.L.Rivest.Introduction to algorithms.MIT Press and McGraw-Hill Book Company，6th edition，1992.，the″maximumflow minimum cut″theorem in Theorem 26.7，page 657)分割该网络图。

根据该算法，首先生成一个源(source)s和一个汇(sink)t，把他们加到网络图中，链接s到A中所有网页(每条生成的边的容量为无穷大)，生成一个新的链接集Ls；链接N^*中的所有网页到t(每条生成的边的容量为无穷大)，生成一个新的链接集Lt。将Ls，Lt加到网络图中，从而，G＝(s+t+A+N+N^*，Ls+Lt+L+L^*)。

上述步骤的实现例如为：

1 procedure AddGraph(G＝(V，E)；V＝A+N+N*，E＝L+L*)

2 Create vertex s，add s to V

3 for all v∈A，

4 Create edge e＝(s，v)，c(s，v)＝∞，add e to Ls

5 end for

6 Create vertex t，add t to V

7 for all u∈N*，

8 Create edge e＝(u，t)，c(u，t)＝∞，add e to Lt

9 end for

10 Add Ls and Lt to E

11 end procedure

这时，通过最大网络流算法(见T.H.Cormen，C.E.Leiserson，and R.L.Rivest.Introduction to algorithms.MIT Press and McGraw-Hill BookCompany，6th edition，1992.)计算上述步骤获得的网络图G中在边的容量限制下s到t的最大网络流。当该网络图达到最大网络流状态时，汇集网络图中仍可从s导入更多流量的点(网页)即得到寄生社区。即，通过计算得到网络图中关联关系最为紧密的网页集合，以获得关联程度最高的寄生网页社区，提高假冒网页识别的精度。

在另一实施例中，参见图3B，步骤201可以进一步包括：

步骤305，基于步骤304中所得到的寄生网页社区，利用修正模块114对该当前关联网页集A进行修正，并循环执行步骤303，该修正模块114进一步包括一出入度计算模块1141、一寄生因数计算模块1142，以及一处理模块1143。

该出入度计算模块用来计算该当前关联网页集A中的网页相对该寄生网页社区中的网页的入度和出度；该寄生因数计算模块1142用来计算该给定网页相对该寄生网页社区中的每个网页的寄生因数；该处理模块用来向当前关联网页集A中添加积极网页和/或删除消极网页。

该积极网页为属于该寄生网页社区，却不属于该当前关联网页集A的网页，并且对于该寄生网页社区具有最大入度或出度，该消极网页为属于该当前关联网页集A，并且对于该寄生网页社区的出度和入度的和小于第一预设阈值。

该积极网页也可以为，属于该寄生网页社区，却不属于该当前关联网页集A的网页，并且寄生因数大于第二预设阈值(例如：0.8)的网页，该消极网页也可以为，属于该当前关联网页集A，并且寄生因数小于第三预设阈值(例如：0.2)的网页。该第二、第三阈值在特殊情况下也可以相等。有关寄生因数的计算见后述。

通过上述修正，使得初始关联网页集A覆盖的范围更广，同时获得了那些与其他网页联系最为紧密的网页，以挖掘出给定网页P所紧密寄生的寄生网页社区，使得识别假冒网页的精度更高。

该步骤305进一步包括一步骤3051，利用终止条件判断模块1144，判断修正后的关联网页集A是否变化，如果未变化，执行步骤202，如果变化，循环执行步骤303。

该步骤304可以进一步包括一步骤3041，利用判断模块1131，判断该循环执行的次数是否超过一次数阈值，如果超过，执行后续的步骤202，如果未超过，继续执行步骤305。

该步骤202进一步包括：

该假冒网页识别模块120进一步包括一计算模块121，与寄生因数计算模块1142相同，该计算模块121用于计算该给定网页相对该寄生网页社区中的每个网页的寄生因数。该寄生因数通过如下方式计算：

步骤2021，以网页i为该给定的网页，网页j为通过步骤201所得到的寄生网页社区中的一个网页。用PCD_ij代表网页i对网页j的寄生因数，PCD_ij的值越大，网页i和网页j之间的寄生关系越强烈，这样，拥有最大PCD_ij值(并且PCD_ij值大于一预设阈值，且一预设阈值要大于1)的网页所在的网站即为该给定的网页所假冒的对象，可断定该网页i与网页j之间存在假冒关系，网页i为假冒网页。PCD_ij计算公式如下，

{PCD}_{ij} = \frac{{Para}_{ij}}{{Para}_{ji}},

其中，PCD_ij代表寄生因数；Para_ij代表网页i对网页j的寄生因子。Para_ji代表网页j对网页i的寄生因子。步骤2021中进一步包括一对Para_ij进行判断的步骤，当Para_ij小于某一预设阈值(如0.1)时，令PCD_ij为零。

在本发明的一个实施例中，根据网页间的直接关联关系的关联度和间接关联关系的关联度来计算寄生因子，如，

Para_ij＝αD_ij+(1-α)I_ij，

其中，Para_ij代表网页i对网页j的寄生因子；D_ij代表从网页i到网页j的直接关联度；I_ij代表从网页i到网页j的间接关联度；α代表协调系数。

在本发明的一个实施例中，直接关联度为网页i与网页j之间所有直接关联关系的关联度的加权平均：

D_{ij} = Σ_{k = 1}^{K} (w_{k} \cdot D_{ij}^{(k)}),

其中，D_ij代表从网页i到网页j的直接关联度；D_ij ^(k)代表从网页i到网页j在第k种直接关联关系上的关联度，w_k为第k种直接关联关系的权值，K为直接关联关系的总数。

例如，设定以前向链接作为一种直接关联关系，上述的D_ij ^(k)以L_ij表示。

L_{ij} = \frac{{NL}_{ij}}{{NL}_{i}}

其中，L_ij代表从网页i到网页j的前向链接关联度；NL_ij代表从网页i指向网页j所在网站的所有前向链接数；NL_i代表网页i中的所有链接数。

在本发明的一个实施例中，间接关联度为所有间接关联关系的关联度的加权平均：

I_{ij} = Σ_{k = 1}^{K} (w_{k} \cdot I_{ij}^{(k)})

其中，I_ij代表从网页i到网页j的间接关联度；I_ij ^(k)代表第k种间接关联关系的关联度；w_k为第k种间接关联关系的权值，K为间接关联关系的总数。

在本发明的一个实施例中，间接关联关系I_ij ^(k)包括但不限于排序关联关系、相似关联关系等。其中，排序关联关系的关联度由下式计算，

R_{ij} = Σ_{k = 1}^{K} (w_{k} \cdot R_{ij}^{(k)}),

其中，R_ij代表从网页i到网页j的所有排序关联关系的关联度；R_ij ^(k)代表利用网页i的第k个源中抽取的关键词作为关键字在该计算模块的搜索引擎中搜索，网页j在搜索结果中的排序关联度；w_k为R_ij ^(k)的权值，K为源的总数。该用于抽取关键词的源包括但不限于标题、Meta标记、网页正文等。抽取的关键词为这些源中出现的高频单词。对于网页中高频单词的确认，即为确认出现次数高于一个频率阈值，属于现有技术中的公知常识，在此不赘述。其中，R_ij ^(k)由下式计算，

R_{ij}^{(k)} = \frac{N_{r} - (R_{s} - 1)}{N_{r}},

其中，R_ij ^(k)代表利用网页i的第k个源中抽取的关键词作为关键字在搜索引擎中搜索，网页j在搜索结果中的排序关联度；N_r代表考虑的搜索结果的数量；R_s代表网页j在搜索结果中的排序位次。

在本发明的一个实施例中，相似关联关系的关联度由下式计算，

S_{ij} = Σ_{k = 1}^{K} (w_{k} \cdot S_{ij}^{(k)}),

其中，S_ij代表从网页i到网页j的相似关联关系的关联度；S_ij ^(k)代表从网页i到网页j的根据网页i的第k个源中抽取的特征计算的相似关联度，该特征包括但不限于文本特征、视觉特征、整体布局特征中的一种或几种；w_k为S_ij ^(k)的权值，K为源的总数，该源包括但不限于标题、Meta标记、网页中出现的高频单词、视觉特征源、整体布局特征源中的一种或几种。其中，根据Tversky提出的相似度模型(A.Tversky.Features of similarity.PsychologicalReview84(4)：327-352.)，S_ij ^(k)可由下式计算(以文本特征为例)，

S_{ij}^{(k)} = \frac{| T_{i} (k) \cap T_{j} (k) |}{| T_{i} (k) |},

其中，S_ij ^(k)代表从网页i到网页j的根据网页i的第k个源中抽取的特征计算的相似关联度；T_i(k)代表从网页i的第k个源中抽取的特征集；|T_i(k)∩T_j(k)|代表T_i(k)和T_j(k)共有的特征数；|T_i(k)|代表T_i(k)所包含的特征数。

基于上述公式，可计算得到该给定网页与每个寄生网页社区中的网页之间的寄生因数。

随后，步骤2022，利用一识别模块122对寄生因数进行判断，对于大于某一预设阈值的最大的寄生因数，认定其对应的网页与该给定网页存在假冒关系，即认定该给定网页假冒了该最大寄生因数对应的网页。

在一个实施例中，本发明的网络应用程序，其界面如图4所示，用户可以在上方文本框中输入任意一个网页的网址，作为给定网页P。当用户点击“查真假”按钮后，该应用程序将根据本发明中方法构造该网页对应的寄生社区；然后计算该网页和该寄生社区中网页的寄生因数，超过某一预设阈值的最大的寄生因数对应的该寄生社区中的网页作为假冒对象。

在本发明的一个实施例中，从Phi shTank(http://www.phishtank.com/)中选择以61个著名网站为被假冒对象的1000个假冒网页为测试数据集，来测试本发明方法的自动识别正确率；此外，另选取1000个合法网站(其中包括500个著名网站，500个普通网站)，来测试本发明方法的错误率。

在本发明的一个实施例中，以如下方程来计算识别正确率：

Accuracy Rate = \frac{N_{C}}{N_{P}},

其中，N_c代表被假冒对象被正确识别的给定网页(假冒网页)数；N_p代表实验中测试的初始网页(假冒网页)的总数。表1为1000个假冒网页的识别正确率。表1自动识别假冒对象正确率测试结果

假冒网页数	被假冒对象数	正确率
假冒网页数	被假冒对象数	正确率	1000	61	90.1％

[0102]如表2所示，为假冒该61个著名网站中的一部分的假冒网页的识别正确率。

表2假冒部分著名网站的假冒网页的识别正确率

被假冒对象	假冒网页数	正确率
被假冒对象	假冒网页数	正确率	Abbey	94	96.8％
ANZ	9	77.7％	Abbey	94	96.8％
ANZ	9	77.7％	Bank Of America	70	80％
CartaSi	7	100％	Bank Of America	70	80％
CartaSi	7	100％	Chase	9	88.9％
eBay	160	96.3％	Chase	9	88.9％
eBay	160	96.3％	Egg	12	100％
Google	14	100％	Egg	12	100％
Google	14	100％	HSBC	34	100％
Halifax	17	100％	HSBC	34	100％
Halifax	17	100％	Internal Revenue Service	17	82.4％
Lloyds TSB	58	93.1％	Internal Revenue Service	17	82.4％
Lloyds TSB	58	93.1％	PayPal	259	93.8％
Poste	14	100％	PayPal	259	93.8％
Poste	14	100％	RBC	5	100％
Regions	7	100％	RBC	5	100％
Regions	7	100％	Wachovia	32	96.9％
Wells Fargo	13	100％	Wachovia	32	96.9％

在本发明的一个实施例中，以如下方式计算识别错误率：

False Alarm Rate = \frac{N_{T} - N_{np}}{N_{T}},

其中，N_np代表没有识别到被假冒对象的给定的网页数，代表该给定网页为合法网页；N_T代表实验中测试的所有合法网页数。

如表3所示，为著名合法网站测试结果。

表3著名网站识别错误率测试结果

网站数	正确识别数	错误率
网站数	正确识别数	错误率	500	461	7.8％

如表4所示，为普通合法网站测试结果

表4普通合法网站识别错误率测试结果

网站数	正确识别数	错误率
网站数	正确识别数	错误率	500	443	11.4％

从表1-4中可见，本发明方法能够得到较高正确率，性能较好。

在本发明的一个实施例中，将本发明方法与CANTINA的方法(Y.Zhang，J.I.Hong and L.F.Cranor.Cantina：a content-based approach to detectingphishing web sites.Proc.WWW 2007，pp.639-648，2007.)进行了比较。CANTINA将给定网页的文本特征(由网页中5个词频最高的单词组成)作为关键词在Google中搜索，如果给定网页出现在前N(如30)个搜索结果中，其认为该给定网页为合法网页。该方法是基于以下假设的，即Google索引了大量合法网站，并且和与假冒网站相比，合法网站具有较高的排序。

选取200个合法网页(其中100个著名网站，100个普通网页)，来比较本发明方法和CANTINA的方法的性能。如表5所示，

表5本发明方法和CANTINA的方法性能比较

	网页数	CANTINA的方法错误率	本发明方法错误率
	网页数	CANTINA的方法错误率	本发明方法错误率	著名网站	100	18.8％	7.8％
普通网站	100	33.3％	11.4％	著名网站	100	18.8％	7.8％

从表5可见，相对于著名网页，两个方法对于普通网页错误率都较高。对于CANTINA的方法，是由于普通网页在搜索结果中排序较低。此外，其有效性要依靠抽取的文本特征的正确性。本发明的方法同样要利用搜索引擎计算排序相关度，因此，对于普通网页，错误率也会上升。然而，本发明还要计算直接关联关系的关联度以及相似关联关系的关联度，有助于降低错误率。

本发明实现的效果在于，根据给定的网页，识别出其是否为一假冒网页，识别出与该给定网页存在假冒关系的网页，即，该假冒网页所模仿的真实网站的网页，避免冒然提交个人数据而造成相关财产、隐私等权益的损失。同时，本发明的识别方法准确率高，操作方便。

Claims

1.一种识别假冒网页的方法，其特征在于，包括以下步骤：

步骤2，逐个计算该给定网页相对该寄生网页社区中的每个网页的寄生因数，根据每个网页的寄生因数，判断该给定网页与寄生网页社区中的网页是否存在假冒关系；

其中，该步骤1包括：

步骤11，建立该给定网页的初始关联网页集，该初始关联网页集包括与该给定网页直接关联和/或间接关联的网页；

步骤12，根据该初始关联网页集，进一步获取与初始关联网页具备关联关系的网页，并根据该网页间的关系构建网络图；

步骤13，利用分割算法对该网络图进行分割，以得到与该给定网页具备紧密关联关系的寄生网页社区。

2.如权利要求1所述的识别假冒网页的方法，其特征在于，与该给定网页直接关联的网页包括该给定网页中的链接所指向的网页。

3.如权利要求1所述的识别假冒网页的方法，其特征在于，与该给定网页间接关联的网页包括与该给定网页具备相同或相似的文本和/或视觉信息的网页。

4.如权利要求3所述的识别假冒网页的方法，其特征在于，通过在搜索引擎中搜索该给定网页中的关键词和/或通过视觉搜索获得该间接关联的网页。

5.如权利要求4所述的识别假冒网页的方法，其特征在于，该关键词包括该给定网页的标题、Meta标记和该给定网页中出现的高频单词中的一种或几种。

6.如权利要求1所述的识别假冒网页的方法，其特征在于，步骤12中，通过前向链接和/或反向链接找到与该初始关联网页集关联的网页。

7.如权利要求1所述的识别假冒网页的方法，其特征在于，

该步骤12进一步包括：判断该网络图中是否包括该给定网页，如果不包括，继续执行步骤13，如果包括，表明该给定网页不是假冒网页，结束。

8.如权利要求1所述的识别假冒网页的方法，其特征在于，该分割算法为s-t最小切割算法。

9.如权利要求1至8中任一所述的识别假冒网页的方法，其特征在于，在步骤13之后步骤2之前，还包括：

步骤14，对该初始关联网页集进行修正，然后循环执行步骤12。

10.如权利要求9所述的识别假冒网页的方法，其特征在于，

步骤14进一步包括：判断修正后的初始关联网页集是否发生变化，如果未发生变化，执行步骤2，如果发生变化，循环执行步骤12。

11.如权利要求9所述的识别假冒网页的方法，其特征在于，

步骤13进一步包括：判断该循环执行的次数是否超过一个次数阈值，如果超过，执行步骤2，如果未超过，继续执行步骤14。

12.如权利要求9所述的识别假冒网页的方法，其特征在于，该修正步骤14包括：

向该初始关联网页集添加积极网页和/或删除消极网页；

该积极网页为属于该寄生网页社区，却不属于该初始关联网页集，并且对于该寄生网页社区具有最大入度或出度的网页，或者，该积极网页为属于该寄生网页社区，却不属于该初始关联网页集，寄生因数大于第二预设阈值的网页；

该消极网页为：属于该初始关联网页集并且对于该寄生网页社区的出度与入度的和小于第一预设阈值的网页，或者，该消极网页为属于该初始关联网页集，寄生因数小于第三预设阈值的网页。

13.如权利要求1或12所述的识别假冒网页的方法，其特征在于，所述寄生因数的计算方法为：

PC D_{ij} = \frac{{Para}_{ij}}{{Para}_{ji}}

其中，PCD_ij代表网页i对网页j的寄生因数；

Para_ij代表网页i对网页j的寄生因子；

Para_ji代表网页j对网页i的寄生因子。

14.如权利要求13所述的识别假冒网页的方法，其特征在于，Para_ij＝αD_ij+(1-α)I_ij，

其中，Para_ij代表网页i对网页j的寄生因子；

D_ij代表从网页i到网页j的直接关联度；

I_ij代表从网页i到网页j的间接关联度；

α代表协调系数。

15.如权利要求14所述的识别假冒网页的方法，其特征在于，所述直接关联度为所有的直接关联关系的关联度的加权平均：

D_{ij} = Σ_{k = 1}^{K} (w_{k} \cdot D_{ij}^{(k)})

其中，D_ij代表从网页i到网页j的直接关联度；

D_ij ^(k)代表第k种直接关联关系的关联度，w_k为第k种直接关联关系的权值，K为直接关联关系的总数。

16.如权利要求15所述的识别假冒网页的方法，其特征在于，该直接关联关系包括前向链接，其关联度为：

L_{ij} = \frac{{NL}_{ij}}{{NL}_{i}}

其中，L_ij代表从网页i到网页j的前向链接关联度；

NL_ij代表从网页i指向网页j所在网站的所有前向链接数；

NL_i代表网页i中的所有链接数。

17.如权利要求14所述的识别假冒网页的方法，其特征在于，所述间接关联度为所有间接关联关系的关联度的加权平均，

I_{ij} = Σ_{k = 1}^{K} (w_{k} \cdot I_{ij}^{(k)})

其中，I_ij代表从网页i到网页j的间接关联度；

I_ij ^(k)代表第k种间接关联关系的关联度，w_k为第k种间接关联关系的权值，K为间接关联关系的总数。

18.如权利要求17所述的识别假冒网页的方法，其特征在于，该间接关联关系包括排序关联关系、相似关联关系。

19.如权利要求18所述的识别假冒网页的方法，其特征在于，排序关联关系的关联度为：

R_{ij} = Σ_{k = 1}^{K} (w_{k} \cdot R_{ij}^{(k)}),

其中，R_ij代表从网页i到网页j的排序关联关系的关联度；

R_ij ^(k)代表利用网页i的第k个源中抽取的关键词作为关键字在搜索引擎中搜索，网页j在搜索结果中的排序关联度；

w_k为R_ij ^(k)的权值，K为源的总数，该关键词包括标题、Meta标记和/或网页中出现的高频单词；

其中，R_ij ^(k)由下式计算，

R_{ij}^{(k)} = \frac{N_{r} - (R_{s} - 1)}{N_{r}},

N_r代表考虑的搜索结果的数量；

R_s代表网页j在搜索结果中的排序位次。

20.如权利要求18所述的识别假冒网页的方法，其特征在于，该相似关联关系的关联度为：

S_{ij} = Σ_{k = 1}^{K} (w_{k} \cdot S_{ij}^{(k)})

其中，S_ij代表从网页i到网页j的相似关联关系的关联度；

S_ij ^(k)代表从网页i到网页j的根据网页i的第k个源中抽取的特征计算的相似关联度，该抽取的特征包括文本特征、视觉特征和/或整体布局特征；

w_k为S_ij ^(k)的权值，K为源的总数，该源包括标题、Meta标记、网页中出现的高频单词、视觉特征源和/或整体布局特征源；

其中，S_ij ^(k)可由下式计算，

S_{ij}^{(k)} = \frac{{| T}_{i} (k) \cap T_{j} (k) |}{| T_{i} (k) |},

其中，S_ij ^(k)代表从网页i到网页j的根据网页i的第k个源中抽取的特征计算的相似关联关系的关联度；

T_i(k)代表从网页i的第k个源中抽取的特征集；

|T_i(k)∩T_j(k)|代表T_i(k)和T_j(k)共有的特征数；

|T_i(k)|代表T_i(k)所包含的特征数。

21.如权利要求1所述的识别假冒网页的方法，其特征在于，步骤2中进一步包括：

对寄生因数进行判断，认定大于一预设阈值的最大的寄生因数对应的网页与该给定网页存在假冒关系。

22.一种识别假冒网页的系统，其特征在于，包括：

假冒网页识别模块，用于逐个计算该给定网页相对该寄生网页社区中的每个网页的寄生因数，根据每个网页的寄生因数，判断该给定网页与寄生网页社区中的网页是否存在假冒关系；

其中，该寄生网页社区构造模块中进一步包括：

初始关联网页集构造模块，用于根据该给定网页建立一初始关联网页集，该初始关联网页集包括与该给定网页直接关联和间接关联的网页；

网络图构建模块，用于根据该初始关联网页集，获取与初始关联网页具备关联关系的网页，并根据该网页间的关系构建网络图；

网络图分割模块，利用分割算法对该网络图进行分割，以得到与该给定网页具备紧密关联关系的寄生网页社区。

23.如权利要求22所述的识别假冒网页的系统，其特征在于，与该给定网页直接关联的网页包括该给定网页中的链接所指向的网页。

24.如权利要求22所述的识别假冒网页的系统，其特征在于，与该给定网页间接关联的网页包括与该给定网页具备相同或相似的文本和/或视觉信息的网页。

25.如权利要求24所述的识别假冒网页的系统，其特征在于，与该给定网页间接关联的网页，通过在搜索引擎中搜索该给定网页中的关键词和/或通过视觉搜索获得。

26.如权利要求25所述的识别假冒网页的系统，其特征在于，该关键词包括该给定网页的标题、Meta标记和该给定网页中出现的高频单词中的一种或几种。

27.如权利要求22所述的识别假冒网页的系统，其特征在于，该网络图构建模块通过前向链接和/或反向链接找到与该当前关联网页集关联的网页。

28.如权利要求22所述的识别假冒网页的系统，其特征在于，该网络图构建模块中进一步包括一判断模块，用于判断该网络图中是否包括该给定网页，如果不包括，将该网络图发送至该网络图分割模块进行处理，如果包括，表明该给定网页不是假冒网页，结束。

29.如权利要求22所述的识别假冒网页的系统，其特征在于，该分割算法为s-t最小切割算法。

30.如权利要求22至29中任一所述的识别假冒网页的系统，其特征在于，该寄生网页社区构造模块中进一步包括：

一修正模块，用于对该初始关联网页集进行修正，并将修正后的初始关联网页集发送至该网络图构建模块。

31.如权利要求30所述的识别假冒网页的系统，其特征在于，所述修正模块进一步包括：

终止条件判断模块，判断修正后的关联网页集是否变化，如果未发生变化，将该寄生网页社区发送至该假冒网页识别模块，如果发生变化，将修正后的关联网页集发送至该网络图构建模块。

32.如权利要求30所述的识别假冒网页的系统，其特征在于，该网络图分割模块进一步包括一判断模块，用于判断该修正的次数是否超过一个次数阈值，如果超过，将该寄生网页社区发送至该假冒网页识别模块，如果未超过，将该寄生网页社区发送至该修正模块。

33.如权利要求30所述的识别假冒网页的系统，其特征在于，该修正模块还包括：

一处理模块；

一出入度计算模块或者一寄生因数计算模块；

其中，该处理模块用于向该初始关联网页集添加积极网页和/或删除消极网页，该积极网页为属于该寄生网页社区，却不属于该初始关联网页集，并且对于该寄生网页社区具有最大的入度或出度，或者，该积极网页为属于该寄生网页社区，却不属于该初始关联网页集，寄生因数大于第二预设阈值的网页；

该消极网页为属于该初始关联网页集，并且对于该寄生网页社区的出度与入度之和小于第一预设阈值的网页，或者，该消极网页为属于该初始关联网页集，寄生因数小于第三预设阈值的网页；

该出入度计算模块用于计算寄生网页社区中所有网页相对于该社区的入度和出度；

该寄生因数计算模块用于逐个计算该给定网页相对该寄生网页社区中的每个网页的寄生因数。

34.如权利要求22或33所述的识别假冒网页的系统，其特征在于，该寄生因数为：

{PCD}_{ij} = \frac{{Para}_{ij}}{{Para}_{ji}}