CN104239582A

CN104239582A - 基于特征向量模型识别钓鱼网页的方法及装置

Info

Publication number: CN104239582A
Application number: CN201410541275.6A
Authority: CN
Inventors: 李晓波; 尹露; 杨晶; 郭峰
Original assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Priority date: 2014-10-14
Filing date: 2014-10-14
Publication date: 2014-12-24

Abstract

本发明公开了一种基于特征向量模型识别钓鱼网页的方法及装置，特征向量模型是根据大量样本网页的站点特征信息获取样本网页的特征向量，并对样本网页的特征向量组成的矩阵进行训练得到的，通过特征向量模型将样本空间划分多个特征空间；方法包括：提取浏览器所打开第一网页的URL，根据URL得到第一网页所属站点的站点特征信息；根据第一网页的站点特征信息，确定第一网页的特征向量；将第一网页的特征向量输入到特征向量模型中，得到第一网页所属的特征空间，根据第一网页所属的特征空间识别第一网页是否为钓鱼网页。本发明无需提前下载该第一网页，从而规避了钓鱼作者对钓鱼网站所设的防护，通过自动的方式对第一网页进行识别，节省了人力资源。

Description

基于特征向量模型识别钓鱼网页的方法及装置

技术领域

本发明涉及互联网技术领域，具体涉及一种基于特征向量模型识别钓鱼网页的方法及装置。

背景技术

随着互联网的发展，基于WEB的应用日益普及，人们通过浏览器可以查询银行账户、网上购物、电子商务、查询信息、获取知识、进行娱乐等，WEB为人们提供了方便和快捷的交互方式。然而，人们在上网冲浪浏览网页的同时，经常会遭遇到恶意网站的侵袭，导致计算机被病毒、木马等感染。

恶意网站，例如钓鱼网站、或者是欺诈，仿冒网站等，主要是通过仿冒真实网站的URL地址或是网页内容，伪装成银行及电子商务等类型的网站，或是利用真实网站服务器程序上的漏洞，在该网站的某些网页中插入危险的网页代码，以此来骗取用户银行或信用卡账号、密码等私人资料。恶意网页中包含着许多敏感的特征，例如，金融欺诈类的恶意网页会在文字、图片等方面仿冒官网，或是在真实网页中插入虚假票务、虚假中奖、假冒网银、虚假购物等信息，这些特征大多以文本串的形式出现在网页中。

现有的为了防范恶意网站的主要手段是当用户访问某网站时，客户端将网站的URL发送至服务器端的黑白名单数据库进行查询，然而由于钓鱼网站不断更新换代，这种方法对钓鱼网站等恶意网站的检出率不高并具有滞后性。或者是通过基于文本的方法进行识别，例如通过提取页面中关键词，并将关键词上传至服务器，在黑名单数据库中匹配，这种方法效率比较低下，而且容易受文字顺序等因素的影响，误判率较高。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的基于特征向量模型识别钓鱼网页的方法和相应的基于特征向量模型识别钓鱼网页的装置。

根据本发明的一个方面，提供了一种基于特征向量模型识别钓鱼网页的方法，所述特征向量模型是根据大量样本网页的站点特征信息获取各个样本网页的特征向量，并对各个样本网页的特征向量组成的矩阵进行训练得到的，通过所述特征向量模型将样本空间划分多个特征空间；

所述方法包括：

提取浏览器所打开第一网页的URL，根据所述URL得到所述第一网页所属站点的站点特征信息；

根据所述第一网页的站点特征信息，确定所述第一网页的特征向量；

将所述第一网页的特征向量输入到所述特征向量模型中，得到所述第一网页所属的特征空间，根据所述第一网页所属的特征空间识别第一网页是否为钓鱼网页。

根据本发明的另一方面，提供了一种基于特征向量模型识别钓鱼网页的装置。所述装置包括：

特征向量模型训练模块，适于根据大量样本网页的站点特征信息获取各个样本网页的特征向量，并对各个样本网页的特征向量组成的矩阵进行训练得到特征向量模型，通过所述特征向量模型将样本空间划分多个特征空间；

提取模块，适于提取浏览器所打开第一网页的URL；

获取模块，适于根据所述URL得到所述第一网页所属站点的站点特征信息；

确定模块，适于根据所述第一网页的站点特征信息，确定所述第一网页的特征向量；

输入模块，适于将所述第一网页的特征向量输入到所述特征向量模型中，得到所述第一网页所属的特征空间；

识别模块，适于根据所述第一网页所属的特征空间识别第一网页是否为钓鱼网页。

根据本发明提供的方案，提取浏览器所打开第一网页的URL，根据所述URL得到所述第一网页所属站点的站点特征信息；根据所述第一网页的站点特征信息，确定所述第一网页的特征向量；将所述第一网页的特征向量输入到所述特征向量模型中，得到所述第一网页所属的特征空间，根据所述第一网页所属的特征空间识别第一网页是否为钓鱼网页。本发明无需提前下载该第一网页，从而规避了钓鱼作者对钓鱼网站所设的防护，此外，节省了人力资源，不需要人工加规则，通过自动的方式对第一网页进行识别。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的基于特征向量模型识别钓鱼网页的方法的流程图；

图2示出了根据本发明另一个实施例的基于特征向量模型识别钓鱼网页的方法的流程图；

图3示出了根据本发明一个实施例的基于特征向量模型识别钓鱼网页的装置的结构框图；

图4示出了根据本发明另一个实施例的基于特征向量模型识别钓鱼网页的装置的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本申请的发明人在研究钓鱼网页识别方法的过程中，注意到钓鱼作者为了防止其钓鱼网站被检测到而采取了一些“保护措施”，例如拒绝网络爬虫访问或者拒绝某个地域内IP的访问或者经常修改其钓鱼内容，而使得其钓鱼网站不被检测到，并且基于内容检测钓鱼网页的方法只有在钓鱼网页内容发生变化后，才能进行钓鱼检测，使得检测相对于钓鱼网页变化具有一定的滞后性，基于此，本申请的发明人提出了基于特征向量模型识别钓鱼网页的方法。

其中，特征向量模型是根据大量样本网页的站点特征信息获取各个样本网页的特征向量，并对各个样本网页的特征向量组成的矩阵进行训练得到的，通过特征向量模型将样本空间划分多个特征空间。这里，多个特征空间分为钓鱼类特征空间和非钓鱼类特征空间，钓鱼类特征空间包括淘宝钓鱼类特征空间、中奖钓鱼类特征空间，其中，淘宝钓鱼类特征空间主要由淘宝类钓鱼网页组成，中奖钓鱼类特征空间主要由中奖类钓鱼网页构成。本申请的特征向量模型是通过批量学习模式或增量学习模式训练得到的。批量学习模式指每隔预设时间段对该预设时间段之前获取的所有样本网页通过获取各个样本网页的特征向量，对各个样本网页的特征向量组成的矩阵进行训练，从而在每个预设时间段得到一特征向量模型，其中预设时间段可以是一小时或一天，本领域技术人员可以根据实际应用的需要进行设置，在此不作具体限定；增量学习模式指获取各个样本网页的特征向量，对各个样本网页的特征向量组成的矩阵进行训练，并通过接口将训练的结果学习到预设时间段之前得到的特征向量模型，从而在每个预设时间段得到新的特征向量模型。采用增量学习模式可以实时地将获取到的样本网页学习到特征向量模型，减少了机器学习训练的工作量，并且能够快速获得特征向量模型。

图1示出了根据本发明一个实施例的基于特征向量模型识别钓鱼网页的方法的流程图。如图1所示，该方法包括以下步骤：

步骤S100，提取浏览器所打开第一网页的URL，根据URL得到第一网页所属站点的站点特征信息。

基本的URL包含协议、服务器名称、路径和文件名，如“协议://授权/路径？查询”。浏览器所打开的第一网页指用户通过客户端的浏览器打开的网页，其中客户端可以为计算机、移动终端、平板设备等，本发明对此不做限制。站点特征信息指与站点相关的用于构成特征向量的特征值的信息。

步骤S110，根据第一网页的站点特征信息，确定第一网页的特征向量。

通过步骤S100得到的第一网页的站点特征信息有多种，本实施例对每一种站点特征信息按照预设规则赋予一定的数值作为特征值，多种站点特征信息的特征值组合起来得到第一网页的特征向量。

步骤S120，将第一网页的特征向量输入到特征向量模型中，得到第一网页所属的特征空间，根据第一网页所属的特征空间识别第一网页是否为钓鱼网页。

根据上述内容可知，特征向量模型将样本空间划分为多个特征空间，本实施例将第一网页的特征向量输入到特征向量模型中，可以得到第一网页所属的特征空间，如果第一网页所属的特征空间为钓鱼类特征空间，则识别出第一网页为钓鱼网页；基于更进一步的分类，还可识别出第一网页属于哪种类型的钓鱼网页，如淘宝类、中奖类等等。

根据本发明上述实施例提供的方法，由于每个网页都有对应的URL，提取浏览器所打开第一网页的URL，可以省去提前下载该第一网页，从而规避了钓鱼作者对钓鱼网站所设的防护，根据URL得到第一网页所属站点的站点特征信息，根据第一网页的站点特征信息，确定第一网页的特征向量；将第一网页的特征向量输入到特征向量模型中，得到第一网页所属的特征空间，根据第一网页所属的特征空间识别第一网页是否为钓鱼网页，从而节省了人力资源，不需要人工加规则，通过自动的方式对第一网页进行识别。

图2示出了根据本发明另一个实施例的基于特征向量模型识别钓鱼网页的方法的流程图。如图2所示，该方法包括以下步骤：

步骤S200，提取浏览器所打开第一网页的URL。

浏览器所打开的第一网页指用户通过客户端的浏览器打开的网页，其中客户端可以为计算机、移动终端、平板设备等，本发明对此不做限制。

步骤S210，利用词袋模型对第一网页的URL文本进行分词处理，得到第一特征信息。

其中，词袋模型是在自然语言处理和信息检索中的一种简单假设。在这种模型中，文本(段落或者文档)被看作是无序的词汇集合，忽略语法甚至是单词的顺序。

URL文本包括域名、路径、query中的一个或多个。第一特征信息为与URL文本有关的特征信息。

具体地，利用词袋模型对域名和/或路径和/或query分别进行分词处理，得到多个文本单元，对分词处理后的多个文本单元添加对应的前缀得到第一特征信息，域名、路径和query的文本单元所添加的前缀不同。文本单元指由分隔符分隔开的构成URL文本的单词，分隔符可以是“·”、“/”、“？”、“＝”，文本单元是URL文本的最小单元，URL文本可包含多个文本单元。这里，可以根据分隔符利用词袋模型对域名和/或路径和/或query分别进行分词处理得到多个文本单元。举例说明，对于URL：http://www.taobao.com/taobao/detail.html？spm＝1002.pw.退款，利用词袋模型对域名、路径、query分别进行分词处理，得到多个文本单元www、taobao、com、taobao、detail、html、spm、1002、pw、退款，经过词袋模型处理后，域名与路径部分都得到相同的单词taobao，为了进行区分，对域名、路径和query的文本单元添加不同的前缀，例如，host-www、host-taobao、host-com、path-taobao、path-detail、path-html、query-spm、query-1002、query-pw、query-退款，得到第一特征信息host-taobao、path-taobao、query-退款。此外，若第一网页的域名中包含“.com.”，则“.com.”为第一网页的第一特征信息，本领域技术人员可以根据具体的URL确定第一特征信息，在此不作具体限定。

步骤S220，从URL中提取出域名，将域名进行域名解析，根据域名解析的结果得到第二特征信息。

这里的域名解析指将URL中域名转换成IP，并获取与IP相关的信息以及域名相关的信息的过程。第二特征信息为经过域名解析得到的站点相关特征信息。第二特征信息包含以下信息中的一种或多种：域名长度、IP信息、页面浏览量、独立访问量、WHOIS信息、备案信息、以及域名分隔符的个数。其中，域名长度指构成域名的字母的长度；IP信息指域名对应的IP个数，以及该IP前缀是否出现过钓鱼网页；页面访问量指用户刷新的次数，用户每次刷新即被计算一次；独立访问量指访问某网站的电脑客户端的个数，一台电脑客户端为一个访客，00:00-24:00内相同的客户端只被计算一次；WHOIS信息指域名是否被注册，域名是否包含注册信息；备案信息指域名是否备案；域名分隔符指域名中点(·)的个数。

步骤S230，根据第一网页的站点特征信息，确定第一网页的特征向量。

其中，站点特征信息包含第一特征信息和/或第二特征信息。

具体地，根据如下判断结果，按照预设规则确定第一网页的特征向量：

第一特征信息是否包含关键字，具体指第一特征信息是否包含taobao、中奖等关键字，若第一特征信息包含关键字，则确定特征值为1(若包含多个相同的关键字，则根据关键字出现的次数确定特征值)，若第一特征信息不包含关键字，则确定特征值为0；

和/或，域名长度是否大于域名长度预设值，其中，域名长度预设值可以为20，若域名长度大于20，则确定特征值为1，若域名长度小于20，则确定特征值为0；

和/或，域名对应的IP个数是否小于或等于IP个数预设值，其中IP个数预设值为1，若域名对应的IP个数小于或等于1，则确定特征值为1，若域名对应的IP个数大于1，则确定特征值为0；

和/或，IP信息的IP前缀是否出现过钓鱼网页，若IP信息的IP前缀出现过钓鱼网页，则确定特征值为1，若IP信息的IP前缀未出现过钓鱼网页，则确定特征值为0，举例说明，网页的IP为23.102.108，则网页的IP信息的IP前缀为23.102，具体为以IP前缀23.102的IP是否出现过钓鱼网页；

和/或，页面浏览量和/或独立访问量是否小于或等于访问量预设值，其中，访问量预设值可以为10，若页面浏览量和/或独立访问量小于或等于10，则确定特征值为1，若页面浏览量和/或独立访问量大于10，则确定特征值为0；

和/或，WHOIS信息是否包含注册信息，若WHOIS信息不包含注册信息，则确定特征值为1，若WHOIS信息包含注册信息，则确定特征值为0；

和/或，是否具有备案信息，若不具有备案信息则确定特征值为1，若具有备案信息则确定特征值为0；

和/或，域名分隔符的个数是否大于分隔符预设值，其中，分隔符预设值可以为4，若域名分隔符的个数大于4，则确定特征值为1，若分隔符的个数小于或等于4，则确定特征值为0。

本实施例中，本领域技术人员可以根据具体实际应用设置域名长度预设值、IP个数预设值、访问量预设值、分隔符预设值的具体数值，上述数值仅是举例说明，不应理解为限定作用。

将上述多种站点特征信息的特征值组合起来得到第一网页的特征向量。

步骤S240，将第一网页的特征向量输入到特征向量模型中，得到第一网页所属的特征空间。

本实施例中，特征向量模型的建立过程具体为：

(1)采集大量的样本网页，这些样本网页中既包含钓鱼网页，也包含非钓鱼网页，即安全网页；

(2)分别提取各个样本网页的URL，利用词袋模型对各个样本网页的URL文本进行分词处理，得到第一特征信息；

URL文本包括域名、路径、query中的一个或多个。第一特征信息为与URL文本有关的特征信息。具体地，利用词袋模型对域名和/或路径和/或query分别进行分词处理，得到多个文本单元，对分词处理后的多个文本单元添加对应的前缀得到第一特征信息，域名、路径和query的文本单元所添加的前缀不同。

这里提取样本网页的第一特征信息的方法与上述提取第一网页的第一特征信息的方法类似，不再赘述。

(3)从URL中提取出域名，将域名进行域名解析，根据域名解析的结果得到第二特征信息；

第二特征信息包含以下信息中的一种或多种：域名长度、IP信息、页面浏览量、独立访问量、WHOIS信息、备案信息、以及域名分隔符的个数。

(4)根据各个样本网页的第一特征信息和第二特征信息，确定各个样本网页的特征向量；

具体地，根据如下判断结果，按照预设规则确定样本网页的特征向量：

和/或，域名分隔符的个数是否大于分隔符预设值，其中，分隔符预设值可以为4，若域名分隔符的个数大于4，则确定特征值为1，若分隔符的个数小于4，则确定特征值为0。

将上述多种站点特征信息的特征值组合起来得到样本网页的特征向量。

以样本网页URL-A：http://www.baidu.com、

URL-B：http://www.taobao.com、

URL-C：http://www.taobao.com/taobao/detail.html？spm＝1002.pw.中奖、URL-D：http://www.taobao.taobao.com/taobao/detail.html？spm＝1002586.pw.中奖为例，以表1的形式具体示出站点特征信息的特征值：

表1

最后，将大量样本网页的特征向量组合起来得到一个矩阵，该矩阵的每一行或每一列为一个样本网页的特征向量，对应的行数或列数为样本网页的总数。具体地，将表格1的每一行的特征值组合起来得到样本网页的特征向量，将表格1的所有行的特征值组合起来得到矩阵。

(5)对各个样本网页的特征向量组成的矩阵进行训练得到特征向量模型，通过特征向量模型将样本空间划分多个特征空间。

这里，可采用支持向量机(Support Vector Machine，简称：SVM)机器学习算法对各个样本网页的特征向量组成的矩阵进行训练，SVM使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分，最终得到能够将样本空间划分为多个特征空间的特征向量模型。

在通过上述方法预先建立了特征向量模型的前提下，将步骤S230中获得的第一网页的特征向量输入到特征向量模型中，根据特征向量模型的算法，计算得到第一网页所属的特征空间。

步骤S250，判断第一网页所属的特征空间是否属于钓鱼类特征空间，若是，则执行步骤S260；若否，方法结束。

多个特征空间分为钓鱼类特征空间和非钓鱼类特征空间。钓鱼类特征空间包含淘宝钓鱼类特征空间、中奖钓鱼类特征空间等。

步骤S260，识别第一网页为钓鱼网页。

在建立特征向量模型时根据钓鱼所属类别将钓鱼类特征空间进行了划分，因此可以根据第一网页所属的特征空间确定第一网页所属的钓鱼类型。第一特征信息既可用于判断网页是否为钓鱼网页，也可用于确定网页所属分类。

此外，本发明还可结合第一网页的来源信息以及用户需求信息判断第一网页是否为钓鱼网页。具体地，获取客户端反馈的第一网页的来源信息以及用户需求信息；根据第一网页所属的特征空间，结合第一网页的来源信息以及用户需求信息判断第一网页是否为钓鱼网页。当用户点击客户端收到的第一网页的URL后，服务器向客户端返回信息调查页面，该信息调查页面主要包括网页的来源信息选项，例如，电话、qq、旺旺等，以及用户需求信息选项，服务器根据第一网页所属的特征空间，并结合客户端反馈的第一网页的来源信息以及用户需求信息判断第一网页是否为钓鱼网页。

根据本发明上述实施例提供的方法，提取浏览器所打开第一网页的URL，可以省去提前下载该第一网页，从而规避了钓鱼作者对钓鱼网站所设的防护，利用词袋模型对第一网页的URL文本进行分词处理，得到第一特征信息，从URL中提取出域名，将域名进行域名解析，根据域名解析的结果得到第二特征信息，根据第一网页的站点特征信息，确定第一网页的特征向量，将第一网页的特征向量输入到特征向量模型中，得到第一网页所属的特征空间，判断第一网页所属的特征空间是否属于钓鱼类特征空间，若是，则识别第一网页为钓鱼网页，通过词袋模型以及域名解析，获得特征信息，而无需人工识别URL，不需要人工加规则，从而节省了人力资源，通过自动的方式对第一网页进行识别。

图3示出了根据本发明一个实施例的基于特征向量模型识别钓鱼网页的装置的结构框图。

如图3所示，该装置包括：特征向量模型训练模块300、提取模块310、获取模块320、确定模块330、输入模块340、识别模块350。

特征向量模型训练模块300，适于根据大量样本网页的站点特征信息获取各个样本网页的特征向量，并对各个样本网页的特征向量组成的矩阵进行训练得到特征向量模型，通过特征向量模型将样本空间划分多个特征空间。

提取模块310，适于提取浏览器所打开第一网页的URL。

获取模块320，适于根据URL得到第一网页所属站点的站点特征信息。

确定模块330，适于根据第一网页的站点特征信息，确定第一网页的特征向量。

输入模块340，适于将第一网页的特征向量输入到特征向量模型中，得到第一网页所属的特征空间。

识别模块350，适于根据第一网页所属的特征空间识别第一网页是否为钓鱼网页。

根据本发明上述实施例提供的装置，由于每个网页都有对应的URL，提取浏览器所打开第一网页的URL，可以省去提前下载该第一网页，从而规避了钓鱼作者对钓鱼网站所设的防护，根据URL得到第一网页所属站点的站点特征信息，根据第一网页的站点特征信息，确定第一网页的特征向量；将第一网页的特征向量输入到特征向量模型中，得到第一网页所属的特征空间，根据第一网页所属的特征空间识别第一网页是否为钓鱼网页，从而节省了人力资源，不需要人工加规则，通过自动的方式对第一网页进行识别。

图4示出了根据本发明另一个实施例的基于特征向量模型识别钓鱼网页的装置的结构框图。如图4所示，该装置包括：特征向量模型训练模块400、提取模块401、获取模块402、确定模块403、输入模块404、识别模块405。

特征向量模型训练模块400，适于根据大量样本网页的站点特征信息获取各个样本网页的特征向量，并对各个样本网页的特征向量组成的矩阵进行训练得到特征向量模型，通过特征向量模型将样本空间划分多个特征空间。

其中，多个特征空间分为钓鱼类特征空间和非钓鱼类特征空间，钓鱼类特征空间包括淘宝钓鱼类特征空间、中奖钓鱼类特征空间。特征向量模型是通过批量学习模式或增量学习模式训练得到的。

提取模块401，适于提取浏览器所打开第一网页的URL。

获取模块402，适于根据URL得到第一网页所属站点的站点特征信息。其中，站点特征信息包含第一特征信息和/或第二特征信息，第一特征信息为与URL文本有关的特征信息，第二特征信息为经过域名解析得到的站点相关特征信息。

获取模块402进一步包括：分词处理模块406，适于利用词袋模型对第一网页的URL文本进行分词处理，得到第一特征信息。其中，URL文本包括域名、路径、query中的一个或多个。

分词处理模块406进一步包括：分词处理单元408，适于利用词袋模型对域名和/或路径和/或query分别进行分词处理，得到多个文本单元。

添加单元409，适于对分词处理后的多个文本单元添加对应的前缀得到第一特征信息，域名、路径和query的文本单元所添加的前缀不同。

和/或，域名解析模块407，适于从URL中提取出域名，将域名进行域名解析，根据域名解析的结果得到第二特征信息。其中，第二特征信息包含以下信息中的一种或多种：域名长度、IP信息、页面浏览量、独立访问量、WHOIS信息、备案信息、以及域名分隔符的个数。

确定模块403，适于根据第一网页的站点特征信息，确定第一网页的特征向量。

确定模块403具体适于：根据如下判断结果确定第一网页的特征向量：

第一特征信息是否包含关键字；

和/或，域名长度是否大于域名长度预设值；

和/或，域名对应的IP个数是否小于或等于IP个数预设值；

和/或，IP信息的IP前缀是否出现过钓鱼网页；

和/或，页面浏览量和/或独立访问量是否小于或等于访问量预设值；

和/或，WHOIS信息是否包含注册信息；

和/或，是否具有备案信息；

和/或，域名分隔符的个数是否大于分隔符预设值。

输入模块404，适于将第一网页的特征向量输入到特征向量模型中，得到第一网页所属的特征空间。

识别模块405，适于根据第一网页所属的特征空间识别第一网页是否为钓鱼网页。

识别模块405具体适于：判断第一网页所属的特征空间是否属于钓鱼类特征空间，若是，则识别第一网页为钓鱼网页。

识别模块405具体适于：根据第一网页所属的特征空间确定第一网页所属的钓鱼类型。

装置还包括：信息获取模块410，适于获取客户端反馈的第一网页的来源信息以及用户需求信息。

识别模块405具体适于：根据第一网页所属的特征空间，结合第一网页的来源信息以及用户需求信息判断第一网页是否为钓鱼网页。

根据本发明上述实施例提供的装置，提取浏览器所打开第一网页的URL，可以省去提前下载该第一网页，从而规避了钓鱼作者对钓鱼网站所设的防护，利用词袋模型对第一网页的URL文本进行分词处理，得到第一特征信息，从URL中提取出域名，将域名进行域名解析，根据域名解析的结果得到第二特征信息，根据第一网页的站点特征信息，确定第一网页的特征向量，将第一网页的特征向量输入到特征向量模型中，得到第一网页所属的特征空间，判断第一网页所属的特征空间是否属于钓鱼类特征空间，若是，则识别第一网页为钓鱼网页，通过词袋模型以及域名解析，获得特征信息，从而节省了人力资源，不需要人工加规则，通过自动的方式对第一网页进行识别。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的基于特征向量模型识别钓鱼网页的设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

本发明公开了：A1、一种基于特征向量模型识别钓鱼网页的方法，所述特征向量模型是根据大量样本网页的站点特征信息获取各个样本网页的特征向量，并对各个样本网页的特征向量组成的矩阵进行训练得到的，通过所述特征向量模型将样本空间划分多个特征空间；

所述方法包括：

A2、根据A1所述的方法，所述站点特征信息包含第一特征信息和/或第二特征信息，所述第一特征信息为与URL文本有关的特征信息，所述第二特征信息为经过域名解析得到的站点相关特征信息。

A3、根据A2所述的方法，所述根据URL得到所述第一网页所属站点的站点特征信息进一步包括：

利用词袋模型对所述第一网页的URL文本进行分词处理，得到所述第一特征信息；

和/或，从所述URL中提取出域名，将域名进行域名解析，根据域名解析的结果得到所述第二特征信息。

A4、根据A3所述的方法，所述URL文本包括域名、路径、query中的一个或多个；

所述利用词袋模型对所述第一网页的URL文本进行分词处理，得到所述第一特征信息进一步包括：

利用词袋模型对域名和/或路径和/或query分别进行分词处理，得到多个文本单元；

对分词处理后的多个文本单元添加对应的前缀得到所述第一特征信息，域名、路径和query的文本单元所添加的前缀不同；

所述第二特征信息包含以下信息中的一种或多种：域名长度、IP信息、页面浏览量、独立访问量、WHOIS信息、备案信息、以及域名分隔符的个数。

A5、根据A4所述的方法，所述根据所述第一网页的站点特征信息，确定所述第一网页的特征向量具体为，根据如下判断结果确定所述第一网页的特征向量：

所述第一特征信息是否包含关键字；

和/或，所述域名长度是否大于域名长度预设值；

和/或，所述域名对应的IP个数是否小于或等于IP个数预设值；

和/或，所述IP信息的IP前缀是否出现过钓鱼网页；

和/或，所述页面浏览量和/或独立访问量是否小于或等于访问量预设值；

和/或，所述WHOIS信息是否包含注册信息；

和/或，是否具有备案信息；

和/或，所述域名分隔符的个数是否大于分隔符预设值。

A6、根据A1-A5任一项所述的方法，所述多个特征空间分为钓鱼类特征空间和非钓鱼类特征空间；

根据所述第一网页所属的特征空间识别第一网页是否为钓鱼网页包括：判断所述第一网页所属的特征空间是否属于钓鱼类特征空间，若是，则识别所述第一网页为钓鱼网页。

A7、根据A6所述的方法，所述钓鱼类特征空间包括淘宝钓鱼类特征空间、中奖钓鱼类特征空间；

根据所述第一网页所属的特征空间识别第一网页是否为钓鱼网页还包括：根据所述第一网页所属的特征空间确定所述第一网页所属的钓鱼类型。

A8、根据A1-A7任一项所述的方法，所述特征向量模型是通过批量学习模式或增量学习模式训练得到的。

A9、根据A1-A8任一项所述的方法，还包括：获取客户端反馈的第一网页的来源信息以及用户需求信息；

所述根据所述第一网页所属的特征空间识别第一网页是否为钓鱼网页具体为：根据所述第一网页所属的特征空间，结合所述第一网页的来源信息以及用户需求信息判断所述第一网页是否为钓鱼网页。

本发明还公开了：B10、一种基于特征向量模型识别钓鱼网页的装置，所述装置包括：

提取模块，适于提取浏览器所打开第一网页的URL；

B11、根据B10所述的装置，所述站点特征信息包含第一特征信息和/或第二特征信息，所述第一特征信息为与URL文本有关的特征信息，所述第二特征信息为经过域名解析得到的站点相关特征信息。

B12、根据B11所述的装置，所述获取模块进一步包括：

分词处理模块，适于利用词袋模型对所述第一网页的URL文本进行分词处理，得到所述第一特征信息；

和/或，域名解析模块，适于从所述URL中提取出域名，将域名进行域名解析，根据域名解析的结果得到所述第二特征信息。

B13、根据B12所述的装置，所述URL文本包括域名、路径、query中的一个或多个；

所述分词处理模块进一步包括：

分词处理单元，适于利用词袋模型对域名和/或路径和/或query分别进行分词处理，得到多个文本单元；

添加单元，适于对分词处理后的多个文本单元添加对应的前缀得到所述第一特征信息，域名、路径和query的文本单元所添加的前缀不同；

B14、根据B13所述的装置，所述确定模块具体适于：根据如下判断结果确定所述第一网页的特征向量：

所述第一特征信息是否包含关键字；

和/或，所述域名长度是否大于域名长度预设值；

和/或，所述IP信息的IP前缀是否出现过钓鱼网页；

和/或，所述WHOIS信息是否包含注册信息；

和/或，是否具有备案信息；

和/或，所述域名分隔符的个数是否大于分隔符预设值。

B15、根据B10-B14任一项所述的装置，所述多个特征空间分为钓鱼类特征空间和非钓鱼类特征空间；

所述识别模块具体适于：判断所述第一网页所属的特征空间是否属于钓鱼类特征空间，若是，则识别所述第一网页为钓鱼网页。

B16、根据B15所述的装置，所述钓鱼类特征空间包括淘宝钓鱼类特征空间、中奖钓鱼类特征空间；

识别模块具体适于：根据所述第一网页所属的特征空间确定所述第一网页所属的钓鱼类型。

B17、根据B10-B16任一项所述的装置，所述特征向量模型是通过批量学习模式或增量学习模式训练得到的。

B18、根据B10-B17任一项所述的装置，还包括：信息获取模块，适于获取客户端反馈的第一网页的来源信息以及用户需求信息；

所述识别模块具体适于：根据所述第一网页所属的特征空间，结合所述第一网页的来源信息以及用户需求信息判断所述第一网页是否为钓鱼网页。

Claims

1.一种基于特征向量模型识别钓鱼网页的方法，所述特征向量模型是根据大量样本网页的站点特征信息获取各个样本网页的特征向量，并对各个样本网页的特征向量组成的矩阵进行训练得到的，通过所述特征向量模型将样本空间划分多个特征空间；

所述方法包括：

2.根据权利要求1所述的方法，所述站点特征信息包含第一特征信息和/或第二特征信息，所述第一特征信息为与URL文本有关的特征信息，所述第二特征信息为经过域名解析得到的站点相关特征信息。

3.根据权利要求2所述的方法，所述根据URL得到所述第一网页所属站点的站点特征信息进一步包括：

4.根据权利要求3所述的方法，所述URL文本包括域名、路径、query中的一个或多个；

5.根据权利要求4所述的方法，所述根据所述第一网页的站点特征信息，确定所述第一网页的特征向量具体为，根据如下判断结果确定所述第一网页的特征向量：

所述第一特征信息是否包含关键字；

和/或，所述域名长度是否大于域名长度预设值；

和/或，所述IP信息的IP前缀是否出现过钓鱼网页；

和/或，所述WHOIS信息是否包含注册信息；

和/或，是否具有备案信息；

和/或，所述域名分隔符的个数是否大于分隔符预设值。

6.根据权利要求1-5任一项所述的方法，所述多个特征空间分为钓鱼类特征空间和非钓鱼类特征空间；

7.根据权利要求6所述的方法，所述钓鱼类特征空间包括淘宝钓鱼类特征空间、中奖钓鱼类特征空间；

8.根据权利要求1-7任一项所述的方法，所述特征向量模型是通过批量学习模式或增量学习模式训练得到的。

9.根据权利要求1-8任一项所述的方法，还包括：获取客户端反馈的第一网页的来源信息以及用户需求信息；

10.一种基于特征向量模型识别钓鱼网页的装置，所述装置包括：

提取模块，适于提取浏览器所打开第一网页的URL；