CN107204960B - 网页识别方法及装置、服务器 - Google Patents

网页识别方法及装置、服务器 Download PDF

Info

Publication number
CN107204960B
CN107204960B CN201610151525.4A CN201610151525A CN107204960B CN 107204960 B CN107204960 B CN 107204960B CN 201610151525 A CN201610151525 A CN 201610151525A CN 107204960 B CN107204960 B CN 107204960B
Authority
CN
China
Prior art keywords
page
hash
detected
value
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610151525.4A
Other languages
English (en)
Other versions
CN107204960A (zh
Inventor
熊凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201610151525.4A priority Critical patent/CN107204960B/zh
Publication of CN107204960A publication Critical patent/CN107204960A/zh
Application granted granted Critical
Publication of CN107204960B publication Critical patent/CN107204960B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]

Abstract

本申请提供一种网页识别方法及装置、服务器,该方法包括:计算待检测页面的文档对象模型对应的第一哈希值;基于所述第一哈希值,确定所述待检测页面与钓鱼页面样本的相似度值;根据所述相似度值确定所述待检测页面是否为钓鱼页面。在本申请的技术方案可以实现不以域名为特征识别钓鱼页面,有效地对抗域名的变异。

Description

网页识别方法及装置、服务器
技术领域
本申请涉及网络技术领域,尤其涉及一种网页识别方法及装置、服务器。
背景技术
钓鱼网站通过模仿或欺骗用户认为此网页为正常网页,骗取用户的登录账号、隐私信息、钱财等进行谋利。钓鱼诈骗者通常采用相似的钓鱼网站模板架设钓鱼网站,当一个域名被检测到为钓鱼网站并被拦截后,由于钓鱼诈骗者拥有大量待更换的域名,钓鱼诈骗者通常会立即更换域名继续诈骗,从而躲避检测。
发明内容
有鉴于此,本申请提供一种新的技术方案,能够有效地对抗域名的变异。
为实现上述目的,本申请提供技术方案如下:
根据本申请的第一方面,提出了一种网页识别方法,包括:
计算待检测页面的文档对象模型对应的第一哈希值;
基于所述第一哈希值,确定所述待检测页面与钓鱼页面样本的相似度值;
根据所述相似度值确定所述待检测页面是否为钓鱼页面。
根据本申请的第二方面,提出了一种网页识别装置,包括:
第一计算模块,用于计算待检测页面的文档对象模型对应的第一哈希值;
第一确定模块,用于基于所述第一哈希值,确定所述待检测页面与钓鱼页面样本的相似度值;
第二确定模块,用于根据所述第一确定模块确定的所述相似度值确定所述待检测页面是否为钓鱼页面。
根据本申请的第三方面,提出了一种服务器,所述服务器包括:
处理器;用于存储所述处理器可执行指令的存储器;
其中,所述处理器,用于计算待检测页面的文档对象模型对应的第一哈希值;基于所述第一哈希值,确定所述待检测页面与钓鱼页面样本的相似度值;根据所述相似度值确定所述待检测页面是否为钓鱼页面。
由以上技术方案可见,本申请基于待检测页面的文档对象模型对应的第一哈希值,通过确定待检测页面与钓鱼页面样本的相似度值,根据相似度值确定待检测页面是否为钓鱼页面,实现了不以域名为特征识别钓鱼页面,有效地对抗了域名的变异。
附图说明
图1示出了本发明的示例性实施例一的网页识别方法的流程示意图;
图2示出了本发明的示例性实施例二的网页识别方法的流程示意图
图3A示出了本发明的示例性实施例三的网页识别方法的流程示意图;
图3B示出了本发明的示例性实施例三中步骤202的流程示意图;
图3C示出了本发明的示例性实施例三中步骤203的流程示意图;
图4A示出了本发明的示例性实施例四的网页识别方法的流程示意图;
图4B为图4A所示实施例中的文档对象模型树结构的示意图;
图4C为图4B中的文档对象模型树结构进行剪枝后得到的文档对象模型树结构的示意图;
图5示出了本发明的示例性实施例五的网页识别方法的流程示意图;
图6示出了本发明的示例性实施例六的网页识别方法的流程示意图;
图7示出了根据本发明的一示例性实施例的服务器的结构示意图;
图8示出了本发明的示例性实施例一的网页识别装置的结构示意图;
图9示出了本发明的示例性实施例二的网页识别装置的结构示意图;
图10示出了本发明的示例性实施例三的网页识别装置的结构示意图;
图11示出了本发明的示例性实施例四的网页识别装置的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
为对本申请进行进一步说明,提供下列实施例:
图1示出了本发明的示例性实施例一的网页识别方法的流程示意图;如图1所示,包括如下步骤:
步骤101,计算待检测页面的文档对象模型对应的第一哈希值。
步骤102,基于第一哈希值,确定待检测页面与钓鱼页面样本的相似度值。
步骤103,根据相似度值确定待检测页面是否为钓鱼页面。
本申请方案基于页面的文档对象模型(Document Object Model,DOM)实现,DOM是一种W3C组织推荐的处理可扩展标志语言的应用程序编程接口(Application ProgrammingInterface,API)。在一个页面中,构成页面的对象被组织在一个树形结构中,用来表示文档中对象的标准模型被称为DOM,因此通常也将DOM看作页面上数据和结构的一个树形表示,即DOM是一种基于树的API文档,是一种能够描述页面特征的信息。本领域普通技术人员可以理解,在一般情况下,“页面的DOM”、“页面的DOM树”、“页面的DOM树结构”、“页面的文档对象模型”、“页面的文档对象模型树”、“页面的文档对象模型树结构”等几种概念所指代的含义是一致的。
在上述步骤101中,在一实施例中,可以通过待检测页面的链接或域名确定待检测页面,例如,通过接收到的链接(url)或域名访问网页,获取待检测页面的网页页面。在一实施例中,可以通过与下述图3A所示实施例相似的方法计算得到待检测页面的文档对象模型对应的第一哈希值,此处先不详述。
在上述步骤102中,在一实施例中,可以通过用户举报、样本交流等方式获取到钓鱼页面样本,本申请对钓鱼页面样本的来源不做限制,只要能够确定网页为钓鱼网站的页面即可将其列为本申请中的钓鱼页面样本。在一实施例中,可以通过待检测页面的文档对象模型对应的第一哈希值与钓鱼页面样本的文档对象模型对应的哈希值来确定待检测页面与钓鱼页面样本的相似度值,在另一实施例中,还可以通过待检测页面上的预设类型的资源文件的哈希值与钓鱼页面样本的哈希值来确定待检测页面与钓鱼页面样本的相似度值,在再一实施例中,还可以通过上述二者的综合来确定待检测页面与钓鱼页面样本的相似度值。
在上述步骤103中,在一实施例中,可以通过将相似度值与预设阈值进行比较,当相似度值大于预设阈值时,视为相似度值达到一定的相似程度,此时可确定待检测页面为钓鱼页面,如果相似度值小于或者等于预设阈值,表示待检测页面与钓鱼页面样本之间不相似,此时可确定待检测页面为正常页面。
由上述描述可知,本发明实施例基于待检测页面的文档对象模型对应的第一哈希值,通过确定待检测页面与钓鱼页面样本的相似度值,根据相似度值确定待检测页面是否为钓鱼页面,实现了不以域名为特征识别钓鱼页面,有效地对抗了域名的变异。
图2示出了本发明的示例性实施例一的网页识别方法的流程示意图;如图2所示,包括如下步骤:
步骤201,计算待检测页面的文档对象模型对应的第一哈希值。
步骤202,确定第一哈希值是否命中第三哈希特征库中的哈希值,其中,第三哈希特征库用于记录正常页面对应的哈希值,如果第一哈希值未命中第三哈希特征库中的哈希值,执行步骤203,如果第一哈希值命中第三哈希特征库中的哈希值,提示待检测页面为正常页面。
步骤203,如果第一哈希值未命中第三哈希特征库中的哈希值,确定待检测页面与钓鱼页面样本的相似度值。
步骤204,根据相似度值确定待检测页面是否为钓鱼页面。
在上述步骤201、步骤203及步骤204的描述可以参见上述图1所示实施例的相关描述,在此不再详述。
在上述步骤202中,在一实施例中,可以通过相似性匹配的方式确定第一哈希值是否与第三哈希特征库中的哈希值相同或者相似,从而确定第一哈希值是否命中第三哈希特征库中的哈希值,例如,第一哈希值为11,第三哈希特征库中的哈希值包括10、20、30、40、50,则可以将第一哈希值与哈希值10相似,与哈希值50不相似,此时可视为第一哈希值命中了第三哈希特征库中的哈希值,如果第一哈希值为110,与哈希值50已经相差较大,此时可视为第一哈希值未命中第三哈希特征库中的哈希值。
本实施例中,本发明实施例在待检测页面的文档对象模型对应的第一哈希值未命中第三哈希特征库中的哈希值的情形下,通过确定待检测页面与钓鱼页面样本的相似度值,根据相似度值确定待检测页面是否为钓鱼页面,实现了不以域名为特征识别钓鱼页面,有效地对抗了域名的变异。
图3A示出了本发明的示例性实施例二的网页识别方法的流程示意图,图3B示出了本发明的示例性实施例二中步骤302的流程示意图,图3C示出了本发明的示例性实施例二中步骤303的流程示意图;本实施例以如何确定所述待检测页面与钓鱼页面样本的相似度值为例进行示例性说明,如图3A所示,包括如下步骤:
步骤301,根据第一哈希值与第一哈希特征库中的哈希值确定待检测页面与钓鱼页面样本之间的第一相似度值,第一哈希特征库用于记录钓鱼页面样本的文档对象模型对应的哈希值。
步骤302,根据待检测页面中的预设类型资源文件的哈希值与第二哈希特征库中的哈希值,确定待检测页面与钓鱼页面样本之间的第二相似度值,第二哈希特征库用于记录钓鱼页面样本上的图片对应的哈希值。
步骤303,根据第一相似度值和第二相似度值确定待检测页面与钓鱼页面样本之间的相似度值。
在上述步骤301中,可以将待检测页面的Dom对应的第一哈希值与第一哈希特征库中的文档对象模型对应的哈希值进行比较,如果待检测页面的Dom对应的第一哈希值与第一哈希特征库中的任意一个哈希值相同,则视为第一哈希值命中第一哈希特征库,此时第一相似度值为100%,如果第一哈希值未命中第一哈希特征库,则需要从第一哈希特征库中找到一个与第一哈希值最为接近的哈希值,可根据二者的接近程度确定第一相似度值,例如,a1为第一哈希值,a2为第一哈希特征库中的任意一个哈希值,将a1转换成二进制,如:a1=50(十进制)=0000110010(二进制),a2=55(十进制)=0000110111(二进制);a1与a2进行按位异或运算(1异或1=0,1异或0=1,0异或0=0),0000110010(a1)异或0000110111(a2)=0000000101,异或的结果中有两位为1,则相似度为
Figure GDA0002616725120000061
可以将第一哈希值与第一哈希特征库中的最大的相似度值视为第一相似度值。
由于一个文档对象模型通过哈希算法(例如,SimHash、MinHash等哈希算法)可以计算得到一个哈希值,当待检测页面上的文档对象模型有轻微修改时,该文档对象模型对应的哈希值及也会发生变化,因此本申请通过第一哈希值在一定程度上能够识别变异的Dom树,进而可以提高识别钓鱼页面的精度。
在上述步骤302中,如图3B所示,可包括如下步骤:
步骤311,计算待检测页面中的预设类型资源文件各自对应的哈希值。
步骤312,确定预设类型资源文件各自对应的哈希值中,与第二哈希特征库中的哈希值相匹配的哈希值所占比例值。
步骤313,根据比例值确定待检测页面与钓鱼页面样本之间的第二相似度值。
在上述步骤311至步骤313中,在一实施例中,预设类型资源文件可以为待检测页面上的图片、js文件、css文件、音频文件、视频文件任意一种类型的资源文件,或者上述两个以上类型的资源文件的组合,以预设类型资源文件为图片为例进行示例性说明,对待检测页面中的每张图片计算哈希值,与该哈希值与第二哈希特征库中的哈希值进行比较,计算匹配比例,例如,待检测页面中共有b1张图片,其中b2张图片的哈希值命中第二哈希特征库,则第二相似度值为
Figure GDA0002616725120000071
例如,待检测页面中共有10张图片,其中3张图片的哈希值命中第二哈希特征库,则第二相似度值为3/10*100%=30%。
由于钓鱼网站通常会采用以图片代替文字的方式躲避检测,本实施例通过待检测页面中的预设类型资源文件计算哈希值,从而可以将钓鱼网站常用的预设类型资源文件作为特征,确保相似度值能够准确的表示待检测页面与钓鱼页面之间的相似度,进而能够高精度地检测出钓鱼网站。
在上述步骤303中,如图3C所示,可包括如下步骤:
步骤321,确定第一相似度值与第二相似度值各自对应的权重系数。
步骤322,根据各自对应的权重系数、第一相似度值和第二相似度值确定待检测页面与钓鱼页面样本之间的相似度值。
在上述步骤321和步骤322中,可以根据文档对象模型对应的哈希值与哈希值在实际检测钓鱼网站的过程中所占用的权重大小来确定不同的权重系数,η=A*α1+B*α2,其中,α1表示第一相似度值A对应的权重系数,α2表示第二相似度值B对应的权重系数,η表示待检测页面与钓鱼页面样本之间的相似度值。
本实施例中,通过第一相似度值和第二相似度值得到待检测页面与钓鱼页面样本之间的相似度值,从而可以大大提高识别待检测页面与钓鱼页面样本之间的相似度的准确度,进而高准确度地识别出钓鱼网站。
图4A示出了本发明的示例性实施例三的网页识别方法的流程示意图,图4B为图4A所示实施例中的文档对象模型树结构的示意图,图4C为图4B中的文档对象模型树结构进行剪枝后得到的文档对象模型树结构的示意图;本实施例以如何计算待检测页面的文档对象模型对应的第一哈希值为例进行示例性说明,如图4A所示,包括如下步骤:
步骤401,获取待检测页面的页面HTML内容。
步骤402,将页面HTML内容生成文档对象模型树结构。
步骤403,对文档对象模型树结构进行剪枝。
步骤404,遍历文档对象模型树结构的全部路径并对全部路径排序后,将文档对象模型树结构拼接为字符串。
步骤405,通过哈希算法计算字符串对应的哈希值,字符串对应的哈希值为文档对象模型对应的第一哈希值。
在上述步骤401中,待检测检测网页的页面HTML内容例如为:
Figure GDA0002616725120000081
Figure GDA0002616725120000091
通过上述步骤401得到的页面HTML内容生成的Dom树结构如图4B所示,对图4B中所示的Dom树剪枝,相同得分支取一枝,得到剪枝后的Dom树结构如图4C所示。
深度优先遍历图4C所示的剪枝后的Dom树的所有路径并稳定排序,拼接为如下所示的字符串:
Figure GDA0002616725120000092
通过哈希算法计算上述字符串对应的哈希值,该字符串对应的哈希值为文档对象模型对应的第一哈希值。
本实施例中,由于一个文档对象模型通过哈希算法(例如,Simhash、MinHash等哈希算法)可以计算得到一个哈希值,当待检测页面上的文档对象模型有轻微修改时,该文档对象模型对应的哈希值及也会发生变化,因此本申请通过第一哈希值在一定程度上能够识别变异的Dom树,进而可以提高识别钓鱼页面的精度。
图5示出了本发明的示例性实施例五的网页识别方法的流程示意图;本实施例以如何对样本页面进行聚类为例进行示例性说明,如图5所示,包括如下步骤:
步骤501,将全部样本页面的文档对象模型采用哈希算法计算得到一组哈希值。
步骤502,通过层次聚类方法,将一组哈希值聚类为用于记录正常页面对应的第一组哈希值,以及用于记录钓鱼页面对应的第二组哈希值。
步骤503,将第一组哈希值和第二组哈希值分别存储在第一哈希特征库和第三哈希特征库。
在上述步骤501中,在一实施例中,全部样本页面可以通过用户举报、样本交流等方式获取到钓鱼页面样本,本申请对钓鱼页面样本的来源不做限制,只要能够确定网页为钓鱼网站的页面即可将其列为本申请中的钓鱼页面样本。在一实施例中,全部样本页面的文档对象模型的确定方法可以参见上述图3A所示实施例的相关描述,在此不再详述。在一实施例中,哈希算法可以为Simhash,也可以为MinHash5等模糊哈希算法。
在上述步骤502中,在一实施例中,层次聚类方法例如为:通过计算两个哈希值之间的海明距离(该海明距离可视为评估两个数值近似程度的评估方法)或者两个哈希值之间的绝对值的相近程度,从而将不同的哈希值进行分类,本领域技术人员可以理解的是,评估两个数值相近程度的评判方法并不限于上述所示的海明距离以及绝对值,只要能够评估两个数值之间的相似程度的方法均可。
例如,全部样本页面包括:C1页面、C2页面、C3页面、C4页面、C5页面、C6页面、C7页面、C8页面,通过将上述C1-C8页面的文档对象结构采用simhash算法计算出8个哈希值,分别为8、9、11、12、48、49、51、52,则通过层次聚类方法,可以将C1页面、C2页面、C3页面、C4页面归为一类,将C5页面、C6页面、C7页面、C8页面归为一类。由于全部样本页面可以包括正常页面和钓鱼页面,因此上述通过层次聚类方法例如可将C1页面、C2页面、C3页面、C4页面归为正常页面对应的一类,将C5页面、C6页面、C7页面、C8页面归为钓鱼页面对应的一类。
在上述步骤503中,通过将第一组哈希值和第二组哈希值分别存储至第一哈希特征库和第三哈希特征库,可以在上述相关实施例中通过第一哈希特征库和第三哈希特征库来综合确定待检测页面是否为钓鱼页面。
本实施例中,通过层次聚类方法将全部样本页面对应的一组哈希值聚类为用于记录正常页面对应的第一组哈希值以及用于记录钓鱼页面对应的第二组哈希值,当样本页面达到一定量级时,可以寻找到更多的可疑页面。
图6示出了本发明的示例性实施例五的网页识别方法的流程示意图;如图6所示,包括如下步骤:
步骤601,计算待检测页面的文档对象模型对应的第一哈希值。
步骤602,确定第一哈希值是否命中第三哈希特征库中的哈希值,其中,第三哈希特征库用于记录正常页面对应的哈希值,如果第一哈希值未命中第三哈希特征库中的哈希值,执行步骤603,如果第一哈希值命中第三哈希特征库中的哈希值,提示待检测页面为正常页面。
步骤603,确定待检测页面与第一哈希特征库中的哈希值的相似度值,其中,第一哈希特征库用于记录钓鱼页面对应的哈希值。
步骤604,确定相似度值是否大于预设阈值,如果相似度值大于预设阈值,执行步骤605,如果相似度值小于或者等于预设阈值,执行步骤607。
步骤605,如果相似度值大于预设阈值,确定待检测页面为钓鱼页面,执行步骤606。
步骤606,将待检测页面对应的域名通知给拦截系统,以供拦截系统对域名进行拦截。
步骤607,如果相似度值小于或者等于预设阈值,确定待检测页面为正常页面。
上述步骤601-步骤603、步骤605的相关描述可以参见上述实施例的相关描述,在此不再详述。
上述步骤604中,可以通过对钓鱼样本进行聚类来确定一个合适的预设阈值,只要该预设阈值能够准确地将钓鱼页面与正常页面区分开即可。
本实施例在具有上述实施例的有益技术效果的基础上,通过将待检测页面对应的域名通知给拦截系统,以供拦截系统对域名进行拦截,拦截系统可以为将识别为钓鱼网页的域名推送至用户的PC客户端的安全软件、手机安全软件,或PC/手机浏览器安全模块(该安全模块负责恶意网址拦截)。当用户通过PC、手机访问钓鱼页面时,其安装的安全软件或浏览器会出现安全提示,警告用户访问钓鱼页面所面临的安全风险。
通过上述实施例可知,本申请有以下有益技术效果:
1、不以域名及文本内容为特征识别待检测页面是否为钓鱼页面,从而有效地对抗了域名及文本内容的变异;
2、可有效地解决Dom树匹配算法效率问题,适合大规模匹配使用;
3、在一定程度上能够识别变异的Dom树,识别精度高;
4、以钓鱼网站常用的资源文件作为特征确定待检测页面与钓鱼页面样本之间的相似度,从而可以高精度检出常见的钓鱼网站。
对应于上述的网页识别方法,本申请还提出了图7所示的根据本发明的一示例性实施例的服务器的示意结构图。请参考图7,在硬件层面,该服务器包括处理器、内部总线、网络接口、内存以及非易失性存储器,当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成网页识别装置。当然,除了软件实现方式之外,本申请并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
图8为根据本发明的一示例性实施例的网页识别装置的结构示意图;如图8所示,该网页识别装置可以包括:第一计算模块81、第一确定模块82、第二确定模块83。其中:
第一计算模块81,用于计算待检测页面的文档对象模型对应的第一哈希值;
第一确定模块82,用于基于第一计算模块81计算得到的第一哈希值,确定待检测页面与钓鱼页面样本的相似度值;
第二确定模块83,用于根据第一确定模块82确定的相似度值确定待检测页面是否为钓鱼页面。
图9示出了本发明的示例性实施例二的网页识别装置的结构示意图;如图9所示,在上述图8所示实施例的基础上,第一确定模块82可包括:
第一确定单元821,用于根据第一哈希值与第一哈希特征库中的哈希值确定待检测页面与钓鱼页面样本之间的第一相似度值,第一哈希特征库用于记录钓鱼页面样本的文档对象模型对应的哈希值;
第二确定单元822,用于根据待检测页面中的预设类型资源文件的哈希值与第二哈希特征库中的哈希值,确定待检测页面与钓鱼页面样本之间的第二相似度值,第二哈希特征库用于记录钓鱼页面样本上的图片对应的哈希值;
第三确定单元823,用于根据第一确定单元821确定的第一相似度值和第二确定单元822确定的第二相似度值确定待检测页面与钓鱼页面样本之间的相似度值。
在一实施例中,第二确定单元822可包括:
第一计算子单元8221,用于计算待检测页面中的预设类型资源文件各自对应的哈希值;
第一确定子单元8222,用于确定第一计算子单元8221计算的预设类型资源文件各自对应的哈希值中,与第二哈希特征库中的哈希值相匹配的哈希值所占比例值;
第二确定子单元8223,用于根据第一确定子单元8222确定的比例值确定待检测页面与钓鱼页面样本之间的第二相似度值。
在一实施例中,第三确定单元823可包括:
第三确定子单元8231,用于确定第一相似度值与第二相似度值各自对应的权重系数;
第四确定子单元8232,用于根据第三确定子单元8231确定的各自对应的权重系数、第一相似度值和第二相似度值确定待检测页面与钓鱼页面样本之间的相似度值。
在一实施例中,装置还可包括:
第二计算模块84,用于通过哈希算法,计算全部钓鱼页面样本的文档对象模型各自对应的哈希值,得到一组哈希值;
聚类模块85,用于通过层次聚类方法,将一组哈希值聚类为用于记录正常页面的文档对象模型对应的第一组哈希值以及用于记录钓鱼页面的文档对象模型对应的第二组哈希值;
存储模块86,用于将聚类模块85聚类得到的第一组哈希值和第二组哈希值分别存储在第一哈希特征库和第一哈希特征库。
在一实施例中,装置还可包括:
第三确定模块87,用于确定第一计算模块81计算得到的第一哈希值是否命中第三哈希特征库中的哈希值,第三哈希特征库用于记录正常页面的文档对象模型对应的哈希值;
如果第三确定模块87确定第一哈希值未命中第三哈希特征库中的哈希值,第一确定模块82执行基于第一哈希值,确定待检测页面与钓鱼页面样本的相似度值的步骤。
图10示出了本发明的示例性实施例三的网页识别装置的结构示意图;如图10所示,在上述图8或图9所示实施例的基础上,第一计算模块81可包括:
获取单元811,用于获取待检测页面的页面HTML内容;
树结构生成单元812,用于将获取单元811获取到的页面HTML内容生成文档对象模型树结构;
剪枝单元813,用于对树结构生成单元812生成的文档对象模型树结构进行剪枝;
字符串生成单元814,用于遍历剪枝单元813剪枝后的文档对象模型树结构的全部路径并对全部路径排序后,将文档对象模型树结构拼接为字符串;
第二计算子单元815,用于通过哈希算法,计算字符串生成单元814生成的字符串对应的哈希值,字符串对应的哈希值为文档对象模型对应的第一哈希值。
图11示出了本发明的示例性实施例四的网页识别装置的结构示意图;如图11所示,在上述图8-图10任一所示实施例的基础上,第二确定模块83可包括:
比较单元831,用于将相似度值与预设阈值进行比较;
第五确定子单元832,用于如果比较单元831表示相似度值大于预设阈值,确定待检测页面为钓鱼页面;
第六确定子单元833,用于如果比较单元831表示相似度值小于或者等于预设阈值,确定待检测页面为正常页面。
在一实施例中,装置还可包括:
通知模块84,用于如果第二确定模块83确定待检测页面为钓鱼页面,将待检测页面对应的域名通知给拦截系统,以供拦截系统对域名进行拦截。
上述装置中各个模块或者单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (17)

1.一种网页识别方法,其特征在于,所述方法包括:
计算待检测页面的文档对象模型对应的第一哈希值;
根据所述第一哈希值与第一哈希特征库中的哈希值确定所述待检测页面与钓鱼页面样本之间的第一相似度值,所述第一哈希特征库用于记录钓鱼页面样本的文档对象模型对应的哈希值;
根据所述待检测页面中的预设类型资源文件的哈希值与第二哈希特征库中的哈希值,确定所述待检测页面与所述钓鱼页面样本之间的第二相似度值,所述第二哈希特征库用于记录所述钓鱼页面样本上的图片对应的哈希值;
根据所述第一相似度值和所述第二相似度值确定所述待检测页面与所述钓鱼页面样本之间的相似度值;
根据所述相似度值确定所述待检测页面是否为钓鱼页面。
2.根据权利要求1所述的方法,其特征在于,所述根据所述待检测页面中的预设类型资源文件的哈希值与第二哈希特征库中的哈希值确定所述待检测页面与所述钓鱼页面样本之间的第二相似度值,包括:
计算所述待检测页面中的预设类型资源文件各自对应的哈希值;
确定所述预设类型资源文件各自对应的哈希值中,与第二哈希特征库中的哈希值相匹配的哈希值所占比例值;
根据所述比例值确定待检测页面与所述钓鱼页面样本之间的第二相似度值。
3.根据权利要求1所述的方法,其特征在于,所述根据所述第一相似度值和所述第二相似度值确定所述待检测页面与所述钓鱼页面样本之间的相似度值,包括:
确定所述第一相似度值与所述第二相似度值各自对应的权重系数;
根据所述各自对应的权重系数、所述第一相似度值和所述第二相似度值确定所述待检测页面与所述钓鱼页面样本之间的相似度值。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
通过哈希算法,计算全部页面样本的文档对象模型各自对应的哈希值,得到一组哈希值;
通过层次聚类方法,将所述一组哈希值聚类为用于记录正常页面的文档对象模型对应的第一组哈希值以及用于记录钓鱼页面的文档对象模型对应的第二组哈希值;
将所述第一组哈希值存储在第三哈希特征库,并将所述第二组哈希值存储在第一哈希特征库,所述第三哈希特征库用于记录正常页面的文档对象模型对应的哈希值。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定所述第一哈希值是否命中第三哈希特征库中的哈希值,所述第三哈希特征库用于记录正常页面的文档对象模型对应的哈希值;
如果所述第一哈希值未命中第三哈希特征库中的哈希值,执行基于所述第一哈希值,确定所述待检测页面与钓鱼页面样本的相似度值的步骤。
6.根据权利要求1所述的方法,其特征在于,所述计算待检测页面的文档对象模型对应的第一哈希值,包括:
获取待检测页面的页面HTML内容;
将所述页面HTML内容生成文档对象模型树结构;
对所述文档对象模型树结构进行剪枝;
遍历所述文档对象模型树结构的全部路径并对所述全部路径排序后,将所述文档对象模型树结构拼接为字符串;
通过哈希算法,计算所述字符串对应的哈希值,所述字符串对应的哈希值为所述文档对象模型对应的第一哈希值。
7.根据权利要求1所述的方法,其特征在于,所述根据所述相似度值确定所述待检测页面是否为钓鱼页面,包括:
将所述相似度值与预设阈值进行比较;
如果所述相似度值大于所述预设阈值,确定所述待检测页面为钓鱼页面;
如果所述相似度值小于或者等于所述预设阈值,确定所述待检测页面为正常页面。
8.根据权利要求1-7任一所述的方法,其特征在于,所述方法还包括:
如果确定所述待检测页面为钓鱼页面,将所述待检测页面对应的域名通知给拦截系统,以供所述拦截系统对所述域名进行拦截。
9.一种网页识别装置,其特征在于,所述装置包括:
第一计算模块,用于计算待检测页面的文档对象模型对应的第一哈希值;
第一确定模块,包括第一确定单元、第二确定单元与第三确定单元;所述第一确定单元,用于根据所述第一哈希值与第一哈希特征库中的哈希值确定所述待检测页面与钓鱼页面样本之间的第一相似度值,所述第一哈希特征库用于记录钓鱼页面样本的文档对象模型对应的哈希值;所述第二确定单元,用于根据所述待检测页面中的预设类型资源文件的哈希值与第二哈希特征库中的哈希值,确定所述待检测页面与所述钓鱼页面样本之间的第二相似度值,所述第二哈希特征库用于记录所述钓鱼页面样本上的图片对应的哈希值;所述第三确定单元根据所述第一相似度值和所述第二相似度值确定所述待检测页面与所述钓鱼页面样本之间的相似度值;
第二确定模块,用于根据所述第一确定模块确定的所述相似度值确定所述待检测页面是否为钓鱼页面。
10.根据权利要求9所述的装置,其特征在于,所述第二确定单元包括:
第一计算子单元,用于计算所述待检测页面中的预设类型资源文件各自对应的哈希值;
第一确定子单元,用于确定所述第一计算子单元计算的所述预设类型资源文件各自对应的哈希值中,与所述第二哈希特征库中的哈希值相匹配的哈希值所占比例值;
第二确定子单元,用于根据所述第一确定子单元确定的所述比例值确定待检测页面与所述钓鱼页面样本之间的第二相似度值。
11.根据权利要求9所述的装置,其特征在于,所述第三确定单元包括:
第三确定子单元,用于确定所述第一相似度值与所述第二相似度值各自对应的权重系数;
第四确定子单元,用于根据所述第三确定子单元确定的所述各自对应的权重系数、所述第一相似度值和所述第二相似度值确定所述待检测页面与所述钓鱼页面样本之间的相似度值。
12.根据权利要求9所述的装置,其特征在于,所述装置还包括:
第二计算模块,用于通过哈希算法,计算全部页面样本的文档对象模型各自对应的哈希值,得到一组哈希值;
聚类模块,用于通过层次聚类方法,将所述一组哈希值聚类为用于记录正常页面的文档对象模型对应的第一组哈希值以及用于记录钓鱼页面的文档对象模型对应的第二组哈希值;
存储模块,用于将所述聚类模块聚类得到的所述第一组哈希值存储在第三哈希特征库,并将所述聚类模块聚类得到的所述第二组哈希值存储在所述第一哈希特征库,所述第三哈希特征库用于记录正常页面的文档对象模型对应的哈希值。
13.根据权利要求9所述的装置,其特征在于,所述装置还包括:
第三确定模块,用于确定所述第一计算模块计算得到的所述第一哈希值是否命中第三哈希特征库中的哈希值,所述第三哈希特征库用于记录正常页面的文档对象模型对应的哈希值;
如果所述第三确定模块确定所述第一哈希值未命中第三哈希特征库中的哈希值,所述第二确定模块执行基于所述第一哈希值,确定所述待检测页面与钓鱼页面样本的相似度值的步骤。
14.根据权利要求9所述的装置,其特征在于,所述第一计算模块包括:
获取单元,用于获取待检测页面的页面HTML内容;
树结构生成单元,用于将所述获取单元获取到的所述页面HTML内容生成文档对象模型树结构;
剪枝单元,用于对所述树结构生成单元生成的所述文档对象模型树结构进行剪枝;
字符串生成单元,用于遍历所述剪枝单元剪枝后的所述文档对象模型树结构的全部路径并对所述全部路径排序后,将所述文档对象模型树结构拼接为字符串;
第二计算子单元,用于通过哈希算法,计算所述字符串生成单元生成的所述字符串对应的哈希值,所述字符串对应的哈希值为所述文档对象模型对应的第一哈希值。
15.根据权利要求9所述的装置,其特征在于,所述第二确定模块包括:
比较单元,用于将所述相似度值与预设阈值进行比较;
第五确定子单元,用于如果所述比较单元表示所述相似度值大于所述预设阈值,确定所述待检测页面为钓鱼页面;
第六确定子单元,用于如果所述比较单元表示所述相似度值小于或者等于所述预设阈值,确定所述待检测页面为正常页面。
16.根据权利要求9-15任一所述的装置,其特征在于,所述装置还包括:
通知模块,用于如果所述第二确定模块确定所述待检测页面为钓鱼页面,将所述待检测页面对应的域名通知给拦截系统,以供所述拦截系统对所述域名进行拦截。
17.一种服务器,其特征在于,所述服务器包括:
处理器;用于存储所述处理器可执行指令的存储器;
其中,所述处理器,用于计算待检测页面的文档对象模型对应的第一哈希值;根据所述第一哈希值与第一哈希特征库中的哈希值确定所述待检测页面与钓鱼页面样本之间的第一相似度值,所述第一哈希特征库用于记录钓鱼页面样本的文档对象模型对应的哈希值;根据所述待检测页面中的预设类型资源文件的哈希值与第二哈希特征库中的哈希值,确定所述待检测页面与所述钓鱼页面样本之间的第二相似度值,所述第二哈希特征库用于记录所述钓鱼页面样本上的图片对应的哈希值;根据所述第一相似度值和所述第二相似度值确定所述待检测页面与所述钓鱼页面样本之间的相似度值;根据所述相似度值确定所述待检测页面是否为钓鱼页面。
CN201610151525.4A 2016-03-16 2016-03-16 网页识别方法及装置、服务器 Active CN107204960B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610151525.4A CN107204960B (zh) 2016-03-16 2016-03-16 网页识别方法及装置、服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610151525.4A CN107204960B (zh) 2016-03-16 2016-03-16 网页识别方法及装置、服务器

Publications (2)

Publication Number Publication Date
CN107204960A CN107204960A (zh) 2017-09-26
CN107204960B true CN107204960B (zh) 2020-11-24

Family

ID=59903608

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610151525.4A Active CN107204960B (zh) 2016-03-16 2016-03-16 网页识别方法及装置、服务器

Country Status (1)

Country Link
CN (1) CN107204960B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107911315B (zh) * 2017-11-17 2020-09-11 成都西加云杉科技有限公司 报文分类方法及网络设备
CN108650250B (zh) * 2018-04-27 2021-07-23 奇安信科技集团股份有限公司 非法页面检测方法、系统、计算机系统和可读存储介质
CN108809943B (zh) * 2018-05-14 2021-05-14 苏州闻道网络科技股份有限公司 网站监控方法及其装置
CN108683668B (zh) * 2018-05-18 2021-01-22 腾讯科技(深圳)有限公司 内容分发网络中的资源校验方法、装置、存储介质及设备
CN110647895B (zh) * 2018-06-26 2023-02-03 深信服科技股份有限公司 一种基于登录框图像的钓鱼页面识别方法及相关设备
CN110650108A (zh) * 2018-06-26 2020-01-03 深信服科技股份有限公司 一种基于icon图标的钓鱼页面识别方法及相关设备
CN110647896B (zh) * 2018-06-26 2023-02-03 深信服科技股份有限公司 一种基于logo图像的钓鱼页面识别方法及相关设备
CN109063053B (zh) * 2018-07-20 2019-07-30 北京开普云信息科技有限公司 一种网站站点地图自动重构的方法及系统
CN109062876B (zh) * 2018-07-20 2019-07-12 北京开普云信息科技有限公司 一种基于dom网页剪枝的相似网页查找方法及系统
CN109039584A (zh) * 2018-08-02 2018-12-18 夸克链科技(深圳)有限公司 一种基于网页hash来保证安全的技术
CN110049052A (zh) * 2019-04-23 2019-07-23 哈尔滨工业大学(威海) 基于dom树的标签及属性相似性的恶意域名检测方法
CN110851606A (zh) * 2019-11-18 2020-02-28 杭州安恒信息技术股份有限公司 基于网页结构相似性的网站聚类方法和系统
CN111079403B (zh) * 2019-12-10 2023-08-08 深圳市兴之佳科技有限公司 一种页面对比方法及装置
CN113297525B (zh) * 2021-06-17 2023-12-12 恒安嘉新(北京)科技股份公司 网页分类方法、装置、电子设备、及存储介质
CN113726824B (zh) * 2021-11-03 2022-01-07 成都无糖信息技术有限公司 一种基于图像特征的诈骗网站查找方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102082792A (zh) * 2010-12-31 2011-06-01 成都市华为赛门铁克科技有限公司 钓鱼网页检测方法及设备
CN103685277A (zh) * 2013-12-17 2014-03-26 南京大学 一种浏览器访问网页安全保护系统及方法
CN104765882A (zh) * 2015-04-29 2015-07-08 中国互联网络信息中心 一种基于网页特征字符串的互联网网站统计方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101694668B (zh) * 2009-09-29 2012-04-18 北京百度网讯科技有限公司 网页结构相似性确定方法及装置
CN102624713B (zh) * 2012-02-29 2016-01-06 深信服网络科技(深圳)有限公司 网站篡改识别的方法及装置
CN102682098B (zh) * 2012-04-27 2014-05-14 北京神州绿盟信息安全科技股份有限公司 检测网页内容变更的方法及装置
US20150287047A1 (en) * 2013-06-19 2015-10-08 Google Inc. Extracting Information from Chain-Store Websites

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102082792A (zh) * 2010-12-31 2011-06-01 成都市华为赛门铁克科技有限公司 钓鱼网页检测方法及设备
CN103685277A (zh) * 2013-12-17 2014-03-26 南京大学 一种浏览器访问网页安全保护系统及方法
CN104765882A (zh) * 2015-04-29 2015-07-08 中国互联网络信息中心 一种基于网页特征字符串的互联网网站统计方法

Also Published As

Publication number Publication date
CN107204960A (zh) 2017-09-26

Similar Documents

Publication Publication Date Title
CN107204960B (zh) 网页识别方法及装置、服务器
US11463476B2 (en) Character string classification method and system, and character string classification device
CN110808968B (zh) 网络攻击检测方法、装置、电子设备和可读存储介质
CN107707545B (zh) 一种异常网页访问片段检测方法、装置、设备及存储介质
CN108156131B (zh) Webshell检测方法、电子设备和计算机存储介质
CN103559235B (zh) 一种在线社交网络恶意网页检测识别方法
WO2022117063A1 (zh) 孤立森林的训练方法,网络爬虫的识别方法及装置
CN104156490A (zh) 基于文字识别检测可疑钓鱼网页的方法及装置
US9210189B2 (en) Method, system and client terminal for detection of phishing websites
CN110602029B (zh) 一种用于识别网络攻击的方法和系统
CN102446255B (zh) 一种检测页面篡改的方法及装置
CN105224600B (zh) 一种样本相似度的检测方法及装置
CN104158828B (zh) 基于云端内容规则库识别可疑钓鱼网页的方法及系统
JP2014502753A (ja) ウェブページ情報の検出方法及びシステム
CN107463844B (zh) Web木马检测方法及系统
CN109918621A (zh) 基于数字指纹和语义特征的新闻文本侵权检测方法与装置
CN112532624B (zh) 一种黑链检测方法、装置、电子设备及可读存储介质
CN111753171A (zh) 一种恶意网站的识别方法和装置
CN114650176A (zh) 钓鱼网站的检测方法、装置、计算机设备及存储介质
CN113779481A (zh) 诈骗网站的识别方法、装置、设备及存储介质
CN108270754B (zh) 一种钓鱼网站的检测方法及装置
CN104036190A (zh) 一种检测页面篡改的方法及装置
CN104036189A (zh) 页面篡改检测方法及黑链数据库生成方法
WO2018145637A1 (zh) 上网行为记录方法、装置及用户终端
CN111125704B (zh) 一种网页挂马识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant