CN102737183B - 网页安全访问的方法及装置 - Google Patents

网页安全访问的方法及装置 Download PDF

Info

Publication number
CN102737183B
CN102737183B CN201210192839.0A CN201210192839A CN102737183B CN 102737183 B CN102737183 B CN 102737183B CN 201210192839 A CN201210192839 A CN 201210192839A CN 102737183 B CN102737183 B CN 102737183B
Authority
CN
China
Prior art keywords
network address
record
web page
key word
counterfeit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210192839.0A
Other languages
English (en)
Other versions
CN102737183A (zh
Inventor
罗焱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201210192839.0A priority Critical patent/CN102737183B/zh
Publication of CN102737183A publication Critical patent/CN102737183A/zh
Application granted granted Critical
Publication of CN102737183B publication Critical patent/CN102737183B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明揭示了一种网页安全访问的方法及装置。该方法可包括:获取需访问网页的网址以及对应网页的网页特征;将所述网址以及对应网页的网页特征与预设网址推荐表进行匹配;所述网址推荐表推荐网址及对应的网页特征;所述网页特征包括标题标签关键字和/或版权关键字;根据所述匹配情况,判断所述网页是否属于仿冒,在判定属于仿冒后将被仿冒网址设定为推荐网址。本发明能够检测仿冒类钓鱼网站,并能给出与之对应的被仿冒网站的安全URL;其通过网页特征的匹配,判断访问终端所访问的网址是否为仿冒网址,并确定被仿冒网站的网址,推荐给访问终端访问。由此提升网页访问的安全性,保障访问终端不受非法网站侵害。

Description

网页安全访问的方法及装置
技术领域
本发明涉及到网页访问安全技术,特别涉及到一种网页安全访问的方法及装置。
背景技术
现有技术中的钓鱼网站主要包括以下几个类别:非法类、恶意欺诈类以及仿冒类。该非法类如色情网站、非法博彩等网站,此类网站往往通过挂马盗取用户身份信息、关键帐号和密码等信息,或是通过虚假预测骗取会员费。该恶意欺诈类如欺诈性机票代理商(没有经过特别授权)、欺诈性火车票代理商(如钓鱼性质的火车票代购网站)、假药网站以及虚假充值卡网站,此类网站通过虚假交易骗取用户的钱财。
上述仿冒类网站,主要是仿冒网上银行、知名电子商务(如淘宝、京东商城、支付宝)、网络运营商(如中国移动、中国电信)、网络服务提供商以及知名网络游戏网站(如魔兽世界)等。此类网站从视觉上看与被仿冒的真实网站几乎一模一样。仿冒者通过此类网站骗取用户身份信息、关键帐号和密码(如网银帐号、手机号码、游戏帐号和密码等)。
针对仿冒类钓鱼网站的自动识别,目前主要采用如下两种检测方法:一、基于钓鱼页面与真实页面(被仿冒页面)相似度比较;二、基于钓鱼页面特征,如根据接收的URL(UniformResourceLocator,统一资源定位符)访问请求,获取网站的最终页面信息,将页面的各HTML(Hypertext Markup Language,超文本标记语言)标签解析到一棵DOM(Document Object Model,文档对象模型)树中,并与预先设置的特征数据库进行比对,确认该URL是否为钓鱼URL。
现有技术仅能够实现对仿冒类钓鱼网站的检测,但在检测到仿冒类钓鱼网站后,并不能将访问者指引到访问者需要访问的网站(被仿冒网站),不能确保访问者后续访问的安全。
发明内容
本发明的主要目的为提供一种网页安全访问的方法,提升网页访问的安全性。
本发明提出一种网页安全访问的方法,包括:
获取需访问网页的网址以及对应网页的网页特征;
将所述网址以及对应网页的网页特征与预设网址推荐表进行匹配;所述网址推荐表推荐网址及对应的网页特征;所述网页特征包括标题标签关键字和/或版权关键字;
根据所述匹配情况,判断所述网页是否属于仿冒,在判定属于仿冒后将被仿冒网址设定为推荐网址。
优选地,所述根据需访问网页的网址,提取多种网页特征分别与预设网址推荐表进行匹配的步骤包括:
将网址与网址推荐表中网址匹配,判断是否存在匹配网址;在存在时,记录匹配网址为第一记录;
将标题标签关键字与网址推荐表中标题标签关键字匹配,判断是否存在匹配标题标签关键字;在存在时,记录匹配标题标签关键字对应的网址为第二记录;
将版权关键字与网址推荐表中版权关键字匹配,判断是否存在匹配版权关键字;在存在时,记录匹配版权关键字对应的网址为第三记录。
优选地,所述根据所述匹配情况,判断所述网页是否属于仿冒,在判定属于仿冒后推荐被仿冒网址的步骤包括:
判断第一记录、第二记录以及第三记录中是否存在网址记录;
在存在网址记录时,判断保存的网址记录是否为同一网址;
将所述网址记录设置为推荐网址。
优选地,所述在存在网址记录时,判断保存的网址记录是否为同一网址的步骤包括:
在存在网址记录时,判断是否存在两个以上的网址记录;
在存在两个以上的网址记录时,判断两个以上的网址记录是否为同一网址;如是,将所述网址记录设置为推荐网址。
优选地,所述方法之后还包括:
将类型关键字与数据表中类型关键字匹配,判断数量是否超出门限值;在超出时,将推荐网址提供给访问终端;所述类型关键字包括META标签及正文关键字。
优选地,所述获取需访问网页的网址的步骤之后还包括:
根据网页的网址提取域名;
判断所述域名是否存在于域名白名单中;在不存在时,将所述网址以及对应网页的网页特征与预设网址推荐表进行匹配。
本发明还提出一种网页安全访问的装置,包括:
网址特征获取模块,用于获取需访问网页的网址以及对应网页的网页特征;
特征匹配模块,用于将所述网址以及对应网页的网页特征与预设网址推荐表进行匹配;所述网址推荐表推荐网址及对应的网页特征;所述网页特征包括标签关键字和/或版权关键字;
仿冒判断模块,用于根据所述匹配情况,判断所述网页是否属于仿冒,在判定属于仿冒后将被仿冒网址设定为推荐网址。
优选地,所述特征匹配模块包括:
网址匹配单元,用于将网址与网址推荐表中网址匹配,判断是否存在匹配网址;在存在时,记录匹配网址为第一记录;
标签匹配单元,用于将标题标签关键字与网址推荐表中标题标签关键字匹配,判断是否存在匹配标题标签关键字;在存在时,记录匹配标题标签关键字对应的网址为第二记录;
版权匹配单元,用于将版权关键字与网址推荐表中版权关键字匹配,判断是否存在匹配版权关键字;在存在时,记录匹配版权关键字对应的网址为第三记录。
优选地,所述仿冒判断模块包括:
存在判断单元,用于判断第一记录、第二记录以及第三记录中是否存在网址记录;
相同判断单元,用于在存在网址记录时,判断保存的网址记录是否为同一网址;
网址推荐单元,用于将所述网址记录设置为推荐网址。
优选地,所述相同判断单元包括:
第一判断元件,用于在存在网址记录时,判断是否存在两个以上的网址记录;
第二判断元件,用于在存在两个以上的网址记录时,判断两个以上的网址记录是否为同一网址;如是,通过网址推荐单元将所述网址记录设置为推荐网址。
优选地,所述装置还包括:
类型匹配模块,用于将类型关键字与数据表中类型关键字匹配,判断数量是否超出门限值;在超出时,将推荐网址提供给访问终端;所述类型关键字包括META标签及正文关键字。
优选地,所述装置还包括:
域名提取模块,用于根据网页的网址提取域名;
域名判断模块,用于判断所述域名是否存在于域名白名单中;在不存在时,将所述网址以及对应网页的网页特征与预设网址推荐表进行匹配。
本发明能够检测仿冒类钓鱼网站,并能给出与之对应的被仿冒网站的安全URL;其通过网页特征的匹配,判断访问终端所访问的网址是否为仿冒网址,并确定被仿冒网站的网址,推荐给访问终端访问。由此提升网页访问的安全性,保障访问终端不受非法网站侵害。
附图说明
图1 是本发明网页安全访问的方法一实施例中的步骤流程示意图;
图2 是本发明网页安全访问的方法一实施例中具体实现的页面展示示意图;
图3 是本发明网页安全访问的方法另一实施例中的步骤流程示意图;
图4 是本发明网页安全访问的方法又一实施例中特征匹配的步骤流程示意图;
图5 是本发明网页安全访问的方法又一实施例中仿冒判断的步骤流程示意图;
图6 是本发明网页安全访问的方法又一实施例中的步骤流程示意图;
图7 是本发明网页安全访问的方法一实施例中的结构示意图;
图8 是本发明网页安全访问的方法另一实施例中的结构示意图;
图9 是本发明网页安全访问的方法又一实施例中特征匹配模块的结构示意图;
图10 是本发明网页安全访问的方法又一实施例中仿冒判断模块的结构示意图;
图11 是本发明网页安全访问的方法又一实施例中相同判断单元的结构示意图;
图12 是本发明网页安全访问的方法又一实施例中的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
仿冒类钓鱼网站能够以假乱真,主要原因是被仿冒网站页面的诸多页面特征都与被仿冒的网站相同或相似,主要包括以下情况:
URL相类似,钓鱼网站的URL与被仿冒网站的URL相似,如仿冒工商银行网银的URL中包含icbc或1cbc等类似的字母序列、仿冒淘宝的URL中包含taobao以及仿冒搜狐的URL中出现sohu这样类似sohu的字母序列等。
标题标签或版权关键字相同或相类似,钓鱼页面<title>标签、Copyright内容分别与被仿冒页面的<title>标签、Copyright内容相同或相类似,且文本长度相差不大,都包含特定的关键字,关键字的内容可依被仿冒页面而定。如仿冒工商银行的网站<title>都包含“工商银行”字样。
META标签或正文内容具有相同特定关键字,钓鱼页面<meta>标签内容及正文内容与被仿冒页面的<meta>标签内容及正文内容具有相同的特定关键字,关键字的内容可依被仿冒页面而定。如仿冒工商银行的网站<meta>标签及正文都包含“基金”、“股票”、“黄金”、“理财”或“登录”等关键字。META标签用来描述一个HTML网页文档的属性,例如网页描述、关键字以及页面刷新等。
参照图1,提出本发明一种网页安全访问的方法的一实施例。该方法可包括:
步骤S11、获取需访问网页的网址以及对应网页的网页特征;
步骤S12、将该网址以及对应网页的网页特征与预设网址推荐表进行匹配;该网址推荐表推荐网址及对应的网页特征;该网页特征包括标题标签关键字和/或版权关键字;
步骤S13、根据该匹配情况,判断该网页是否属于仿冒,在判定属于仿冒后将被仿冒网址设定为推荐网址。
上述网页安全访问的方法,能够检测仿冒类钓鱼网站,并能给出与之对应的被仿冒网站的安全URL;其通过网页特征的匹配,判断访问终端所访问的网址是否为仿冒网址,并确定被仿冒网站的网址,推荐给访问终端访问。由此提升网页访问的安全性,保障访问终端不受非法网站侵害。该网页特征可包括标题标签关键字和/或版权关键字等。
参照图2,例如,当用户终端访问到一个网页,经过检测该网页为仿冒农业银行网上银行的钓鱼网页,通过确认后可给出用户终端真正需要访问的网站,即是图2中框出的“推荐您访问:农业银行”,其中“农业银行”为指向农业银行网上银行http://www.abchina.com的链接。
参照图3,在本发明另一实施例中,上述步骤S11之后还可包括:
步骤S111、根据网页的网址提取域名;
步骤S112、判断该域名是否存在于域名白名单中;在不存在时,进行步骤S12;在存在时,进行步骤S14;
步骤S14、判定该网页为非仿冒网页。
本实施例中,在检测之前首先需要建立域名白名单,以及选定可能会被仿冒的网站建立网址推荐表(T_Key_Url)。该被仿冒网站可根据实际情况,选择银行类或票务购买类等,比如工商银行以及南方航空公司等公司网站。在选定可能会被仿冒网站的域名录入域名白名单中时,一个网站可能对应多个域名,需要收集完整,比如南方航空有csair.com和cs-air.com两个域名,收集域名白名单可防止检测时被误报。
上述网址推荐表中的内容可包括推荐网址以及对应的网页特征。该网页特征可通过界面使用工具检测推荐网址的相应信息录入。该网址推荐表中项目可包含编号(id)、仿冒类别(grp_id)、标题(<title>)标签关键字、Copyright(版权)关键字和推荐网址(URL)五个字段。其中,该id为顺序增长字段;该grp_id可为仿冒组字段,表示仿冒的某一类的网站,如网上银行类或航空公司购票官网类;该推荐URL可为被仿冒网站的官网URL。参见表1如下:
编号 仿冒类别 标题标签关键字 版权关键字 推荐网址
1 1 中国工商银行 中国工商银行 http://www.icbc.com.cn
2 1 中国建设银行 中国建设银行 http://www.ccb.com
3 2 中国南方航空 中国南方航空 http://www.csair.com
4 2 中国东方航空 中国东方航空 http://www.ceair.com
表1
另,还可通过界面工具将类型关键字录入数据表(T_Grp_Key)中,该表包含仿冒类别(grp_id)和META标签及正文关键字两个字段。其中,grp_id为仿冒组字段,表示仿冒的某一类的网站,对应T_Key_Url中的grp_id;类型关键字为该类网站页面中出现概率较高的词汇,比如META标签及正文关键字等;其中,仿冒类别1为银行类网站,网页上较常出现的关键字为:基金、股票、黄金以及理财等关键字,仿冒类别2为航空类网站,网页上较常出现的关键字为:航班、预定、机票、头等舱、经济舱、出发城市、出发日期、到达城市以及返回日期等关键字。参见表2如下:
仿冒类别 类型关键字
1 基金
1 股票
1 黄金
1 理财
1 登录
2 航班
2 预订
2 机票
2 航空公司
2 出发城市
2 出发日期
2 到达城市
2 返回日期
2 头等舱
2 经济舱
表2
参照图4,在本发明又一实施例中,上述步骤S12可包括:
步骤S121、将网址与网址推荐表中网址匹配,判断是否存在匹配网址;在存在时,先进行步骤S122,再进行步骤S123;在不存在时,进行步骤S123;
步骤S122、记录匹配网址为第一记录;
步骤S123、将标题标签关键字与网址推荐表中标题标签关键字匹配,判断是否存在匹配标题标签关键字;在存在时,先进行步骤S124,再进行步骤S125;在不存在时,进行步骤S125;
步骤S124、记录匹配标题标签关键字对应的网址为第二记录;
步骤S125、将版权关键字与网址推荐表中版权关键字匹配,判断是否存在匹配版权关键字;在存在时,先进行步骤S126,再进行步骤S13;在不存在时,进行步骤S13;
步骤S126、记录匹配版权关键字对应的网址为第三记录。
参照图5,在本发明又一实施例中,上述步骤S13可包括:
步骤S131、判断第一记录、第二记录以及第三记录中是否存在网址记录;在存在网址记录时,进行步骤S132;否则,进行步骤S14;
步骤S132、判断是否存在两个以上的网址记录;在存在时,进行步骤S133;否则,进行步骤S134;
步骤S133、判断两个以上的网址记录是否为同一网址;如是,进行步骤S134;否则,进行步骤S14;
步骤S134、将该网址记录设置为推荐网址。
参照图6,在本发明又一实施例中,上述步骤S13之后还可包括:
步骤S15、将类型关键字与数据表中类型关键字匹配,判断数量是否超出门限值;在超出时,进行步骤S16;否则,进行步骤S14;
步骤S16、将推荐网址提供给访问终端。
可根据访问终端输入的URL,提取该URL对应的域名,标记为T_DOMAIN;如果T_DOMAIN在收集到的域名白名单中,则可判定该域名对应的网页为非仿冒网页;否则,进行仿冒检测。
在检测时,首先将访问终端输入的URL与网址推荐表中的推荐URL相似,则记录网址推荐表中与访问终端输入URL相似的推荐URL对应的id到id1(第一记录)。
根据URL获取页面特征,如果页面<title>标签关键字包含网址推荐表中<title>标签关键字,则记录网址推荐表中该关键字对应的id到id2(第二记录)。
如果页面Copyright关键字包含网址推荐表中Copyright关键字,则记录网址推荐表中该关键字对应的id到id3(第三记录)。
然后,根据第一记录、第二记录以及第三记录进行仿冒判断。先判断三个记录中是否保存有id;如不存在,则可判定该域名对应的网页为非仿冒网页;否则,继续判断三个记录中是否保存有两个以上的id;如只有一个记录有保存,则将该保存id对应的网址设置为推荐网址;否则,继续判断保存的两个以上的id是否为指向同一个网址;如是,则该保存id对应的网址设置为推荐网址;否则,判定可判定该域名对应的网页为非仿冒网页。
上述类型关键字可包括META标签及正文关键字等。为进一步提升检测的准确度,如果<meta>标签及正文关键字与数据表中包含的<meta>标签及正文关键字匹配数量超出门限值,则通过<meta>标签及正文关键字在数据表中对应的grp_id,从网址推荐表中找到推荐网址,并将该推荐网址提供给访问终端;否则,可判定该域名对应的网页为非仿冒网页。该门限值可在检测之前设定,每个推荐网址可对应设置一个门限值,超出门限值表示极可能是两者类型相同,在具体实践中,门限值可以根据检测的准确率和误报率来调整。
参照图7,提出本发明一种网页安全访问的装置20的一实施例。该装置20可包括:网址特征获取模块21、特征匹配模块22以及仿冒判断模块23;该网址特征获取模块21,用于获取需访问网页的网址以及对应网页的网页特征;该特征匹配模块22,用于将该网址以及对应网页的网页特征与预设网址推荐表进行匹配;该网址推荐表推荐网址及对应的网页特征;该网页特征包括标题标签关键字和/或版权关键字;该仿冒判断模块23,用于根据该匹配情况,判断该网页是否属于仿冒,在判定属于仿冒后将被仿冒网址设定为推荐网址。
上述网页安全访问的装置20,能够检测仿冒类钓鱼网站,并能给出与之对应的被仿冒网站的安全URL;其通过网页特征的匹配,判断访问终端所访问的网址是否为仿冒网址,并确定被仿冒网站的网址,推荐给访问终端访问。由此提升网页访问的安全性,保障访问终端不受非法网站侵害。该网页特征可包括标题标签关键字和/或版权关键字等。
参照图8,在本发明另一实施例中,上述装置20还包括:域名提取模块24以及域名判断模块25;该域名提取模块24,用于根据网页的网址提取域名;该域名判断模块25,用于判断该域名是否存在于域名白名单中;在不存在时,将该网址以及对应网页的网页特征与预设网址推荐表进行匹配。
本实施例中,在检测之前首先需要建立域名白名单,以及选定可能会被仿冒的网站建立网址推荐表(T_Key_Url)。该被仿冒网站可根据实际情况,选择银行类或票务购买类等,比如工商银行以及南方航空公司等公司网站。在选定可能会被仿冒网站的域名录入域名白名单中时,一个网站可能对应多个域名,需要收集完整,比如南方航空有csair.com和cs-air.com两个域名,收集域名白名单可防止检测时被误报。
上述网址推荐表中的内容可包括推荐网址以及对应的网页特征。该网页特征可通过界面使用工具检测推荐网址的相应信息录入。该网址推荐表中项目可包含编号(id)、仿冒类别(grp_id)、标题(<title>)标签关键字、Copyright(版权)关键字和推荐网址(URL)五个字段。其中,该id为顺序增长字段;该grp_id可为仿冒组字段,表示仿冒的某一类的网站,如网上银行类或航空公司购票官网类;该推荐URL可为被仿冒网站的官网URL。(参见表1)
另,还可通过界面工具将类型关键字录入数据表(T_Grp_Key)中,该表包含仿冒类别(grp_id)和META标签及正文关键字两个字段。其中,grp_id为仿冒组字段,表示仿冒的某一类的网站,对应T_Key_Url中的grp_id;类型关键字为该类网站页面中出现概率较高的词汇,比如META标签及正文关键字等;其中,仿冒类别1为银行类网站,网页上较常出现的关键字为:基金、股票、黄金以及理财等关键字,仿冒类别2为航空类网站,网页上较常出现的关键字为:航班、预定、机票、头等舱、经济舱、出发城市、出发日期、到达城市以及返回日期等关键字。(参见表2)
参照图9,在本发明又一实施例中,上述特征匹配模块22可包括:网址匹配单元221、标签匹配单元222以及版权匹配单元223;该网址匹配单元221,用于将网址与网址推荐表中网址匹配,判断是否存在匹配网址;在存在时,记录匹配网址为第一记录;该标签匹配单元222,用于将标题标签关键字与网址推荐表中标题标签关键字匹配,判断是否存在匹配标题标签关键字;在存在时,记录匹配标题标签关键字对应的网址为第二记录;该版权匹配单元223,用于将版权关键字与网址推荐表中版权关键字匹配,判断是否存在匹配版权关键字;在存在时,记录匹配版权关键字对应的网址为第三记录。
参照图10,在本发明另一实施例中,上述仿冒判断模块23包括:存在判断单元231、相同判断单元232以及网址推荐单元233;该存在判断单元231,用于判断第一记录、第二记录以及第三记录中是否存在网址记录;该相同判断单元232,用于在存在网址记录时,判断保存的网址记录是否为同一网址;该网址推荐单元233,用于将该网址记录设置为推荐网址。
参照图11,上述相同判断单元232可包括:第一判断元件2321以及第二判断元件2322;该第一判断元件2321,用于在存在网址记录时,判断是否存在两个以上的网址记录;该第二判断元件2322,用于在存在两个以上的网址记录时,判断两个以上的网址记录是否为同一网址;如是,通过网址推荐单元233将该网址记录设置为推荐网址。
参照图12,在本发明又一实施例中,上述装置20还包括:类型匹配模块26,用于将类型关键字与数据表中类型关键字匹配,判断数量是否超出门限值;在超出时,将推荐网址提供给访问终端;该类型关键字包括META标签及正文关键字。
可根据访问终端输入的URL,提取该URL对应的域名,标记为T_DOMAIN;如果T_DOMAIN在收集到的域名白名单中,则可判定该域名对应的网页为非仿冒网页;否则,进行仿冒检测。
在检测时,首先将访问终端输入的URL与网址推荐表中的推荐URL相似,则记录网址推荐表中与访问终端输入URL相似的推荐URL对应的id到id1(第一记录)。
根据URL获取页面特征,如果页面<title>标签关键字包含网址推荐表中<title>标签关键字,则记录网址推荐表中该关键字对应的id到id2(第二记录)。
如果页面Copyright关键字包含网址推荐表中Copyright关键字,则记录网址推荐表中该关键字对应的id到id3(第三记录)。
然后,根据第一记录、第二记录以及第三记录进行仿冒判断。先判断三个记录中是否保存有id;如不存在,则可判定该域名对应的网页为非仿冒网页;否则,继续判断三个记录中是否保存有两个以上的id;如只有一个记录有保存,则将该保存id对应的网址设置为推荐网址;否则,继续判断保存的两个以上的id是否为指向同一个网址;如是,则该保存id对应的网址设置为推荐网址;否则,判定可判定该域名对应的网页为非仿冒网页。
上述类型关键字可包括META标签及正文关键字等。为进一步提升检测的准确度,如果<meta>标签及正文关键字与数据表中包含的<meta>标签及正文关键字匹配数量超出门限值,则通过<meta>标签及正文关键字在数据表中对应的grp_id,从网址推荐表中找到推荐网址,并将该推荐网址提供给访问终端;否则,可判定该域名对应的网页为非仿冒网页。该门限值可在检测之前设定,每个推荐网址可对应设置一个门限值,超出门限值表示极可能是两者类型相同,在具体实践中,门限值可以根据检测的准确率和误报率来调整。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (12)

1.一种网页安全访问的方法,其特征在于,包括:
获取需访问网页的网址以及对应网页的网页特征;
将所述网址以及对应网页的网页特征与预设网址推荐表进行匹配;所述网址推荐表包括推荐网址及与推荐网址对应的网页特征;所述网页特征包括标题标签关键字和/或版权关键字;
根据所述匹配情况,判断所述网页是否属于仿冒,在判定属于仿冒后将确定被仿冒的网址,并将所述被仿冒网址设定为推荐网址。
2.根据权利要求1所述的网页安全访问的方法,其特征在于,所述将所述网址以及对应网页的网页特征与预设网址推荐表进行匹配的步骤包括:
将网址与网址推荐表中网址匹配,判断是否存在匹配网址;在存在时,记录匹配网址为第一记录;
将标题标签关键字与网址推荐表中标题标签关键字匹配,判断是否存在匹配标题标签关键字;在存在时,记录匹配标题标签关键字对应的网址为第二记录;和/或将版权关键字与网址推荐表中版权关键字匹配,判断是否存在匹配版权关键字;在存在时,记录匹配版权关键字对应的网址为第三记录。
3.根据权利要求2所述的网页安全访问的方法,其特征在于,所述根据所述匹配情况,判断所述网页是否属于仿冒,在判定属于仿冒后推荐被仿冒网址的步骤包括:
判断第一记录、第二记录以及第三记录中是否存在网址记录;
在存在网址记录时,判断保存的网址记录是否为同一网址;
将所述网址记录设置为推荐网址。
4.根据权利要求3所述的网页安全访问的方法,其特征在于,所述在存在网址记录时,判断保存的网址记录是否为同一网址的步骤包括:
在存在网址记录时,判断是否存在两个以上的网址记录;
在存在两个以上的网址记录时,判断两个以上的网址记录是否为同一网址;如是,将所述网址记录设置为推荐网址。
5.根据权利要求1至4中任一项所述的网页安全访问的方法,其特征在于,所述方法之后还包括:
将类型关键字与数据表中类型关键字匹配,判断数量是否超出门限值;在超出时,将推荐网址提供给访问终端;所述类型关键字包括META标签及正文关键字。
6.根据权利要求1至4中任一项所述的网页安全访问的方法,其特征在于,所述获取需访问网页的网址的步骤之后还包括:
根据网页的网址提取域名;
判断所述域名是否存在于域名白名单中;在不存在时,将所述网址以及对应网页的网页特征与预设网址推荐表进行匹配。
7.一种网页安全访问的装置,其特征在于,包括:
网址特征获取模块,用于获取需访问网页的网址以及对应网页的网页特征;
特征匹配模块,用于将所述网址以及对应网页的网页特征与预设网址推荐表进行匹配;所述网址推荐表包括推荐网址及对应的网页特征;所述网页特征包括标题标签关键字和/或版权关键字;
仿冒判断模块,用于根据所述匹配情况,判断所述网页是否属于仿冒,在判定属于仿冒后将确定被仿冒的网址,并将所述被仿冒网址设定为推荐网址。
8.根据权利要求7所述的网页安全访问的装置,其特征在于,所述特征匹配模块包括:
网址匹配单元,用于将网址与网址推荐表中网址匹配,判断是否存在匹配网址;在存在时,记录匹配网址为第一记录;
标签匹配单元,用于将标题标签关键字与网址推荐表中标题标签关键字匹配,判断是否存在匹配标题标签关键字;在存在时,记录匹配标题标签关键字对应的网址为第二记录;和/或
版权匹配单元,用于将版权关键字与网址推荐表中版权关键字匹配,判断是否存在匹配版权关键字;在存在时,记录匹配版权关键字对应的网址为第三记录。
9.根据权利要求8所述的网页安全访问的装置,其特征在于,所述仿冒判断模块包括:
存在判断单元,用于判断第一记录、第二记录以及第三记录中是否存在网址记录;
相同判断单元,用于在存在网址记录时,判断保存的网址记录是否为同一网址;
网址推荐单元,用于将所述网址记录设置为推荐网址。
10.根据权利要求9所述的网页安全访问的装置,其特征在于,所述相同判断单元包括:
第一判断元件,用于在存在网址记录时,判断是否存在两个以上的网址记录;
第二判断元件,用于在存在两个以上的网址记录时,判断两个以上的网址记录是否为同一网址;如是,通过网址推荐单元将所述网址记录设置为推荐网址。
11.根据权利要求7至10中任一项所述的网页安全访问的装置,其特征在于,所述装置还包括:
类型匹配模块,用于将类型关键字与数据表中类型关键字匹配,判断数量是否超出门限值;在超出时,将推荐网址提供给访问终端;所述类型关键字包括META标签及正文关键字。
12.根据权利要求7至10中任一项所述的网页安全访问的装置,其特征在于,所述装置还包括:
域名提取模块,用于根据网页的网址提取域名;
域名判断模块,用于判断所述域名是否存在于域名白名单中;在不存在时,将所述网址以及对应网页的网页特征与预设网址推荐表进行匹配。
CN201210192839.0A 2012-06-12 2012-06-12 网页安全访问的方法及装置 Active CN102737183B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210192839.0A CN102737183B (zh) 2012-06-12 2012-06-12 网页安全访问的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210192839.0A CN102737183B (zh) 2012-06-12 2012-06-12 网页安全访问的方法及装置

Publications (2)

Publication Number Publication Date
CN102737183A CN102737183A (zh) 2012-10-17
CN102737183B true CN102737183B (zh) 2014-08-13

Family

ID=46992670

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210192839.0A Active CN102737183B (zh) 2012-06-12 2012-06-12 网页安全访问的方法及装置

Country Status (1)

Country Link
CN (1) CN102737183B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103856437A (zh) * 2012-11-28 2014-06-11 深圳市金蝶中间件有限公司 网站安全性的检测方法和系统
CN103905394B (zh) * 2012-12-27 2018-09-07 腾讯科技(深圳)有限公司 一种保护用户信息的方法和装置
CN103927480A (zh) * 2013-01-14 2014-07-16 腾讯科技(深圳)有限公司 一种恶意网页的识别方法、装置和系统
CN103209184A (zh) * 2013-03-27 2013-07-17 广东全通教育股份有限公司 一种智能化多层过滤安全装置及方法
CN103281320B (zh) * 2013-05-23 2016-12-07 中国科学院计算机网络信息中心 基于网页图标匹配的品牌仿冒网站检测方法
CN103793508B (zh) * 2014-01-27 2017-04-05 北京奇虎科技有限公司 一种加载推荐信息、网址检测的方法、装置和系统
CN105471807B (zh) * 2014-05-28 2019-05-24 腾讯科技(深圳)有限公司 基于条码信息的网络访问安全性检测方法及系统
CN104050257A (zh) * 2014-06-13 2014-09-17 百度国际科技(深圳)有限公司 钓鱼网页的检测方法和装置
CN104182687B (zh) * 2014-08-01 2016-10-05 北京奇虎科技有限公司 移动终端输入窗口的安全检测方法和安全检测装置
CN104683344A (zh) * 2015-03-04 2015-06-03 安一恒通(北京)科技有限公司 用于拦截恶意网址的方法和装置
CN106713246B (zh) * 2015-11-17 2019-08-13 中国移动通信集团公司 一种应用程序页面劫持的检测方法、装置及移动终端
CN105959330A (zh) * 2016-07-20 2016-09-21 广东世纪网通信设备股份有限公司 虚假链接拦截方法、装置以及系统
CN106599081A (zh) * 2016-11-24 2017-04-26 梁梅芹 基于使用者的移动终端上网管理方法
CN106789973B (zh) * 2016-12-06 2020-12-18 海信集团有限公司 页面的安全性检测方法及终端设备
CN109347786A (zh) * 2018-08-14 2019-02-15 国家计算机网络与信息安全管理中心 钓鱼网站检测方法
CN109309668A (zh) * 2018-08-30 2019-02-05 浙江贰贰网络有限公司 网络站点验证方法、装置、系统、计算机设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102082792A (zh) * 2010-12-31 2011-06-01 成都市华为赛门铁克科技有限公司 钓鱼网页检测方法及设备
CN101504673B (zh) * 2009-03-24 2011-09-07 阿里巴巴集团控股有限公司 一种识别疑似仿冒网站的方法与系统
CN102299918A (zh) * 2011-07-08 2011-12-28 盛大计算机(上海)有限公司 一种网络交易安全系统及方法
CN101534306B (zh) * 2009-04-14 2012-01-11 深圳市腾讯计算机系统有限公司 一种钓鱼网站的检测方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101504673B (zh) * 2009-03-24 2011-09-07 阿里巴巴集团控股有限公司 一种识别疑似仿冒网站的方法与系统
CN101534306B (zh) * 2009-04-14 2012-01-11 深圳市腾讯计算机系统有限公司 一种钓鱼网站的检测方法及装置
CN102082792A (zh) * 2010-12-31 2011-06-01 成都市华为赛门铁克科技有限公司 钓鱼网页检测方法及设备
CN102299918A (zh) * 2011-07-08 2011-12-28 盛大计算机(上海)有限公司 一种网络交易安全系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于分类集成的钓鱼网站智能检测系统;庄蔚蔚等;《系统工程理论与实践》;20111030;第31卷(第10期);全文 *
庄蔚蔚等.基于分类集成的钓鱼网站智能检测系统.《系统工程理论与实践》.2011,第31卷(第10期),第2008-2020页.

Also Published As

Publication number Publication date
CN102737183A (zh) 2012-10-17

Similar Documents

Publication Publication Date Title
CN102737183B (zh) 网页安全访问的方法及装置
CN101504673B (zh) 一种识别疑似仿冒网站的方法与系统
CN103530367B (zh) 一种钓鱼网站鉴别系统和方法
CN102592067B (zh) 一种网页识别方法、装置及系统
CN104168293B (zh) 结合本地内容规则库识别可疑钓鱼网页的方法及系统
CN101901221B (zh) 一种跨站脚本攻击的检测方法和装置
CN102467633A (zh) 一种安全浏览网页的方法及其系统
CN106713579B (zh) 一种电话号码识别方法及装置
CN102957664B (zh) 一种识别钓鱼网站的方法及装置
WO2014101783A1 (en) Method and server for performing cloud detection for malicious information
CN104158828B (zh) 基于云端内容规则库识别可疑钓鱼网页的方法及系统
CN102647408A (zh) 一种基于内容分析的判断钓鱼网站的方法
US9563770B2 (en) Spammer group extraction apparatus and method
CN108092963A (zh) 网页识别方法、装置、计算机设备及存储介质
CN103685289B (zh) 一种检测钓鱼网站的方法及装置
CN102663590A (zh) 基于限制认证次数的商品防伪认证系统及方法
CN102622553A (zh) 检测网页安全的方法及装置
CN105792152B (zh) 伪基站短信识别方法和装置
CN106383862B (zh) 一种违规短信检测方法及系统
CN105119909A (zh) 一种基于页面视觉相似性的仿冒网站检测方法和系统
CN102624713A (zh) 网站篡改识别的方法及装置
CN102891861B (zh) 一种基于客户端的钓鱼网站检测方法及其装置
CN103379111A (zh) 一种网络钓鱼智能防御系统
CN110138794A (zh) 一种仿冒网站识别方法、装置、设备及可读存储介质
CN104598595A (zh) 欺诈网页检测方法及相应装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant