CN104168293A - 结合本地内容规则库识别可疑钓鱼网页的方法及系统 - Google Patents

结合本地内容规则库识别可疑钓鱼网页的方法及系统 Download PDF

Info

Publication number
CN104168293A
CN104168293A CN201410453785.8A CN201410453785A CN104168293A CN 104168293 A CN104168293 A CN 104168293A CN 201410453785 A CN201410453785 A CN 201410453785A CN 104168293 A CN104168293 A CN 104168293A
Authority
CN
China
Prior art keywords
rule
information
webpage
content
cloud server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410453785.8A
Other languages
English (en)
Other versions
CN104168293B (zh
Inventor
李晓波
肖鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201410453785.8A priority Critical patent/CN104168293B/zh
Publication of CN104168293A publication Critical patent/CN104168293A/zh
Application granted granted Critical
Publication of CN104168293B publication Critical patent/CN104168293B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种结合本地内容规则库识别可疑钓鱼网页的方法、客户端、云端服务器及系统。其中本地内容规则库包含至少一条规则以及与每条规则对应的规则标识,方法包括:在浏览器加载网页时,获取网页的内容信息,从网页的内容信息中提取指定信息;将指定信息与本地内容规则库内的规则进行匹配;若指定信息与本地内容规则库内的至少一条规则匹配,则将本地所匹配的至少一条规则的规则标识发送给云端服务器,以供云端服务器根据本地所匹配的至少一条规则的规则标识识别网页是否为可疑钓鱼网页。本发明将本地匹配与云端识别相结合,扩大了钓鱼网页的检测范围,提高了钓鱼网页识别准确率,同时节省了云端服务器资源。

Description

结合本地内容规则库识别可疑钓鱼网页的方法及系统
技术领域
本发明涉及互联网技术领域,具体涉及一种结合本地内容规则库识别可疑钓鱼网页的方法、客户端、云端服务器及系统。
背景技术
随着互联网的发展,基于WEB的应用日益普及,人们通过浏览器可以查询银行账户、网上购物、电子商务、查询信息、获取知识、进行娱乐等,WEB为人们提供了方便和快捷的交互方式。然而,人们在上网冲浪浏览网页的同时,经常会遭遇到恶意网站的侵袭,导致计算机被病毒、木马等感染。
恶意网站,例如钓鱼网站、或者是欺诈,仿冒网站等,主要是通过仿冒真实网站的URL地址或是网页内容,伪装成银行及电子商务等类型的网站,或是利用真实网站服务器程序上的漏洞,在该网站的某些网页中插入危险的网页代码,以此来骗取用户银行或信用卡账号、密码等私人资料。恶意网页中包含着许多敏感的特征,例如,金融欺诈类的恶意网页会在文字、图片等方面仿冒官网,或是在真实网页中插入虚假票务、虚假中奖、假冒网银、虚假购物等信息,这些特征大多以文本串的形式出现在网页中。
现有的为了防范恶意网站的主要手段是当用户访问某网站时,客户端将网站的URL发送至服务器端的黑白名单数据库进行查询,然而当钓鱼作者利用安全正常网页为载体,例如政府网站,在该网页中嵌入钓鱼特征,基于网页的URL检测钓鱼网页的方法,并不能识别其内嵌的网页,误判率较高。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的结合本地内容规则库识别可疑钓鱼网页的方法、客户端、云端服务器和相应的系统。
根据本发明的一个方面,提供了一种结合本地内容规则库识别可疑钓鱼网页的方法,所述本地内容规则库包含至少一条规则以及与每条规则对应的规则标识;所述方法包括:
在浏览器加载网页时,获取网页的内容信息,从所述网页的内容信息中提取指定信息;
将所述指定信息与所述本地内容规则库内的规则进行匹配;
若所述指定信息与所述本地内容规则库内的至少一条规则匹配,则将本地所匹配的至少一条规则的规则标识发送给云端服务器,以供所述云端服务器根据所述本地所匹配的至少一条规则的规则标识识别所述网页是否为可疑钓鱼网页。
根据本发明的另一方面,提供了一种客户端,包括:
本地内容规则库,包含至少一条规则以及与每条规则对应的规则标识;
信息提取模块,适于在浏览器加载网页时,获取网页的内容信息,从所述网页的内容信息中提取指定信息;
匹配模块,适于将所述指定信息与所述本地内容规则库内的规则进行匹配;
第一发送模块,适于若所述指定信息与所述本地内容规则库内的至少一条规则匹配,则将本地所匹配的至少一条规则的规则标识发送给云端服务器,以供所述云端服务器根据所述本地所匹配的至少一条规则的规则标识识别所述网页是否为可疑钓鱼网页。
根据本发明的另一方面,提供了一种云端服务器,包括:
云端内容规则库,包含至少一个规则集合,每个规则集合包含一条或多条规则以及每条规则对应的规则标识;
第二接收模块,适于接收客户端发送的本地所匹配的至少一条规则的规则标识;
识别模块,适于根据所述本地所匹配的至少一条规则的规则标识识别所述网页是否为可疑钓鱼网页。
根据本发明的另一方面,提供了一种结合本地内容规则库识别可疑钓鱼网页的系统,包括客户端以及云端服务器。
根据本发明提供的方案,在浏览器加载网页时,获取网页的内容信息,从网页的内容信息中提取指定信息;将指定信息与本地内容规则库内的规则进行匹配;若指定信息与本地内容规则库内的至少一条规则匹配,则将本地所匹配的至少一条规则的规则标识发送给云端服务器,以供云端服务器根据本地所匹配的至少一条规则的规则标识识别网页是否为可疑钓鱼网页,将本地匹配与云端识别相结合,扩大了钓鱼网页的检测范围,提高了钓鱼网页识别准确率,同时节省了云端服务器资源。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的一个实施例的结合本地内容规则库识别可疑钓鱼网页的方法的流程图;
图2示出了根据本发明另一个实施例的结合本地内容规则库识别可疑钓鱼网页的方法的流程图;
图3示出了根据本发明另一个实施例的结合本地内容规则库识别可疑钓鱼网页的方法的流程图;
图4示出了根据本发明一个实施例的客户端的结构示意图;
图5示出了根据本发明一个实施例的云端服务器的结构示意图;以及
图6示出了根据本发明一个实施例的结合本地内容规则库识别可疑钓鱼网页的系统的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本申请的发明人在研究钓鱼网页识别方法的过程中,注意到钓鱼作者通过将钓鱼特征嵌入到网页内容信息中的CSS信息、JS信息、标签内容信息,对钓鱼特征进行了隐藏,使得基于原有的钓鱼网页识别方法(例如对网页的URL进行识别)无法将网页内容信息中的钓鱼特征识别出来,基于此,本申请的发明人提出了基于本地内容信息来识别钓鱼网页的方法。
层叠样式表(Cascading Style Sheets,简称:CSS)是一种用来表现HTML或XML等文件样式的计算机语言,主要用于网页风格设计,包括字体大小、颜色以及元素的精确定位等。通过设立样式表,可以统一地控制HTML中各标志的显示属性。钓鱼作者可以将某钓鱼网页的样式设置成与正常网页样式相似,通过混淆用户视觉来实现钓鱼目的。此外,CSS在定义html样式时可以根据需要设置URL值等信息,利用该信息判断是否为钓鱼网页。
脚本(JavaScript,简称:JS)是一种基于对象和事件驱动并具有相对安全性的客户端脚本语言,同时也是一种广泛用于客户端Web开发的脚本语言,常用来给HTML网页添加动态功能,比如响应用户的各种操作。JS的主要功能是:动态修改html网页内容,包括创建、删除html网页元素,修改html网页元素的内容、外观、位置、大小等。钓鱼作者可利用JS动态修改html网页内容,将正常的html网页内容修改为具有钓鱼特征的信息,从而实现钓鱼的目的。因此可通过检测JS相应节点是否具有钓鱼特征来判断网页是否为可疑钓鱼网页。此外,可使用JavaScript:前缀构建执行JavaScript代码的URL的方式来执行html网页中嵌入的JavaScript代码,可以通过判断该URL是否属于黑名单或者是否具有指定路径来判断网页是否为可疑钓鱼网页。
本发明需要结合本地内容规则库来识别网页是否为可疑钓鱼网页,其中本地内容规则库包含至少一条规则以及与每条规则对应的规则标识。这里的规则可以为CSS规则和/或JS规则。
图1示出了根据本发明一个实施例的结合本地内容规则库识别可疑钓鱼网页的方法的流程图。如图1所示,该方法包括以下步骤:
步骤S100,在浏览器加载网页时,获取网页的内容信息,从网页的内容信息中提取指定信息。
具体地,指定信息指可用于判断网页是否为钓鱼网页的信息。当客户端接收到用户打开网页的请求后,将用户的请求发送至服务器,服务器返回相应的网页,在浏览器加载网页时,从所加载的网页中获取网页的内容信息,从网页的内容信息中提取指定信息。本发明中,客户端可以为计算机、移动终端、平板设备等,本发明对此不做限制。
步骤S110,将指定信息与本地内容规则库内的规则进行匹配。
本地内容规则库内的规则可用于判断网页是否为钓鱼网页,具体地,客户端获取到指定信息之后,将该指定信息与本地内容规则库内的规则进行匹配。
步骤S120,若指定信息与本地内容规则库内的至少一条规则匹配,则将本地所匹配的至少一条规则的规则标识发送给云端服务器,以供云端服务器根据本地所匹配的至少一条规则的规则标识识别网页是否为可疑钓鱼网页。
规则标识与本地内容规则库内的规则一一对应,根据规则标识即可确定相对应的规则。具体地,在将上述指定信息与本地内容规则库内的规则进行匹配后,发现上述指定信息与本地内容规则库内的至少一条规则匹配,则将本地所匹配的至少一条规则的规则标识发送给云端服务器,供云端服务器根据本地所匹配的至少一条规则的规则标识识别网页是否为可疑钓鱼网页。
根据本发明上述实施例提供的方法,通过从网页内容信息中提取指定信息,并将指定信息与本地内容规则库内的规则进行匹配,根据匹配上的本地内容规则库内的规则的标识识别网页是否为可疑钓鱼网页,扩大了钓鱼网页的检测范围,提高了钓鱼网页识别准确率,同时节省了云端服务器资源。
图2示出了根据本发明另一个实施例的结合本地内容规则库识别可疑钓鱼网页的方法的流程图。本实施例具体为结合本地内容规则库和云端内容规则库来识别可疑钓鱼网页。在介绍本实施例提供的方法之前,首先介绍云端内容规则库,如下:
本申请的发明人在研究钓鱼网页识别方法的过程中,注意到钓鱼作者通过将钓鱼特征嵌入到网页内容信息中的标签,对钓鱼特征进行了隐藏,使得基于原有的钓鱼网页识别方法(例如对网页的URL进行识别)无法将标签内容信息中的钓鱼特征识别出来,基于此,本申请的发明人提出了基于标签来识别钓鱼网页的方法。本文中标签指的是html标签,html标签是html语言(超文本标记语言)中最基本的单位,是html最重要的组成部分。在html语言中,标签通常是成对出现的,比如<b>和</b>,标签对中的第一个标签是开始标签,第二个标签是结束标签,通过标签内的信息来限定html网页中的相关信息,这里标签内容信息即标签内限定的信息,以标题标签为例,<title>淘宝页面</title>,这里标签内容信息即为淘宝页面。
云端服务器具有云端内容规则库,该云端内容规则库包含至少一个规则集合,每个规则集合包含一条或多条规则,其中一个规则集合用于判断网页是否为可疑钓鱼网页。本发明中,云端内容规则库中的规则是基于标签内容信息创建。例如,框架标签(iframe标签)一般用来包含别的页面,iframe元素会创建包含另外一个文档的内联框架(即行内框架)。在iframe标签中定义了多个属性,例如src属性、height属性、width属性等(在此不一一列举),其中src属性用于规定在iframe中显示文档的URL,该属性的属性值为URL;height属性用于规定iframe的高度,该属性的属值为pixels;width属性用于规定iframe的宽度,该属性的属性值为pixels。钓鱼作者可通过iframe标签中的src属性的属性值URL来实现钓鱼目的,例如,将src属性的属性值URL修改为黑URL,因此这里将iframe标签的src属性的属性值URL确定为iframe标签内容信息的指定属性信息,判断该URL是否属于URL黑名单或者是否具有指定路径。
图像标签(img标签)用于向网页中嵌入一幅图像,img标签创建的是被引用图像的占位空间。在img标签中同样定义了很多属性,例如,src属性、alt属性、height属性、width属性等(在此不一一列举),其中src属性用于规定显示图像的URL,该属性的属性值为URL;alt属性用于规定图像的替代文本,该属性的属性值为text;height属性用于设置图像的高度,该属性的属值为pixels%;width属性用于设置图像的宽度,该属性的属性值为pixels%。钓鱼作者可通过img标签中的src属性的属性值URL来实现钓鱼目的,例如,将src属性的属性值URL修改为黑URL,因此这里将img标签的src属性的属性值URL确定为img标签内容信息的指定属性信息,判断该URL是否具有指定路径或是否属于URL黑名单。
标题标签(title标签)用于定义文档的标题,在title标签中定义了dir属性、lang属性,其中dir属性用于规定元素中内容的文本方向;lang属性用于规定元素中内容的语言代码,该属性的属性值为language_code。这里将lang属性的属性值language_code确定为title标签内容信息的指定属性信息,判断标题内容是否具有指定关键字。
超链接标签或锚标签(a标签)用于从一张页面链接到另一张页面。在a标签中定义了多个属性,例如href属性、download属性、rel属性等(在此不一一列举)其中,href属性规定了链接指向的页面的URL,其属性值为URL;download属性规定了被下载的超链接目标,其属性值为filename;rel属性规定了当前文档与被连接文档之间的关系,其属性值为text。钓鱼作者可通过a标签中的href属性的属性值URL来实现钓鱼目的,例如,将href属性的属性值URL修改为黑URL,因此这里将a标签的href属性的属性值URL确定为a标签内容信息的指定属性信息,判断该URL是否属于URL黑名单或者是否具有指定路径。
通过获取浏览器所打开网页的URL,根据该URL确定网页所属站点是否为新站点。
若通过判断得到iframe标签、img标签或者a标签中的URL属于URL黑名单,则可判断网页为可疑钓鱼网页,由此可确定URL属于黑名单可以作为一条规则用于判断网页是否为可疑钓鱼网页,云端内容规则库内至少包含这条规则的规则集合可用于判断网页是否为可疑钓鱼网页。
若通过判断得到iframe标签、img标签或者a标签中的URL具有指定路径,且网页所属站点为新站点,则可判断网页为可疑钓鱼网页,由此可确定URL具有指定路径和网页所属站点为新站点可以作为两条规则用于判断网页是否为可疑钓鱼网页,云端内容规则库内至少包含这两条规则的规则集合可用于判断网页是否为可疑钓鱼网页。
若通过判断得到标题内容具有指定关键字,且网页所属站点为新站点,则可判断网页为可疑钓鱼网页,由此可确定标题内容具有指定关键字和网页所属站点为新站点可以作为两条规则用于判断网页是否为可疑钓鱼网页,云端内容规则库内至少包含这两条规则的规则集合可用于判断网页是否为可疑钓鱼网页。
本发明不仅限于基于上述规则集合来判断网页是否为可疑钓鱼网页,通过标签来识别网页是否为钓鱼网页的方法均涵盖在本发明的保护范围之内,在此不再赘述。
如图2所示,该方法包括以下步骤:
步骤S200,在浏览器加载网页时,获取网页的内容信息,从网页的内容信息中提取指定信息。
其中,指定信息包括CSS信息和/或脚本信息。
本实施例中的有关CSS信息和/或脚本信息的内容可参见上面的描述,在此不再赘述。
具体地,客户端获取到用户打开网页的请求,将该请求发送给服务器,服务器根据所接收到的请求向客户端返回相对应的网页,客户端在浏览器加载该网页时,获取网页的内容信息,从网页的内容信息中提取CSS信息和/或脚本信息。
步骤S210,从网页的内容信息中提取一项或多项标签内容信息。
本文中标签指的是标签,html标签是html语言(超文本标记语言)中最基本的单位,是html最重要的组成部分。在html语言中,标签通常是成对出现的,比如<b>和</b>,标签对中的第一个标签是开始标签,第二个标签是结束标签,通过标签内的信息来限定html网页中的相关信息,这里标签内容信息即标签内限定的信息,以标题标签为例,<title>淘宝页面</title>,这里标签内容信息即为“淘宝页面”。其中,标签内容信息包含以下信息的至少一项:标题标签、图像标签、框架标签、锚标签、超链接标签中的内容信息。
步骤S220,将步骤S200提取的指定信息与本地内容规则库内的规则进行匹配。
具体地,本地内容规则库内包含有CSS规则、脚本规则,其中,将提取的CSS信息和/或脚本信息与本地内容规则库内的规则进行匹配,例如将CSS信息与本地内容规则库内的CSS规则进行匹配,将脚本信息与本地内容规则库内的脚本规则进行匹配。
步骤S230,若指定信息与本地内容规则库内的至少一条规则匹配,则将本地所匹配的至少一条规则的规则标识与一项或多项标签内容信息发送给云端服务器。
规则标识与本地内容规则库内的规则一一对应,根据规则标识即可确定相对应的规则,该规则标识可以是规则ID号。具体地,在将上述指定信息与本地内容规则库内的规则进行匹配后,发现上述指定信息与本地内容规则库内的至少一条规则匹配,则将本地所匹配的至少一条规则的规则ID号以及需要进行云查询的一项或多项标签内容信息(步骤S210提取的信息)发送给云端服务器。
由于在实际中CSS信息和脚本信息携带的信息量很大,如果直接将这些指定信息上报给云端进行匹配,会大大影响钓鱼网页识别效率,并且浪费了云端服务器资源。本实施例通过先在本地匹配CSS信息和/或脚本信息,而后发送规则ID号给云端服务器,节省了云端服务器资源,并且方便云端服务器识别网页是否为钓鱼网页时,提高了网页识别效率。标签内容信息携带的信息量较小,可直接将其上报给云端进行匹配,以免过多占用客户端本地资源。
举例来说,在CSS信息中的CSS背景定义了背景图像属性,该属性可以将图像放入背景,而如果需要设置一个背景图像,必须为该属性设置一个URL值,以CSS背景中放入淘宝图片为例,获取到CSS信息为CSS_background:淘宝地址URL,将该CSS信息与本地内容规则库内的CSS规则进行匹配,确定该CSS信息与本地内容规则库内的CSS中嵌入的URL包含指定路径的CSS规则匹配,获取所匹配上的CSS规则的规则ID号11,则该规则的ID号:CSS_rule11发送给云端服务器。
在JS信息中可以嵌入URL,在运行JS脚本时执行该URL,通过将该URL与本地内容规则库中的JS黑名单规则或JS指定路径规则进行匹配,若该URL与JS黑名单规则匹配上,则获取所匹配上的JS规则的规则ID号1,将该规则ID号:JS_rule1发送给云端服务器;若该URL与JS指定路径规则匹配上,则获取所匹配上的JS规则的规则ID号2,将该规则ID号:JS_rule2发送给云端服务器。
这里仅将与本地规则内的规则匹配上的规则标识发送给云端服务器,若指定信息未与本地内容规则库内的规则匹配上,则不向云端服务器发送规则标识,从而控制向云端服务器发送的信息,降低云端服务器资源占用率。
步骤S240,云端服务器根据本地所匹配的至少一条规则的规则标识与一项或多项标签内容信息识别网页是否为可疑钓鱼网页,若是则执行步骤S250,若否则方法结束。
云端服务器具有云端内容规则库,云端内容规则库包含至少一个规则集合,每个规则集合包含一条或多条规则以及规则对应的规则标识。其中,云端内容规则库包含与标签内容信息有关的规则,还包含CSS规则、JS规则以及各规则的规则ID号。其中与标签内容信息有关的规则具体有:第一规则,第一规则为URL属于黑名单;第二规则,第二规则为URL具有指定路径;第三规则,第三规则为标题内容具有指定关键字;第四规则,第四规则为网页所属站点为新站点。
具体地,云端服务器将一项或多项标签内容信息中的指定属性信息与云端内容规则库中与标签内容信息有关的规则进行匹配,获得云端所匹配的至少一条规则的规则标识。
每一个html标签都拥有各自的属性,用来表示该标签的性质和特性,一般标签都是成对出现的即开始标签和结束标签,通常在开始标签中指定标签的属性,以“属性名=“值””的形式来表示。这里的指定属性信息是指标签中特定属性的值,该指定属性信息用于与云端内容规则库中的规则进行匹配。
在步骤S210中提取了标题标签、图像标签、框架标签、锚标签、超链接标签中的内容信息,其中一项或多项标签内容信息中的指定属性信息具体为:标签内容信息中携带的URL或标题内容。以锚标签为例,锚标签具有href属性、charset属性、download属性等,其中,在href属性值为URL,即规定链接指向的页面的URL;charset属性值为char_encoding,即规定被连接文档的字符集;download属性值为filename,即规定被下载的超链接目标。在锚标签中,该标签内容信息中的指定属性信息为href属性值URL。根据各标签的属性确定,标题标签内容信息中的指定属性信息为标题内容,图像标签、框架标签、锚标签、超链接标签内容信息中的指定属性信息为URL。将指定属性信息URL或标题内容与云端内容规则库中的规则进行匹配,获得云端所匹配的至少一条规则的规则标识。其中,云端内容规则库中的每一规则都有唯一的规则的标识。
具体地,云端服务器判断一项或多项标签内容信息中任一项标签内容信息携带的URL是否属于黑名单,若是,则确定该项标签内容信息携带的URL与第一规则匹配,获得云端所匹配的第一规则的第一规则标识。这里主要将图像标签、框架标签、锚标签、超链接标签内容信息携带的URL与第一规则匹配,以框架标签为例,在网页的框架标签有一src属性,该属性的值为URL,钓鱼作者可以利用框架标签这一属性嵌入钓鱼特征,在根据上述方法获取到框架标签内容信息携带的URL后,将该URL与第一规则进行匹配,若匹配上则获取第一规则标识。
云端服务器判断一项或多项标签内容信息中任一项标签内容信息携带的URL是否具有指定路径,若是,则确定该项标签内容信息携带的URL与第二规则匹配,获得云端所匹配的第二规则的第二规则标识。指定路径指URL中包含敏感关键字,例如taobao、shishicai等。
云端服务器判断一项或多项标签内容信息中任一项标签内容信息携带的标题内容是否具有指定关键字,若是,则确定该项标签内容信息携带的标题内容与第三规则匹配,获得云端所匹配的第三规则的第三规则标识。以标题标签为例,标题标签的内容信息中携带有“淘宝”,通过判断确定“淘宝”为指定关键字,则标题标签内容信息携带的标题内容与第三规则匹配,获取第三规则标识。
云端服务器判断网页所属站点是否为新站点,若是,则获得云端所匹配的第四规则的第四规则标识。其中,云端服务器判断网页所属站点在预设时间段内的访问量是否小于预设值;若访问量小于预设值,则确定网页所属站点为新站点。例如,判断网页所属站点在一个月内的访问量是否小于预设值5000,若访问量小于预设值5000,则确定网页所属站点为新站点。
云端服务器判断本地所匹配的至少一条规则的规则标识和云端所匹配的至少一条规则的规则标识是否涵盖云端内容规则库中任一规则集合所包含的一条或多条规则对应的规则标识,根据判断结果则识别网页是否为可疑钓鱼网页。其中,云端内容规则库中任一规则集合可以用于判断网页是否为钓鱼网页,当本地所匹配的至少一条规则的规则标识和云端所匹配的至少一条规则的规则标识涵盖云端内容规则库中任一规则集合所包含的一条或多条规则对应的规则标识,则可判断网页为可疑钓鱼网页。
本发明可仅根据本地内容规则库中的规则来判断网页是否为可疑钓鱼网页,也可仅根据云端内容规则库中的规则来判断网页是否为可疑钓鱼网页,在根据本地内容规则库中的规则或云端内容规则库内的规则无法识别网页是否为可疑钓鱼网页的情况下,也可将本地内容规则库与云端内容规则库中规则结合起来判断网页是否为可疑钓鱼网页,因此,这里对云端内容规则库中的规则集合不做具体限定。
例如,云端内容规则库中具有:仅包含CSS黑名单规则及其规则ID的规则集合以及仅包含JS黑名单规则及其规则ID的规则集合。如果提取的CSS信息中包含的URL与本地内容规则库中CSS黑名单规则匹配上,或者,提取的JS信息中包含的URL与本地内容规则库中JS黑名单规则匹配上,云端服务器可直接根据客户端上报的本地内容规则库中的规则ID涵盖上述规则集合所包含的规则ID来判断网页为可疑钓鱼网页。
例如,云端内容规则库中还具有:仅包含第一规则及其规则ID的规则集合。如果提取的标签内容信息与云端内容规则库中的第一规则匹配上,云端服务器可直接根据云端所匹配上的规则ID涵盖该规则集合所包含的规则ID判断网页为可疑钓鱼网页。
例如,云端内容规则库中还具有:包含其它CSS规则(如CSS中嵌入的URL包含指定路径的CSS规则)、第三规则和第四规则以及它们的规则的规则ID的规则集合。如果提取的CSS信息以及标签内容信息分别与本地内容规则库内的上述其它CSS规则、云端内容规则库内的第三规则、第四规则匹配上,云端服务器判断所匹配上的规则ID涵盖了该规则集合所包含的规则ID,则可判断网页为可疑钓鱼网页。
例如,云端内容规则库中还具有:包含其它JS规则(如JS中嵌入的URL包含指定路径的JS规则)、第二规则和第四规则以及它们的规则的规则ID的规则集合。如果提取的JS信息以及标签内容信息分别与本地内容规则库内的上述其它JS规则、云端内容规则库内的第二规则、第四规则匹配上,云端服务器判断所匹配上的规则ID涵盖了该规则集合所包含的规则ID,则可判断网页为可疑钓鱼网页。
步骤S250,生成云查询日志用于记录网页被识别为可疑钓鱼网页。
在根据上述步骤确定网页为可疑钓鱼网页后,可采用生成云查询日志的方式将识别的可疑钓鱼网页记录在云查询日志中,审核人员可通过该日志了解是否有误拦截的情况,对于误拦截的网页可以进行出库处理。
此外,还可向客户端发送用于报警的提示信息,以使客户端向用户展示提示信息,用户在看到客户端展示的提示信息后,可以有选择性的决定是否继续访问网页。
可选地,该方法还可包括:采用基于网页内容进行识别的方法对网页进行识别,得到识别结果;结合判断结果和识别结果,识别网页为可疑钓鱼网页。
下面具体介绍两种基于网页内容识别的方法:
<1>:在访问网页加载完成后,提取网页的多个内容片段,其中,内容片段可以是网页上的文本内容按特定的编码转换后的二进制编码数据;获取每个内容片段对应的特征ID,其中内容片段与特征ID唯一对应;将多个内容片段对应的特征ID与特征库中的特征ID进行匹配,其中,特征库由服务器生成,是大量的钓鱼网页中的恶意内容片段对应的特征ID的集合;若多个内容片段对应的特征ID中具有与特征库中的特征ID匹配的至少一个特征ID,则根据网页的信息,计算网页的评估分;将网页的评估分与设定阈值例如0.7进行比较,得到比较结果,若网页的评估分大于0.7,且云端所匹配的至少一条规则涵盖云端内容规则库中任一规则集合所包含的一条或多条规则,则将网页识别为可疑钓鱼网页;若网页的评估分小于0.7,则可将网页的URL发送给审核人员,由审核人员进行审核,从而更精确的判断网页是否为可疑钓鱼网页。通过特征库和对网页信息的综合评分来对网页进行识别,提高了识别效率,而且通过多层次的识别,降低了误判率,提高了识别准确率。
<2>:在浏览器的网页事件加载完成后,提取网页的多个内容片段,其中,内容片段可以是网页上的文本内容按特定的编码转换后的二进制编码数据;获取每个内容片段对应的特征ID,其中内容片段与特征ID唯一对应;将多个内容片段对应的特征ID与特征库中的特征ID进行匹配,其中,特征库由服务器生成,是大量的钓鱼网页中的恶意内容片段对应的特征ID的集合;若多个内容片段对应的特征ID中具有与特征库中的特征ID匹配的至少一个特征ID,则将该匹配的至少一个特征ID进行组合计算得到至少一个模板ID,其中,模板ID可以是通过特定的快速哈希算法生成的定长的二进制数据,例如,通过MD5算法生成的64位的二进制串,与特征ID类似地,不同特征ID按照相同的顺序组合,按照相同的算法计算得到的模板ID是唯一的并且是不可逆的;将至少一个模板ID与钓鱼网页识别库中的模板ID进行匹配,得到匹配结果,若至少一个模板ID中具有与钓鱼网页识别库中的模板ID匹配的模板ID,且云端所匹配的至少一条规则涵盖云端内容规则库中任一规则集合所包含的一条或多条规则,则将网页识别为可疑钓鱼网页;若至少一个模板ID中没有与钓鱼网页识别库中的模板ID匹配的模板ID,则可将网页的URL发送给审核人员,由审核人员进行审核,从而更精确的判断网页是否为可疑钓鱼网页。在该方法中,对网页的识别结合了网页中的多个网页元素的特征ID以及特征ID组合计算得到的模板ID,对网页进行了多层次的识别,通过上述多层次的识别,降低了误判率,提高了识别准确率。
为了提升钓鱼网页识别速率,减少对本地资源的占用,在获取网页的内容信息之前,先将网页的网址信息发送给云端服务器,以供云端服务器判断网页所属站点是否为新站点,在接收到云端服务器判断出网页所属站点为新站点的通知信息的情况下,客户端获取网页的内容信息,实现通过云端控制只针对新站进行检测,这样减少了客户端的计算量。
根据本发明上述实施例提供的方法,在浏览器加载网页时,获取网页的内容信息,从网页的内容信息中提取指定信息;从网页的内容信息中提取一项或多项标签内容信息;将指定信息与本地内容规则库内的规则进行匹配;若指定信息与本地内容规则库内的至少一条规则匹配,则将本地所匹配的至少一条规则的规则标识与一项或多项标签内容信息发送给云端服务器;云端服务器根据本地所匹配的至少一条规则的规则标识与一项或多项标签内容信息识别网页是否为可疑钓鱼网页;生成云查询日志用于记录网页被识别为可疑钓鱼网页;和/或,向客户端发送用于报警的提示信息,以使客户端向用户展示提示信息。本实施例利用网页内容信息中指定信息以及标签内容信息对网页进行识别,将本地匹配与云端识别相结合,并且扩大了钓鱼网页的检测范围,提高了钓鱼网页识别准确率,将与本地规则内的规则匹配上指定信息的规则标识发送给云端服务器,能够控制发送给云端服务器的信息,降低云端服务器资源占用率,在确定网页为可疑钓鱼网页后,采用生成云查询日志的方式将识别的可疑钓鱼网页记录在云查询日志中,供审核人员查看,通过该日志了解是否有误拦截的情况,对于误拦截的网页可以进行出库处理,通过向客户端发送用于报警的提示信息,使得用户在看到客户端展示的提示信息后,可以有选择性的决定是否继续访问网页。
图3示出了根据本发明另一个实施例的结合本地内容规则库识别可疑钓鱼网页的方法的流程图。如图3所示,该方法包括以下步骤:
步骤S300,在浏览器加载网页时,获取网页的内容信息,从网页的内容信息中提取指定信息。其中,指定信息包括CSS信息和/或脚本信息和/或标签内容信息。
步骤S310,将指定信息与本地内容规则库内的规则进行匹配。
步骤S320,若指定信息与本地内容规则库内的至少一条规则匹配,则将本地所匹配的至少一条规则的规则标识发送给云端服务器。
步骤S330,云端服务器判断本地所匹配的至少一条规则的规则标识是否涵盖云端内容规则库中任一规则集合所包含的一条或多条规则对应的规则标识,若是,则执行步骤S340;若否,则方法结束。云端服务器具有云端内容规则库,云端内容规则库包含至少一个规则集合,每个规则集合包含一条或多条规则以及每条规则对应的规则标识。
步骤S340,生成云查询日志用于记录网页被识别为可疑钓鱼网页。
此外,还可向客户端发送用于报警的提示信息,以使客户端向用户展示提示信息。
图3所示实施例与图2所示实施例的不同之处在于,图3仅对从网页的内容信息中提取的指定信息做本地规则查询,图3所示实施例中的指定信息包括CSS信息和/或脚本信息和/或标签内容信息,即对CSS信息和/或脚本信息和/或标签内容信息都做本地查询(即CSS信息和/或脚本信息和/或标签内容信息来查询本地内容规则库),而图2所示实施例是对从网页的内容信息中提取的指定信息CSS信息和/或脚本信息做本地查询,而对标签内容信息做云查询(即向云端上报标签内容信息来查询云端内容规则库)。对于图3所示实施例中各步骤的具体说明在此不再赘述。
可选地,本发明还可采用基于网页内容进行识别的方法对网页进行识别,得到识别结果;结合判断结果和识别结果,识别网页为可疑钓鱼网页。该步骤与图2所示实施例中对应的描述类似,在此不再赘述。
根据本发明上述实施例提供的方法,在浏览器加载网页时,获取网页的内容信息,从网页的内容信息中提取指定信息;将指定信息与本地内容规则库内的规则进行匹配;若指定信息与本地内容规则库内的至少一条规则匹配,则将本地所匹配的至少一条规则的规则标识发送给云端服务器;采用基于网页内容进行识别的方法对网页进行识别,得到识别结果;云端服务器判断本地所匹配的至少一条规则的规则标识是否涵盖云端内容规则库中任一规则集合所包含的一条或多条规则对应的规则标识;结合判断结果和识别结果,识别网页为可疑钓鱼网页;生成云查询日志用于记录网页被识别为可疑钓鱼网页;和/或,向客户端发送用于报警的提示信息,以使客户端向用户展示提示信息。该方法利用网页内容信息中指定信息以及标签内容信息对网页进行识别,提高了钓鱼网页识别速率,并且扩大了钓鱼网页的检测范围,提高了钓鱼网页识别准确率,同时节省了云端服务器资源,在确定网页为可疑钓鱼网页后,结合网页内容识别,通过这种多层次的识别降低了误判率;采用生成云查询日志的方式将识别的可疑钓鱼网页记录在云查询日志中,供审核人员查看,通过该日志了解是否有误拦截的情况,对于误拦截的网页可以进行出库处理,通过向客户端发送用于报警的提示信息,使得用户在看到客户端展示的提示信息后,可以有选择性的决定是否继续访问网页。
图4示出了根据本发明一个实施例的客户端的结构示意图。如图4所示,该客户端包括:本地内容规则库410、信息提取模块420、匹配模块430、第一发送模块440。
本地内容规则库410,包含至少一条规则以及与每条规则对应的规则标识。
信息提取模块420,适于在浏览器加载网页时,获取网页的内容信息,从网页的内容信息中提取指定信息。
其中,指定信息包括CSS信息和/或脚本信息和/或标签内容信息。或者,指定信息包括CSS信息和/或脚本信息;信息提取模块420还适于:从网页的内容信息中提取一项或多项标签内容信息。
匹配模块430,适于将指定信息与本地内容规则库内的规则进行匹配。
第一发送模块440,适于若指定信息与本地内容规则库内的至少一条规则匹配,则将本地所匹配的至少一条规则的规则标识发送给云端服务器,以供云端服务器根据本地所匹配的至少一条规则的规则标识识别网页是否为可疑钓鱼网页。
第一发送模块440具体适于:将本地所匹配的至少一条规则的规则标识与一项或多项标签内容信息发送给云端服务器,以供云端服务器根据本地所匹配的至少一条规则的规则标识与一项或多项标签内容信息识别网页是否为可疑钓鱼网页。
第一发送模块440还适于:在信息提取模块获取网页的内容信息之前,将网页的网址信息发送给云端服务器,以供云端服务器判断网页所属站点是否为新站点;
客户端还包括:第一接收模块450,适于接收云端服务器判断出网页所属站点为新站点的通知信息。
信息提取模块420进一步适于:在第一接收模块450收到云端服务器判断出网页所属站点为新站点的通知信息的情况下,获取网页的内容信息。
图5示出了根据本发明一个实施例的云端服务器的结构示意图。如图5所示,该云端服务器包括:云端内容规则库510、第二接收模块520、识别模块530。
云端内容规则库510,包含至少一个规则集合,每个规则集合包含一条或多条规则以及每条规则对应的规则标识。
第二接收模块520,适于接收客户端发送的本地所匹配的至少一条规则的规则标识。
识别模块530,适于根据本地所匹配的至少一条规则的规则标识识别网页是否为可疑钓鱼网页。
识别模块530进一步适于:判断本地所匹配的至少一条规则的规则标识是否涵盖云端内容规则库中任一规则集合所包含的一条或多条规则对应的规则标识,根据判断结果识别网页为可疑钓鱼网页。
第二接收模块520具体适于:接收客户端发送的本地所匹配的至少一条规则的规则标识与一项或多项标签内容信息。
该云端服务器还包括:匹配模块540,适于将一项或多项标签内容信息中的指定属性信息与云端内容规则库中的规则进行匹配,获得云端所匹配的至少一条规则的规则标识。
识别模块530进一步适于:判断本地所匹配的至少一条规则的规则标识和云端所匹配的至少一条规则的规则标识是否涵盖云端内容规则库中任一规则集合所包含的一条或多条规则对应的规则标识,根据判断结果则识别网页为可疑钓鱼网页。
一项或多项标签内容信息包含以下信息的至少一项:标题标签、图像标签、框架标签、锚标签、超链接标签中的内容信息;指定属性信息具体为:标签内容信息中携带的URL或标题内容。
云端内容规则库包含第一规则,第一规则为URL属于黑名单。
匹配模块540进一步适于:判断一项或多项标签内容信息中任一项标签内容信息携带的URL是否属于黑名单,若是,则确定该项标签内容信息携带的URL与第一规则匹配,获得云端所匹配的第一规则的第一规则标识。
云端内容规则库包含第二规则,第二规则为URL具有指定路径。
匹配模块540进一步适于:判断一项或多项标签内容信息中任一项标签内容信息携带的URL是否具有指定路径,若是,则确定该项标签内容信息携带的URL与第二规则匹配,获得云端所匹配的第二规则的第二规则标识。
云端内容规则库包含第三规则,第三规则为标题内容具有指定关键字。
匹配模块540进一步适于:判断一项或多项标签内容信息中任一项标签内容信息携带的标题内容是否具有指定关键字,若是,则确定该项标签内容信息携带的标题内容与第三规则匹配,获得云端所匹配的第三规则的第三规则标识。
云端内容规则库包含第四规则,第四规则为网页所属站点为新站点。
匹配模块540进一步适于:判断网页所属站点是否为新站点,若是,则获得云端所匹配的第四规则的第四规则标识。
匹配模块540进一步适于:判断网页所属站点在预设时间段内的访问量是否小于预设值;若访问量小于预设值,则确定网页所属站点为新站点。
该云端服务器还包括:内容识别结果获取模块550,适于采用基于网页内容进行识别的方法对网页进行识别,得到识别结果。
识别模块530进一步适于:结合判断结果和识别结果,识别网页为可疑钓鱼网页。
云端服务器还包括:日志生成模块560,适于生成云查询日志用于记录网页被识别为可疑钓鱼网页。
第二发送模块570,适于向客户端发送用于报警的提示信息,以使客户端向用户展示提示信息。
图6示出了根据本发明一个实施例的结合本地内容规则库识别可疑钓鱼网页的系统的结构示意图。如图6所示,该系统包括客户端400以及云端服务器500。其中有关客户端400以及云端服务器500的具体结构和功能可参见客户端和云端服务器实施例的描述,在此不再赘述。
根据本发明上述实施例提供的系统、客户端和云端服务器,在浏览器加载网页时,获取网页的内容信息,从网页的内容信息中提取指定信息;从网页的内容信息中提取一项或多项标签内容信息;将指定信息与本地内容规则库内的规则进行匹配;若指定信息与本地内容规则库内的至少一条规则匹配,则将本地所匹配的至少一条规则的规则标识与一项或多项标签内容信息发送给云端服务器;云端服务器根据本地所匹配的至少一条规则的规则标识与一项或多项标签内容信息识别网页是否为可疑钓鱼网页;生成云查询日志用于记录网页被识别为可疑钓鱼网页;和/或,向客户端发送用于报警的提示信息,以使客户端向用户展示提示信息。本实施例利用网页内容信息中指定信息以及标签内容信息对网页进行识别,提高了钓鱼网页识别速率,并且扩大了钓鱼网页的检测范围,提高了钓鱼网页识别准确率,将与本地规则内的规则匹配上指定信息的规则标识发送给云端服务器,能够控制发送给云端服务器的信息,降低云端服务器资源占用率,在确定网页为可疑钓鱼网页后,采用生成云查询日志的方式将识别的可疑钓鱼网页记录在云查询日志中,供审核人员查看,通过该日志了解是否有误拦截的情况,对于误拦截的网页可以进行出库处理,通过向客户端发送用于报警的提示信息,使得用户在看到客户端展示的提示信息后,可以有选择性的决定是否继续访问网页。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的结合本地内容规则库识别可疑钓鱼网页的设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
本发明公开了:A1、一种结合本地内容规则库识别可疑钓鱼网页的方法,所述本地内容规则库包含至少一条规则以及与每条规则对应的规则标识;所述方法包括:
在浏览器加载网页时,获取网页的内容信息,从所述网页的内容信息中提取指定信息;
将所述指定信息与所述本地内容规则库内的规则进行匹配;
若所述指定信息与所述本地内容规则库内的至少一条规则匹配,则将本地所匹配的至少一条规则的规则标识发送给云端服务器,以供所述云端服务器根据所述本地所匹配的至少一条规则的规则标识识别所述网页是否为可疑钓鱼网页。
A2、根据A1所述的方法,所述指定信息包括CSS信息和/或脚本信息和/或标签内容信息。
A3、根据A2所述的方法,所述云端服务器具有云端内容规则库,所述云端内容规则库包含至少一个规则集合,每个规则集合包含一条或多条规则以及每条规则对应的规则标识;
所述云端服务器根据所述本地所匹配的至少一条规则的规则标识识别所述网页是否为可疑钓鱼网页进一步包括:
所述云端服务器判断所述本地所匹配的至少一条规则的规则标识是否涵盖所述云端内容规则库中任一规则集合所包含的一条或多条规则对应的规则标识,根据判断结果识别所述网页为可疑钓鱼网页。
A4、根据A1所述的方法,所述指定信息包括CSS信息和/或脚本信息;
所述方法还包括:从所述网页的内容信息中提取一项或多项标签内容信息;
所述将所述本地所匹配的至少一条规则的规则标识发送给云端服务器,以供所述云端服务器根据所述本地所匹配的至少一条规则的规则标识识别所述网页是否为可疑钓鱼网页具体为:将所述本地所匹配的至少一条规则的规则标识与所述一项或多项标签内容信息发送给云端服务器,以供所述云端服务器根据所述本地所匹配的至少一条规则的规则标识与所述一项或多项标签内容信息识别所述网页是否为可疑钓鱼网页。
A5、根据A4所述的方法,所述云端服务器具有云端内容规则库,所述云端内容规则库包含至少一个规则集合,每个规则集合包含一条或多条规则以及规则对应的规则标识;
所述云端服务器根据所述本地所匹配的至少一条规则的规则标识与所述一项或多项标签内容信息识别所述网页是否为可疑钓鱼网页进一步包括:
所述云端服务器将所述一项或多项标签内容信息中的指定属性信息与所述云端内容规则库中的规则进行匹配,获得云端所匹配的至少一条规则的规则标识;
所述云端服务器判断所述本地所匹配的至少一条规则的规则标识和所述云端所匹配的至少一条规则的规则标识是否涵盖所述云端内容规则库中任一规则集合所包含的一条或多条规则对应的规则标识,根据判断结果则识别所述网页为可疑钓鱼网页。
A6、根据A5所述的方法,所述一项或多项标签内容信息包含以下信息的至少一项:标题标签、图像标签、框架标签、锚标签、超链接标签中的内容信息;
所述指定属性信息具体为:所述标签内容信息中携带的URL或标题内容。
A7、根据A5或A6所述的方法,所述云端内容规则库包含第一规则,所述第一规则为URL属于黑名单;
所述云端服务器将一项或多项标签内容信息中的指定属性信息与所述云端内容规则库中的规则进行匹配,获得云端所匹配的至少一条规则的规则标识进一步包括:
所述云端服务器判断所述一项或多项标签内容信息中任一项标签内容信息携带的URL是否属于所述黑名单,若是,则确定该项标签内容信息携带的URL与所述第一规则匹配,获得云端所匹配的第一规则的第一规则标识。
A8、根据A5或A6所述的方法,所述云端内容规则库包含第二规则,所述第二规则为URL具有指定路径;
所述云端服务器将一项或多项标签内容信息中的指定属性信息与所述云端内容规则库中的规则进行匹配,获得云端所匹配的至少一条规则的规则标识进一步包括:
所述云端服务器判断所述一项或多项标签内容信息中任一项标签内容信息携带的URL是否具有所述指定路径,若是,则确定该项标签内容信息携带的URL与所述第二规则匹配,获得云端所匹配的第二规则的第二规则标识。
A9、根据A5或A6所述的方法,所述云端内容规则库包含第三规则,所述第三规则为标题内容具有指定关键字;
所述云端服务器将一项或多项标签内容信息中的指定属性信息与所述云端内容规则库中的规则进行匹配,获得云端所匹配的至少一条规则的规则标识进一步包括:
所述云端服务器判断所述一项或多项标签内容信息中任一项标签内容信息携带的标题内容是否具有指定关键字,若是,则确定该项标签内容信息携带的标题内容与所述第三规则匹配,获得云端所匹配的第三规则的第三规则标识。
A10、根据A5或A6所述的方法,所述云端内容规则库包含第四规则,所述第四规则为网页所属站点为新站点;
所述方法进一步包括:所述云端服务器判断所述网页所属站点是否为新站点,若是,则获得云端所匹配的第四规则的第四规则标识。
A11、根据A10所述的方法,所述云端服务器判断网页所属站点是否为新站点具体为:所述云端服务器判断所述网页所属站点在预设时间段内的访问量是否小于预设值;若所述访问量小于预设值,则确定所述网页所属站点为新站点。
A12、根据A3或A5所述的方法,还包括:采用基于网页内容进行识别的方法对所述网页进行识别,得到识别结果;
所述根据判断结果识别网页为可疑钓鱼网页进一步包括:结合所述判断结果和所述识别结果,识别所述网页为可疑钓鱼网页。
A13、根据A1所述的方法,在所述识别网页为可疑钓鱼网页之后进一步包括:生成云查询日志用于记录所述网页被识别为可疑钓鱼网页;和/或,向客户端发送用于报警的提示信息,以使所述客户端向用户展示所述提示信息。
A14、根据A1所述的方法,在所述获取网页的内容信息之前进一步包括:将所述网页的网址信息发送给所述云端服务器,以供所述云端服务器判断所述网页所属站点是否为新站点;
所述获取网页的内容信息具体为:在接收到所述云端服务器判断出所述网页所属站点为新站点的通知信息的情况下,获取网页的内容信息。
本发明还公开了:B15、一种客户端,包括:
本地内容规则库,包含至少一条规则以及与每条规则对应的规则标识;
信息提取模块,适于在浏览器加载网页时,获取网页的内容信息,从所述网页的内容信息中提取指定信息;
匹配模块,适于将所述指定信息与所述本地内容规则库内的规则进行匹配;
第一发送模块,适于若所述指定信息与所述本地内容规则库内的至少一条规则匹配,则将本地所匹配的至少一条规则的规则标识发送给云端服务器,以供所述云端服务器根据所述本地所匹配的至少一条规则的规则标识识别所述网页是否为可疑钓鱼网页。
B16、根据B15所述的客户端,所述指定信息包括CSS信息和/或脚本信息和/或标签内容信息。
B17、根据B15所述的客户端,所述指定信息包括CSS信息和/或脚本信息;
所述信息提取模块还适于:从所述网页的内容信息中提取一项或多项标签内容信息;
所述第一发送模块具体适于:将所述本地所匹配的至少一条规则的规则标识与所述一项或多项标签内容信息发送给云端服务器,以供所述云端服务器根据所述本地所匹配的至少一条规则的规则标识与所述一项或多项标签内容信息识别所述网页是否为可疑钓鱼网页。
B18、根据B15所述的客户端,所述第一发送模块还适于:在所述信息提取模块获取网页的内容信息之前,将所述网页的网址信息发送给所述云端服务器,以供所述云端服务器判断所述网页所属站点是否为新站点;
所述客户端还包括:第一接收模块,适于接收所述云端服务器判断出所述网页所属站点为新站点的通知信息;
所述信息提取模块进一步适于:在所述第一接收模块收到所述云端服务器判断出所述网页所属站点为新站点的通知信息的情况下,获取网页的内容信息。
本发明还公开了:C19、一种云端服务器,包括:
云端内容规则库,包含至少一个规则集合,每个规则集合包含一条或多条规则以及每条规则对应的规则标识;
第二接收模块,适于接收客户端发送的本地所匹配的至少一条规则的规则标识;
识别模块,适于根据所述本地所匹配的至少一条规则的规则标识识别所述网页是否为可疑钓鱼网页。
C20、根据C19所述的云端服务器,所述识别模块进一步适于:判断所述本地所匹配的至少一条规则的规则标识是否涵盖所述云端内容规则库中任一规则集合所包含的一条或多条规则对应的规则标识,根据判断结果识别所述网页为可疑钓鱼网页。
C21、根据C19所述的云端服务器,所述第二接收模块具体适于:接收客户端发送的所述本地所匹配的至少一条规则的规则标识与一项或多项标签内容信息。
C22、根据C21所述的云端服务器,还包括:匹配模块,适于将所述一项或多项标签内容信息中的指定属性信息与所述云端内容规则库中的规则进行匹配,获得云端所匹配的至少一条规则的规则标识;
所述识别模块进一步适于:判断所述本地所匹配的至少一条规则的规则标识和所述云端所匹配的至少一条规则的规则标识是否涵盖所述云端内容规则库中任一规则集合所包含的一条或多条规则对应的规则标识,根据判断结果则识别所述网页为可疑钓鱼网页。
C23、根据C22所述的云端服务器,所述一项或多项标签内容信息包含以下信息的至少一项:标题标签、图像标签、框架标签、锚标签、超链接标签中的内容信息;
所述指定属性信息具体为:所述标签内容信息中携带的URL或标题内容。
C24、根据C22或C23所述的云端服务器,所述云端内容规则库包含第一规则,所述第一规则为URL属于黑名单;
所述匹配模块进一步适于:判断所述一项或多项标签内容信息中任一项标签内容信息携带的URL是否属于所述黑名单,若是,则确定该项标签内容信息携带的URL与所述第一规则匹配,获得云端所匹配的第一规则的第一规则标识。
C25、根据C22或C23所述的云端服务器,所述云端内容规则库包含第二规则,所述第二规则为URL具有指定路径;
所述匹配模块进一步适于:判断所述一项或多项标签内容信息中任一项标签内容信息携带的URL是否具有所述指定路径,若是,则确定该项标签内容信息携带的URL与所述第二规则匹配,获得云端所匹配的第二规则的第二规则标识。
C26、根据C22或C23所述的云端服务器,所述云端内容规则库包含第三规则,所述第三规则为标题内容具有指定关键字;
所述匹配模块进一步适于:判断所述一项或多项标签内容信息中任一项标签内容信息携带的标题内容是否具有指定关键字,若是,则确定该项标签内容信息携带的标题内容与所述第三规则匹配,获得云端所匹配的第三规则的第三规则标识。
C27、根据C22或C23所述的云端服务器,所述云端内容规则库包含第四规则,所述第四规则为网页所属站点为新站点;
所述匹配模块进一步适于:判断所述网页所属站点是否为新站点,若是,则获得云端所匹配的第四规则的第四规则标识。
C28、根据C27所述的云端服务器,所述匹配模块进一步适于:判断所述网页所属站点在预设时间段内的访问量是否小于预设值;若所述访问量小于预设值,则确定所述网页所属站点为新站点。
C29、根据C20或C22所述的云端服务器,还包括:内容识别结果获取模块,适于采用基于网页内容进行识别的方法对所述网页进行识别,得到识别结果;
所述识别模块进一步适于:结合所述判断结果和所述识别结果,识别所述网页为可疑钓鱼网页。
C30、根据C19所述的云端服务器,还包括:
日志生成模块,适于生成云查询日志用于记录所述网页被识别为可疑钓鱼网页;
和/或,第二发送模块,适于向客户端发送用于报警的提示信息,以使所述客户端向用户展示所述提示信息。
本发明还公开了:D31、一种结合本地内容规则库识别可疑钓鱼网页的系统,包括B15-B18任一项所述的客户端以及C19-C30任一项所述的云端服务器。

Claims (10)

1.一种结合本地内容规则库识别可疑钓鱼网页的方法,所述本地内容规则库包含至少一条规则以及与每条规则对应的规则标识;所述方法包括:
在浏览器加载网页时,获取网页的内容信息,从所述网页的内容信息中提取指定信息;
将所述指定信息与所述本地内容规则库内的规则进行匹配;
若所述指定信息与所述本地内容规则库内的至少一条规则匹配,则将本地所匹配的至少一条规则的规则标识发送给云端服务器,以供所述云端服务器根据所述本地所匹配的至少一条规则的规则标识识别所述网页是否为可疑钓鱼网页。
2.根据权利要求1所述的方法,所述指定信息包括CSS信息和/或脚本信息和/或标签内容信息。
3.根据权利要求2所述的方法,所述云端服务器具有云端内容规则库,所述云端内容规则库包含至少一个规则集合,每个规则集合包含一条或多条规则以及每条规则对应的规则标识;
所述云端服务器根据所述本地所匹配的至少一条规则的规则标识识别所述网页是否为可疑钓鱼网页进一步包括:
所述云端服务器判断所述本地所匹配的至少一条规则的规则标识是否涵盖所述云端内容规则库中任一规则集合所包含的一条或多条规则对应的规则标识,根据判断结果识别所述网页为可疑钓鱼网页。
4.根据权利要求1所述的方法,所述指定信息包括CSS信息和/或脚本信息;
所述方法还包括:从所述网页的内容信息中提取一项或多项标签内容信息;
所述将所述本地所匹配的至少一条规则的规则标识发送给云端服务器,以供所述云端服务器根据所述本地所匹配的至少一条规则的规则标识识别所述网页是否为可疑钓鱼网页具体为:将所述本地所匹配的至少一条规则的规则标识与所述一项或多项标签内容信息发送给云端服务器,以供所述云端服务器根据所述本地所匹配的至少一条规则的规则标识与所述一项或多项标签内容信息识别所述网页是否为可疑钓鱼网页。
5.根据权利要求4所述的方法,所述云端服务器具有云端内容规则库,所述云端内容规则库包含至少一个规则集合,每个规则集合包含一条或多条规则以及规则对应的规则标识;
所述云端服务器根据所述本地所匹配的至少一条规则的规则标识与所述一项或多项标签内容信息识别所述网页是否为可疑钓鱼网页进一步包括:
所述云端服务器将所述一项或多项标签内容信息中的指定属性信息与所述云端内容规则库中的规则进行匹配,获得云端所匹配的至少一条规则的规则标识;
所述云端服务器判断所述本地所匹配的至少一条规则的规则标识和所述云端所匹配的至少一条规则的规则标识是否涵盖所述云端内容规则库中任一规则集合所包含的一条或多条规则对应的规则标识,根据判断结果则识别所述网页为可疑钓鱼网页。
6.根据权利要求5所述的方法,所述一项或多项标签内容信息包含以下信息的至少一项:标题标签、图像标签、框架标签、锚标签、超链接标签中的内容信息;
所述指定属性信息具体为:所述标签内容信息中携带的URL或标题内容。
7.根据权利要求5或6所述的方法,所述云端内容规则库包含第一规则,所述第一规则为URL属于黑名单;
所述云端服务器将一项或多项标签内容信息中的指定属性信息与所述云端内容规则库中的规则进行匹配,获得云端所匹配的至少一条规则的规则标识进一步包括:
所述云端服务器判断所述一项或多项标签内容信息中任一项标签内容信息携带的URL是否属于所述黑名单,若是,则确定该项标签内容信息携带的URL与所述第一规则匹配,获得云端所匹配的第一规则的第一规则标识。
8.一种客户端,包括:
本地内容规则库,包含至少一条规则以及与每条规则对应的规则标识;
信息提取模块,适于在浏览器加载网页时,获取网页的内容信息,从所述网页的内容信息中提取指定信息;
匹配模块,适于将所述指定信息与所述本地内容规则库内的规则进行匹配;
第一发送模块,适于若所述指定信息与所述本地内容规则库内的至少一条规则匹配,则将本地所匹配的至少一条规则的规则标识发送给云端服务器,以供所述云端服务器根据所述本地所匹配的至少一条规则的规则标识识别所述网页是否为可疑钓鱼网页。
9.一种云端服务器,包括:
云端内容规则库,包含至少一个规则集合,每个规则集合包含一条或多条规则以及每条规则对应的规则标识;
第二接收模块,适于接收客户端发送的本地所匹配的至少一条规则的规则标识;
识别模块,适于根据所述本地所匹配的至少一条规则的规则标识识别所述网页是否为可疑钓鱼网页。
10.一种结合本地内容规则库识别可疑钓鱼网页的系统,包括权利要求8所述的客户端以及权利要求9所述的云端服务器。
CN201410453785.8A 2014-09-05 2014-09-05 结合本地内容规则库识别可疑钓鱼网页的方法及系统 Active CN104168293B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410453785.8A CN104168293B (zh) 2014-09-05 2014-09-05 结合本地内容规则库识别可疑钓鱼网页的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410453785.8A CN104168293B (zh) 2014-09-05 2014-09-05 结合本地内容规则库识别可疑钓鱼网页的方法及系统

Publications (2)

Publication Number Publication Date
CN104168293A true CN104168293A (zh) 2014-11-26
CN104168293B CN104168293B (zh) 2017-11-07

Family

ID=51911917

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410453785.8A Active CN104168293B (zh) 2014-09-05 2014-09-05 结合本地内容规则库识别可疑钓鱼网页的方法及系统

Country Status (1)

Country Link
CN (1) CN104168293B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104965783A (zh) * 2015-06-16 2015-10-07 百度在线网络技术(北京)有限公司 一种网页内容展现监测的方法和装置
CN105187415A (zh) * 2015-08-24 2015-12-23 成都秋雷科技有限责任公司 钓鱼网页检测方法
CN105208002A (zh) * 2015-08-24 2015-12-30 成都秋雷科技有限责任公司 钓鱼网站拦截方法
CN105376222A (zh) * 2015-10-30 2016-03-02 四川九洲电器集团有限责任公司 基于云计算平台的智能防御系统
CN105763543A (zh) * 2016-02-03 2016-07-13 百度在线网络技术(北京)有限公司 一种识别钓鱼网站的方法及装置
CN105959330A (zh) * 2016-07-20 2016-09-21 广东世纪网通信设备股份有限公司 虚假链接拦截方法、装置以及系统
CN106453351A (zh) * 2016-10-31 2017-02-22 重庆邮电大学 基于Web页面特征的金融类钓鱼网页检测方法
CN106878236A (zh) * 2015-12-11 2017-06-20 阿里巴巴集团控股有限公司 一种用户请求处理方法和设备
CN106888220A (zh) * 2017-04-12 2017-06-23 恒安嘉新(北京)科技股份公司 一种钓鱼网站检测方法及设备
CN107491453A (zh) * 2016-06-13 2017-12-19 北京搜狗科技发展有限公司 一种识别作弊网页的方法及装置
CN111597107A (zh) * 2020-04-22 2020-08-28 北京字节跳动网络技术有限公司 信息输出方法、装置和电子设备
CN113778826A (zh) * 2021-09-16 2021-12-10 北京天融信网络安全技术有限公司 一种日志处理方法及装置
CN113961850A (zh) * 2021-11-11 2022-01-21 北京锐安科技有限公司 网页的特定内容提取方法、装置、设备和存储介质
CN114490714A (zh) * 2022-01-26 2022-05-13 北京华顺信安科技有限公司 一种基于云匹配的资产标签检测方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102902686A (zh) * 2011-07-27 2013-01-30 腾讯科技(深圳)有限公司 一种网页检测的方法及系统
CN103685307A (zh) * 2013-12-25 2014-03-26 北京奇虎科技有限公司 基于特征库检测钓鱼欺诈网页的方法及系统、客户端、服务器
CN103902889A (zh) * 2012-12-26 2014-07-02 腾讯科技(深圳)有限公司 一种恶意消息云检测方法和服务器

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102902686A (zh) * 2011-07-27 2013-01-30 腾讯科技(深圳)有限公司 一种网页检测的方法及系统
CN103902889A (zh) * 2012-12-26 2014-07-02 腾讯科技(深圳)有限公司 一种恶意消息云检测方法和服务器
CN103685307A (zh) * 2013-12-25 2014-03-26 北京奇虎科技有限公司 基于特征库检测钓鱼欺诈网页的方法及系统、客户端、服务器

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104965783A (zh) * 2015-06-16 2015-10-07 百度在线网络技术(北京)有限公司 一种网页内容展现监测的方法和装置
CN105187415A (zh) * 2015-08-24 2015-12-23 成都秋雷科技有限责任公司 钓鱼网页检测方法
CN105208002A (zh) * 2015-08-24 2015-12-30 成都秋雷科技有限责任公司 钓鱼网站拦截方法
WO2017071148A1 (zh) * 2015-10-30 2017-05-04 四川九洲电器集团有限责任公司 基于云计算平台的智能防御系统
CN105376222A (zh) * 2015-10-30 2016-03-02 四川九洲电器集团有限责任公司 基于云计算平台的智能防御系统
CN106878236A (zh) * 2015-12-11 2017-06-20 阿里巴巴集团控股有限公司 一种用户请求处理方法和设备
CN105763543A (zh) * 2016-02-03 2016-07-13 百度在线网络技术(北京)有限公司 一种识别钓鱼网站的方法及装置
CN105763543B (zh) * 2016-02-03 2019-08-30 百度在线网络技术(北京)有限公司 一种识别钓鱼网站的方法及装置
CN107491453A (zh) * 2016-06-13 2017-12-19 北京搜狗科技发展有限公司 一种识别作弊网页的方法及装置
CN105959330A (zh) * 2016-07-20 2016-09-21 广东世纪网通信设备股份有限公司 虚假链接拦截方法、装置以及系统
CN106453351A (zh) * 2016-10-31 2017-02-22 重庆邮电大学 基于Web页面特征的金融类钓鱼网页检测方法
CN106888220A (zh) * 2017-04-12 2017-06-23 恒安嘉新(北京)科技股份公司 一种钓鱼网站检测方法及设备
CN111597107A (zh) * 2020-04-22 2020-08-28 北京字节跳动网络技术有限公司 信息输出方法、装置和电子设备
CN111597107B (zh) * 2020-04-22 2023-04-28 北京字节跳动网络技术有限公司 信息输出方法、装置和电子设备
CN113778826A (zh) * 2021-09-16 2021-12-10 北京天融信网络安全技术有限公司 一种日志处理方法及装置
CN113778826B (zh) * 2021-09-16 2023-11-28 北京天融信网络安全技术有限公司 一种日志处理方法及装置
CN113961850A (zh) * 2021-11-11 2022-01-21 北京锐安科技有限公司 网页的特定内容提取方法、装置、设备和存储介质
CN114490714A (zh) * 2022-01-26 2022-05-13 北京华顺信安科技有限公司 一种基于云匹配的资产标签检测方法和系统

Also Published As

Publication number Publication date
CN104168293B (zh) 2017-11-07

Similar Documents

Publication Publication Date Title
CN104168293A (zh) 结合本地内容规则库识别可疑钓鱼网页的方法及系统
JP7528166B2 (ja) インターネットコンテンツ内の要素の直接的なブラウザ内のマークアップのためのシステムおよび方法
CN103685307A (zh) 基于特征库检测钓鱼欺诈网页的方法及系统、客户端、服务器
CN110177114B (zh) 网络安全威胁指标识别方法、设备、装置以及计算机可读存储介质
US11580760B2 (en) Visual domain detection systems and methods
CN104156490A (zh) 基于文字识别检测可疑钓鱼网页的方法及装置
CN104158828B (zh) 基于云端内容规则库识别可疑钓鱼网页的方法及系统
CN108366058B (zh) 防止广告运营商流量劫持的方法、装置、设备及存储介质
CN103685308A (zh) 一种钓鱼网页的检测方法及系统、客户端、服务器
CN107786537B (zh) 一种基于互联网交叉搜索的孤页植入攻击检测方法
CN104766014A (zh) 用于检测恶意网址的方法和系统
CN103678692A (zh) 一种下载文件的安全扫描方法及装置
CN108038173B (zh) 一种网页分类方法、系统及一种网页分类设备
CN104143008A (zh) 基于图片匹配检测钓鱼网页的方法及装置
CN103986731A (zh) 通过图片匹配来检测钓鱼网页的方法及装置
CN104079559B (zh) 一种网址安全性检测方法、装置及服务器
CN102663319A (zh) 下载链接安全提示方法及装置
CN111181922A (zh) 一种钓鱼链接检测方法及系统
CN102446255A (zh) 一种检测页面篡改的方法及装置
CN104239582A (zh) 基于特征向量模型识别钓鱼网页的方法及装置
CN105488400A (zh) 一种恶意网页综合检测方法及系统
CN103491101A (zh) 钓鱼网站检测方法、装置及客户端
CN103647767A (zh) 一种网站信息的展示方法和装置
CN104036190A (zh) 一种检测页面篡改的方法及装置
CN108494728B (zh) 防止流量劫持的黑名单库创建方法、装置、设备及介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220714

Address after: Room 801, 8th floor, No. 104, floors 1-19, building 2, yard 6, Jiuxianqiao Road, Chaoyang District, Beijing 100015

Patentee after: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Address before: 100088 room 112, block D, 28 new street, new street, Xicheng District, Beijing (Desheng Park)

Patentee before: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Patentee before: Qizhi software (Beijing) Co.,Ltd.