具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本申请的发明人在研究钓鱼网页识别方法的过程中,注意到钓鱼作者通过将钓鱼特征嵌入到网页内容信息中的标签,对钓鱼特征进行了隐藏,使得基于原有的钓鱼网页识别方法(例如对网页的URL进行识别)无法将标签内容信息中的钓鱼特征识别出来,基于此,本申请的发明人提出了基于标签来识别钓鱼网页的方法。本文中标签指的是html标签,html标签是html语言(超文本标记语言)中最基本的单位,是html最重要的组成部分。在html语言中,标签通常是成对出现的,比如<b>和</b>,标签对中的第一个标签是开始标签,第二个标签是结束标签,通过标签内的信息来限定html网页中的相关信息,这里标签内容信息即标签内限定的信息,以标题标签为例,<title>淘宝页面</title>,这里标签内容信息即为“淘宝页面”。
本发明提供了在云端服务器侧所建立的云端内容规则库,该云端内容规则库包含至少一个规则集合,每个规则集合包含一条或多条规则,所述规则是根据已知钓鱼网页的特征建立的,其中一个规则集合用于判断网页是否为可疑钓鱼网页。本发明中,云端内容规则库中的规则是基于标签内容信息创建。例如,框架标签(iframe标签)一般用来包含别的页面,iframe元素会创建包含另外一个文档的内联框架(即行内框架)。在iframe标签中定义了多个属性,例如src属性、height属性、width属性等(在此不一一列举),其中src属性用于规定在iframe中显示文档的URL,该属性的属性值为URL;height属性用于规定iframe的高度,该属性的属值为pixels;width属性用于规定iframe的宽度,该属性的属性值为pixels。钓鱼作者可通过iframe标签中的src属性的属性值URL来实现钓鱼目的,例如,将src属性的属性值URL修改为黑URL,因此这里将iframe标签的src属性的属性值URL确定为iframe标签内容信息的指定属性信息,判断该URL是否属于URL黑名单或者是否具有指定路径。
图像标签(img标签)用于向网页中嵌入一幅图像,img标签创建的是被引用图像的占位空间。在img标签中同样定义了很多属性,例如,src属性、alt属性、height属性、width属性等(在此不一一列举),其中src属性用于规定显示图像的URL,该属性的属性值为URL;alt属性用于规定图像的替代文本,该属性的属性值为text;height属性用于设置图像的高度,该属性的属值为pixels%;width属性用于设置图像的宽度,该属性的属性值为pixels%。钓鱼作者可通过img标签中的src属性的属性值URL来实现钓鱼目的,例如,将src属性的属性值URL修改为黑URL,因此这里将img标签的src属性的属性值URL确定为img标签内容信息的指定属性信息,判断该URL是否具有指定路径或是否属于URL黑名单。
标题标签(title标签)用于定义文档的标题,在title标签中定义了dir属性、lang属性,其中dir属性用于规定元素中内容的文本方向;lang属性用于规定元素中内容的语言代码,该属性的属性值为language_code。这里将lang属性的属性值language_code确定为title标签内容信息的指定属性信息,判断标题内容是否具有指定关键字。
超链接标签或锚标签(a标签)用于从一张页面链接到另一张页面。在a标签中定义了多个属性,例如href属性、download属性、rel属性等(在此不一一列举)其中,href属性规定了链接指向的页面的URL,其属性值为URL;download属性规定了被下载的超链接目标,其属性值为filename;rel属性规定了当前文档与被连接文档之间的关系,其属性值为text。钓鱼作者可通过a标签中的href属性的属性值URL来实现钓鱼目的,例如,将href属性的属性值URL修改为黑URL,因此这里将a标签的href属性的属性值URL确定为a标签内容信息的指定属性信息,判断该URL是否属于URL黑名单或者是否具有指定路径。
通过获取浏览器所打开网页的URL,根据该URL确定网页所属站点是否为新站点。
若通过判断得到iframe标签、img标签或者a标签中的URL属于URL黑名单,则可判断网页为可疑钓鱼网页,由此可确定URL属于黑名单可以作为一条规则用于判断网页是否为可疑钓鱼网页,云端内容规则库内至少包含这条规则的规则集合可用于判断网页是否为可疑钓鱼网页。
若通过判断得到iframe标签、img标签或者a标签中的URL具有指定路径,且网页所属站点为新站点,则可判断网页为可疑钓鱼网页,由此可确定URL具有指定路径和网页所属站点为新站点可以作为两条规则用于判断网页是否为可疑钓鱼网页,云端内容规则库内至少包含这两条规则的规则集合可用于判断网页是否为可疑钓鱼网页。
若通过判断得到标题内容具有指定关键字,且网页所属站点为新站点,则可判断网页为可疑钓鱼网页,由此可确定标题内容具有指定关键字和网页所属站点为新站点可以作为两条规则用于判断网页是否为可疑钓鱼网页,云端内容规则库内至少包含这两条规则的规则集合可用于判断网页是否为可疑钓鱼网页。
本发明不仅限于基于上述规则集合来判断网页是否为可疑钓鱼网页,通过标签来识别网页是否为钓鱼网页的方法均涵盖在本发明的保护范围之内,在此不再赘述。下面通过几个具体实施例介绍钓鱼网页的识别方法:
图1示出了根据本发明一个实施例的基于云端内容规则库识别可疑钓鱼网页的方法的流程图。如图1所示,该方法包括以下步骤:
步骤S100,获取客户端在浏览器加载网页时抽取的一项或多项标签内容信息。
具体地,用户通过客户端的浏览器打开网页,客户端在浏览器加载网页时抽取网页的一项或多项标签内容信息,在客户端完成抽取后将抽取的一项或多项标签内容信息上报给云端服务器。本发明中,客户端可以为计算机、移动终端、平板设备等,本发明对此不做限制。
步骤S110,将一项或多项标签内容信息中的指定属性信息与云端内容规则库中的规则进行匹配,获得云端所匹配的至少一条规则。
每一个html标签都拥有各自的属性,用来表示该标签的性质和特性,通常在开始标签中指定标签的属性,以“属性名=“值””的形式来表示。这里的指定属性信息是指标签中特定属性的值,该指定属性信息用于与云端内容规则库中的规则进行匹配。
步骤S120,判断云端所匹配的至少一条规则是否涵盖云端内容规则库中任一规则集合所包含的一条或多条规则,根据判断结果识别网页为可疑钓鱼网页。
任一规则集合包含一条或多条规则。云端服务器可以根据云端内容规则库中任一规则集合来判断网页是否为可疑钓鱼网页。在根据指定属性信息获得云端所匹配的至少一条规则后,判断云端所匹配的至少一条规则是否涵盖云端内容规则中的任一规则集合,若是,则判断网页为可疑钓鱼网页。
根据本发明上述实施例提供的方法,该方法的执行基于云端服务器侧所建立的云端内容规则库,该云端内容规则库包含至少一个规则集合,每个规则集合包含一条或多条规则;获取客户端在浏览器加载网页时抽取的一项或多项标签内容信息;将一项或多项标签内容信息中的指定属性信息与云端内容规则库中的规则进行匹配,获得云端所匹配的至少一条规则;判断云端所匹配的至少一条规则是否涵盖云端内容规则库中任一规则集合所包含的一条或多条规则,根据判断结果识别网页为可疑钓鱼网页。在本实施例中,将标签内容信息中的指定属性信息与云端内容规则库中的规则进行匹配,解决了网页URL为正常URL,但该网页内容中嵌有钓鱼特征的情况却无法正确识别网页的技术问题,提高了钓鱼网页识别准确率。
图2示出了根据本发明另一个实施例的基于云端内容规则库识别可疑钓鱼网页的方法的流程图。如图2所示,该方法包括以下步骤:
步骤S200,获取客户端在浏览器加载网页时抽取的一项或多项标签内容信息。
一项或多项标签内容信息包含以下信息的至少一项:标题标签、图像标签、框架标签、锚标签、超链接标签中的内容信息。具体地,用户通过客户端的浏览器打开网页,客户端在浏览器加载网页时抽取网页的标题标签、图像标签、框架标签、锚标签、超链接标签中的内容信息,在客户端完成抽取后将抽取的标签内容信息上报给云端服务器。本发明中,客户端可以为计算机、移动终端、平板设备等,本发明对此不做限制。
步骤S210,将一项或多项标签内容信息中的指定属性信息与云端内容规则库中的规则进行匹配,获得云端所匹配的至少一条规则。
每一个html标签都拥有各自的属性,用来表示该标签的性质和特性,一般标签都是成对出现的即开始标签和结束标签,通常在开始标签中指定标签的属性,以“属性名=“值””的形式来表示。这里的指定属性信息是指标签中特定属性的值,该指定属性信息用于与云端内容规则库中的规则进行匹配。
在步骤S200中抽取了标题标签、图像标签、框架标签、锚标签、超链接标签中的内容信息,其中一项或多项标签内容信息中的指定属性信息具体为:标签内容信息中携带的URL或标题内容。以锚标签为例,锚标签具有href属性、charset属性、download属性等,其中,在href属性值为URL,即规定链接指向的页面的URL;charset属性值为char_encoding,即规定被连接文档的字符集;download属性值为filename,即规定被下载的超链接目标。在锚标签中,该标签内容信息中的指定属性信息为href属性值URL。根据各标签的属性确定,标题标签内容信息中的指定属性信息为标题内容,图像标签、框架标签、锚标签、超链接标签内容信息中的指定属性信息为URL。将指定属性信息URL或标题内容与云端内容规则库中的规则进行匹配,获得云端所匹配的至少一条规则。
具体地,判断一项或多项标签内容信息中任一项标签内容信息携带的URL是否属于黑名单,若是,则确定该项标签内容信息携带的URL与第一规则匹配,获得云端所匹配的第一规则。
判断一项或多项标签内容信息中任一项标签内容信息携带的URL是否具有指定路径,若是,则确定该项标签内容信息携带的URL与第二规则匹配,获得云端所匹配的第二规则。这里的指定路径指URL中包含敏感关键字,例如taobao、shishicai等。
判断一项或多项标签内容信息中任一项标签内容信息携带的标题内容是否具有指定关键字,若是,则确定该项标签内容信息携带的标题内容与第三规则匹配,获得云端所匹配的第三规则。
判断网页所属站点是否为新站点,若是,则获得云端所匹配的第四规则。其中,通过判断网页所属站点在预设时间段内的访问量是否小于预设值;若访问量小于预设值,则确定网页所属站点为新站点。例如,根据网页的URL判断网页所属站点在一个月内的访问量是否小于预设值5000,若访问量小于预设值5000,则确定网页所属站点为新站点。
举例说明,将标签内容信息的指定属性信息与云端内容规则库内的规则匹配,确定与第三规则、第四规则匹配即标题标签内含有淘宝、该站点为新站点,获得云端所匹配的规则。
步骤S220,采用基于网页内容进行识别的方法对网页进行识别,得到识别结果。
在本实施例中介绍两种基于网页内容识别的方法:
<1>:在访问网页加载完成后,提取网页的多个内容片段,其中,内容片段可以是网页上的文本内容按特定的编码转换后的二进制编码数据;获取每个内容片段对应的特征ID,其中内容片段与特征ID唯一对应;将多个内容片段对应的特征ID与特征库中的特征ID进行匹配,其中,特征库由服务器生成,是大量的钓鱼网页中的恶意内容片段对应的特征ID的集合;若多个内容片段对应的特征ID中具有与特征库中的特征ID匹配的至少一个特征ID,则根据网页的信息,计算网页的评估分;将网页的评估分与设定阈值进行比较,得到比较结果。通过特征库和对网页信息的综合评分来对网页进行识别,提高了识别效率,而且通过多层次的识别,降低了误判率,提高了识别准确率。
<2>:在浏览器的网页事件加载完成后,提取网页的多个内容片段,其中,内容片段可以是网页上的文本内容按特定的编码转换后的二进制编码数据;获取每个内容片段对应的特征ID,其中内容片段与特征ID唯一对应;将多个内容片段对应的特征ID与特征库中的特征ID进行匹配,其中,特征库由服务器生成,是大量的钓鱼网页中的恶意内容片段对应的特征ID的集合;若多个内容片段对应的特征ID中具有与特征库中的特征ID匹配的至少一个特征ID,则将该匹配的至少一个特征ID进行组合计算得到至少一个模板ID,其中,模板ID可以是通过特定的快速哈希算法生成的定长的二进制数据,例如,通过MD5算法生成的64位的二进制串,与特征ID类似地,不同特征ID按照相同的顺序组合,按照相同的算法计算得到的模板ID是唯一的并且是不可逆的;将至少一个模板ID与钓鱼网页识别库中的模板ID进行匹配,得到匹配结果。在该方法中,对网页的识别结合了网页中的多个网页元素的特征ID以及特征ID组合计算得到的模板ID,对网页进行了多层次的识别,通过上述多层次的识别,降低了误判率,提高了识别准确率。
步骤S220是本实施例的可选步骤。
步骤S230,判断云端所匹配的至少一条规则是否涵盖云端内容规则库中任一规则集合所包含的一条或多条规则,若是,则执行步骤S240;若否,则方法结束。
其中,云端内容规则库包含:至少包含第一规则的第一规则集合;和/或,至少包含第二规则和第四规则的第二规则集合;和/或,至少包含第三规则和第四规则的第三规则集合;其中,第一规则为URL属于黑名单;第二规则为URL具有指定路径;第三规则为标题内容具有指定关键字;第四规则为网页所属站点为新站点。
步骤S240,结合网页内容识别结果,识别网页为可疑钓鱼网页。
在判断云端所匹配的至少一条规则涵盖云端内容规则库中任一规则集合所包含的一条或多条规则的情况下,结合步骤S220中基于网页内容对网页进行识别的结果,识别网页为可疑钓鱼网页。
下面分别介绍结合步骤S220中的两种识别结果,识别网页为可疑钓鱼网页:
<1>:根据网页的信息计算得到网页的评估分,将网页的评估分与设定阈值例如0.7进行比较,若网页的评估分大于0.7,且云端所匹配的至少一条规则涵盖云端内容规则库中任一规则集合所包含的一条或多条规则,则将网页识别为可疑钓鱼网页;若网页的评估分小于0.7,则可将网页的URL发送给审核人员,由审核人员进行审核,从而更精确的判断网页是否为可疑钓鱼网页。
<2>:在步骤S220中介绍了通过提取网页的多个内容片段,并将内容片段的特征ID与特征库中的特征ID进行匹配,将匹配的至少一个特征ID进行组合计算得到至少一个模板ID,将至少一个模板ID与钓鱼网页识别库中的模板ID进行匹配,若至少一个模板ID中具有与钓鱼网页识别库中的模板ID匹配的模板ID,且云端所匹配的至少一条规则涵盖云端内容规则库中任一规则集合所包含的一条或多条规则,则将网页识别为可疑钓鱼网页;若至少一个模板ID中没有与钓鱼网页识别库中的模板ID匹配的模板ID,则可将网页的URL发送给审核人员,由审核人员进行审核,从而更精确的判断网页是否为可疑钓鱼网页。
在没有获得网页内容识别结果,即没有执行上述步骤S220的情况下,本发明可仅根据云端内容规则库中的规则集合来判断网页是否为可疑钓鱼网页,即在获得云端所匹配的至少一条规则后,直接判断云端所匹配的至少一条规则是否涵盖云端内容规则中的任一规则集合所包含的一条或多条规则,根据判断结果识别网页为可疑钓鱼网页。
步骤S250,生成云查询日志用于记录网页被识别为可疑钓鱼网页。
在根据上述步骤确定网页为可疑钓鱼网页后,可采用生成云查询日志的方式将识别的可疑钓鱼网页记录在云查询日志中,审核人员可通过该日志了解是否有误拦截的情况,对于误拦截的网页可以进行出库处理。
此外,还可向客户端发送用于报警的提示信息,以使客户端向用户展示提示信息,用户在看到客户端展示的提示信息后,可以有选择性的决定是否继续访问网页。
此外,为了降低云端服务器的工作量,可以先基于网页内容计算网页的评估分,根据网页的评估分与设定阈值比较结果来判断是否执行云查询(即向云端上报标签内容信息来查询云端规则库),首先在客户端对网页进行了筛选,对筛选出的大于设定阈值的网页做云查询,加快了网页识别的检测速度,降低了云端服务器的负载。
为了提升钓鱼网页识别速率,减少对云端资源的占用,在获取网页的标签内容信息之前,先将网页的网址信息发送给云端服务器,以供云端服务器判断网页所属站点是否为新站点,在接收到云端服务器判断出网页所属站点为新站点的通知信息的情况下,客户端抽取网页的标签内容信息,实现通过云端控制只针对新站进行检测,这样减少了云端服务器对网页的识别数量以及客户端的工作量。
根据本发明上述实施例提供的方法,获取客户端在浏览器加载网页时抽取的一项或多项标签内容信息;将一项或多项标签内容信息中的指定属性信息与云端内容规则库中的规则进行匹配,获得云端所匹配的至少一条规则;采用基于网页内容进行识别的方法对网页进行识别,得到识别结果;判断云端所匹配的至少一条规则是否涵盖云端内容规则库中任一规则集合所包含的一条或多条规则;在判断出云端所匹配的至少一条规则涵盖云端内容规则库中任一规则集合所包含的一条或多条规则的情况下,结合网页内容识别结果,识别网页为可疑钓鱼网页;生成云查询日志用于记录网页被识别为可疑钓鱼网页。在本实施例中,将标签内容信息中的指定属性信息与云端内容规则库中的规则进行匹配,解决了网页URL为正常的URL,但该网页内容中嵌有钓鱼特征的情况却无法正确识别网页的技术问题,提高了钓鱼网页识别准确率;结合网页内容识别,通过这种多层次的识别降低了误判率;根据生成的云查询日志可以进一步检测是否有误拦截的情况,对于误拦截的网页可以进行出库处理,进一步提高了网页识别的准确率;本方法克服了现有的基于机器学习来识别钓鱼网页的方法不能将全部的钓鱼特征检测出来,而且机器学习无法适应钓鱼特征的变化,使得识别方法相对滞后,从而给用户造成损失的缺陷,利用该方法能够全面的识别钓鱼网页,而不会出现用户受骗之后才能将相应的钓鱼网页获取再根据该钓鱼网页做相应识别方法的情况。
图3示出了根据本发明另一个实施例的基于云端内容规则库识别可疑钓鱼网页的方法的流程图。如图3所示,该方法包括以下步骤:
步骤S300,获取客户端在浏览器加载网页时抽取的iframe标签内容信息。
本实施例中的有关iframe标签的内容可参见上面的描述,在此不再赘述。
步骤S310,将iframe标签内容信息中的指定属性信息与云端内容规则库中的规则进行匹配,获得云端所匹配的至少一条规则。
根据上述所介绍的iframe标签,将iframe标签内容信息中的指定属性信息URL与云端内容规则库中的规则进行匹配,若指定属性信息URL属于黑名单,则确定iframe标签内容信息中的指定属性信息URL与云端内容规则内的第一规则匹配上,并获得该第一规则。通过检测iframe标签中嵌入的URL,可以将网页中其他未知的钓鱼特征检测出来,扩大了钓鱼特征的检测范围。
步骤S320,判断云端所匹配的至少一条规则是否涵盖云端内容规则库中任一规则集合所包含的一条或多条规则,若是,则执行步骤S330;若否,则方法结束。
判断步骤S310中所匹配的第一规则是否涵盖云端内容规则库中的任一规则集合所包含的一条或多条规则,通过判断得到步骤S310中所匹配的第一规则涵盖了云端内容规则库内的第一规则集合所包含的一条规则。
步骤S330,生成云查询日志用于记录网页被识别为可疑钓鱼网页。
该步骤与图2所示实施例中的S250类似,在此不再赘述。
本发明不仅限于根据iframe标签中的URL是否属于黑名单来判断网页是否为可疑钓鱼网页,还可根据img标签、a标签等中的URL是否属于黑名单来判断网页是否为可疑钓鱼网页,具体方法与根据iframe标签的判断方法类似,在此不再赘述。
根据本发明上述实施例提供的方法,获取网页中的iframe标签内容信息,从该iframe标签内容信息中提取指定属性信息URL,判断该URL是否属于黑名单,若是,则能够确定网页为可疑钓鱼网页,而不需要再结合其他规则进行判断,该方法既快速又能将隐藏在iframe标签内的钓鱼特征检测出来,扩大了钓鱼特征的检测范围,解决了网页URL为正常URL但该网页内容中嵌有钓鱼特征的情况却无法正确识别网页的技术问题,提高了钓鱼网页识别准确率。
图4示出了根据本发明另一个实施例的基于云端内容规则库识别可疑钓鱼网页的方法的流程图。如图4所示,该方法包括以下步骤:
步骤S400,获取客户端在浏览器加载网页时抽取的img标签内容信息。
本实施例中的有关img标签的内容可参见上面的描述,在此不再赘述。
步骤S410,将img标签内容信息中的指定属性信息与云端内容规则库中的规则进行匹配,获得云端所匹配的至少一条规则。
根据上述所介绍的img标签,将img标签内容信息中的指定属性信息URL与云端内容规则库中的规则进行匹配,若指定属性信息URL具有指定路径,则确定img标签内容信息中的指定属性信息URL与云端内容规则内的第二规则匹配上,并获得该第二规则。例如,img标签内容信息中的指定属性信息URL中包含taobao。
步骤S420,判断网页所属站点是否为新站点,若是则执行步骤S430,若否则方法结束。
具体地,通过判断网页所属站点在预设时间段内的访问量是否小于预设值;若访问量小于预设值,则确定网页所属站点为新站点。例如,判断网页所属站点在一个月内的访问量是否小于预设值5000,若访问量小于预设值5000,则确定网页所属站点为新站点。
步骤S430,获得云端所匹配的第四规则。
举例来说,如果img标签内容信息中定义了淘宝CDN(内容分发网络)中的淘宝图片,那么img标签内容信息中的URL具有淘宝路径,并且云端服务器通过对网页所属站点进行检测,判断该网页所属站点为新站点,由此获得云端所匹配的第二规则和第四规则。
步骤S440,判断云端所匹配的至少一条规则是否涵盖云端内容规则库中任一规则集合所包含的一条或多条规则,若是,则执行步骤S450;若否,则方法结束。
判断步骤S410中所匹配的第二规则、步骤S430中获得的第四规则是否涵盖云端内容规则库中的任一规则集合所包含的一条或多条规则,通过判断得到步骤S410中所匹配的第二规则、步骤S430中获得的第四规则涵盖了云端内容规则库内的第二规则集合所包含的多条规则。
对于上面的例子,img标签内容信息中的URL具有淘宝路径,但网页所属站点是新站点,那么这种情况很有可能属于淘宝钓鱼,因此需要将该网页列为可疑钓鱼网页。
步骤S450,生成云查询日志用于记录网页被识别为可疑钓鱼网页。
该步骤与图2所示实施例中的步骤S250类似,在此不再赘述。
通过统计img标签所定义的URL的链接内容,基于链接内容进行学习,并运营成一个规则,将有问题的链接内容展示给用户。
本发明还可通过判断iframe标签或a标签中的URL是否具有指定路径,并结合网页所属站点是否为新站点来判断网页是否为可疑钓鱼网页,具体方法与根据img标签中的URL是否具有指定路径、网页所属站点是否为新站点来判断网页是否为可疑钓鱼网页的方法类似,在此不再赘述。
根据本发明上述实施例提供的方法,获取网页中的img标签内容信息,从该img标签内容信息中提取指定属性信息URL,判断该URL是否具有指定路径,并且判断网页所属站点是否为新站点,若URL具有指定路径且网页所属站点为新站点,则能够确定网页为可疑钓鱼网页。针对img标签链接至安全图片,但网页为新站点的情况提出了具体的识别方法,该方法进一步提高了网页识别的准确率。
图5示出了根据本发明另一个实施例的基于云端内容规则库识别可疑钓鱼网页的方法的流程图。如图5所示,该方法包括以下步骤:
步骤S500,获取客户端在浏览器加载网页时抽取的title标签内容信息。
本实施例中的有关title标签的内容可参见上面的描述,在此不再赘述。
步骤S510,将title标签内容信息中的指定属性信息与云端内容规则库中的规则进行匹配,获得云端所匹配的至少一条规则。
根据上述所介绍的title标签,将title标签内容信息中的指定属性信息标题内容与云端内容规则库中的规则进行匹配,若标题内容具有指定关键字,则确定title标签内容信息中的标题内容与云端内容规则内的第三规则匹配上,并获得该第三规则。例如,title标签内容信息中的标题内容中包含指定关键字“淘宝”。
步骤S520,判断网页所属站点是否为新站点,若是则执行步骤S530,若否则方法结束。
具体地,通过判断网页所属站点在预设时间段内的访问量是否小于预设值;若访问量小于预设值,则确定网页所属站点为新站点。例如,判断网页所属站点在一个月内的访问量是否小于预设值5000,若访问量小于预设值5000,则确定网页所属站点为新站点。
步骤S530,获得云端所匹配的第四规则。
步骤S540,判断云端所匹配的至少一条规则是否涵盖云端内容规则库中任一规则集合所包含的一条或多条规则,若是,则执行步骤S550;若否,则方法结束。
判断步骤S510中所匹配的第三规则、步骤S530中获得的第四规则是否涵盖云端内容规则库中的任一规则集合所包含的一条或多条规则,通过判断得到步骤S510中所匹配的第三规则、步骤S530中获得的第四规则涵盖了云端内容规则库内的第二规则集合所包含的多条规则。对于这种标题内容中包含指定关键字“淘宝”,但网页所属站点是新站点的情况,很有可能属于淘宝钓鱼,因此需要将该网页列为可疑钓鱼网页。
步骤S550,生成云查询日志用于记录网页被识别为可疑钓鱼网页。
该步骤与图2所示实施例中的步骤S250类似,在此不再赘述。
根据本发明上述实施例提供的方法,获取网页中的title标签内容信息,从该title标签内容信息中提取指定属性信息标题内容,判断该标题内容是否具有指定关键字,并且判断网页所属站点是否为新站点,若标题内容具有指定关键字且网页所属站点为新站点,则能够确定网页为可疑钓鱼网页。针对title标签包含指定关键字例如淘宝,但网页为新站点的情况提出了具体的识别方法,该方法进一步提高了网页识别的准确率。
图6示出了根据本发明一个实施例的云端服务器的结构示意图。如图6所示,该云端服务器包括:云端内容规则库610、接收模块620、匹配模块630、识别模块640。
云端内容规则库610,包含至少一个规则集合,每个规则集合包含一条或多条规则。
其中,云端内容规则库包含:至少包含第一规则的第一规则集合;和/或,至少包含第二规则和第四规则的第二规则集合;和/或,至少包含第三规则和第四规则的第三规则集合;其中,第一规则为URL属于黑名单;第二规则为URL具有指定路径;第三规则为标题内容具有指定关键字;第四规则为网页所属站点为新站点。
接收模块620,适于获取客户端在浏览器加载网页时抽取的一项或多项标签内容信息。
一项或多项标签内容信息包含以下信息的至少一项:标题标签、图像标签、框架标签、锚标签、超链接标签中的内容信息。具体地,用户通过客户端的浏览器打开网页,客户端在浏览器加载网页时抽取网页的标题标签、图像标签、框架标签、锚标签、超链接标签中的内容信息,在客户端完成抽取后将抽取的标签内容信息上报给云端服务器。本发明中,客户端可以为计算机、移动终端、平板设备等,本发明对此不做限制。
匹配模块630,适于将一项或多项标签内容信息中的指定属性信息与云端内容规则库中的规则进行匹配,获得云端所匹配的至少一条规则。
每一个html标签都拥有各自的属性,用来表示该标签的性质和特性,一般标签都是成对出现的即开始标签和结束标签,通常在开始标签中指定标签的属性,以“属性名=“值””的形式来表示。这里的指定属性信息是指标签中特定属性的值,该指定属性信息用于与云端内容规则库中的规则进行匹配。
接收模块620获取了标题标签、图像标签、框架标签、锚标签、超链接标签中的内容信息,其中一项或多项标签内容信息中的指定属性信息具体为:标签内容信息中携带的URL或标题内容。以锚标签为例,锚标签具有href属性、charset属性、download属性等,其中,在href属性值为URL,即规定链接指向的页面的URL;charset属性值为char_encoding,即规定被连接文档的字符集;download属性值为filename,即规定被下载的超链接目标。在锚标签中,该标签内容信息中的指定属性信息为href属性值URL。根据各标签的属性确定,标题标签内容信息中的指定属性信息为标题内容,图像标签、框架标签、锚标签、超链接标签内容信息中的指定属性信息为URL。将指定属性信息URL或标题内容与云端内容规则库中的规则进行匹配,获得云端所匹配的至少一条规则。
匹配模块630进一步适于:判断一项或多项标签内容信息中任一项标签内容信息携带的URL是否属于黑名单,若是,则确定该项标签内容信息携带的URL与第一规则匹配,获得云端所匹配的第一规则。
匹配模块630进一步适于:判断一项或多项标签内容信息中任一项标签内容信息携带的URL是否具有指定路径,若是,则确定该项标签内容信息携带的URL与第二规则匹配,获得云端所匹配的第二规则。
匹配模块630进一步适于:判断一项或多项标签内容信息中任一项标签内容信息携带的标题内容是否具有指定关键字,若是,则确定该项标签内容信息携带的标题内容与第三规则匹配,获得云端所匹配的第三规则。
匹配模块630进一步适于:判断网页所属站点是否为新站点,若是,则获得云端所匹配的第四规则。
匹配模块630进一步适于:判断网页所属站点在预设时间段内的访问量是否小于预设值;若访问量小于预设值,则确定网页所属站点为新站点。
识别模块640,适于判断云端所匹配的至少一条规则是否涵盖云端内容规则库中任一规则集合所包含的一条或多条规则,根据判断结果识别网页为可疑钓鱼网页。
云端服务器还包括:内容识别结果获取模块650,适于采用基于网页内容进行识别的方法对网页进行识别,得到识别结果。
在本实施例中介绍两种基于网页内容识别的方法:
<1>:在访问网页加载完成后,提取网页的多个内容片段,其中,内容片段可以是网页上的文本内容按特定的编码转换后的二进制编码数据;获取每个内容片段对应的特征ID,其中内容片段与特征ID唯一对应;将多个内容片段对应的特征ID与特征库中的特征ID进行匹配,其中,特征库由服务器生成,是大量的钓鱼网页中的恶意内容片段对应的特征ID的集合;若多个内容片段对应的特征ID中具有与特征库中的特征ID匹配的至少一个特征ID,则根据网页的信息,计算网页的评估分;将网页的评估分与设定阈值进行比较,得到比较结果。通过特征库和对网页信息的综合评分来对网页进行识别,提高了识别效率,而且通过多层次的识别,降低了误判率,提高了识别准确率。
<2>:在浏览器的网页事件加载完成后,提取网页的多个内容片段,其中,内容片段可以是网页上的文本内容按特定的编码转换后的二进制编码数据;获取每个内容片段对应的特征ID,其中内容片段与特征ID唯一对应;将多个内容片段对应的特征ID与特征库中的特征ID进行匹配,其中,特征库由服务器生成,是大量的钓鱼网页中的恶意内容片段对应的特征ID的集合;若多个内容片段对应的特征ID中具有与特征库中的特征ID匹配的至少一个特征ID,则将该匹配的至少一个特征ID进行组合计算得到至少一个模板ID,其中,模板ID可以是通过特定的快速哈希算法生成的定长的二进制数据,例如,通过MD5算法生成的64位的二进制串,与特征ID类似地,不同特征ID按照相同的顺序组合,按照相同的算法计算得到的模板ID是唯一的并且是不可逆的;将至少一个模板ID与钓鱼网页识别库中的模板ID进行匹配,得到匹配结果。在该方法中,对网页的识别结合了网页中的多个网页元素的特征ID以及特征ID组合计算得到的模板ID,对网页进行了多层次的识别,通过上述多层次的识别,降低了误判率,提高了识别准确率。
识别模块640进一步适于:在判断出云端所匹配的至少一条规则涵盖云端内容规则库中任一规则集合所包含的一条或多条规则的情况下,结合识别结果,识别网页为可疑钓鱼网页。
云端服务器还包括:日志生成模块660,适于生成云查询日志用于记录网页被识别为可疑钓鱼网页。
和/或,发送模块670,适于向客户端发送用于报警的提示信息,以使客户端向用户展示提示信息。
图7示出了根据本发明一个实施例的基于云端内容规则库识别可疑钓鱼网页的系统的结构示意图,如图7所示,该系统包括客户端700和云端服务器600,其中有关云端服务器600的具体结构和功能可参见云端服务器实施例的描述,在此不再赘述。
根据本发明上述实施例提供的基于云端内容规则库识别可疑钓鱼网页的系统,获取客户端在浏览器加载网页时抽取的一项或多项标签内容信息;将一项或多项标签内容信息中的指定属性信息与云端内容规则库中的规则进行匹配,获得云端所匹配的至少一条规则;采用基于网页内容进行识别的方法对网页进行识别,得到识别结果;判断云端所匹配的至少一条规则是否涵盖云端内容规则库中任一规则集合所包含的一条或多条规则;在判断出云端所匹配的至少一条规则涵盖云端内容规则库中任一规则集合所包含的一条或多条规则的情况下,结合网页内容识别结果,识别网页为可疑钓鱼网页;生成云查询日志用于记录网页被识别为可疑钓鱼网页。在本实施例中,将标签内容信息中的指定属性信息与云端内容规则库中的规则进行匹配,解决了网页URL为正常的URL,但该网页内容中嵌有钓鱼特征的情况却无法正确识别网页的技术问题,提高了钓鱼网页识别准确率;结合网页内容识别,通过这种多层次的识别降低了误判率;根据生成的云查询日志可以进一步检测是否有误拦截的情况,对于误拦截的网页可以进行出库处理,进一步提高了网页识别的准确率,克服了现有的基于机器学习来识别钓鱼网页的方法不能将全部的钓鱼特征检测出来,而且机器学习无法适应钓鱼特征的变化,使得识别方法相对滞后,从而给用户造成损失的缺陷,利用该方法能够全面的识别钓鱼网页,而不会出现用户受骗之后才能将相应的钓鱼网页获取再根据该钓鱼网页做相应识别方法的情况。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的基于云端内容规则库识别可疑钓鱼网页的设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
本发明公开了:A1、一种基于云端内容规则库识别可疑钓鱼网页的方法,所述云端内容规则库包含至少一个规则集合,每个规则集合包含一条或多条规则;所述方法包括:
获取客户端在浏览器加载网页时抽取的一项或多项标签内容信息;
将一项或多项标签内容信息中的指定属性信息与所述云端内容规则库中的规则进行匹配,获得云端所匹配的至少一条规则;
判断所述云端所匹配的至少一条规则是否涵盖所述云端内容规则库中任一规则集合所包含的一条或多条规则,根据判断结果识别所述网页为可疑钓鱼网页。
A2、根据A1所述的方法,所述一项或多项标签内容信息包含以下信息的至少一项:标题标签、图像标签、框架标签、锚标签、超链接标签中的内容信息;
所述指定属性信息具体为:所述标签内容信息中携带的URL或标题内容。
A3、根据A1或A2所述的方法,所述云端内容规则库包含:
至少包含第一规则的第一规则集合;
和/或,至少包含第二规则和第四规则的第二规则集合;
和/或,至少包含第三规则和第四规则的第三规则集合;
其中,所述第一规则为URL属于黑名单;所述第二规则为URL具有指定路径;所述第三规则为标题内容具有指定关键字;所述第四规则为网页所属站点为新站点。
A4、根据A3所述的方法,所述将一项或多项标签内容信息中的指定属性信息与所述云端内容规则库中的规则进行匹配,获得云端所匹配的至少一条规则进一步包括:
判断所述一项或多项标签内容信息中任一项标签内容信息携带的URL是否属于所述黑名单,若是,则确定该项标签内容信息携带的URL与所述第一规则匹配,获得云端所匹配的第一规则。
A5、根据A3所述的方法,所述将一项或多项标签内容信息中的指定属性信息与所述云端内容规则库中的规则进行匹配,获得云端所匹配的至少一条规则进一步包括:
判断所述一项或多项标签内容信息中任一项标签内容信息携带的URL是否具有所述指定路径,若是,则确定该项标签内容信息携带的URL与所述第二规则匹配,获得云端所匹配的第二规则。
A6、根据A3所述的方法,所述将一项或多项标签内容信息中的指定属性信息与所述云端内容规则库中的规则进行匹配,获得云端所匹配的至少一条规则进一步包括:
判断所述一项或多项标签内容信息中任一项标签内容信息携带的标题内容是否具有指定关键字,若是,则确定该项标签内容信息携带的标题内容与所述第三规则匹配,获得云端所匹配的第三规则。
A7、根据A3所述的方法,所述方法进一步包括:判断所述网页所属站点是否为新站点,若是,则获得云端所匹配的第四规则。
A8、根据A7所述的方法,所述判断网页所属站点是否为新站点具体为:判断所述网页所属站点在预设时间段内的访问量是否小于预设值;若所述访问量小于预设值,则确定所述网页所属站点为新站点。
A9、根据A1所述的方法,所述方法进一步包括:采用基于网页内容进行识别的方法对所述网页进行识别,得到识别结果;
所述根据判断结果识别网页为可疑钓鱼网页进一步包括:
在判断出所述云端所匹配的至少一条规则涵盖所述云端内容规则库中任一规则集合所包含的一条或多条规则的情况下,结合所述识别结果,识别所述网页为可疑钓鱼网页。
A10、根据A1所述的方法,在所述识别网页为可疑钓鱼网页之后进一步包括:生成云查询日志用于记录所述网页被识别为可疑钓鱼网页;和/或,向客户端发送用于报警的提示信息,以使所述客户端向用户展示所述提示信息。
本发明还公开了:B11、一种云端服务器,包括:
云端内容规则库,包含至少一个规则集合,每个规则集合包含一条或多条规则;
接收模块,适于获取客户端在浏览器加载网页时抽取的一项或多项标签内容信息;
匹配模块,适于将一项或多项标签内容信息中的指定属性信息与所述云端内容规则库中的规则进行匹配,获得云端所匹配的至少一条规则;
识别模块,适于判断所述云端所匹配的至少一条规则是否涵盖所述云端内容规则库中任一规则集合所包含的一条或多条规则,根据判断结果识别所述网页为可疑钓鱼网页。
B12、根据B11所述的云端服务器,所述一项或多项标签内容信息包含以下信息的至少一项:标题标签、图像标签、框架标签、锚标签、超链接标签中的内容信息;
所述指定属性信息具体为:所述标签内容信息中携带的URL或标题内容。
B13、根据B11或B12所述的云端服务器,所述云端内容规则库包含:
至少包含第一规则的第一规则集合;
和/或,至少包含第二规则和第四规则的第二规则集合;
和/或,至少包含第三规则和第四规则的第三规则集合;
其中,所述第一规则为URL属于黑名单;所述第二规则为URL具有指定路径;所述第三规则为标题内容具有指定关键字;所述第四规则为网页所属站点为新站点。
B14、根据B13所述的云端服务器,所述匹配模块进一步适于:判断所述一项或多项标签内容信息中任一项标签内容信息携带的URL是否属于所述黑名单,若是,则确定该项标签内容信息携带的URL与所述第一规则匹配,获得云端所匹配的第一规则。
B15、根据B13所述的云端服务器,所述匹配模块进一步适于:判断所述一项或多项标签内容信息中任一项标签内容信息携带的URL是否具有所述指定路径,若是,则确定该项标签内容信息携带的URL与所述第二规则匹配,获得云端所匹配的第二规则。
B16、根据B13所述的云端服务器,所述匹配模块进一步适于:判断所述一项或多项标签内容信息中任一项标签内容信息携带的标题内容是否具有指定关键字,若是,则确定该项标签内容信息携带的标题内容与所述第三规则匹配,获得云端所匹配的第三规则。
B17、根据B13所述的云端服务器,所述匹配模块进一步适于:判断所述网页所属站点是否为新站点,若是,则获得云端所匹配的第四规则。
B18、根据B17所述的云端服务器,所述匹配模块进一步适于:判断所述网页所属站点在预设时间段内的访问量是否小于预设值;若所述访问量小于预设值,则确定所述网页所属站点为新站点。
B19、根据B11所述的云端服务器,还包括:内容识别结果获取模块,适于采用基于网页内容进行识别的方法对所述网页进行识别,得到识别结果;
所述识别模块进一步适于:在判断出所述云端所匹配的至少一条规则涵盖所述云端内容规则库中任一规则集合所包含的一条或多条规则的情况下,结合所述识别结果,识别所述网页为可疑钓鱼网页。
B20、根据B11所述的云端服务器,还包括:
日志生成模块,适于生成云查询日志用于记录所述网页被识别为可疑钓鱼网页;
和/或,发送模块,适于向客户端发送用于报警的提示信息,以使所述客户端向用户展示所述提示信息。
本发明还公开了:C21、一种基于云端内容规则库识别可疑钓鱼网页的系统,包括:B11-B20任一项所述的云端服务器以及客户端。