发明内容
基于此,有必要针对现有的人工方式识别钓鱼网站效率和准确率均较低的问题,提供一种钓鱼网站识别方法和系统。
为实现本发明目的提供的一种钓鱼网站识别方法,包括如下步骤:
根据接收到的待识别网站,获取所述待识别网站的IP地址、域名信息、收录信息和网页数据;
通讯连接存储有各模板库的预存数据库,根据所述网页数据中的各个特征关键词和所述预存数据库的所述各模板库中内置的特征字符,确定所述待识别网站的类型和所述预存数据库中与所述待识别网站的类型相匹配的第一模板库;
通讯连接所述第一模板库,根据所述第一模板库中存储的数据,分别对所述IP地址、所述域名信息、所述收录信息和所述特征关键词进行分析,得到每项的单风险值,并将每项所述单风险值进行综合,得到所述待识别网站的总风险值;
比较所述总风险值与预设风险值,当所述总风险值大于或等于所述预设风险值时,判定所述待识别网站为钓鱼网站。
在其中一个实施例中,当判断出所述待识别网站为所述钓鱼网站后,还包括如下步骤:
上传所述待识别网站的所述域名信息至云端服务器。
在其中一个实施例中,根据接收到的所述待识别网站,使用socket通信模拟http数据包,获取网络服务器返回的所述待识别网站的所述IP地址、所述域名信息、所述收录信息和所述网页数据。
在其中一个实施例中,所述通讯连接存储有各模板库的预存数据库,根据所述网页数据中的各个特征关键词和所述预存数据库的所述各模板库中内置的特征字符,确定所述待识别网站的类型和所述预存数据库中与所述待识别网站的类型相匹配的第一模板库,包括如下步骤:
依次在所述预存数据库的各模板库中内置的所述特征字符中扫描所述网页数据中的各个所述特征关键词,并对各个所述特征关键词在同一模板库中出现的次数进行求和或加权叠加,获取相应的多个特征统计值;
由所述多个特征统计值中筛选出最大特征统计值;
根据所述最大特征统计值,确定所述待识别网站的类型,并调取所述预存数据库中与所述待识别网站的类型相匹配的模板库作为所述第一模板库。
在其中一个实施例中,所述通讯连接所述第一模板库,根据所述第一模板库,分别对所述IP地址、所述域名信息、所述收录信息和所述特征关键词进行分析,得到每项的单风险值,并将每项所述单风险值进行综合,得到所述待识别网站的总风险值,包括如下步骤:
分析所述IP地址;所述IP地址为第一国外IP地址信息时,设置所述IP地址的单风险值为第一预设值;
对比所述域名信息与所述第一模板库中存储的可信任域名信息,所述域名信息与所述可信任域名信息完全不同时,设置所述域名信息的单风险值为第二预设值;
对比所述收录信息与所述第一模板库中存储的第一收录信息,所述收录信息小于所述第一收录信息时,设置所述收录信息的单风险值为第三预设值;
对比所述特征关键词在所述网页数据中的总数量与所述第一模板库中存储的相应的第一特征字符统计值,所述特征关键词的总数量大于所述第一特征字符统计值预设值时,设置所述特征关键词的总数量的单风险值为第四预设值;
对所述IP地址的单风险值、所述域名信息的单风险值、所述收录信息的单风险值和所述特征关键词的总数量的单风险值进行求和或加权叠加,得到所述待识别网站的所述总风险值。
相应的,本发明还提供了一种钓鱼网站识别系统,包括数据获取模块、类型匹配模块、综合分析模块和比较判断模块;
所述数据获取模块被配置为根据接收到的待识别网站,获取所述待识别网站的IP地址、域名信息、收录信息和网页数据;
所述类型匹配模块与存储有各模板库的预存数据库通讯连接,并被配置为根据所述网页数据中的各个特征关键词和所述预存数据库的所述各模板库中内置的特征字符,确定所述待识别网站的类型和所述预存数据库中与所述待识别网站的类型相匹配的第一模板库;
所述综合分析模块与所述预存数据库中的所述第一模板库通讯连接,并被配置为根据所述第一模板库中的数据,分别对所述IP地址、所述域名信息、所述收录信息和所述特征关键词进行分析,得到每项的单风险值,并将每项所述单风险值进行综合,得到所述待识别网站的总风险值;
所述比较判断模块被配置为比较所述总风险值与预设风险值,当所述总风险值大于或等于所述预设风险值时,判定所述待识别网站为钓鱼网站。
在其中一个实施例中,还包括数据上传模块,且所述数据上传模块与云端服务器通讯连接;
当所述比较判断模块判断出所述待识别网站为所述钓鱼网站时,所述数据上传模块被配置为读取所述数据获取模块获取的所述域名信息,并上传所述域名信息至所述云端服务器。
在其中一个实施例中,所述数据获取模块,用于根据接收到的所述待识别网站,使用socket通信模拟http数据包,获取网络服务器返回的所述待识别网站的所述IP地址、所述域名信息、所述收录信息和所述网页数据。
在其中一个实施例中,所述类型匹配模块包括查找计算单元、特征筛选单元和模板库调取单元;
所述查找计算单元被配置为依次在所述预存数据库的各模板库中内置的所述特征字符中扫描所述网页数据中的各个所述特征关键词,并对各个所述特征关键词在同一模板库中出现的次数进行求和或加权叠加,获取相应的多个特征统计值;
所述特征筛选单元被配置为由所述多个特征统计值中筛选出最大特征统计值;
所述模板库调取单元被配置为根据所述最大特征统计值,确定所述待识别网站的类型,并调取所述预存数据库中与所述待识别网站的类型相匹配的模板库作为所述第一模板库。
在其中一个实施例中,所述综合分析模块包括第一分析设置单元、第一对比设置单元、第二对比设置单元、第三对比设置单元和综合计算单元;
所述第一分析设置单元被配置为分析所述IP地址;所述IP地址为第一国外IP地址信息时,设置所述IP地址的单风险值为第一预设值;
所述第一对比设置单元被配置为对比所述域名信息与所述第一模板库中存储的可信任域名信息,所述域名信息与所述可信任域名信息完全不同时,设置所述域名信息的单风险值为第二预设值;
所述第二对比设置单元被配置为对比所述收录信息与所述第一模板库中存储的第一收录信息,所述收录信息小于所述可第一收录信息时,设置所述收录信息的单风险值为第三预设值;
所述第三对比设置单元被配置为对比所述特征关键词在所述网页数据中的总数量与所述第一模板库中存储的相应的第一特征字符统计值,所述特征关键词的总数量大于所述第一特征字符统计值预设值时,设置所述特征关键词的总数量的单风险值为第四预设值;
所述综合计算单元被配置为对所述IP地址的单风险值、所述域名信息的单风险值、所述收录信息的单风险值和所述特征关键词的总数量的单风险值进行求和或加权叠加,得到所述待识别网站的所述总风险值。
上述钓鱼网站识别方法的有益效果:
当对待识别网站进行审核识别时,通过由待识别网站的网页数据中的各个特征关键词和预存数据库的各模板库内置的特征字符,确定预存数据库中与待识别网站的类型相匹配的第一模板库。然后,根据第一模板库中存储的数据,对由待识别网站中获取的IP地址、域名信息、收录信息和关键词数量进行分析,得到每项的单风险值后,对得到的每项单风险值进行综合,最终得到待识别网站的总风险值。并通过将得到的总风险值与预设风险值进行比较,来判断待识别网站是否为钓鱼网站。当总风险值大于或等于预设风险值时,则直接判定其为钓鱼网站。减少了人工识别方式的步骤,实现了钓鱼网站识别的程序化。最终提高了钓鱼网站的识别效率。并且,通过根据待识别网站的IP地址、域名信息、收录信息,以及网页数据中的关键词数量来计算待识别网站的总风险值,进而判定其是否为钓鱼网站,提高了钓鱼网站的识别准确率。最终有效地解决了现有的人工方式识别钓鱼网站效率和准确率均较低的问题。
具体实施方式
为使本发明技术方案更加清楚,以下结合附图及具体实施例对本发明做进一步详细说明。
参见图1,作为本发明的钓鱼网站识别方法的一具体实施例,包括如下步骤:
步骤S100,根据接收到的待识别网站,获取待识别网站的IP(InternetProtocol)地址、域名信息、收录信息和网页数据。
其中,此处的收录信息指的是在搜索引擎下输入待识别网站的域名信息后得到的该待识别网站的收录项目数量。另外,作为另一种实施方式,也可将待识别网站在搜索引擎下的搜索排名来表征收录信息。以下所提供的实施例则均以收录项目数量为例进行说明。
步骤S200,通讯连接存储有各模板库的预存数据库,根据网页数据中的各个特征关键词和预存数据库的各模板库中内置的特征字符,确定预存数据库中与待识别网站的类型相匹配的第一模板库。
参见图2,需要说明的是,预存数据库包括多个模板库,如:各大卫视的官网模板库(即浙江卫视官网的模板库、湖南卫视官网的模板库和央视一套节目官网的模板库等)和各大银行官网模板库(即招商银行官网的模板库、中国银行官网的模板库和交通银行官网的模板库等),还可包括其他一些可信任的网站模板库,此处不再一一举例说明。其中,每个模板库中均存储有相应的收录信息、域名信息、IP地址以及特征字符等数据。
具体的,以图2中所示的浙江卫视官网的模板库和工商银行官网的模板库为例进行详细说明。其中,浙江卫视官网的模板库中存储有:浙江卫视的IP地址为浙江地区的IP,浙江卫视的域名信息为www.zjstv.com,浙江卫视的收录信息为40000,以及浙江卫视的特征字符为中奖、一等奖、输入手机号、奔跑吧、兄弟等。工商银行官网的模板库中则相应存储有:工商银行的IP地址为中国,工商银行的域名信息为www.icbc.com.cn,工商银行的收录信息为450000,工商银行内置的特征字符为密码升级、电子口令等。
另外,需要指出的时,预存数据库可为根据实际需要专门配置的数据库,也可为现有钓鱼网站识别系统中所公开的数据库。并且,该预存数据库中的各模板库可根据钓鱼网站识别结果进行不断的更新,以实现不断完善预存数据库中的模板库的目的。
其通过将待识别网站的网页数据中各个特征关键词依次与预存数据库的各模板库中内置的特征字符进行匹配,由此来确定待识别网站的类型和预存数据库中与待识别网站的类型相匹配的第一模板库,从而准确的缩小了待识别网站的识别范围,以便于后续对待识别网站进行审核时加快审核速率。
需要指出的是,网页数据中的特征关键词可为网页数据中出现频率最多的字词,也可为最能表征网页数据的内容的字词。
步骤S300,通讯连接第一模板库,根据第一模板库中存储的数据,分别对IP地址、域名信息、收录信息和特征关键词进行分析,得到每项的单风险值,并将每项单风险值进行综合,得到待识别网站的总风险值。
其中,将每项单风险值进行综合时,可采取求和或加权叠加等方式来实现。
步骤S400,比较总风险值与预设风险值。当待识别网站的总风险值大于或等于预设风险值时,执行步骤S500,判定待识别网站为钓鱼网站。否则,执行步骤S500’,对待识别网站进行进一步审核判断,以便于提高待识别网站审核的准确性。
其通过对获取的待识别网站的IP地址、域名信息、收录信息,以及网页数据中的各个特征关键词进行分析对比,最终得到待识别网站的总风险值。进而根据待识别网站的总风险值与预设风险值的关系,判断其是否为钓鱼网站。当待识别网站的总风险值大于或等于预设风险值时,则直接判定其为钓鱼网站。减少了人工识别方式的步骤,实现了钓鱼网站识别的程序化,从而减少了识别过程中的人为干预。最终提高了钓鱼网站的识别效率。
并且,通过根据待识别网站的IP地址、域名信息、收录信息,和网页数据中的各个特征关键词来计算待识别网站的总风险值,进而判定其是否为钓鱼网站,增加了判断过程中的多种因素,因而提高了钓鱼网站的识别准确率。
进一步的,当判定出待识别网站为钓鱼网站时,通过执行步骤S600,上传待识别网站的域名信息至云端服务器,实现了将第一时间捕获到的钓鱼网站通过云端服务器发送至每一个客户端,从而进行同步拦截的目的。最终实现了钓鱼网站的识别与拦截的实时同步。
需要说明的是,步骤S100,根据接收到的待识别网站,获取待识别网站的IP地址、域名信息、收录信息和网页数据,可通过使用socket通信模拟http数据包,从而获取网络服务器(如:web服务器)返回的IP地址、域名信息、收录信息和网页数据。
同时,步骤S200中,通讯连接存储有各模板库的预存数据库,根据网页数据中的各个特征关键词和预存数据库的各模板库中内置的特征字符,确定待识别网站的类型和预存数据库中与待识别网站的类型相匹配的第一模板库时,网页数据中的各个特征关键词的获取可根据网页数据,使用正则表达式直接进行提取。
具体的,当由web服务器返回的网页数据为以下数据时:
<p
style="line-height:35px;padding-left:40px;background:url(images/num_11.gif)
no-repeat 0px 0px;"><b>一等奖1名:</b>奖金<b style=color:blue>¥168000</b>
元人民币与凯美瑞小轿车一辆!</p>
<p
style="line-height:35px;padding-left:40px;background:url(images/num_12.gif)
no-repeat 0px 0px;"><b>二等奖5名:</b>奖金<b style=color:blue>¥138000</b>
元人民币与苹果笔记本电脑一台!</p>
<p
style="line-height:35px;padding-left:40px;background:url(images/num_13.gif)
no-repeat 0px 0px;"><b>三等奖10名:</b>奖金<b style=color:blue>¥68000</b>
元人民币与苹果5S手机一部!</p>
<p
style="line-height:35px;padding-left:40px;background:url(images/num_14.gif)
no-repeat 0px 0px;"><b>四等奖20名:</b>《奔跑吧兄弟》节目现场入场券一张!
</p>
<p style="color:#0000FF;line-height:30px;padding-left:5px;">注:幸运用户需凭着系统所发送给您的验证码进行验证您所获得的相关奖项进行领取。
每一位被抽选的幸运用户领取时间在24小时以内,如个人逾期视为自动放弃,幸运资格将留取下一位。</p>
根据上述网页数据的网页内容,使用正则表达式提取出的特征关键词分别为:幸运用户、苹果笔记本电脑一台和获得的相关奖项等。
当获取到待识别网站的IP地址、域名信息、收录信息和网页数据中的各个特征关键词后,需要对获取到的上述数据进行分析对比。而在分析对比之前,为了加快审核识别的速率和准确率,需要首先确定待识别网站的类型,以及预存数据库中与待识别网站的类型相匹配的第一模板库。
作为一种可实施方式,其具体的确定过程可包括如下步骤:
步骤S210,依次在预存数据库的各模板库中内置的特征字符中扫描网页数据中的各个特征关键词,并对各个特征关键词在同一模板库中出现的次数进行求和或加权叠加,获取相应的多个特征统计值。
步骤S220,由多个特征统计值中筛选出最大特征统计值。
步骤S230,根据最大特征统计值,确定待识别网站的类型,并调取预存数据库中与待识别网站的类型相匹配的模板库作为第一模板库。
如,当待识别网站的网页数据中的特征关键词为幸运用户、苹果笔记本电脑和获得的相关奖项时,首先在浙江卫视官网的模板库存储的特征字符中依次扫描“幸运用户”、“苹果笔记本电脑”和“获得的相关奖项”,并对“幸运用户”出现的次数、“苹果笔记本电脑”出现的次数和“获得的相关奖项”出现的次数进行求和或加权叠加,得到一个特征统计值,该特征统计值为5。
然后,再在工商银行官网的模板库存储的特征字符中依次查找“幸运用户”、“苹果笔记本电脑”和“获得的相关奖项”,并对“幸运用户”出现的次数、“苹果笔记本电脑”出现的次数和“获得的相关奖项”出现的次数进行求和或加权叠加,得到另一个特征统计值,该特征统计值则为1。
通过在上述得到中的两个特征统计值中进行筛选,筛选出最大特征统计值,即最大特征统计值为5。然后,根据该最大特征统计值确定待识别网站的类型为电视节目类型,进而调取预存数据库中与电视节目类型相匹配的模板库(即浙江卫视官网模板库)作为第一模板库。
当确定待识别网站的类型和与待识别网站的类型相匹配的第一模板库后,通过通讯连接第一模板库,将待识别网站的IP地址、域名信息、收录信息和特征关键词分别与第一模板库中存储的数据进行对比分析,从而得到每项的单风险值,并将每项单风险值进行综合,得到待识别网站的总风险值,从而进行待识别网站的审核识别。
其中,作为一种可实施方式,其具体分析对比过程可包括如下步骤:
步骤S310,分析IP地址,IP地址为第一国外IP地址信息时,设置IP地址的单风险值为第一预设值。如,待识别网站的IP地址为59.188.224.46时,分析出该IP地址为香港地区,则其不在中国大陆境内,因此可设置该IP地址的单风险值为8。
此处,需要说明的是,当分析出IP地址为国内的IP地址时,对应的IP地址的单风险值可相应设置为其它值。
步骤S320,对比域名信息与第一模板库中存储的可信任域名信息,域名信息与可信任域名信息完全不同时,设置域名信息的单风险值为第二预设值。如,当待识别网站的域名信息为http://rtaszxw.cc/,且第一模板库为浙江卫视官网模板库时,由于待识别网站的域名信息为http://rtaszxw.cc/,而浙江卫视的官网域名信息(即可信任域名信息)为http://zjstv.com/。通过比较http://rtaszxw.cc/和http://zjstv.com/,可得知待识别网站的域名信息与第一模板库存储的可信任域名信息完全不同,因此可设置该域名信息的单风险值为6。
此处需要说明的是,第一模板库中存储的可信热域名信息可为与该模板库相对应的官网的域名信息。
同时,当域名信息与可信任域名信息存在部分相同的字符时,其单风险值可设置为另一预设值。当域名信息与可信任域名信息完全相同时,其单风险值又可设置为又一预设值。也就是说,域名信息与可信任域名信息完全相同时、部分相同时、完全不同时,设置的其单风险值不同。优选的,其单风险值的设置可根据与可信任域名信息完全相同、部分相同和完全不同的情况,呈依次递增的趋势。
步骤S330,对比收录信息与第一模板库中存储的第一收录信息,收录信息小于第一收录信息时,设置收录信息的单风险值为第三预设值。如,当待识别网站的收录信息为0,而第一模板库中存储的第一收录信息为40000时,通过对比0和40000,可知0小于40000,因此可设置该收录信息的单风险值为8。
步骤S340,对比特征关键词在网页数据中的总数量与第一模板库中存储的相应的第一特征字符统计值,特征关键词的总数量大于第一特征字符统计值预设值时,设置特征关键词的总数量的单风险值为第四预设值。
如,当待识别网站的特征关键词为幸运用户、苹果笔记本电脑和获得的相关奖项时,其中,幸运用户在待识别网站的网页数据中的数量为1,苹果笔记本电脑在待识别网站中的网页数据中的数量为1,获得的相关奖项在待识别网站的网页数据中的数量为1,通过进行求和或加权叠加,得到特征关键词在待识别网站的网页数据中的总数量为3。
而第一模板库中存储的幸运用户的数量为0,苹果笔记本电脑的数量为0,获得的相关奖项的数量为1,进而相应的第一特征字符统计值则为对幸运用户、苹果笔记本电脑和获得的相关奖项在第一模板库中的数量的求和或加权叠加后得到的统计值,即第一模板库中存储的第一特征字符统计值为1。
通过对比3和1,可知3比1大2,因此可设置关键词的总数量的单风险值为9。
需要说明的是,特征关键词的总数量大于第一特征字符统计值的预设值可根据实际情况自由设置。并且,该预设值可为正整数,也可为负整数。当预设值为负整数时,则表征了特征关键词的总数量小于第一特征字符统计值时的情况,此时,特征关键词的总数量的单风险值的设置则不同于第四预设值。
步骤S350,对IP地址的单风险值、域名信息的单风险值、收录信息的单风险值和特征关键词的总数量的单风险值进行求和或加权叠加,得到待识别网站的总风险值。
即,通过对IP地址的单风险值8、域名信息的单风险值6、收录信息的单风险值8和特征关键词的总数量的单风险值9进行求和或加权叠加,从而得到待识别网站的总风险值为31。
得到待识别网站的总风险值后,进而判断计算得到的该总风险值是否大于或等于预设风险值。其中,预设风险值的取值范围可根据具体情况自由设置。优选的,可设置为30-40。也就是说,当通过求和计算得到的待识别网站的总风险值大于或等于30-40之间的任何一个数值时,则判定待识别网站为钓鱼网站。
当判定待识别网站为钓鱼网站后,将该待识别网站的域名信息上传至云端服务器,进而实现钓鱼网站的实时拦截。
进一步的,可通过对待识别网站的总风险值进行风险级别的划分,来判断其是否为钓鱼网站。其中,待识别网站的风险级别的划分可为:
当通过求和计算得到的待识别网站的总风险值的取值范围在1-15之间时,则判定待识别网站的风险级别为低风险。即,待识别网站为钓鱼网站的概率较小。此时,可再通过人工方式对其进行再次识别,以进一步保证判断结果的准确性。
当通过求和计算得到的待识别网站的总风险值的取值范围在15-30之间时,则判定待识别网站的风险级别为中风险。此时,待识别网站为钓鱼网站的概率相对较大。同样,可通过人工方式对其进行再次识别,以避免对待识别网站的识别出现误判的现象。
而当通过求和计算得到的待识别网站的总风险值的取值范围在30-40之间时,则可判定待识别网站的风险级别为高风险。此时,待识别网站为钓鱼网站的概率非常大。因此,可直接判定其为钓鱼网站,并对其进行拦截。同样,为了避免误判的现象,也可再通过人工方式对其进行再次识别。
其通过综合评分机制来确定待识别网站的风险级别,进而根据待识别网站的风险级别判断其是否为钓鱼网站,进一步保证了识别的准确率。需要说明的是,其风险级别的划分可根据实际情况自由设置。在本发明提供的具体实施例中,对风险级别的划分设置了三个级别。在其他具体实施例中,则可划分三个以上的风险级别。其中,划分的风险级别越细,判断结果越准确。
更为具体的,参见图3,以待识别网站http://rtaszxw.cc/例,对本发明的钓鱼网站识别方法做进一步详细说明。
首先执行步骤S100,根据接收到的待识别网站,获取待识别网站的IP地址、域名信息、收录信息和网页数据后,通过通讯连接存储有各模板库的预存数据库,执行步骤S210,依次在预存数据库的各模板库中内置的特征字符中扫描网页数据中的各个特征关键词,并对各个特征关键词在同一模板库中出现的次数进行求和或加权叠加,获取相应的多个特征统计值。即,进行待识别网站的特征识别。如,通过将待识别网站的网页数据中各个特征关键词在预存数据库的各模板库内置的特征字符中进行扫描匹配。其在浙江卫视官网模板库中进行扫描匹配后,得到的特征统计值为5;在工商银行官网模板库中进行扫描匹配后得到的特征统计值为1。
然后,执行步骤S220,由多个特征统计值中筛选出最大特征统计值。在本具体实施例中,筛选出的最大特征统计值为5。进而,执行步骤S230,根据最大特征统计值,确定待识别网站的类型,并调取预存数据库中与待识别网站的类型相匹配的模板库作为第一模板库。由于本具体实施例中的最大特征统计值为5,因此可确定待识别网站http://rtaszxw.cc/的类型为电视节目类型。进而,调取相应的浙江卫视官网模板库作为第一模板库。
当确定待识别网站http://rtaszxw.cc/的类型及相应的第一模板库后,通过通讯连接第一模板库,以便于读取第一模板库中存储的各项数据,进而执行步骤S300,根据第一模板库(即浙江卫视官网模板库)中存储的数据,对待识别网站http://rtaszxw.cc/的IP地址、域名信息、收录信息和特征关键词进行分析对比,得到每项的单风险值。其中,在本具体实施例中,分别通过执行步骤S310,分析待识别网站http://rtaszxw.cc/的IP地址59.188.224.46为香港地区,因此可设置为单风险值为8;执行步骤S320,对比待识别网站http://rtaszxw.cc/的域名信息与浙江卫视官网模板库中存储的浙江卫视的官网域名信息http://www.zjstv.com,可知http://rtaszxw.cc与http://www.zjstv.com完全不同,因此设置该单风险值为6;执行步骤S330,对比待识别网站http://rtaszxw.cc/的收录信息(为0)与浙江卫视官网模板库中存储的浙江卫视的官网收录信息(40000),可知0远远小于40000,因此设置该单风险值为8;执行步骤S340,对比待识别网站http://rtaszxw.cc/的特征关键词在待识别网站http://rtaszxw.cc/的网页数据中出现的总数量与浙江卫视官网模板库中存储的特征字符在浙江卫视的官网中的统计值,可设置其单风险值为9。
进而执行步骤S350,对每项的单风险值进行求和,得到待识别网站的总风险值。在本具体实施例中,得到的总风险值为:8+6+8+9=31。进而执行步骤S400,根据计算得到的总风险值与预设风险值,判断待识别网站是否为钓鱼网站。当计算得到的总风险值大于或等于预设风险值时,即总风险值在预设高风险值范围内时,则执行步骤S400,判定待识别网站为钓鱼网站。在本具体实施例中,计算得到的待识别网站的总风险值31在预设高风险值范围30-40内,因此可直接判定待识别网站站http://rtaszxw.cc/为钓鱼网站。
另外,需要说明的是,通常待识别网站中会嵌入或链接一些其他网站。因此为了进一步提高待识别网站审核识别的准确性,可通过提取出待识别网站中嵌入或链接的网站依据上述任一种钓鱼网站识别方法进行进一步的审核识别。此处不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
相应的,基于同一发明构思,本发明还提供了一种钓鱼网站识别系统。由于本发明提供的钓鱼网站识别系统的工作原理与本发明提供的钓鱼网站识别方法的原理相同或相似,因此重复之处不再赘述。
参见图4,作为本发明的钓鱼网站识别系统的一具体实施例,包括数据获取模块110、类型匹配模块120、综合分析模块130和比较判断模块140。
数据获取模块110被配置为根据接收到的待识别网站,获取待识别网站的IP地址、域名信息、收录信息和网页数据。
类型匹配模块120与存储有各模板库的预存数据库(图中未示出)通讯连接,并被配置为根据网页数据中的各个特征关键词和预存数据库的各模板库中内置的特征字符,确定待识别网站的类型和预存数据库中与待识别网站的类型相匹配的第一模板库。
综合分析模块130与预存数据库中的第一模板库通讯连接,并被配置为根据第一模板库中的数据,分别对IP地址、域名信息、收录信息和特征关键词进行分析,得到每项的单风险值,并将每项单风险值进行综合,得到待识别网站的总风险值。
比较判断模块140被配置为比较总风险值与预设风险值,当总风险值大于或等于预设风险值时,判定待识别网站为钓鱼网站。
本发明提供的钓鱼网站识别系统,通过集成应用至防火墙软件等其他安全软件中后,即可实现网站的自动识别。减少了人工方式的审核步骤,从而有效提高了网站识别的效率和准确率。并且,通过用户直接输入待识别网站即可进行钓鱼网站的识别,增加了非专业人士对钓鱼网站的识别能力,降低了对钓鱼网站识别的难度。
进一步的,作为本发明提供的钓鱼网站识别系统的一具体实施例,还包括数据上传模块150,且数据上传模块150与云端服务器200通讯连接。
当比较判断模块140判断出待识别网站为钓鱼网站时,数据上传模块150被配置为读取数据获取模块110获取的域名信息,并上传域名信息至云端服务器200。
当钓鱼网站识别系统识别出待识别网站为钓鱼网站时,通过将待识别网站的域名信息上传至云端服务器200。进而通过与安全软件相互合作,使得安全软件由云端服务器200读取该域名信息后,第一时间即可将识别出的钓鱼网站进行拦截,保证了计算机运行环境的安全性和可靠性。
其中,数据获取模块110,用于根据接收到的待识别网站,使用socket通信模拟http数据包,获取网络服务器返回的待识别网站的IP地址、域名信息、收录信息和网页数据。
更进一步的,类型匹配模块120包括查找计算单元、特征筛选单元和模板库调取单元(图中未示出)。
查找计算单元被配置为依次在预存数据库的各模板库中内置的特征字符中扫描网页数据中的各个特征关键词,并对各个特征关键词在同一模板库中出现的次数进行求和或加权叠加,获取相应的多个特征统计值。
特征筛选单元被配置为由多个特征统计值中筛选出最大特征统计值。
模板库调取单元被配置为根据最大特征统计值,确定待识别网站的类型,并调取预存数据库中与待识别网站的类型相匹配的模板库作为第一模板库。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。