CN102567513A - 钓鱼网站收集方法和钓鱼网站收集设备 - Google Patents
钓鱼网站收集方法和钓鱼网站收集设备 Download PDFInfo
- Publication number
- CN102567513A CN102567513A CN201110444848XA CN201110444848A CN102567513A CN 102567513 A CN102567513 A CN 102567513A CN 201110444848X A CN201110444848X A CN 201110444848XA CN 201110444848 A CN201110444848 A CN 201110444848A CN 102567513 A CN102567513 A CN 102567513A
- Authority
- CN
- China
- Prior art keywords
- crawlers
- search
- target
- fishing website
- performance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种钓鱼网站收集方法和钓鱼网站收集设备。方法包括:获取爬虫程序代理列表,所述爬虫程序代理列表中包括多种爬虫程序;获取所述爬虫程序代理列表中各爬虫程序的性能加权值;根据各爬虫程序的性能加权值,确定目标爬虫程序;采用所述目标爬虫程序获取与搜索主题相关的钓鱼网站。本发明根据各代理反钓鱼网站业务的网站采用的爬虫程序的性能加权值,确定目标爬虫程序,采用该目标爬虫程序搜索钓鱼网站,从而能够根据不断出现的钓鱼网站适应调整目标爬虫程序,提高收集钓鱼网站的准确率。
Description
技术领域
本发明涉及信息技术领域,特别涉及一种钓鱼网站收集方法和钓鱼网站收集设备。
背景技术
目前,钓鱼网站的数量急剧增加,并且来源甚广,例如:利用用户本身漏洞,通过相似域名,或者做竞价排名等方式,对网民的上网安全造成重大威胁。
现有技术中,各代理反钓鱼网站业务的网站均采用单一的爬虫程序搜索钓鱼网站,然而,当代理网站的爬虫程序的性能与不断涌现的各种钓鱼网站不相适应时,则会影响收集钓鱼网站的准确率。
发明内容
本发明提供了一种钓鱼网站收集方法和钓鱼网站收集设备,以提高收集钓鱼网站的准确率。
一方面,本发明提供一种钓鱼网站收集方法,包括:
获取爬虫程序代理列表,所述爬虫程序代理列表中包括多种爬虫程序;
获取所述爬虫程序代理列表中各爬虫程序的性能加权值;
根据各爬虫程序的性能加权值,确定目标爬虫程序;
采用所述目标爬虫程序获取与搜索主题相关的钓鱼网站。
另一方面,本发明还提供一种钓鱼网站收集设备,包括:
获取模块,用于获取爬虫程序代理列表,所述爬虫程序代理列表中包括多种爬虫程序;
处理模块,用于获取所述爬虫程序代理列表中各爬虫程序的性能加权值;还用于根据各爬虫程序的性能加权值,确定目标爬虫程序;
搜索模块,用于采用所述目标爬虫程序获取与搜索主题相关的钓鱼网站。
本发明提供的钓鱼网站收集方法和设备,根据各代理反钓鱼网站业务的网站采用的爬虫程序的性能加权值,确定目标爬虫程序,采用该目标爬虫程序搜索钓鱼网站,从而能够根据不断出现的钓鱼网站适应调整目标爬虫程序,提高收集钓鱼网站的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的钓鱼网站收集方法一个实施例的流程图;
图2为本发明提供的钓鱼网站收集方法又一个实施例的流程图;
图3为本发明提供的钓鱼网站收集设备一个实施例的结构示意图;
图4为本发明提供的钓鱼网站收集设备又一个实施例的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明提供的钓鱼网站收集方法一个实施例的流程图,如图1所示,该方法包括:
S101、获取爬虫程序代理列表,爬虫程序代理列表中包括多种爬虫程序。
目前,代理反钓鱼网站业务的各种网站通常采用不同的爬虫程序来收集钓鱼网站,本发明实施例中,可以首先获取代理反钓鱼网站业务的各种网站所采用的各种爬虫程序。具体可以采用爬虫程序在互联网上爬取代理反钓鱼网站业务的各种网站信息,来获取各种不同的爬虫程序。
S102、获取爬虫程序代理列表中各爬虫程序的性能加权值。
其中,爬虫程序的性能可以通过多种因数来体现,例如:是否处于存活期、近期更新情况、搜索效率及搜索速率等,在此不一一列举。
可以预先为爬虫程序的性能包括的各种因数设定重要性因子,各种因素的重要性因子之和为1,每种因数的重要性因子可以根据该中因数对爬虫程序总体性能的影响力来确定,也可以根据搜索的实际需求等因素来确定。例如:可以将存活期因数的重要性因子设定为0.5,搜索效率因数的重要性因子设定为0.3,搜索速率因数的重要性因子设定为0.2。
重要性因子设定后,可以将存活期、近期更新情况、搜索效率及搜索速率的实际值分别与对应的重要性因子相乘后,再将各乘积家和得到每种爬虫程序的性能加权值。
需要说明的是,对于搜索效率和搜索速率可以直接得到相应数值,而对于存活期、近期更新情况等,可以将剩余存活有限期、更新天数等与对应的重要性因子相乘。
S103、根据各爬虫程序的性能加权值,确定目标爬虫程序。
在获取各爬虫程序的性能加权值之后,可以选取加权值最大的爬虫程序作为目标爬虫程序。如果存在多个目标爬虫程序,作为一种可行的实施方式,还可以从中选择一个所关注的性能因数最优的,例如:搜索效率最高的爬虫程序作为目标爬虫程序。
S104、采用目标爬虫程序获取与搜索主题相关的钓鱼网站。
目标爬虫程序可以采用相似域名的方法爬取与搜索主题相关的钓鱼网站。具体的,目标爬虫程序可以预先设定一定的搜索主题,例如:搜索主题可以是招商银行的网址:www.cmbchina.com,则目标爬虫程序可以搜索与www.cmbchina.com相关的钓鱼网站,例如:www.cmdchina.com,www.cbmchina.com等。这些与搜索主题相关的钓鱼网站可以是与搜索主题的字符串相近或类似的网站,还可以是与搜索主题的意思相近或类似的网站等等,在此不做具体限制,可以根据具体需求进行设定。
本实施例提供的钓鱼网站收集方法,根据各代理反钓鱼网站业务的网站采用的爬虫程序的性能加权值,确定目标爬虫程序,采用该目标爬虫程序搜索钓鱼网站,从而能够根据不断出现的钓鱼网站适应调整目标爬虫程序,提高收集钓鱼网站的准确率。
图2为本发明提供的钓鱼网站收集方法又一个实施例的流程图,如图2所示,该方法包括:
S201、获取爬虫程序代理列表,爬虫程序代理列表中包括多种爬虫程序。
S202、为爬虫程序的性能中包括的各种因数设定重要性因子。
S203、根据各种因数与对应的重要性因子的乘积之和,确定各爬虫程序的性能加权值。
其中,爬虫程序的性能包括以下一种或任意种因数的组合:存活期、搜索效率和搜索速率。
可以预先为爬虫程序的性能包括的各种因数设定重要性因子,各种因素的重要性因子之和为1,每种因数的重要性因子可以根据该中因数对爬虫程序总体性能的影响力来确定,也可以根据搜索的实际需求等因素来确定。例如:可以将存活期因数的重要性因子设定为0.5,搜索效率因数的重要性因子设定为0.3,搜索速率因数的重要性因子设定为0.2。
重要性因子设定后,可以将存活期、近期更新情况、搜索效率及搜索速率的实际值分别与对应的重要性因子相乘后,再将各乘积家和得到每种爬虫程序的性能加权值。
需要说明的是,对于搜索效率和搜索速率可以直接得到相应数值,而对于存活期、近期更新情况等,可以将剩余存活有限期、更新天数等与对应的重要性因子相乘。
S204、周期性更新爬虫程序代理列表。
由于各种类型的钓鱼网站不断升级或更新,相应的,各种爬虫程序也不断涌现,基于这种情况,可以周期性地对爬虫程序代理列表中的爬虫程序种类进行更新,例如:可以增加新出现的爬虫程序,或者可以对已有的爬虫程序进行更新等。
S205、根据各爬虫程序的性能变化更新各爬虫程序的性能加权值。
由于爬虫程序本身的存活期不断变化,更新情况不断变化,爬虫程序针对新出现的各种钓鱼网站的搜索效率和搜索速率也是不断变化的,并且,爬虫程序代理列表也可以周期性更新,因此,可以基于上述的某种变化或任意种变化的组合,周期性地更新爬虫程序代理列表中的各爬虫程序的性能加权值,从而可以不断更新目标爬虫程序,以提高收集钓鱼网站的准确率。
S206、根据各爬虫程序的性能加权值,确定目标爬虫程序。
在获取各爬虫程序的性能加权值之后,可以选取加权值最大的爬虫程序作为目标爬虫程序。如果存在多个目标爬虫程序,作为一种可行的实施方式,还可以从中选择一个所关注的性能因数最优的,例如:搜索效率最高的爬虫程序作为目标爬虫程序。
S207、采用目标爬虫程序进行与搜索主题相关的文本搜索和/或图像搜索,获取数个统一资源定位符(Uniform Resource Locator,URL)。
作为一种可行的实施方式,搜索主题可以是一些关键字,例如:工商银行、建设银行等。目标爬虫程序可以在各种URL指向的网页中,搜索出主题内容与搜索主题提供的关键字相近或类似的URL,或者是搜索主题提供的关键字或近似的词汇出现频率较高的URL等。
作为另一种可行的实施方式,搜索主题还可以是图像或者图像特征标识,例如:工商银行的标识(Logo),或者建设银行的标识。目标爬虫程序可以在各种URL指向的网页中,搜索出图片信息与搜索主题提供的图像或图像标识相近或类似的URL,或者是搜索主题提供的图像或者图像特征标识出现频率较高的URL等。
S208、对数个URL进行过滤,获取目标钓鱼网站。
对疑似钓鱼网站的URL进行过滤可以采用现有的各种方法。作为一种可行的实施方式,可以通过网站的建立时间、点击率情况或者活跃度等信息初步判断是否可能为钓鱼网站;还可以根据已确定的钓鱼网站的IP信息确定是否可能为钓鱼站点,在此不一一列举。
S209、在获取目标钓鱼网站后,可以将这些钓鱼网站上报给相应的处理设备进行阻断处理,或者上报给有关部门执行关闭网站处理。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
图3为本发明提供的钓鱼网站收集设备一个实施例的结构示意图,如图3所示,该钓鱼网站收集设备包括:获取模块11、处理模块12和搜索模块13;其中:
获取模块11,用于获取爬虫程序代理列表,爬虫程序代理列表中包括多种爬虫程序;
处理模块12,用于获取爬虫程序代理列表中各爬虫程序的性能加权值;还用于根据各爬虫程序的性能加权值,确定目标爬虫程序;
搜索模块13,用于采用目标爬虫程序获取与搜索主题相关的钓鱼网站。
本实施例提供的钓鱼网站收集设备,根据各代理反钓鱼网站业务的网站采用的爬虫程序的性能加权值,确定目标爬虫程序,采用该目标爬虫程序搜索钓鱼网站,从而能够根据不断出现的钓鱼网站适应调整目标爬虫程序,提高收集钓鱼网站的准确率。
图4为本发明提供的钓鱼网站收集设备又一个实施例的结构示意图,如图4所示,该钓鱼网站收集设备包括:获取模块11、处理模块12和搜索模块13;
进一步的,还可以包括:
更新模块14,用于周期性更新获取模块获取的爬虫程序代理列表,和/或,根据各爬虫程序的性能变化更新处理模块得到的各爬虫程序的性能加权值。
作为一种可行的实施方式,爬虫程序的性能包括以下一种或任意种因数的组合:存活期、搜索效率和搜索速率;
相应的,处理模块12可以具体用于:为爬虫程序的性能中包括的各种因数设定重要性因子;根据各种因数与对应的重要性因子的乘积之和,确定各爬虫程序的性能加权值。
搜索模块13可以具体用于:采用目标爬虫程序进行与搜索主题相关的文本搜索和/或图像搜索,获取数个统一资源定位符URL;对数个URL中进行过滤,确定目标钓鱼网站。
该钓鱼网站收集设备还可以包括:
上报模块15,用于将目标钓鱼网站上报至钓鱼网站处理设备进行阻断处理。
本发明提供的钓鱼网站收集设备实施例,与本发明提供的钓鱼网站收集方法实施例相对应,为钓鱼网站收集方法的执行设备,其执行钓鱼网站收集方法的过程可参见方法实施例中的相关描述,在此不再赘述。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种钓鱼网站收集方法,其特征在于,包括:
获取爬虫程序代理列表,所述爬虫程序代理列表中包括多种爬虫程序;
获取所述爬虫程序代理列表中各爬虫程序的性能加权值;
根据各爬虫程序的性能加权值,确定目标爬虫程序;
采用所述目标爬虫程序获取与搜索主题相关的钓鱼网站。
2.根据权利要求1所述的方法,其特征在于,所述根据各爬虫程序的性能加权值,确定目标爬虫程序之前,还包括:
周期性更新所述爬虫程序代理列表,和/或,根据所述各爬虫程序的性能变化更新所述各爬虫程序的性能加权值。
3.根据权利要求1所述的方法,其特征在于,所述爬虫程序的性能包括以下一种或任意种因数的组合:存活期、搜索效率和搜索速率;
所述获取所述爬虫程序代理列表中各爬虫程序的性能加权值,具体为:
为所述爬虫程序的性能中包括的各种因数设定重要性因子;
根据各种所述因数与对应的所述重要性因子的乘积之和,确定各爬虫程序的性能加权值。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述采用所述目标爬虫程序获取与搜索主题相关的钓鱼网站,包括:
采用所述目标爬虫程序进行与所述搜索主题相关的文本搜索和/或图像搜索,获取数个统一资源定位符URL;
对所述数个URL进行过滤,确定目标钓鱼网站。
5.根据权利要求4所述的方法,其特征在于,所述对所述数个URL进行过滤,确定目标钓鱼网站之后,还包括:
将所述目标钓鱼网站上报至钓鱼网站处理设备进行阻断处理。
6.一种钓鱼网站收集设备,其特征在于,包括:
获取模块,用于获取爬虫程序代理列表,所述爬虫程序代理列表中包括多种爬虫程序;
处理模块,用于获取所述爬虫程序代理列表中各爬虫程序的性能加权值;还用于根据各爬虫程序的性能加权值,确定目标爬虫程序;
搜索模块,用于采用所述目标爬虫程序获取与搜索主题相关的钓鱼网站。
7.根据权利要求6所述的钓鱼网站收集设备,其特征在于,还包括:
更新模块,用于周期性更新所述获取模块获取的所述爬虫程序代理列表,和/或,根据所述各爬虫程序的性能变化更新所述处理模块得到的所述各爬虫程序的性能加权值。
8.根据权利要求6所述的钓鱼网站收集设备,其特征在于,所述爬虫程序的性能包括以下一种或任意种因数的组合:存活期、搜索效率和搜索速率;
所述处理模块具体用于:为所述爬虫程序的性能中包括的各种因数设定重要性因子;根据各种所述因数与对应的所述重要性因子的乘积之和,确定各爬虫程序的性能加权值。
9.根据权利要求6-8任一项所述的钓鱼网站收集设备,其特征在于,所述搜索模块具体用于:采用所述目标爬虫程序进行与所述搜索主题相关的文本搜索和/或图像搜索,获取数个统一资源定位符URL;对所述数个URL进行过滤,确定目标钓鱼网站。
10.根据权利要求9所述的钓鱼网站收集设备,其特征在于,还包括:
上报模块,用于将所述目标钓鱼网站上报至钓鱼网站处理设备进行阻断处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110444848.XA CN102567513B (zh) | 2011-12-27 | 2011-12-27 | 钓鱼网站收集方法和钓鱼网站收集设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110444848.XA CN102567513B (zh) | 2011-12-27 | 2011-12-27 | 钓鱼网站收集方法和钓鱼网站收集设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102567513A true CN102567513A (zh) | 2012-07-11 |
CN102567513B CN102567513B (zh) | 2014-09-17 |
Family
ID=46412912
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110444848.XA Active CN102567513B (zh) | 2011-12-27 | 2011-12-27 | 钓鱼网站收集方法和钓鱼网站收集设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102567513B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104834550A (zh) * | 2015-05-29 | 2015-08-12 | 北京京东尚科信息技术有限公司 | 对分布式网络爬虫进行更新的方法及装置 |
WO2020211367A1 (zh) * | 2019-04-19 | 2020-10-22 | 平安科技(深圳)有限公司 | 数据爬取方法、装置、计算机设备和存储介质 |
CN112347328A (zh) * | 2020-10-27 | 2021-02-09 | 杭州安恒信息技术股份有限公司 | 一种网络平台识别方法、装置、设备及可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101635718A (zh) * | 2009-08-26 | 2010-01-27 | 中兴通讯股份有限公司 | 网络爬虫系统及其获取资源的方法和网络资源抓取装置 |
CN102137022A (zh) * | 2011-04-01 | 2011-07-27 | 华为技术有限公司 | 提供用于识别数据包的信息的方法、爬虫引擎及网络系统 |
CN102262635A (zh) * | 2010-05-25 | 2011-11-30 | 北京启明星辰信息技术股份有限公司 | 一种网页爬虫系统及方法 |
-
2011
- 2011-12-27 CN CN201110444848.XA patent/CN102567513B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101635718A (zh) * | 2009-08-26 | 2010-01-27 | 中兴通讯股份有限公司 | 网络爬虫系统及其获取资源的方法和网络资源抓取装置 |
CN102262635A (zh) * | 2010-05-25 | 2011-11-30 | 北京启明星辰信息技术股份有限公司 | 一种网页爬虫系统及方法 |
CN102137022A (zh) * | 2011-04-01 | 2011-07-27 | 华为技术有限公司 | 提供用于识别数据包的信息的方法、爬虫引擎及网络系统 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104834550A (zh) * | 2015-05-29 | 2015-08-12 | 北京京东尚科信息技术有限公司 | 对分布式网络爬虫进行更新的方法及装置 |
WO2020211367A1 (zh) * | 2019-04-19 | 2020-10-22 | 平安科技(深圳)有限公司 | 数据爬取方法、装置、计算机设备和存储介质 |
CN112347328A (zh) * | 2020-10-27 | 2021-02-09 | 杭州安恒信息技术股份有限公司 | 一种网络平台识别方法、装置、设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN102567513B (zh) | 2014-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Smol et al. | Climate-driven regime shifts in the biological communities of arctic lakes | |
CN102541893A (zh) | 关键词分析方法及装置 | |
CN104182389A (zh) | 一种基于语义的大数据分析商业智能服务系统 | |
CN104516950A (zh) | 一种兴趣点的查询方法及装置 | |
CN104182506A (zh) | 日志管理方法 | |
CN103744856A (zh) | 联动性扩展搜索方法及装置、系统 | |
CN102571404A (zh) | 网站访问统计方法和网站访问统计系统 | |
CN104504096B (zh) | 一种跨网页的信息传输方法和网页浏览装置 | |
CN103164435A (zh) | 一种网络数据的采集方法和系统 | |
CN103744896A (zh) | 一种数据处理方法和装置 | |
CN104978406A (zh) | 互联网络平台的用户行为分析方法 | |
CN102567513B (zh) | 钓鱼网站收集方法和钓鱼网站收集设备 | |
Basyuk | Popularization of website and without anchor promotion | |
CN105653550A (zh) | 网页过滤方法和装置 | |
CN104536972A (zh) | 基于cdn的网页内容感知系统及方法 | |
CN105069079B (zh) | 筛选兴趣点poi数据的方法及装置 | |
CN101866362A (zh) | 移动通讯设备终端的自动定位页面主要内容的方法及系统 | |
CN105335940A (zh) | 一种实现图像的滤镜效果的方法、装置及服务器 | |
CN104063437A (zh) | 一种基于电子地图的服务信息发布和搜索装置以及方法 | |
Shatanawi et al. | Supply-demand modeling of water resources in Zarqa river basin in Jordan | |
Trumpy et al. | Building a European geothermal information network using a distributed e-Infrastructure | |
CN106021425A (zh) | 热点新闻的挖掘方法及装置 | |
Romer | Can integrated water resource management be of value to business, specifically the oil and gas sector? | |
Papadopoulos et al. | Fractal analysis of pore roughness in images of soil using the slit island method | |
CN106716403A (zh) | 网站入口页面的自动生成 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder | ||
CP01 | Change in the name or title of a patent holder |
Address after: 100089 3rd floor, Yitai building, 4 Beiwa Road, Haidian District, Beijing Patentee after: NSFOCUS Technologies Group Co.,Ltd. Address before: 100089 3rd floor, Yitai building, 4 Beiwa Road, Haidian District, Beijing Patentee before: NSFOCUS INFORMATION TECHNOLOGY Co.,Ltd. |