CN105138912A - 钓鱼网站检测规则的自动生成方法及装置 - Google Patents

钓鱼网站检测规则的自动生成方法及装置 Download PDF

Info

Publication number
CN105138912A
CN105138912A CN201510623510.9A CN201510623510A CN105138912A CN 105138912 A CN105138912 A CN 105138912A CN 201510623510 A CN201510623510 A CN 201510623510A CN 105138912 A CN105138912 A CN 105138912A
Authority
CN
China
Prior art keywords
url
website
fishing website
outbound
key word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510623510.9A
Other languages
English (en)
Inventor
李晓波
尹露
杨晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201510623510.9A priority Critical patent/CN105138912A/zh
Publication of CN105138912A publication Critical patent/CN105138912A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/554Detecting local intrusion or implementing counter-measures involving event detection and direct action
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/03Indexing scheme relating to G06F21/50, monitoring users, programs or devices to maintain the integrity of platforms
    • G06F2221/033Test or assess software

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Data Mining & Analysis (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种钓鱼网站检测规则的自动生成方法及装置,涉及互联网技术领域,能够自动生成关于URL的检测规则,从而解决现有技术中无法通过页面内容进行钓鱼网站检测的问题。本发明的方法包括:获取已出库的统一资源定位符URL,已出库的URL为已知钓鱼网站的URL;将已出库的URL中域名字段的内容删除,并保留路径字段内容;将路径字段内容中关键字的参数值删除;按照排序规则对路径字段内容中的各个关键字进行排序,获得包含检测特征的规则URL,以便后续通过规则URL对未知网站的URL进行检测。本发明适用于利用URL检测钓鱼网站的场景中。

Description

钓鱼网站检测规则的自动生成方法及装置
技术领域
本发明涉及互联网技术领域,特别是涉及一种钓鱼网站检测规则的自动生成方法及装置。
背景技术
钓鱼网站是指伪装的银行、电子商务等网站,黑客利用钓鱼网站可以窃取用户提交的银行帐号、密码等私密信息。因此,钓鱼网站的检测是及其重要的。
现有技术中,钓鱼网站的检测方法主要是通过获取URL(UniformResourceLocator,统一资源定位符)请求目标网站的页面内容,并对页面内容中的特征向量进行识别,从而判断该目标网站是否为钓鱼网站。例如,可以通过目标网站页面内容布局(如链接、图标和搜索栏的位置)与银行页面布局的相似度来判断目标网站是否为钓鱼网站。对于这种基于网站页面内容的检测方式,有些钓鱼网站却存在一定的攻防机制,即当钓鱼网站检测到某设备发送获取页面内容的请求时,钓鱼网站会通过该请求识别发送方的IP(InternetProtocol,网间协议)地址,并将该IP地址进行屏蔽,从而使得发送方无法获得钓鱼网站的页面内容,进而无法通过页面内容进行钓鱼网站的检测。
发明内容
有鉴于此,本发明提供一种钓鱼网站检测规则的自动生成方法及装置,能够自动生成关于URL的检测规则,从而解决现有技术中无法通过页面内容进行钓鱼网站检测的问题。
一方面,本发明提供了一种钓鱼网站检测规则的自动生成方法,所述方法包括:
获取已出库的统一资源定位符URL,所述已出库的URL为已知钓鱼网站的URL;
将所述已出库的URL中域名字段内容删除,并保留路径字段内容;
将所述路径字段内容中关键字的参数值删除;
按照排序规则对所述路径字段内容中的各个关键字进行排序,获得包含检测特征的规则URL,以便后续通过所述规则URL对未知网站的URL进行检测。
另一方面,本发明提供了一种钓鱼网站检测规则的自动生成装置,所述装置包括:
获取单元,用于获取已出库的统一资源定位符URL,所述已出库的URL为已知钓鱼网站的URL;
删除单元,用于将所述获取单元获取的所述已出库的URL中域名字段内容删除;
保留单元,用于保留所述删除单元获得的路径字段内容;
所述删除单元,还用于将所述保留单元保留的所述路径字段内容中关键字的参数值删除;
排序单元,用于按照排序规则对所述删除单元获得的所述路径字段内容中的各个关键字进行排序,获得包含检测特征的规则URL,以便后续通过所述规则URL对未知网站的URL进行检测。
借由上述技术方案,本发明提供的钓鱼网站检测规则的自动生成方法及装置,能够将已出库的URL中域名字段内容删除,并保留路径字段内容,然后将路径字段内容中的关键字的参数值删除,并对各个关键字进行排序,最终获得包含检测特征的规则URL。与现有技术中将页面内容作为检测钓鱼网站的规则相比,本发明仅通过对已知钓鱼网站的URL进行非共性内容删除,从而获得含有检测特征(即共性内容)的规则URL,进而在进行钓鱼网站的识别过程中,只需将规则URL与未知网站的URL进行对比即可,而无需获取未知网站的页面内容,由此避免了因无法获取页面内容而无法对未知网站进行检测的情况。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种钓鱼网站检测规则的自动生成方法的流程图;
图2示出了本发明实施例提供的一种钓鱼网站检测规则的自动生成装置的组成框图;
图3示出了本发明实施例提供的另一种钓鱼网站检测规则的自动生成装置的组成框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种钓鱼网站检测规则的自动生成方法,如图1所示,该方法包括:
101、获取已出库的URL。
其中,已出库的URL为已知钓鱼网站的URL,已知钓鱼网站为目前已经确定为钓鱼网站的网站。一般情况下,URL由协议字段、域名字段和路径字段组成,但有的URL中也包含端口号字段和文件名字段等。
在实际应用中,黑客开发的若干钓鱼网站的域名不相同,但是路径、文件格式等都是相似或者相同的,即不同钓鱼网站的URL存在共性因素和非共性因素。因此,钓鱼网站检测服务器可以删除URL中的非共性因素,保留共性因素,然后利用共性因素来作为检测钓鱼网站的检测规则,从而实现钓鱼网站的识别。其具体实现方式如步骤102-104。
102、将已出库的URL中域名字段内容删除,并保留路径字段内容。
由于一个域名一般只能对应一个网站,所以不同的钓鱼网站的域名是不同的,所以域名字段内容是非共性因素,需要将其删除,而不同钓鱼网站的URL中路径字段却存在相同特征(即共性因素),所以需要保留路径字段内容。
示例性的,若已出库的一个URL为“http://a.com/?src=bm”,则钓鱼网站检测服务器需要将“a.com”删除,保留“?src=bm”,即处理后的URL变为“http:///?src=bm”(也可以将协议字段内容删除,即“:///?src=bm”)。
103、将路径字段内容中关键字的参数值删除。
在实际应用中,不同网站的URL中路径字段内容的关键字往往设置相同,但是由于是不同的网站,所以关键字的参数值不同。由此可知,路径字段内容中的各个关键字是钓鱼网站URL的共性因素,而关键字的具体取值(即参数值)是非共性因素。因此,钓鱼网站检测服务器可以将路径字段内容中关键字的参数值删除,保留共性因素关键字(即检测特征),便于后续对未知网站的URL进行特征检测。
示例性的,若已知钓鱼网站的一个URL为“http://a.com/?src=lm&ls=n72f234da92”,则将域名字段内容和关键字的参数删除之后,该URL变为“http:///?src=&ls=”。由此可知,“http:///?src=&ls=”中含有检测特征“src”和“ls”,可通过这些检测特征来检测未知网站的URL,从而判断该未知网站是否是钓鱼网站。
需要说明的是,上述路径字段内容中的关键字为query部分中的关键字,若路径字段内容中包含目录等路径,则需要保留。
104、按照排序规则对路径字段内容中的各个关键字进行排序,获得包含检测特征的规则URL,以便后续通过规则URL对未知网站的URL进行检测。
在实际应用中,由于路径字段内容中各个关键字的含义是固定的,所以即使改变各个关键字的排列顺序,具体的路径也不会改变。然而不同网站URL中路径字段内容的关键字的顺序往往存在差异,在这种情况下,当将经步骤101-103变化后的URL作为规则URL时,会将一些仅与规则URL路径字段内容中关键字的顺序不同而其他都相同的URL误认为是正常网站的URL。因此为了避免上述情况的发生,钓鱼网站检测服务器可以按照排序规则对路径字段内容中的各个关键字进行排序,从而获得包含检测特征的规则URL。
其中,排序规则可以有多种。例如,按照关键字的首字母进行排序(首字母相同的按第二个字母排序,依次类推)。又如,按照关键字中字母的个数由少到多进行排序(个数相同的,按照字母进行排序)。
示例性的,若URL为“http://a.com/?src=lm&ls=n7&au=8i”,排序规则为按照按照关键字的首字母进行排序,则经上述步骤101-104后,最终得到的规则URL为“http:///?au=&ls=&src=”。
本发明实施例提供的钓鱼网站检测规则的自动生成方法,能够将已出库的URL中域名字段内容删除,并保留路径字段内容,然后将路径字段内容中的关键字的参数值删除,并对各个关键字进行排序,最终获得包含检测特征的规则URL。与现有技术中将页面内容作为检测钓鱼网站的规则相比,本发明仅通过对已知钓鱼网站的URL进行非共性内容删除,从而获得含有检测特征(即共性内容)的规则URL,进而在进行钓鱼网站的识别过程中,只需将规则URL与未知网站的URL进行对比即可,而无需获取未知网站的页面内容,由此避免了因无法获取页面内容而无法对未知网站进行检测的情况。
进一步的,在实际应用中,当确定某一网站为钓鱼网站之后,往往只会记录该网站的首页所对应的网址(即URL)(或者记录网站的域名),而不会将所有网页对应的网址都记录下来,但是一个网站的所有URL存在一定的差异,所以所有的URL都应作为设置检测规则的原始数据,因此需要获取已知钓鱼网站的所有URL。
具体的,钓鱼网站检测服务器可以先获取用户访问已知钓鱼网站的访问日志,再从访问日志中获取已知钓鱼网站的所有URL。
其中,访问日志中记录有用户访问各个网站的各种行为信息,例如访问请求、下载文件、所访问网站的服务器的IP地址和网址(即URL)等。因此,钓鱼网站检测服务器可以在用户访问已知钓鱼网站的访问日志中查找到所有的URL。
需要说明的是,由于一般情况下,一个网站只有一个域名,所以已知钓鱼网站的所有URL具有相同的域名。对于一个网站有若干个域名的情况,也可以通过访问日志获得,在此不做限定。
进一步的,在实际应用中,黑客常常利用一台电脑设置多个不同的钓鱼网站来盗取用户私密信息,因此为了使得规则库(规则URL等构成的集合)更加完善,从而避免后续钓鱼网站识别过程中发生遗漏现象,可以将相同IP地址对应的所有URL都归为已出库的URL。
具体的,钓鱼网站检测服务器可以从访问日志中获取已知钓鱼网站的主机的IP地址,然后在用户访问各个网站的所有访问日志中查找记录IP地址的访问日志,最后根据IP地址的访问日志,获得该主机其他域名下的所有URL。
在上述步骤中提及访问日志中记录有目的IP地址(即所访问网站的主机的IP地址),因此可以通过访问日志获取已知钓鱼网站的主机的IP地址,并且可以在所有访问日志中查找到记录该IP地址的访问日志,从而在记录该IP地址的访问日志中查找到其他域名下的所有URL。
进一步的,在获取已出库的URL之后,钓鱼网站检测服务器可以按照IP地址对已出库的URL进行分组,即将IP地址相同的URL分为同一组,之后再针对每组的URL分别进行字段内容的删除操作,以获得各组规则URL。
本步骤通过对已出库的URL按照IP地址进行分组,使得获得的规则URL也按IP地址进行组别划分,在后续进行未知网站的URL检测时,可以先判断网站的主机的IP地址是否在规则库中,若在,则可以通过该IP地址分组下的规则URL对未知网站的URL进行检测,而无需基于所有规则URL对未知网站的URL进行检测,从而该检测规则为后续钓鱼网站的检测提高了效率。
进一步的,在实际应用中,用户往往需要知道盗取其私密信息的钓鱼网站是哪一类网站,以便后续对这类网站提高警惕。因此,在获取已出库的URL之后,钓鱼网站检测服务器可以按照分类规则对已出库的URL进行分类,之后再针对各类别的URL进行非共性因素删除,以获得各种类别的规则URL。
其中,分类规则可以多种多样。在实际应用中,可以将所有URL先按照大类进行划分,再按照大类中的小类进行划分。具体的,大类有银行类、网购类等,小类可以按照网站进行划分,即银行类可以包括工商银行、农业银行、中国银行和招商银行等,网购类可以包括淘宝、京东和唯品会等。
进一步的,依据上述实施例,本发明实施例还提供了另一种附加检测规则,即计算路径字段内容中关键字的个数,并将关键字的个数作为检测规则。
具体的,若将规则URL称为第一检测规则,关键字的个数称为第二检测规则,则可以将第二检测规则作为第一检测规则的前提,即对于未知网站的URL,钓鱼网站检测服务器需要先判断其关键字的个数是否与当前规则URL中路径字段内容的关键字个数相同。若两者关键字的个数相同,则继续对该未知网站的URL进行当前规则URL具体内容的匹配;若两者关键字的个数不同,则将该未知网站的URL通过下一个规则URL进行判断。由此可知,添加关键字个数这一检测规则,便于后续对未知网站的URL进行检测时,提高检测效率。
此外,对于一个正常的银行网站或者电子商务网站来说,网站中涉及的页面总数是成百上千的,而钓鱼网站的目的是为了窃取用户的私密信息,所以一般不会设置大量的页面,只会设置前几页或者几十页。由于子链接所处的层次越往里,其对应的URL中路径字段内容的关键字的个数越多,例如位于第二页的URL中路径字段内容的关键字的个数比位于第六页的URL中路径字段内容的关键字的个数少,所以可以统计已知钓鱼网站的所有URL中关键字个数的最大值,并将该最大值作为检测规则。也就是说,钓鱼网站检测服务器在对一未知网站进行检测时,可以先统计一下该未知网站的所有URL中路径字段内容中关键字的个数是否有大于预设阈值(前述最大值)的,若没有,再继续进行其他规则的检测,若有,则无需进行后续检测,直接判断该未知网站为正常网站。
进一步的,除了判断关键字个数最大值以外,还可以直接统计已知钓鱼网站的URL个数,将URL个数作为检测规则。在添加URL个数作为检测规则后,钓鱼网站检测服务器在对未知网站进行检测时,可以先直接判断该未知网站的URL个数是否小于等于已知钓鱼网站的URL个数,若是,则再对该未知网站的URL进行其他检测规则的判断,若否,则无需进行后续检测,直接判断该未知网站为正常网站。
进一步的,在实际应用中,黑客所设置的钓鱼网站所使用的端口号或者文件格式可能与正常网站有所不同,例如钓鱼网站常常使用的文件格式往往是ASP格式,而非PHP等其他格式。因此为了提高检测规则的准确率,在将路径字段内容中关键字的参数值删除之前,钓鱼网站检测服务器可以保留端口号字段内容和/或文件名字段内容中的文件后缀。
示例性的,若已出库的一个URL为“http://b.com:8080/?src=lm&ls=n7&au=8i/readme.asp”,则当保留端口号字段内容时,获得的规则URL(关键字以字母排序规则为例)为“http://:8080/?au=&ls=&src=/”;当保留文件名字段内容中的文件后缀时,获得的规则URL为“http:///?au=&ls=&src=/.asp”;当保留端口号字段内容和文件名字段内容中的文件后缀时,获得的规则URL为“http://:8080/?au=&ls=&src=/.asp”。
进一步的,依据上述方法实施例,本发明的另一个实施例还提供了一种钓鱼网站检测规则的自动生成装置,如图2所示,该装置包括:获取单元21、删除单元22、保留单元23和排序单元24。其中,
获取单元21,用于获取已出库的统一资源定位符URL,已出库的URL为已知钓鱼网站的URL;
删除单元22,用于将获取单元21获取的已出库的URL中域名字段内容删除;
保留单元23,用于保留删除单元22获得的路径字段内容;
删除单元22,还用于将保留单元23保留的路径字段内容中关键字的参数值删除;
排序单元24,用于按照排序规则对删除单元22获得的路径字段内容中的各个关键字进行排序,获得包含检测特征的规则URL,以便后续通过规则URL对未知网站的URL进行检测。
进一步的,如图3所示,获取单元21,包括:
第一获取模块211,用于获取用户访问已知钓鱼网站的访问日志;
第二获取模块212,用于从第一获取模块211获取的访问日志中获取已知钓鱼网站的所有URL,其中已知钓鱼网站的所有URL具有相同的域名。
进一步的,如图3所示,获取单元21,还包括:
第三获取模块213,用于在第二获取模块212从访问日志中获取已知钓鱼网站的所有URL之后,从访问日志中获取已知钓鱼网站的主机的网间协议IP地址;
查找模块214,用于在用户访问各个网站的所有访问日志中查找记录第三获取模块213获取的IP地址的访问日志;
第四获取模块215,用于根据查找模块214查找的IP地址的访问日志,获得主机其他域名下的所有URL。
进一步的,如图3所示,该装置进一步包括:
分组单元25,用于在获取单元21获取已出库的URL之后,按照IP地址对已出库的URL进行分组,将IP地址相同的URL分为同一组。
进一步的,如图3所示,该装置进一步包括:
分类单元26,用于在获取单元21获取已出库的URL之后,按照分类规则对已出库的URL进行分类。
进一步的,如图3所示,该装置进一步包括:
计算单元27,用于计算路径字段内容中关键字的个数,并将关键字的个数作为检测规则。
进一步的,如图3所示,保留单元23,还用于在删除单元22将路径字段内容中关键字的参数值删除之前,保留端口号字段内容和/或文件名字段内容中的文件后缀。
本发明实施例提供的钓鱼网站检测规则的自动生成装置,能够将已出库的URL中域名字段内容删除,并保留路径字段内容,然后将路径字段内容中的关键字的参数值删除,并对各个关键字进行排序,最终获得包含检测特征的规则URL。与现有技术中将页面内容作为检测钓鱼网站的规则相比,本发明仅通过对已知钓鱼网站的URL进行非共性内容删除,从而获得含有检测特征(即共性内容)的规则URL,进而在进行钓鱼网站的识别过程中,只需将规则URL与未知网站的URL进行对比即可,而无需获取未知网站的页面内容,由此避免了因无法获取页面内容而无法对未知网站进行检测的情况。
本发明的实施例公开了:
A1、一种钓鱼网站检测规则的自动生成方法,其特征在于,所述方法包括:
获取已出库的统一资源定位符URL,所述已出库的URL为已知钓鱼网站的URL;
将所述已出库的URL中域名字段内容删除,并保留路径字段内容;
将所述路径字段内容中关键字的参数值删除;
按照排序规则对所述路径字段内容中的各个关键字进行排序,获得包含检测特征的规则URL,以便后续通过所述规则URL对未知网站的URL进行检测。
A2、根据A1所述的方法,其特征在于,所述获取已出库的统一资源定位符URL,包括:
获取用户访问所述已知钓鱼网站的访问日志;
从所述访问日志中获取所述已知钓鱼网站的所有URL,其中所述已知钓鱼网站的所有URL具有相同的域名。
A3、根据A2所述的方法,其特征在于,在所述从所述访问日志中获取所述已知钓鱼网站的所有URL之后,所述方法进一步包括:
从所述访问日志中获取所述已知钓鱼网站的主机的网间协议IP地址;
在用户访问各个网站的所有访问日志中查找记录所述IP地址的访问日志;
根据所述IP地址的访问日志,获得所述主机其他域名下的所有URL。
A4、根据A1所述的方法,其特征在于,在所述获取已出库的统一资源定位符URL之后,所述方法进一步包括:
按照IP地址对所述已出库的URL进行分组,将IP地址相同的URL分为同一组。
A5、根据A1所述的方法,其特征在于,在所述获取已出库的统一资源定位符URL之后,所述方法进一步包括:
按照分类规则对所述已出库的URL进行分类。
A6、根据A1所述的方法,其特征在于,所述方法进一步包括:
计算所述路径字段内容中关键字的个数,并将所述关键字的个数作为检测规则。
A7、根据A1所述的方法,其特征在于,在所述将所述路径字段内容中关键字的参数值删除之前,所述方法进一步包括:
保留端口号字段内容和/或文件名字段内容中的文件后缀。
B8、一种钓鱼网站检测规则的自动生成装置,其特征在于,所述装置包括:
获取单元,用于获取已出库的统一资源定位符URL,所述已出库的URL为已知钓鱼网站的URL;
删除单元,用于将所述获取单元获取的所述已出库的URL中域名字段内容删除;
保留单元,用于保留所述删除单元获得的路径字段内容;
所述删除单元,还用于将所述保留单元保留的所述路径字段内容中关键字的参数值删除;
排序单元,用于按照排序规则对所述删除单元获得的所述路径字段内容中的各个关键字进行排序,获得包含检测特征的规则URL,以便后续通过所述规则URL对未知网站的URL进行检测。
B9、根据B8所述的装置,其特征在于,所述获取单元,包括:
第一获取模块,用于获取用户访问所述已知钓鱼网站的访问日志;
第二获取模块,用于从所述第一获取模块获取的所述访问日志中获取所述已知钓鱼网站的所有URL,其中所述已知钓鱼网站的所有URL具有相同的域名。
B10、根据B9所述的装置,其特征在于,所述获取单元,还包括:
第三获取模块,用于在所述第二获取模块从所述访问日志中获取所述已知钓鱼网站的所有URL之后,从所述访问日志中获取所述已知钓鱼网站的主机的网间协议IP地址;
查找模块,用于在用户访问各个网站的所有访问日志中查找记录所述第三获取模块获取的所述IP地址的访问日志;
第四获取模块,用于根据所述查找模块查找的所述IP地址的访问日志,获得所述主机其他域名下的所有URL。
B11、根据B8所述的装置,其特征在于,所述装置进一步包括:
分组单元,用于在所述获取单元获取已出库的URL之后,按照IP地址对所述已出库的URL进行分组,将IP地址相同的URL分为同一组。
B12、根据B8所述的装置,其特征在于,所述装置进一步包括:
分类单元,用于在所述获取单元获取已出库的URL之后,按照分类规则对所述已出库的URL进行分类。
B13、根据B8所述的装置,其特征在于,所述装置进一步包括:
计算单元,用于计算所述路径字段内容中关键字的个数,并将所述关键字的个数作为检测规则。
B14、根据B8所述的装置,其特征在于,所述保留单元,还用于在所述删除单元将所述路径字段内容中关键字的参数值删除之前,保留端口号字段内容和/或文件名字段内容中的文件后缀。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
可以理解的是,上述方法及装置中的相关特征可以相互参考。另外,上述实施例中的“第一”、“第二”等是用于区分各实施例,而并不代表各实施例的优劣。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的随身电子防丢设备的状态检测方法、设备、服务器及系统设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (10)

1.一种钓鱼网站检测规则的自动生成方法,其特征在于,所述方法包括:
获取已出库的统一资源定位符URL,所述已出库的URL为已知钓鱼网站的URL;
将所述已出库的URL中域名字段内容删除,并保留路径字段内容;
将所述路径字段内容中关键字的参数值删除;
按照排序规则对所述路径字段内容中的各个关键字进行排序,获得包含检测特征的规则URL,以便后续通过所述规则URL对未知网站的URL进行检测。
2.根据权利要求1所述的方法,其特征在于,所述获取已出库的统一资源定位符URL,包括:
获取用户访问所述已知钓鱼网站的访问日志;
从所述访问日志中获取所述已知钓鱼网站的所有URL,其中所述已知钓鱼网站的所有URL具有相同的域名。
3.根据权利要求2所述的方法,其特征在于,在所述从所述访问日志中获取所述已知钓鱼网站的所有URL之后,所述方法进一步包括:
从所述访问日志中获取所述已知钓鱼网站的主机的网间协议IP地址;
在用户访问各个网站的所有访问日志中查找记录所述IP地址的访问日志;
根据所述IP地址的访问日志,获得所述主机其他域名下的所有URL。
4.根据权利要求1所述的方法,其特征在于,在所述获取已出库的统一资源定位符URL之后,所述方法进一步包括:
按照IP地址对所述已出库的URL进行分组,将IP地址相同的URL分为同一组。
5.根据权利要求1所述的方法,其特征在于,在所述获取已出库的统一资源定位符URL之后,所述方法进一步包括:
按照分类规则对所述已出库的URL进行分类。
6.根据权利要求1所述的方法,其特征在于,所述方法进一步包括:
计算所述路径字段内容中关键字的个数,并将所述关键字的个数作为检测规则。
7.根据权利要求1所述的方法,其特征在于,在所述将所述路径字段内容中关键字的参数值删除之前,所述方法进一步包括:
保留端口号字段内容和/或文件名字段内容中的文件后缀。
8.一种钓鱼网站检测规则的自动生成装置,其特征在于,所述装置包括:
获取单元,用于获取已出库的统一资源定位符URL,所述已出库的URL为已知钓鱼网站的URL;
删除单元,用于将所述获取单元获取的所述已出库的URL中域名字段内容删除;
保留单元,用于保留所述删除单元获得的路径字段内容;
所述删除单元,还用于将所述保留单元保留的所述路径字段内容中关键字的参数值删除;
排序单元,用于按照排序规则对所述删除单元获得的所述路径字段内容中的各个关键字进行排序,获得包含检测特征的规则URL,以便后续通过所述规则URL对未知网站的URL进行检测。
9.根据权利要求8所述的装置,其特征在于,所述获取单元,包括:
第一获取模块,用于获取用户访问所述已知钓鱼网站的访问日志;
第二获取模块,用于从所述第一获取模块获取的所述访问日志中获取所述已知钓鱼网站的所有URL,其中所述已知钓鱼网站的所有URL具有相同的域名。
10.根据权利要求9所述的装置,其特征在于,所述获取单元,还包括:
第三获取模块,用于在所述第二获取模块从所述访问日志中获取所述已知钓鱼网站的所有URL之后,从所述访问日志中获取所述已知钓鱼网站的主机的网间协议IP地址;
查找模块,用于在用户访问各个网站的所有访问日志中查找记录所述第三获取模块获取的所述IP地址的访问日志;
第四获取模块,用于根据所述查找模块查找的所述IP地址的访问日志,获得所述主机其他域名下的所有URL。
CN201510623510.9A 2015-09-25 2015-09-25 钓鱼网站检测规则的自动生成方法及装置 Pending CN105138912A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510623510.9A CN105138912A (zh) 2015-09-25 2015-09-25 钓鱼网站检测规则的自动生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510623510.9A CN105138912A (zh) 2015-09-25 2015-09-25 钓鱼网站检测规则的自动生成方法及装置

Publications (1)

Publication Number Publication Date
CN105138912A true CN105138912A (zh) 2015-12-09

Family

ID=54724257

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510623510.9A Pending CN105138912A (zh) 2015-09-25 2015-09-25 钓鱼网站检测规则的自动生成方法及装置

Country Status (1)

Country Link
CN (1) CN105138912A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503125A (zh) * 2016-10-19 2017-03-15 中国互联网络信息中心 一种数据源扩展方法及装置
CN108287831A (zh) * 2017-01-09 2018-07-17 阿里巴巴集团控股有限公司 一种url分类方法和系统、数据处理方法和系统
CN109088859A (zh) * 2018-07-16 2018-12-25 北京奇虎科技有限公司 识别可疑目标对象的方法、装置、服务器及可读存储介质
CN110851747A (zh) * 2018-08-01 2020-02-28 北京国双科技有限公司 一种信息匹配方法和装置
CN114710468A (zh) * 2022-03-31 2022-07-05 绿盟科技集团股份有限公司 一种域名生成和识别方法、装置、设备及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102316099A (zh) * 2011-07-28 2012-01-11 中国科学院计算机网络信息中心 网络钓鱼检测方法及装置
CN102339320A (zh) * 2011-11-04 2012-02-01 成都市华为赛门铁克科技有限公司 恶意网页的识别方法以及识别装置
CN102739679A (zh) * 2012-06-29 2012-10-17 东南大学 一种基于url分类的钓鱼网站检测方法
CN102790762A (zh) * 2012-06-18 2012-11-21 东南大学 基于url分类的钓鱼网站检测方法
CN102801698A (zh) * 2011-12-20 2012-11-28 北京安天电子设备有限公司 一种基于url请求时序的恶意代码检测方法和系统
CN103491101A (zh) * 2013-09-30 2014-01-01 北京金山网络科技有限公司 钓鱼网站检测方法、装置及客户端
CN104182685A (zh) * 2014-08-19 2014-12-03 北京京东尚科信息技术有限公司 一种用于java web应用的xss防御方法及组件

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102316099A (zh) * 2011-07-28 2012-01-11 中国科学院计算机网络信息中心 网络钓鱼检测方法及装置
CN102339320A (zh) * 2011-11-04 2012-02-01 成都市华为赛门铁克科技有限公司 恶意网页的识别方法以及识别装置
CN102801698A (zh) * 2011-12-20 2012-11-28 北京安天电子设备有限公司 一种基于url请求时序的恶意代码检测方法和系统
CN102790762A (zh) * 2012-06-18 2012-11-21 东南大学 基于url分类的钓鱼网站检测方法
CN102739679A (zh) * 2012-06-29 2012-10-17 东南大学 一种基于url分类的钓鱼网站检测方法
CN103491101A (zh) * 2013-09-30 2014-01-01 北京金山网络科技有限公司 钓鱼网站检测方法、装置及客户端
CN104182685A (zh) * 2014-08-19 2014-12-03 北京京东尚科信息技术有限公司 一种用于java web应用的xss防御方法及组件

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503125A (zh) * 2016-10-19 2017-03-15 中国互联网络信息中心 一种数据源扩展方法及装置
CN106503125B (zh) * 2016-10-19 2019-10-15 中国互联网络信息中心 一种数据源扩展方法及装置
CN108287831A (zh) * 2017-01-09 2018-07-17 阿里巴巴集团控股有限公司 一种url分类方法和系统、数据处理方法和系统
CN108287831B (zh) * 2017-01-09 2022-08-05 阿里巴巴集团控股有限公司 一种url分类方法和系统、数据处理方法和系统
CN109088859A (zh) * 2018-07-16 2018-12-25 北京奇虎科技有限公司 识别可疑目标对象的方法、装置、服务器及可读存储介质
CN110851747A (zh) * 2018-08-01 2020-02-28 北京国双科技有限公司 一种信息匹配方法和装置
CN110851747B (zh) * 2018-08-01 2022-08-02 北京国双科技有限公司 一种信息匹配方法和装置
CN114710468A (zh) * 2022-03-31 2022-07-05 绿盟科技集团股份有限公司 一种域名生成和识别方法、装置、设备及介质
CN114710468B (zh) * 2022-03-31 2024-05-14 绿盟科技集团股份有限公司 一种域名生成和识别方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
US9680856B2 (en) System and methods for scalably identifying and characterizing structural differences between document object models
US20130204981A1 (en) Url rescue by identifying information related to an item referenced in an invalid url
CN105138912A (zh) 钓鱼网站检测规则的自动生成方法及装置
US20180131708A1 (en) Identifying Fraudulent and Malicious Websites, Domain and Sub-domain Names
US20160188723A1 (en) Cloud website recommendation method and system based on terminal access statistics, and related device
CN103617241B (zh) 搜索信息处理方法、浏览器终端与服务器
CN104462985A (zh) bat漏洞的检测方法以及装置
CN107888606B (zh) 一种域名信誉度评估方法及系统
CN105187439A (zh) 钓鱼网站检测方法及装置
US9195761B2 (en) System and method for navigating documents
JP2018113034A (ja) 転置インデックスを用いたバイト列のバイナリサーチ
CN105407186A (zh) 获取子域名的方法和装置
CN104298923A (zh) 漏洞类型识别方法以及装置
Chiew et al. Building standard offline anti-phishing dataset for benchmarking
CN103870573A (zh) 对网址进行分析的方法和装置
CN104065736A (zh) 一种url重定向方法、装置及系统
CN103617225B (zh) 一种关联网页搜索方法和系统
CN103618742A (zh) 获取子域名的方法和系统以及网站管理员权限验证方法
CN104579819A (zh) 网络安全检测方法以及装置
CN102917053B (zh) 一种用于判断网页网址重写的方法、设备和系统
Soulemane et al. Crawling the hidden web: An approach to dynamic web indexing
CN104978423A (zh) 网站类型的检测方法及装置
CN105404695A (zh) 试题查询方法和装置
CN104462519A (zh) 搜索查询方法和装置
CN103778181A (zh) 浏览器收藏夹中图标的导入方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20151209