CN105187439A - 钓鱼网站检测方法及装置 - Google Patents

钓鱼网站检测方法及装置 Download PDF

Info

Publication number
CN105187439A
CN105187439A CN201510624709.3A CN201510624709A CN105187439A CN 105187439 A CN105187439 A CN 105187439A CN 201510624709 A CN201510624709 A CN 201510624709A CN 105187439 A CN105187439 A CN 105187439A
Authority
CN
China
Prior art keywords
url
target
website
phishing
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510624709.3A
Other languages
English (en)
Inventor
李晓波
尹露
杨晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201510624709.3A priority Critical patent/CN105187439A/zh
Publication of CN105187439A publication Critical patent/CN105187439A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种钓鱼网站检测方法及装置,涉及互联网技术领域,能够解决现有技术中无法通过页面内容识别钓鱼网站的问题。本发明的方法包括:获取目标网站的目标统一资源定位符URL;对目标URL进行去具象化处理,获得第一URL;将第一URL与规则库中的第二URL进行比对,第二URL为经过去具象化处理后的已知钓鱼网站的URL;若第一URL与第二URL匹配,则确定目标网站为钓鱼网站;去具象化处理,包括:将URL中的域名字段内容删除,并保留路径字段内容;将路径字段内容中关键字的参数值删除;按照排序规则对路径字段内容中的各个关键字进行排序。本发明适用于利用URL识别钓鱼网站的场景中。

Description

钓鱼网站检测方法及装置
技术领域
本发明涉及互联网技术领域,特别是涉及一种钓鱼网站检测方法及装置。
背景技术
钓鱼网站是指伪装的银行、电子商务等网站,黑客利用钓鱼网站可以窃取用户提交的银行帐号、密码等私密信息。因此,钓鱼网站的检测是及其重要的。
现有技术中,钓鱼网站的检测方法主要是通过获取URL(UniformResourceLocator,统一资源定位符)请求目标网站的页面内容,并对页面内容中的特征向量进行识别,从而判断该目标网站是否为钓鱼网站。例如,可以通过目标网站页面内容布局(如链接、图标和搜索栏的位置)与银行页面布局的相似度来判断目标网站是否为钓鱼网站。对于这种基于网站页面内容的检测方式,有些钓鱼网站却存在一定的攻防机制,即当钓鱼网站检测到某设备发送获取页面内容的请求时,钓鱼网站会通过该请求识别发送方的IP(InternetProtocol,网间协议)地址,并将该IP地址进行屏蔽,从而使得发送方无法获得钓鱼网站的页面内容,进而无法通过页面内容进行钓鱼网站的检测。
发明内容
有鉴于此,本发明提供一种钓鱼网站检测方法及装置,能够解决现有技术中无法通过页面内容识别钓鱼网站的问题。
依据本发明一个方面,提供了一种钓鱼网站检测方法,所述方法包括:
获取目标网站的目标统一资源定位符URL;
对所述目标URL进行去具象化处理,获得第一URL;
将所述第一URL与规则库中的第二URL进行比对,所述第二URL为经过所述去具象化处理后的已知钓鱼网站的URL;
若所述第一URL与所述第二URL匹配,则确定所述目标网站为钓鱼网站;
所述去具象化处理,包括:
将URL中的域名字段内容删除,并保留路径字段内容;
将所述路径字段内容中关键字的参数值删除;
按照排序规则对所述路径字段内容中的各个关键字进行排序。
依据本发明一个方面,提供了一种钓鱼网站检测装置,所述装置包括:
获取单元,用于获取目标网站的目标统一资源定位符URL;
处理单元,用于对所述获取单元获取的所述目标URL进行去具象化处理,获得第一URL;
比对单元,用于将所述处理单元获得的所述第一URL与规则库中的第二URL进行比对,所述第二URL为经过所述去具象化处理后的已知钓鱼网站的URL;
确定单元,用于当所述比对单元的比对结果为所述第一URL与所述第二URL匹配时,确定所述目标网站为钓鱼网站;
所述处理单元包括:
删除模块,用于将URL中的域名字段内容删除;
保留模块,用于保留路径字段内容;
所述删除模块,还用于将所述保留模块保留的所述路径字段内容中关键字的参数值删除;
排序模块,用于按照排序规则对所述删除模块获得的所述路径字段内容中的各个关键字进行排序。
借由上述技术方案,本发明提供的钓鱼网站检测方法及装置,能够在获取目标网站的目标URL后,先对目标URL进行去具象化处理,再与规则库中的URL进行比对,若两者匹配,则确定目标网站为钓鱼网站。与现有技术中通过页面内容进行检测相比,本发明仅需要获取目标网站的URL,通过检测URL来判断该目标网站是否为钓鱼网站,而无需获取目标网站的页面内容,从而使得在无法获取页面内容的情况下也能够对目标网站进行检测,进而检测出未知的钓鱼网站。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种钓鱼网站检测方法的流程图;
图2示出了本发明实施例提供的一种钓鱼网站检测装置的组成框图;
图3示出了本发明实施例提供的另一种钓鱼网站检测装置的组成框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种钓鱼网站检测方法,如图1所示,该方法包括:
101、获取目标网站的目标URL。
其中,目标URL的个数至少为一个。钓鱼网站检测服务器可以先获取用户访问目标网站的访问日志,再从访问日志中获取目标URL。
此外,钓鱼网站检测服务器获取目标网站目标URL的时机可以不同,可以为实时获取,也可以为非实时获取。对于实时获取的方式,用户访问一次目标网站,钓鱼网站检测服务器就获取当前被访问页面的URL,并实时对当前获取的URL进行检测。对于非实时获取的方式,钓鱼网站检测服务器可以周期性地获取在一个周期内用户所访问网页的URL,并对这些URL进行检测,也可以不定期地获取并检测最近访问的页面的URL。
需要说明的是,本发明实施例中URL的来源不仅限于一个用户的访问行为,还可以通过云端等方式获取不同用户的访问行为。
102、对目标URL进行去具象化处理,获得第一URL。
其中,去具象化处理用于删除URL中的非共性因素,保留共性因素。其具体处理过程如下:
a1、将URL中的域名字段内容删除,并保留路径字段内容。
由于一个域名一般只能对应一个网站,所以不同网站的域名是不同的,所以域名字段内容是非共性因素,需要将其删除,而不同网站的URL中路径字段却存在相同特征(即共性因素),所以需要保留路径字段内容。
示例性的,若URL为“http://abc.com/?src=xy”,则钓鱼网站检测服务器需要将“abc.com”删除,保留“?src=xy”,即处理后的URL变为“http:///?src=xy”(也可以将协议字段内容删除,即“:///?src=xy”)。
a2、将路径字段内容中关键字的参数值删除。
在实际应用中,不同网站的URL中路径字段内容的关键字往往设置相同,但是由于是不同的网站,所以关键字的参数值不同。由此可知,路径字段内容中的各个关键字是网站URL的共性因素,而关键字的具体取值(即参数值)是非共性因素。因此,钓鱼网站检测服务器可以将路径字段内容中关键字的参数值删除,保留共性因素关键字(即检测特征),便于将目标网站的URL与钓鱼网站的URL进行共性因素比对,从而判断目标网站是否为钓鱼网站。
示例性的,若URL为“http://a.com/?src=lm&ls=n72f234da92”,则将域名字段内容和关键字的参数删除之后,该URL变为“http:///?src=&ls=”。
需要说明的是,上述路径字段内容中的关键字为query部分中的关键字,若路径字段内容中包含目录等路径,则需要保留。
a3、按照排序规则对路径字段内容中的各个关键字进行排序。
实际应用中,由于路径字段内容中各个关键字的含义是固定的,所以即使改变各个关键字的排列顺序,具体的路径也不会改变。然而不同网站URL中路径字段内容的关键字的顺序往往存在差异,在这种情况下,当经过步骤a1和a2处理后的目标URL除了关键字的顺序与第二URL不同外,其他都相同。此时直接进行比对,所得的结果为不匹配,从而将本是钓鱼网站的目标网站误认为是正常网站,进而也使得受害用户因此而增多。因此,经过步骤a1和a2处理后的目标URL中的关键字需要按照排序规则进行排序。
其中,排序规则可以有多种。例如,按照关键字的首字母进行排序(首字母相同的按第二个字母排序,依次类推)。又如,按照关键字中字母的个数由少到多进行排序(个数相同的,按照字母进行排序)。
示例性的,若URL为“http://a.com/?src=lm&ls=n7&au=8i”,排序规则为按照按照关键字的首字母进行排序,则经上述步骤a1-a3后,最终得到的第一URL为“http:///?au=&ls=&src=”。
103、将第一URL与规则库中的第二URL进行比对。
其中,第二URL为经过去具象化处理后的已知钓鱼网站的URL。当目标URL经去具象化处理后,获得第一URL,此时将第一URL与第二URL进行比对,即将目标URL和钓鱼网站的URL进行共性因素比对,可以判断出目标网站是否为钓鱼网站。
在比对过程中,目标网站的每一个第一URL会依次与规则库中的每一个URL进行比对。若某第一URL与当前第二URL匹配,则该第一URL不会再与下一个第二URL进行比对;若某第一URL与当前第二URL不匹配,则该第一URL会再与下一个第二URL进行比对。
104、若第一URL与第二URL匹配,则确定目标网站为钓鱼网站。
当上述步骤103的比对结果为第一URL与第二URL匹配时,钓鱼网站检测服务器确定对应第一URL的目标网站为钓鱼网站;当上述步骤103的比对结果为第一URL与第二URL不匹配时,钓鱼网站检测服务器确定对应第一URL的目标网站不是钓鱼网站。
需要说明的是,本步骤中的匹配包括相同和基本相同。因为在第一URL和第二URL的检测特征都相同的情况下,还可能存在某些符号不一致的情况,例如第一URL的路径字段内容为“a?b=$d=$”,第二URL的路径字段内容为“?b=$d=$”,则第一URL与第二URL的关键字相同,而第一URL的query的前面部分有个字母a,第二URL的query的前面部分没有字母a,由于此处的字母a不是检测特征,所以第一URL与第二URL基本相同(即匹配)。
本发明实施例提供的钓鱼网站检测方法,能够在获取目标网站的目标URL后,先对目标URL进行去具象化处理,再与规则库中的URL进行比对,若两者匹配,则确定目标网站为钓鱼网站。与现有技术中通过页面内容进行检测相比,本发明仅需要获取目标网站的URL,通过检测URL来判断该目标网站是否为钓鱼网站,而无需获取目标网站的页面内容,从而使得在无法获取页面内容的情况下也能够对目标网站进行检测,进而检测出未知的钓鱼网站。
进一步的,钓鱼网站检测服务器在获取目标网站的目标URL时,可以获取用户访问的网站的所有URL。具体的,钓鱼网站检测服务器可以获取一个目标网站的所有URL,也可以获取多个目标网站的所有URL,即可以仅对一个网站进行检测,也可以同时对多个网站进行检测。
对于获取一个目标网站的所有URL这种情况,钓鱼网站检测服务器可以获取当前用户目前所访问的网站的所有URL,然后再获取与用户访问的网站同属一个主机的其他网站的所有URL,以便将同一个主机的多个钓鱼网站同时检测出来。具体的,钓鱼网站检测服务器先在获取的访问日志中查找对应网站的主机的IP地址,然后从所有的访问日志中查找记录该IP地址的其他网站(或者其他域名)的访问日志,最后从记录该IP地址的其他网站的访问日志中获取对应的URL。
需要说明的是,上述其他网站可以包括当前用户访问过的网站,也可以包括其他用户访问过的网站。此外,上述提及的所有URL是指用户访问过的网页所对应的URL,而不包括用户没有访问过的网页所对应的URL。
进一步的,由于在实际应用中,一个黑客在开发钓鱼网站时,一般只用一个或者若干个主机开发若干个钓鱼网站,而不会经常更换主机或者主机的IP地址。因此,在将第一URL与规则库中的第二URL进行比对之前,钓鱼网站检测服务器可以先判断目标网站是否和钓鱼网站来自于同一个主机,当为同一个主机时,才对第一URL进行下一步检测,从而提高了检测的准确率。
具体的,钓鱼网站检测服务器需要先获取目标网站的主机的IP地址,再检测规则库中是否存在与IP地址对应的第二URL。若存在,则将第一URL与对应IP地址的第二URL进行比对;若不存在,则无需将第一URL与第二URL进行比对,直接确定目标网站为正常网站。
其中,获取目标网站的主机的IP地址的方法可以为:从访问日志中查找目的IP地址(即用户所访问的IP地址)。此外,规则库中已经按照IP地址将所有第二URL进行了分类,因此钓鱼网站检测服务器可直接对IP地址进行匹配,无需再通过获取访问日志等方式来确定每一个第二URL对应的IP地址。
进一步的,在实际应用中,用户往往需要知道盗取其私密信息的钓鱼网站是哪一类网站,以便后续对这类网站提高警惕。因此,钓鱼网站检测服务器可以将第一URL分别与不同类别的第二URL进行比对,若第一URL与某一类别的第二URL匹配,则确定目标网站为对应该类别的钓鱼网站,若第一URL与所有第二URL都不匹配,则确定目标网站为正常网站。
其中,第二URL的类别有多种。在实际应用中,可以将所有第二URL划分为若干大类,再将每一个大类划分为若干小类。具体的,大类有银行类、网购类等,小类可以按照网站进行划分,即银行类可以包括工商银行、农业银行、中国银行和招商银行等,网购类可以包括淘宝、京东和唯品会等。
示例性的,若银行大类的中国银行小类中的某第二URL为“http:///?d=&m=&n=”,当前待检测的第一URL为“http:///?d=&m=&n=”。通过将两者进行比对,得知两者匹配,此时除了可以确定对应第一URL的目标网站是钓鱼网站之外,还可以确定该钓鱼网站伪装的是中国银行的网站。
进一步的,为了提高检测效率,钓鱼网站检测服务器在将第一URL与规则库中的第二URL进行比对时,可以先判断第一URL路径字段内容中的关键字的个数是否与当前第二URL中关键字的个数相同;若个数相同,则第一URL有可能与当前第二URL相同,需要将第一URL与当前第二URL进行比对;若个数不同,则第一URL一定与当前第二URL不相同,无需再进行关键字匹配,直接将第一URL与下一个URL中关键字的个数进行比对即可。
进一步的,由于用户常常会重复访问目标网站的相同页面,所以钓鱼网站检测服务器获取的目标URL具有重复性。因此,为了避免对相同的目标URL进行重复性检测,从而提高检测效率,可以在目标URL检测完成后,为该目标URL添加检测标识,用于标记目标URL已经过检测。
具体的,在钓鱼网站检测服务器对目标URL进行去具象化处理之前,需要判断目标URL是否与携带检测标识的URL相同。若目标URL与携带检测标识的URL相同,则说明该目标URL已经被检测过,无需再对其进行检测;若目标URL与携带检测标识的URL不相同,则说明该目标URL未被检测过,需要对其进行检测。
进一步的,在实际应用中,在对某正常网站的一个URL进行去具象化处理后,获得的第一URL可能与某第二URL相匹配,因此为了进一步确保检测钓鱼网站的准确率,可以利用命中率进一步完善。
具体的,检测标识中记录有命中标记或未命中标记。由此在确定目标URL与第二URL匹配后,需要根据检测标识的内容,统计目前已检测的所有URL中命中第二URL的次数。若命中的次数大于预设次数阈值,则直接确定目标网站为钓鱼网站;若命中的次数小于等于预设次数阈值,则需要继续对后续的目标URL进行检测,直到命中的次数大于预设次数阈值时,才能确定目标网站为钓鱼网站。
进一步的,在实际应用中,黑客所设置的钓鱼网站所使用的端口号或者文件格式可能与正常网站有所不同,例如钓鱼网站常常使用的文件格式往往是ASP格式,而非PHP等其他格式。因此为了提高检测钓鱼网站的准确率,去具象化处理还包括:在将路径字段内容中关键字的参数值删除之前,钓鱼网站检测服务器可以保留URL中的端口号字段内容和/或文件名字段内容中的文件后缀。
示例性的,若某URL为“http://xz.com:8080/?x=lm&y=n7&z=8i/readme.asp”,则当保留端口号字段内容时,获得的规则URL(关键字以字母排序规则为例)为“http://:8080/?x=&y=&z=/”;当保留文件名字段内容中的文件后缀时,获得的规则URL为“http:///?x=&y=&z=/.asp”;当保留端口号字段内容和文件名字段内容中的文件后缀时,获得的规则URL为“http://:8080/?x=&y=&z=/.asp”。
进一步的,根据上述方法实施例,本发明的另一个实施例还提供了一种钓鱼网站检测装置,如图2所示,该装置包括:获取单元21、处理单元22、比对单元23和确定单元24。其中,
获取单元21,用于获取目标网站的目标统一资源定位符URL;
处理单元22,用于对获取单元21获取的目标URL进行去具象化处理,获得第一URL;
比对单元23,用于将处理单元22获得的第一URL与规则库中的第二URL进行比对,第二URL为经过去具象化处理后的已知钓鱼网站的URL;
确定单元24,用于当比对单元23的比对结果为第一URL与第二URL匹配时,确定目标网站为钓鱼网站;
处理单元22包括:
删除模块221,用于将URL中的域名字段内容删除;
保留模块222,用于保留路径字段内容;
删除模块221,还用于将保留模块222保留的路径字段内容中关键字的参数值删除;
排序模块223,用于按照排序规则对删除模块221获得的路径字段内容中的各个关键字进行排序。
进一步的,如图3所示,获取单元21,包括:
第一获取模块211,用于获取用户访问的网站的所有URL。
进一步的,如图3所示,获取单元21,还包括:
第二获取模块212,用于在第一获取模块211获取用户访问的网站的所有URL之后,获取与用户访问的网站同属一个主机的其他网站的所有URL。
进一步的,获取单元21,还用于在将第一URL与规则库中的第二URL进行比对之前,获取目标网站的主机的网间协议IP地址;
如图3所示,该装置还包括:
检测单元25,用于检测规则库中是否存在与获取单元21获取的IP地址对应的第二URL;
比对单元23,用于当检测结果为存在时,将第一URL与对应IP地址的第二URL进行比对。
进一步的,比对单元23,用于将第一URL分别与不同类别的第二URL进行比对;
确定单元24,用于当比对单元23的比对结果为第一URL与某一类别的第二URL匹配时,确定目标网站为对应类别的钓鱼网站。
进一步的,如图3所示,比对单元23,包括:
判断模块231,用于判断第一URL路径字段内容中的关键字的个数是否与当前第二URL中关键字的个数相同;
比对模块232,用于当判断模块231的判断结果为个数相同时,将第一URL与当前第二URL进行比对,当当判断模块231的判断结果为个数不相同时,将第一URL与下一个URL中关键字的个数进行比对。
进一步的,如图3所示,该装置还包括:
添加单元26,用于当对目标URL检测完成后,为目标URL添加检测标识,检测标识用于标记目标URL已经过检测。
进一步的,如图3所示,该装置还包括:
判断单元27,用于判断目标URL是否与携带检测标识的URL相同,当目标URL与携带检测标识的URL相同时,不对目标URL进行检测,当目标URL与携带检测标识的URL不相同时,对目标URL进行检测。
进一步的,添加单元26添加的检测标识中记录有命中标记或未命中标记;
如图3所示,确定单元24,包括:
统计模块241,用于在确定目标网站为钓鱼网站之前,根据检测标识的内容,统计目前已检测的所有URL中命中第二URL的次数;
确定模块242,用于当统计模块241统计的次数大于预设次数阈值时,确定目标网站为钓鱼网站。
进一步的,保留模块222,还用于保留URL中的端口号字段内容和/或文件名字段内容中的文件后缀。
本发明实施例提供的钓鱼网站检测装置,能够在获取目标网站的目标URL后,先对目标URL进行去具象化处理,再与规则库中的URL进行比对,若两者匹配,则确定目标网站为钓鱼网站。与现有技术中通过页面内容进行检测相比,本发明仅需要获取目标网站的URL,通过检测URL来判断该目标网站是否为钓鱼网站,而无需获取目标网站的页面内容,从而使得在无法获取页面内容的情况下也能够对目标网站进行检测,进而检测出未知的钓鱼网站。
本发明的实施例公开了:
1、一种钓鱼网站检测方法,其特征在于,所述方法包括:
获取目标网站的目标统一资源定位符URL;
对所述目标URL进行去具象化处理,获得第一URL;
将所述第一URL与规则库中的第二URL进行比对,所述第二URL为经过所述去具象化处理后的已知钓鱼网站的URL;
若所述第一URL与所述第二URL匹配,则确定所述目标网站为钓鱼网站;
所述去具象化处理,包括:
将URL中的域名字段内容删除,并保留路径字段内容;
将所述路径字段内容中关键字的参数值删除;
按照排序规则对所述路径字段内容中的各个关键字进行排序。
2、根据权利要求1所述的方法,其特征在于,所述获取目标网站的目标URL,包括:
获取用户访问的网站的所有URL。
3、根据权利要求2所述的方法,其特征在于,在所述获取用户访问的网站的所有URL之后,所述方法还包括:
获取与用户访问的网站同属一个主机的其他网站的所有URL。
4、根据权利要求1所述的方法,其特征在于,在所述将所述第一URL与规则库中的第二URL进行比对之前,所述方法还包括:
获取所述目标网站的主机的网间协议IP地址;
检测所述规则库中是否存在与所述IP地址对应的第二URL;
若存在,则所述将所述第一URL与规则库中的第二URL进行比对,包括:
将所述第一URL与对应所述IP地址的第二URL进行比对。
5、根据权利要求1所述的方法,其特征在于,所述将所述第一URL与规则库中的第二URL进行比对,包括:
将所述第一URL分别与不同类别的第二URL进行比对;
所述若所述第一URL与所述第二URL匹配,则确定所述目标网站为钓鱼网站,包括:
若所述第一URL与某一类别的第二URL匹配,则确定所述目标网站为对应所述类别的钓鱼网站。
6、根据权利要求1所述的方法,其特征在于,所述将所述第一URL与规则库中的第二URL进行比对,包括:
判断所述第一URL路径字段内容中的关键字的个数是否与当前第二URL中关键字的个数相同;
若个数相同,则将所述第一URL与所述当前第二URL进行比对;
若个数不同,则将所述第一URL与下一个URL中关键字的个数进行比对。
7、根据权利要求1所述的方法,其特征在于,当对所述目标URL检测完成后,所述方法还包括:
为所述目标URL添加检测标识,所述检测标识用于标记所述目标URL已经过检测。
8、根据权利要求7所述的方法,其特征在于,在所述对所述目标URL进行去具象化处理之前,所述方法还包括:
判断所述目标URL是否与携带检测标识的URL相同;
若所述目标URL与所述携带检测标识的URL相同,则不对所述目标URL进行检测;
若所述目标URL与所述携带检测标识的URL不相同,则对所述目标URL进行检测。
9、根据权利要求7所述的方法,其特征在于,所述检测标识中记录有命中标记或未命中标记;
在所述确定所述目标网站为钓鱼网站之前,所述方法还包括:
根据所述检测标识的内容,统计目前已检测的所有URL中命中第二URL的次数;
所述确定所述目标网站为钓鱼网站,包括:
若所述次数大于预设次数阈值,则确定所述目标网站为所述钓鱼网站。
10、根据权利要求1所述的方法,其特征在于,所述去具象化处理,还包括:
保留URL中的端口号字段内容和/或文件名字段内容中的文件后缀。
11、一种钓鱼网站检测装置,其特征在于,所述装置包括:
获取单元,用于获取目标网站的目标统一资源定位符URL;
处理单元,用于对所述获取单元获取的所述目标URL进行去具象化处理,获得第一URL;
比对单元,用于将所述处理单元获得的所述第一URL与规则库中的第二URL进行比对,所述第二URL为经过所述去具象化处理后的已知钓鱼网站的URL;
确定单元,用于当所述比对单元的比对结果为所述第一URL与所述第二URL匹配时,确定所述目标网站为钓鱼网站;
所述处理单元包括:
删除模块,用于将URL中的域名字段内容删除;
保留模块,用于保留路径字段内容;
所述删除模块,还用于将所述保留模块保留的所述路径字段内容中关键字的参数值删除;
排序模块,用于按照排序规则对所述删除模块获得的所述路径字段内容中的各个关键字进行排序。
12、根据权利要求11所述的装置,其特征在于,所述获取单元,包括:
第一获取模块,用于获取用户访问的网站的所有URL。
13、根据权利要求12所述的装置,其特征在于,所述获取单元,还包括:
第二获取模块,用于在所述第一获取模块获取用户访问的网站的所有URL之后,获取与用户访问的网站同属一个主机的其他网站的所有URL。
14、根据权利要求11所述的装置,其特征在于,所述获取单元,还用于在所述将所述第一URL与规则库中的第二URL进行比对之前,获取所述目标网站的主机的网间协议IP地址;
所述装置还包括:
检测单元,用于检测所述规则库中是否存在与所述获取单元获取的所述IP地址对应的第二URL;
所述比对单元,用于当检测结果为存在时,将所述第一URL与对应所述IP地址的第二URL进行比对。
15、根据权利要求11所述的装置,其特征在于,所述比对单元,用于将所述第一URL分别与不同类别的第二URL进行比对;
所述确定单元,用于当所述比对单元的比对结果为所述第一URL与某一类别的第二URL匹配时,确定所述目标网站为对应所述类别的钓鱼网站。
16、根据权利要求11所述的装置,其特征在于,所述比对单元,包括:
判断模块,用于判断所述第一URL路径字段内容中的关键字的个数是否与当前第二URL中关键字的个数相同;
比对模块,用于当所述判断模块的判断结果为个数相同时,将所述第一URL与所述当前第二URL进行比对,当当所述判断模块的判断结果为个数不相同时,将所述第一URL与下一个URL中关键字的个数进行比对。
17、根据权利要求11所述的装置,其特征在于,所述装置还包括:
添加单元,用于当对所述目标URL检测完成后,为所述目标URL添加检测标识,所述检测标识用于标记所述目标URL已经过检测。
18、根据权利要求17所述的装置,其特征在于,所述装置还包括:
判断单元,用于判断所述目标URL是否与携带检测标识的URL相同,当所述目标URL与所述携带检测标识的URL相同时,不对所述目标URL进行检测,当所述目标URL与所述携带检测标识的URL不相同时,对所述目标URL进行检测。
19、根据权利要求17所述的装置,其特征在于,所述添加单元添加的所述检测标识中记录有命中标记或未命中标记;
所述确定单元,包括:
统计模块,用于在所述确定所述目标网站为钓鱼网站之前,根据所述检测标识的内容,统计目前已检测的所有URL中命中第二URL的次数;
确定模块,用于当所述统计模块统计的所述次数大于预设次数阈值时,确定所述目标网站为所述钓鱼网站。
20、根据权利要求11所述的装置,其特征在于,所述保留模块,还用于保留URL中的端口号字段内容和/或文件名字段内容中的文件后缀。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
可以理解的是,上述方法及装置中的相关特征可以相互参考。另外,上述实施例中的“第一”、“第二”等是用于区分各实施例,而并不代表各实施例的优劣。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的随身电子防丢设备的状态检测方法、设备、服务器及系统设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (10)

1.一种钓鱼网站检测方法,其特征在于,所述方法包括:
获取目标网站的目标统一资源定位符URL;
对所述目标URL进行去具象化处理,获得第一URL;
将所述第一URL与规则库中的第二URL进行比对,所述第二URL为经过所述去具象化处理后的已知钓鱼网站的URL;
若所述第一URL与所述第二URL匹配,则确定所述目标网站为钓鱼网站;
所述去具象化处理,包括:
将URL中的域名字段内容删除,并保留路径字段内容;
将所述路径字段内容中关键字的参数值删除;
按照排序规则对所述路径字段内容中的各个关键字进行排序。
2.根据权利要求1所述的方法,其特征在于,所述获取目标网站的目标URL,包括:
获取用户访问的网站的所有URL。
3.根据权利要求2所述的方法,其特征在于,在所述获取用户访问的网站的所有URL之后,所述方法还包括:
获取与用户访问的网站同属一个主机的其他网站的所有URL。
4.根据权利要求1所述的方法,其特征在于,在所述将所述第一URL与规则库中的第二URL进行比对之前,所述方法还包括:
获取所述目标网站的主机的网间协议IP地址;
检测所述规则库中是否存在与所述IP地址对应的第二URL;
若存在,则所述将所述第一URL与规则库中的第二URL进行比对,包括:
将所述第一URL与对应所述IP地址的第二URL进行比对。
5.根据权利要求1所述的方法,其特征在于,所述将所述第一URL与规则库中的第二URL进行比对,包括:
将所述第一URL分别与不同类别的第二URL进行比对;
所述若所述第一URL与所述第二URL匹配,则确定所述目标网站为钓鱼网站,包括:
若所述第一URL与某一类别的第二URL匹配,则确定所述目标网站为对应所述类别的钓鱼网站。
6.根据权利要求1所述的方法,其特征在于,所述将所述第一URL与规则库中的第二URL进行比对,包括:
判断所述第一URL路径字段内容中的关键字的个数是否与当前第二URL中关键字的个数相同;
若个数相同,则将所述第一URL与所述当前第二URL进行比对;
若个数不同,则将所述第一URL与下一个URL中关键字的个数进行比对。
7.根据权利要求1所述的方法,其特征在于,当对所述目标URL检测完成后,所述方法还包括:
为所述目标URL添加检测标识,所述检测标识用于标记所述目标URL已经过检测。
8.根据权利要求7所述的方法,其特征在于,在所述对所述目标URL进行去具象化处理之前,所述方法还包括:
判断所述目标URL是否与携带检测标识的URL相同;
若所述目标URL与所述携带检测标识的URL相同,则不对所述目标URL进行检测;
若所述目标URL与所述携带检测标识的URL不相同,则对所述目标URL进行检测。
9.根据权利要求7所述的方法,其特征在于,所述检测标识中记录有命中标记或未命中标记;
在所述确定所述目标网站为钓鱼网站之前,所述方法还包括:
根据所述检测标识的内容,统计目前已检测的所有URL中命中第二URL的次数;
所述确定所述目标网站为钓鱼网站,包括:
若所述次数大于预设次数阈值,则确定所述目标网站为所述钓鱼网站。
10.一种钓鱼网站检测装置,其特征在于,所述装置包括:
获取单元,用于获取目标网站的目标统一资源定位符URL;
处理单元,用于对所述获取单元获取的所述目标URL进行去具象化处理,获得第一URL;
比对单元,用于将所述处理单元获得的所述第一URL与规则库中的第二URL进行比对,所述第二URL为经过所述去具象化处理后的已知钓鱼网站的URL;
确定单元,用于当所述比对单元的比对结果为所述第一URL与所述第二URL匹配时,确定所述目标网站为钓鱼网站;
所述处理单元包括:
删除模块,用于将URL中的域名字段内容删除;
保留模块,用于保留路径字段内容;
所述删除模块,还用于将所述保留模块保留的所述路径字段内容中关键字的参数值删除;
排序模块,用于按照排序规则对所述删除模块获得的所述路径字段内容中的各个关键字进行排序。
CN201510624709.3A 2015-09-25 2015-09-25 钓鱼网站检测方法及装置 Pending CN105187439A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510624709.3A CN105187439A (zh) 2015-09-25 2015-09-25 钓鱼网站检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510624709.3A CN105187439A (zh) 2015-09-25 2015-09-25 钓鱼网站检测方法及装置

Publications (1)

Publication Number Publication Date
CN105187439A true CN105187439A (zh) 2015-12-23

Family

ID=54909283

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510624709.3A Pending CN105187439A (zh) 2015-09-25 2015-09-25 钓鱼网站检测方法及装置

Country Status (1)

Country Link
CN (1) CN105187439A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740361A (zh) * 2016-01-26 2016-07-06 上海晶赞科技发展有限公司 全量数据完整度的检测方法及装置
CN107360197A (zh) * 2017-09-08 2017-11-17 杭州安恒信息技术有限公司 一种基于dns日志的网络钓鱼分析方法及装置
CN108287831A (zh) * 2017-01-09 2018-07-17 阿里巴巴集团控股有限公司 一种url分类方法和系统、数据处理方法和系统
CN109088859A (zh) * 2018-07-16 2018-12-25 北京奇虎科技有限公司 识别可疑目标对象的方法、装置、服务器及可读存储介质
CN110851747A (zh) * 2018-08-01 2020-02-28 北京国双科技有限公司 一种信息匹配方法和装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100242092A1 (en) * 2009-03-20 2010-09-23 James Harris Systems and methods for selecting an authentication virtual server from a plurality of virtual servers
CN102724189A (zh) * 2012-06-06 2012-10-10 杭州华三通信技术有限公司 一种控制用户url访问的方法及装置
CN102801698A (zh) * 2011-12-20 2012-11-28 北京安天电子设备有限公司 一种基于url请求时序的恶意代码检测方法和系统
CN103491101A (zh) * 2013-09-30 2014-01-01 北京金山网络科技有限公司 钓鱼网站检测方法、装置及客户端
CN103532944A (zh) * 2013-10-08 2014-01-22 百度在线网络技术(北京)有限公司 一种捕获未知攻击的方法和装置
CN103595732A (zh) * 2013-11-29 2014-02-19 北京奇虎科技有限公司 一种网络攻击取证的方法及装置
CN104182685A (zh) * 2014-08-19 2014-12-03 北京京东尚科信息技术有限公司 一种用于java web应用的xss防御方法及组件
CN106453689A (zh) * 2016-11-11 2017-02-22 四川长虹电器股份有限公司 提取及校验url的方法
CN106453320A (zh) * 2016-10-14 2017-02-22 北京奇虎科技有限公司 恶意样本的识别方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100242092A1 (en) * 2009-03-20 2010-09-23 James Harris Systems and methods for selecting an authentication virtual server from a plurality of virtual servers
CN102801698A (zh) * 2011-12-20 2012-11-28 北京安天电子设备有限公司 一种基于url请求时序的恶意代码检测方法和系统
CN102724189A (zh) * 2012-06-06 2012-10-10 杭州华三通信技术有限公司 一种控制用户url访问的方法及装置
CN103491101A (zh) * 2013-09-30 2014-01-01 北京金山网络科技有限公司 钓鱼网站检测方法、装置及客户端
CN103532944A (zh) * 2013-10-08 2014-01-22 百度在线网络技术(北京)有限公司 一种捕获未知攻击的方法和装置
CN103595732A (zh) * 2013-11-29 2014-02-19 北京奇虎科技有限公司 一种网络攻击取证的方法及装置
CN104182685A (zh) * 2014-08-19 2014-12-03 北京京东尚科信息技术有限公司 一种用于java web应用的xss防御方法及组件
CN106453320A (zh) * 2016-10-14 2017-02-22 北京奇虎科技有限公司 恶意样本的识别方法及装置
CN106453689A (zh) * 2016-11-11 2017-02-22 四川长虹电器股份有限公司 提取及校验url的方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740361A (zh) * 2016-01-26 2016-07-06 上海晶赞科技发展有限公司 全量数据完整度的检测方法及装置
CN108287831A (zh) * 2017-01-09 2018-07-17 阿里巴巴集团控股有限公司 一种url分类方法和系统、数据处理方法和系统
CN107360197A (zh) * 2017-09-08 2017-11-17 杭州安恒信息技术有限公司 一种基于dns日志的网络钓鱼分析方法及装置
CN107360197B (zh) * 2017-09-08 2020-12-25 杭州安恒信息技术股份有限公司 一种基于dns日志的网络钓鱼分析方法及装置
CN109088859A (zh) * 2018-07-16 2018-12-25 北京奇虎科技有限公司 识别可疑目标对象的方法、装置、服务器及可读存储介质
CN109088859B (zh) * 2018-07-16 2021-07-20 北京奇虎科技有限公司 识别可疑目标对象的方法、装置、服务器及可读存储介质
CN110851747A (zh) * 2018-08-01 2020-02-28 北京国双科技有限公司 一种信息匹配方法和装置
CN110851747B (zh) * 2018-08-01 2022-08-02 北京国双科技有限公司 一种信息匹配方法和装置

Similar Documents

Publication Publication Date Title
CN110099059B (zh) 一种域名识别方法、装置及存储介质
US10216848B2 (en) Method and system for recommending cloud websites based on terminal access statistics
CN112866023B (zh) 网络检测、模型训练方法、装置、设备及存储介质
CN105187439A (zh) 钓鱼网站检测方法及装置
US20160294859A1 (en) Apparatus and method for detecting malicious domain cluster
CN104935605B (zh) 钓鱼网站的检测方法、装置及系统
CN107888606B (zh) 一种域名信誉度评估方法及系统
CN105138912A (zh) 钓鱼网站检测规则的自动生成方法及装置
CN104156490A (zh) 基于文字识别检测可疑钓鱼网页的方法及装置
CN107992738B (zh) 一种账号登录异常检测方法、装置及电子设备
GB2555801A (en) Identifying fraudulent and malicious websites, domain and subdomain names
CN108768982B (zh) 钓鱼网站的检测方法、装置、计算设备及计算机存储介质
US20230126692A1 (en) System and method for blocking phishing attempts in computer networks
CN104143008A (zh) 基于图片匹配检测钓鱼网页的方法及装置
CN111756724A (zh) 钓鱼网站的检测方法、装置、设备、计算机可读存储介质
CN105407186A (zh) 获取子域名的方法和装置
CN107239701A (zh) 识别恶意网站的方法及装置
CN112131507A (zh) 网站内容处理方法、装置、服务器和计算机可读存储介质
CN111869176A (zh) 用于恶意软件签名生成的系统和方法
Le Page et al. Domain classifier: Compromised machines versus malicious registrations
CN104978423A (zh) 网站类型的检测方法及装置
CN107786529B (zh) 网站的检测方法、装置及系统
CN107992402A (zh) 日志管理方法及日志管理装置
CN110929185A (zh) 网站目录检测方法、装置、计算机设备及计算机存储介质
CN106850632B (zh) 一种异常组合数据的检测方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20151223

RJ01 Rejection of invention patent application after publication