CN110677384B - 钓鱼网站的检测方法及装置、存储介质、电子装置 - Google Patents

钓鱼网站的检测方法及装置、存储介质、电子装置 Download PDF

Info

Publication number
CN110677384B
CN110677384B CN201910791214.8A CN201910791214A CN110677384B CN 110677384 B CN110677384 B CN 110677384B CN 201910791214 A CN201910791214 A CN 201910791214A CN 110677384 B CN110677384 B CN 110677384B
Authority
CN
China
Prior art keywords
domain name
similarity
page
website
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910791214.8A
Other languages
English (en)
Other versions
CN110677384A (zh
Inventor
叶盛
吴勇义
魏宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qax Technology Group Inc
Secworld Information Technology Beijing Co Ltd
Original Assignee
Qax Technology Group Inc
Secworld Information Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qax Technology Group Inc, Secworld Information Technology Beijing Co Ltd filed Critical Qax Technology Group Inc
Priority to CN201910791214.8A priority Critical patent/CN110677384B/zh
Publication of CN110677384A publication Critical patent/CN110677384A/zh
Application granted granted Critical
Publication of CN110677384B publication Critical patent/CN110677384B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2119Authenticating web pages, e.g. with suspicious links
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/45Network directories; Name-to-address mapping
    • H04L61/4505Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
    • H04L61/4511Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供了一种钓鱼网站的检测方法及装置、存储介质、电子装置,其中,该方法包括:监测域名解析请求,其中,域名解析请求携带目标网站的域名地址;针对第一次监测到的域名地址,计算域名地址与预设白名单的域名相似度,其中,预设白名单包括多个真实网站域名;在域名相似度落在预设阈值范围内时,选择域名相似度最高的真实网站的第一域名,计算域名地址的第一页面与第一域名的第二页面的页面相似度;在页面相似度大于第一阈值时,将目标网站确定为钓鱼网站。通过本发明,解决了相关技术中不能预先检测钓鱼网站的技术问题,从而达到了及时发现钓鱼网站,进而能够避免钓鱼网站带来的损失的有益效果。

Description

钓鱼网站的检测方法及装置、存储介质、电子装置
技术领域
本发明涉及网络安全领域,具体而言,涉及一种钓鱼网站的检测方法及装置、存储介质、电子装置。
背景技术
随着科技的普及化,网络通讯技术以不可取代的地位深入各个领域,而网络安全问题也日益严峻,其中以钓鱼网站问题尤为突出。
相关技术中,当前的钓鱼网站一般是事后发现,即用户发现或举报,验证后采取措施。由于钓鱼网站的域名往往是快速申请,且在达到效果后很快废弃,换成新域名,导致在事后发现的时候往往损失已经造成,且网站也可能已经下线或更换域名,难以及时处置和进行事后追踪。
针对相关技术中存在的上述问题,目前尚未发现有效的解决方案。
发明内容
为了解决相关技术中存在的上述问题,本发明实施例提供了一种钓鱼网站的检测方法及装置、存储介质、电子装置。
根据本发明的一个实施例,提供了一种钓鱼网站的检测方法,包括:监测域名解析请求,其中,所述域名解析请求携带目标网站的域名地址;针对第一次监测到的域名地址,计算所述域名地址与预设白名单的域名相似度,其中,所述预设白名单包括多个真实网站域名;在所述域名相似度落在预设阈值范围内时,选择所述域名相似度最高的真实网站的第一域名,计算所述域名地址的第一页面与第一域名的第二页面的页面相似度;在所述页面相似度大于第一阈值时,将所述目标网站确定为钓鱼网站。
可选的,计算所述域名地址的第一页面与第一域名的第二页面的页面相似度包括:在所述第一页面中爬取第一图片和/或第一文字,以及所述第二页面中爬取第二图片和/或第二文字;计算所述第一图片与所述第二图片的第一相似度,以及计算所述第一文字与所述第二文字的第二相似度;使用所述第一相似度、所述第二相似度,以及第一预设权值计算所述页面相似度。
可选的,计算所述域名地址与预设白名单的域名相似度包括:确定所述域名地址的第一前缀、第一主体和第一后缀,以及确定所述预设白名单中任一域名地址的第二前缀、第二主体和第二后缀;计算所述第一前缀与所述第二前缀的第三相似度,计算所述第一主体与所述第二主体的第四相似度,以及计算所述第一后缀与所述第二后缀的第五相似度;使用所述第三相似度、所述第四相似度、所述第五相似度以及第二预设权值计算所述域名相似度。
可选的,在计算所述域名地址的第一页面与第一域名的第二页面的页面相似度之前,所述方法还包括:设置预设阈值范围,其中,所述阈值范围大于或等于第二阈值且小于1;判断所述域名相似度是否落在所述预设阈值范围内;在所述域名相似度大于或等于所述第二阈值且小于1时,确定所述域名相似度落在所述预设阈值范围内;在所述域名相似度小于所述第二阈值时,确定所述域名相似度未落在所述预设阈值范围内。
可选的,监测域名解析请求至少包括以下之一:监测银行网站的域名解析请求;监测支付网站的域名解析请求;监测网购平台网站的域名解析请求。
根据本发明的一个实施例,还提供了一种钓鱼网站的检测装置,包括:监测模块,用于监测域名解析请求,其中,所述域名解析请求携带目标网站的域名地址;第一计算模块,用于针对第一次监测到的域名地址,计算所述域名地址与预设白名单的域名相似度,其中,所述预设白名单包括多个真实网站域名;第二计算模块,用于在所述域名相似度落在预设阈值范围内时,选择所述域名相似度最高的真实网站的第一域名,计算所述域名地址的第一页面与第一域名的第二页面的页面相似度,第一确定模块,在所述页面相似度大于第一阈值时,将所述目标网站确定为钓鱼网站。
可选的,所述第二计算模块包括:爬取单元,用于在所述第一页面中爬取第一图片和/或第一文字,以及所述第二页面中爬取第二图片和/或第二文字;第一计算单元,用于计算所述第一图片与所述第二图片的第一相似度,以及计算所述第一文字与所述第二文字的第二相似度;第二计算单元,用于使用所述第一相似度、所述第二相似度,以及第一预设权值计算所述页面相似度。
可选的,所述第一计算模块包括:确定单元,用于确定所述域名地址的第一前缀、第一主体和第一后缀,以及确定所述预设白名单中任一域名地址的第二前缀、第二主体和第二后缀;第三计算单元,用于计算所述第一前缀与所述第二前缀的第三相似度,计算所述第一主体与所述第二主体的第四相似度,以及计算所述第一后缀与所述第二后缀的第五相似度;第四计算单元,用于使用所述第三相似度、所述第四相似度、所述第五相似度以及第二预设权值计算所述域名相似度。
可选的,所述装置还包括:设置模块,用于在所述第一确定模块将所述目标网站确定为钓鱼网站之前,设置预设阈值范围,其中,所述阈值范围大于或等于第二阈值且小于1;判断模块,用于判断所述域名相似度是否落在所述预设阈值范围内;第二确定模块,用于在所述域名相似度大于或等于所述第二阈值且小于1时,确定所述域名相似度落在所述预设阈值范围内;在所述域名相似度小于所述第二阈值时,确定所述域名相似度未落在所述预设阈值范围内。
可选的,所述监测模块至少包括以下之一:第一监测单元,用于监测银行网站的域名解析请求;第二监测单元,用于监测支付网站的域名解析请求;第三监测单元,用于监测网购平台网站的域名解析请求。
根据本发明的又一个实施例,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本发明,对第一次监测到的域名解析请求所携带的域名地址与预设白名单中的域名进行相似度分析,初步判断目标网站为钓鱼网站的概率,再根据两个网站的域名对应的页面相似度进一步确定目标网站是否为钓鱼网站,实现了在目标网站上线初期就能监测到是否是钓鱼网站,解决了相关技术中不能预先检测钓鱼网站的技术问题,从而达到了及时发现钓鱼网站,进而能够避免钓鱼网站带来的损失的有益效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例的一种钓鱼网站的检测方法的服务器结构框图;
图2是根据本发明实施例的一种钓鱼网站的检测方法的流程图;
图3是根据本发明具体实施例的一种钓鱼网站的检测方法的结构框图;
图4是本发明具体实施例提供的一种钓鱼网站检测的流程图;
图5是根据本发明实施例提供的一种钓鱼网站的检测装置的结构示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
实施例1
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例,图1是本发明实施例的一种钓鱼网站的检测方法的服务器结构框图。如图1所示,服务器可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述服务器还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述服务器的结构造成限定。例如,服务器还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的一种钓鱼网站的检测方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种钓鱼网站的检测方法,图2是根据本发明实施例的一种钓鱼网站的检测方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,监测域名解析请求,其中,域名解析请求携带目标网站的域名地址;
在本实施例中的目标网站可以为银行、第三方支付、网购平台等网站,通过被动DNS收集访问的目标网站域名,被动DNS是一个采集器,计算机要访问互联网,就需要进行DNS解析请求(域名解析成ip才能访问),向DNS服务器提交的域名解析请求会被采集器记录下来,形成日志,包括请求来源ip,请求的域名地址,解析类型,解析的结果ip等,从而获取目标网站的域名信息。
步骤S204,针对第一次监测到的域名地址,计算域名地址与预设白名单的域名相似度,其中,预设白名单包括多个真实网站域名;
本实施例针对第一次监测到的陌生域名进行钓鱼网站的判定,过滤之前已经检测过的域名或者带有域名标签(域名标签用于指示域名地址链接的网站是否为钓鱼网站,可以是第三方认证机构下发的)的域名地址。
本实施例中的预设白名单,是从已知的真实网站域名中收集易被仿冒的网站域名,可以是官方认证或者第三方认证机构确认的真实网站域名,将所有易被仿冒的网站域名保存于数据库中,以构建预设白名单。
步骤S206,在域名相似度落在预设阈值范围内时,选择域名相似度最高的真实网站的第一域名,计算域名地址的第一页面与第一域名的第二页面的页面相似度;
在本实施例中,对首次访问的网站域名与预设白名单中的域名进行相似度分析,输出域名相似度较高的网站域名,初步确定目标网站为可疑网站之后,再比较目标网站对应的网站页面和真实网站的网站页面之间的页面相似度,从而提高了判断钓鱼网站的准确率。
步骤S208,在页面相似度大于第一阈值时,将目标网站确定为钓鱼网站。
通过本发明,对第一次监测到的域名解析请求所携带的域名地址与预设白名单中真实网站的域名地址进行相似度分析,初步判断首次访问的网站为钓鱼网站的概率,再根据两个网站的域名对应的页面相似度进一步确定目标网站是否为钓鱼网站,为及时应对处置赢得时间,解决了相关技术中不能预先检测钓鱼网站的技术问题,从而达到了及时发现钓鱼网站,进而能够避免钓鱼网站带来的损失的有益效果。
在一个可选的实施例中,计算域名地址的第一页面与第一域名的第二页面的页面相似度包括:在第一页面中爬取第一图片和/或第一文字,以及第二页面中爬取第二图片和/或第二文字;计算第一图片与第二图片的第一相似度,以及计算第一文字与第二文字的第二相似度;使用第一相似度、第二相似度,以及第一预设权值计算页面相似度。例如图片的第一相似度的权值为0.4,文字的第二相似度的权值为0.6,则页面相似度=第一相似度*0.4+第二相似度*0.6。
根据上述实施例的一个示例中,针对首次出现的网站,初步确定为钓鱼网站之后,将该网站的域名列为可疑网站,并通过页面爬取模块获取该网站和被仿冒的真实网站的页面内容,通过比较页面的文字信息和图片信息,进一步做页面相似度分析。山寨网站一般会和真实网站做的很相似,两者的比较包括比较文本相似度,对网站截图,比较图片相似度。页面相似度比较有较多实现,可以根据实际需求进行选择。
根据上述实施例,通过算法比较山寨网站和真实网站的页面内容时,相似度算法会输出相似度的评分,基于评分设置阈值,这个阈值可以来自用户的经验或通过历史数据积累得到;另外,在页面相似度高于阈值时,确定该首次出现的网站是仿冒的(即钓鱼网站);在页面相似度低于阈值时,确定该首次出现的网站不是仿冒的;此外,这个阈值可以基于结果的反馈不断修正。
在一个可选的实施例中,计算域名地址与预设白名单的域名相似度包括:确定域名地址的第一前缀、第一主体和第一后缀,以及确定预设白名单中任一域名地址的第二前缀、第二主体和第二后缀;计算第一前缀与第二前缀的第三相似度,计算第一主体与第二主体的第四相似度,以及计算第一后缀与第二后缀的第五相似度;使用第三相似度、第四相似度、第五相似度以及第二预设权值计算域名相似度。
在可选的一个示例中,域名相似度比较,即比较的是两个域名地址,例如,真实网站的域名为www.taobao.com,该首次出现的网站域名为www.ta0bao.com,从外观上看很容易混淆,类似山寨,用意就是要误导人,其中,域名地址分三段,“www.”为域名地址的前缀,“.com”为域名地址的后缀,中间内容“taobao”为域名地址的主体,域名相似度比较是将域名地址进行分段比较,最后根据预设权值计算域名相似度值。例如图第三相似度的权值为0.1,第四相似度权值为0.6,第五相似度权值为0.3,则域名相似度=第三相似度*0.1+第四相似度*0.6+第五相似度*0.3。
在一个可选的实施例中,在计算域名地址的第一页面与第一域名的第二页面的页面相似度之前,还包括:设置预设阈值范围,其中,阈值范围大于或等于第二阈值且小于1;判断域名相似度是否落在预设阈值范围内;在域名相似度大于或等于第二阈值且小于1时,确定域名相似度落在预设阈值范围内;在域名相似度小于第二阈值时,确定域名相似度未落在预设阈值范围内。
在本实施中,域名相似度未落于预设阈值范围内,则确定该目标网站为安全的网站,不做任何处理;若域名相似度位于预设阈值范围内,则初步确定目标网站为钓鱼网站,是仿冒的,此外,既然是仿冒的,预设阈值范围必须小于1,因为如果相似度100%则说明是同一网站,是真实网站。
可选地,监测域名解析请求至少包括以下之一:监测银行网站的域名解析请求;监测支付网站的域名解析请求;监测网购平台网站的域名解析请求。
下面结合一具体实施例对本发明提供的一种钓鱼网站的检测方案做进一步的说明:
图3是根据本发明具体实施例的一种钓鱼网站的检测方法的结构框图,如图3所示,该结构包括以下几个方面:
1、重点域名库采集(即上述预设白名单);
2、被动DNS采集;
3、域名相似度比较;
4、页面相似度比较。
具体的钓鱼网站的检测流程包括以下步骤:
如图4所示,图4是本发明具体实施例提供的一种钓鱼网站检测的流程图,包括以下步骤:
S402:建立重点域名库。采集容易被仿冒的域名,建立重点域名库,重点域名库会持续更新。通过被动DNS记录域名访问记录,对比历史记录即可区分域名是否首次出现。
S404:域名相似度比较。对首次出现的域名,与重点域名库进行相似度匹配。域名相似度匹配算法已有相关研究,不在这里讨论。在系统中可以选择一种或多种不同的匹配算法,如果找到相似匹配,则将域名列入可疑域名。
S406:页面内容爬取。将可疑域名与被仿冒对象一起送到网页爬取模块,通过网页爬取模块获取页面的文字信息和图片信息。
S408:页面相似度比较。由网页爬取模块进行网页爬取并对页面相似度进行比较。
S410:标识钓鱼网站。最终根据页面相似的比较和域名相似度的比较的结果,完成对钓鱼网站域名的标识。完成标识之后这些数据会记录在系统中,后续可作为告警信息输出,也可以积累起来作为情报数据,为其他系统或应用来使用。
通过以上具体实施例,提前了钓鱼网站域名的发现时间,实现对钓鱼行为进行及时的预警和干预的目的。
实施例2
在本实施例中还提供了一种钓鱼网站的检测装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图5是根据本发明实施例提供的一种钓鱼网站的检测装置的结构示意图,如图5所示,该装置包括:
监测模块502,用于监测域名解析请求,其中,域名解析请求携带目标网站的域名地址;
第一计算模块504,连接至上述监测模块502,用于针对第一次监测到的域名地址,计算域名地址与预设白名单的域名相似度,其中,预设白名单包括多个真实网站域名;
第二计算模块506,连接至上述第一计算模块504,用于在域名相似度落在预设阈值范围内时,选择所述域名相似度最高的真实网站的第一域名,计算所述域名地址的第一页面与第一域名的第二页面的页面相似度;
第一确定模块508,连接至上述第二计算模块506,在所述页面相似度大于第一阈值时,将目标网站确定为钓鱼网站。
可选的,第二计算模块506包括:爬取单元,用于在第一页面中爬取第一图片和/或第一文字,以及第二页面中爬取第二图片和/或第二文字;第一计算单元,用于计算第一图片与第二图片的第一相似度,以及计算第一文字与第二文字的第二相似度;第二计算单元,用于使用第一相似度、第二相似度,以及第一预设权值计算页面相似度。
可选的,第一计算模块504包括:确定单元,用于确定域名地址的第一前缀、第一主体和第一后缀,以及确定预设白名单中任一域名地址的第二前缀、第二主体和第二后缀;第三计算单元,用于计算第一前缀与第二前缀的第三相似度,计算第一主体与第二主体的第四相似度,以及计算第一后缀与第二后缀的第五相似度;第四计算单元,用于使用第三相似度、第四相似度、第五相似度以及第二预设权值计算域名相似度。
可选的,上述装置还包括:设置模块,用于在第二计算模块506计算域名地址的第一页面与第一域名的第二页面的页面相似度之前,设置预设阈值范围,其中,阈值范围大于或等于第二阈值且小于1;判断模块,用于判断域名相似度是否落在预设阈值范围内;第二确定模块,用于在域名相似度大于或等于第二阈值且小于1时,确定域名相似度落在预设阈值范围内;在域名相似度小于第二阈值时,确定域名相似度未落在预设阈值范围内。
可选的,监测模块至少包括以下之一:第一监测单元,用于监测银行网站的域名解析请求;第二监测单元,用于监测支付网站的域名解析请求;第三监测单元,用于监测网购平台网站的域名解析请求。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
实施例3
本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例的一个方面中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,监测域名解析请求,其中,所述域名解析请求携带目标网站的域名地址;
S2,针对第一次监测到的域名地址,计算所述域名地址与预设白名单的域名相似度,其中,所述预设白名单包括多个真实网站域名;
S3,在所述域名相似度落在预设阈值范围内时,选择所述域名相似度最高的真实网站的第一域名,计算所述域名地址的第一页面与第一域名的第二页面的页面相似度;
S4,在所述页面相似度大于第一阈值时,将所述目标网站确定为钓鱼网站。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例的一个方面中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,监测域名解析请求,其中,所述域名解析请求携带目标网站的域名地址;
S2,针对第一次监测到的域名地址,计算所述域名地址与预设白名单的域名相似度,其中,所述预设白名单包括多个真实网站域名;
S3,在所述域名相似度落在预设阈值范围内时,选择所述域名相似度最高的真实网站的第一域名,计算所述域名地址的第一页面与第一域名的第二页面的页面相似度;
S4,在所述页面相似度大于第一阈值时,将所述目标网站确定为钓鱼网站。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种钓鱼网站的检测方法,其特征在于,包括:
监测域名解析请求,其中,所述域名解析请求携带目标网站的域名地址;
针对第一次监测到的域名地址,计算所述域名地址与预设白名单的域名相似度,其中,所述预设白名单包括多个真实网站域名;
在所述域名相似度落在预设阈值范围内时,选择所述域名相似度最高的真实网站的第一域名,计算所述域名地址的第一页面与第一域名的第二页面的页面相似度;
在所述页面相似度大于第一阈值时,将所述目标网站确定为钓鱼网站;
计算所述域名地址与预设白名单的域名相似度包括:
确定所述域名地址的第一前缀、第一主体和第一后缀,以及确定所述预设白名单中任一域名地址的第二前缀、第二主体和第二后缀;
计算所述第一前缀与所述第二前缀的第三相似度,计算所述第一主体与所述第二主体的第四相似度,以及计算所述第一后缀与所述第二后缀的第五相似度;
使用所述第三相似度、所述第四相似度、所述第五相似度以及第二预设权值计算所述域名相似度。
2.根据权利要求1所述的方法,其特征在于,计算所述域名地址的第一页面与第一域名的第二页面的页面相似度,包括:
在所述第一页面中爬取第一图片和/或第一文字,以及所述第二页面中爬取第二图片和/或第二文字;
计算所述第一图片与所述第二图片的第一相似度,以及计算所述第一文字与所述第二文字的第二相似度;
使用所述第一相似度、所述第二相似度,以及第一预设权值计算所述页面相似度。
3.根据权利要求1所述的方法,其特征在于,在计算所述域名地址的第一页面与第一域名的第二页面的页面相似度之前,所述方法还包括:
设置预设阈值范围,其中,所述阈值范围大于或等于第二阈值且小于1;
判断所述域名相似度是否落在所述预设阈值范围内;
在所述域名相似度大于或等于所述第二阈值且小于1时,确定所述域名相似度落在所述预设阈值范围内;在所述域名相似度小于所述第二阈值时,确定所述域名相似度未落在所述预设阈值范围内。
4.根据权利要求1所述的方法,其特征在于,监测域名解析请求至少包括以下之一:
监测银行网站的域名解析请求;
监测支付网站的域名解析请求;
监测网购平台网站的域名解析请求。
5.一种钓鱼网站的检测装置,其特征在于,包括:
监测模块,用于监测域名解析请求,其中,所述域名解析请求携带目标网站的域名地址;
第一计算模块,用于针对第一次监测到的域名地址,计算所述域名地址与预设白名单的域名相似度,其中,所述预设白名单包括多个真实网站域名;
第二计算模块,用于在所述域名相似度落在预设阈值范围内时,选择所述域名相似度最高的真实网站的第一域名,计算所述域名地址的第一页面与第一域名的第二页面的页面相似度;
第一确定模块,用于在所述页面相似度大于第一阈值时,将所述目标网站确定为钓鱼网站;
所述第一计算模块包括:
确定单元,用于确定所述域名地址的第一前缀、第一主体和第一后缀,以及确定所述预设白名单中任一域名地址的第二前缀、第二主体和第二后缀;
第三计算单元,用于计算所述第一前缀与所述第二前缀的第三相似度,计算所述第一主体与所述第二主体的第四相似度,以及计算所述第一后缀与所述第二后缀的第五相似度;
第四计算单元,用于使用所述第三相似度、所述第四相似度、所述第五相似度以及第二预设权值计算所述域名相似度。
6.根据权利要求5所述的装置,其特征在于,所述第二计算模块包括:
爬取单元,用于在所述第一页面中爬取第一图片和/或第一文字,以及所述第二页面中爬取第二图片和/或第二文字;
第一计算单元,用于计算所述第一图片与所述第二图片的第一相似度,以及计算所述第一文字与所述第二文字的第二相似度;
第二计算单元,用于使用所述第一相似度、所述第二相似度,以及第一预设权值计算所述页面相似度。
7.根据权利要求5所述的装置,其特征在于,所述装置还包括:
设置模块,用于在所述第二计算模块计算所述域名地址的第一页面与第一域名的第二页面的页面相似度之前,设置预设阈值范围,其中,所述阈值范围大于或等于第二阈值且小于1;
判断模块,用于判断所述域名相似度是否落在所述预设阈值范围内;
第二确定模块,用于在所述域名相似度大于或等于所述第二阈值且小于1时,确定所述域名相似度落在所述预设阈值范围内;在所述域名相似度小于所述第二阈值时,确定所述域名相似度未落在所述预设阈值范围内。
8.根据权利要求5所述的装置,其特征在于,所述监测模块至少包括以下之一:
第一监测单元,用于监测银行网站的域名解析请求;
第二监测单元,用于监测支付网站的域名解析请求;
第三监测单元,用于监测网购平台网站的域名解析请求。
9.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行权利要求1至4任一项中所述的方法。
10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至4任一项中所述的方法。
CN201910791214.8A 2019-08-26 2019-08-26 钓鱼网站的检测方法及装置、存储介质、电子装置 Active CN110677384B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910791214.8A CN110677384B (zh) 2019-08-26 2019-08-26 钓鱼网站的检测方法及装置、存储介质、电子装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910791214.8A CN110677384B (zh) 2019-08-26 2019-08-26 钓鱼网站的检测方法及装置、存储介质、电子装置

Publications (2)

Publication Number Publication Date
CN110677384A CN110677384A (zh) 2020-01-10
CN110677384B true CN110677384B (zh) 2023-01-06

Family

ID=69075791

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910791214.8A Active CN110677384B (zh) 2019-08-26 2019-08-26 钓鱼网站的检测方法及装置、存储介质、电子装置

Country Status (1)

Country Link
CN (1) CN110677384B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113381963B (zh) * 2020-02-25 2024-01-02 深信服科技股份有限公司 一种域名检测方法、装置和存储介质
CN111737695A (zh) * 2020-06-24 2020-10-02 深圳前海微众银行股份有限公司 白名单优化方法、装置、设备与计算机可读存储介质
CN112348104B (zh) * 2020-11-17 2023-08-18 百度在线网络技术(北京)有限公司 仿冒程序的识别方法、装置、设备及存储介质
CN112804210B (zh) * 2020-12-31 2022-12-27 北京知道创宇信息技术股份有限公司 数据关联方法、装置、电子设备和计算机可读存储介质
CN115085952A (zh) * 2021-03-10 2022-09-20 中国电信股份有限公司 钓鱼网站处理方法及装置、存储介质与电子设备
CN113556347B (zh) * 2021-07-22 2023-04-07 深信服科技股份有限公司 一种钓鱼邮件的检测方法、装置、设备及存储介质
CN116366338B (zh) * 2023-03-30 2024-02-06 北京微步在线科技有限公司 一种风险网站识别方法、装置、计算机设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103428186A (zh) * 2012-05-24 2013-12-04 中国移动通信集团公司 一种检测钓鱼网站的方法及装置
CN108270754A (zh) * 2017-01-03 2018-07-10 中国移动通信有限公司研究院 一种钓鱼网站的检测方法及装置
WO2018213574A1 (en) * 2017-05-17 2018-11-22 Farsight Security, Inc. System, method and domain name tokenization for domain name impersonation detection
CN110035075A (zh) * 2019-04-03 2019-07-19 北京奇安信科技有限公司 钓鱼网站的检测方法、装置、计算机设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103428186A (zh) * 2012-05-24 2013-12-04 中国移动通信集团公司 一种检测钓鱼网站的方法及装置
CN108270754A (zh) * 2017-01-03 2018-07-10 中国移动通信有限公司研究院 一种钓鱼网站的检测方法及装置
WO2018213574A1 (en) * 2017-05-17 2018-11-22 Farsight Security, Inc. System, method and domain name tokenization for domain name impersonation detection
CN110035075A (zh) * 2019-04-03 2019-07-19 北京奇安信科技有限公司 钓鱼网站的检测方法、装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"一种基于DNS主动检测钓鱼攻击的系统";洪博等;《计算机应用研究》;20131231;第1-4页 *

Also Published As

Publication number Publication date
CN110677384A (zh) 2020-01-10

Similar Documents

Publication Publication Date Title
CN110677384B (zh) 钓鱼网站的检测方法及装置、存储介质、电子装置
CN110719291B (zh) 一种基于威胁情报的网络威胁识别方法及识别系统
CN106878262B (zh) 报文检测方法及装置、建立本地威胁情报库的方法及装置
CN110401614B (zh) 恶意域名的溯源方法及装置
CN103607385A (zh) 基于浏览器进行安全检测的方法和装置
CN106549959B (zh) 一种代理网际协议ip地址的识别方法及装置
CN111314285B (zh) 一种路由前缀攻击检测方法及装置
CN110210213B (zh) 过滤恶意样本的方法及装置、存储介质、电子装置
CN110149319B (zh) Apt组织的追踪方法及装置、存储介质、电子装置
CN104935605A (zh) 钓鱼网站的检测方法、装置及系统
CN111404937B (zh) 一种服务器漏洞的检测方法和装置
CN112532605B (zh) 一种网络攻击溯源方法及系统、存储介质、电子设备
CN107241292B (zh) 漏洞检测方法及装置
CN112019519B (zh) 网络安全情报威胁度的检测方法、装置和电子装置
KR20180088655A (ko) 웹 추적 서비스들을 검출하기 위한 방법
CN105378745A (zh) 基于安全问题禁用和启用节点
CN108154024B (zh) 一种数据检索方法、装置及电子设备
CN111353136B (zh) 一种操作请求的处理方法和装置
CN113810381A (zh) 一种爬虫检测方法、web应用云防火墙、装置和存储介质
CN114363002B (zh) 一种网络攻击关系图的生成方法及装置
KR101329040B1 (ko) 에스엔에스 트랩 수집 시스템 및 그에 의한 유알엘 수집 방법
CN113794731B (zh) 识别基于cdn流量伪装攻击的方法、装置、设备和介质
CN111680282A (zh) 基于区块链网络的节点管理方法、装置、设备及介质
CN108055299B (zh) Portal页面推送方法、网络接入服务器及Portal认证系统
US10313127B1 (en) Method and system for detecting and alerting users of device fingerprinting attempts

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100032 NO.332, 3rd floor, Building 102, 28 xinjiekouwai street, Xicheng District, Beijing

Applicant after: QAX Technology Group Inc.

Applicant after: Qianxin Wangshen information technology (Beijing) Co.,Ltd.

Address before: 100032 NO.332, 3rd floor, Building 102, 28 xinjiekouwai street, Xicheng District, Beijing

Applicant before: QAX Technology Group Inc.

Applicant before: LEGENDSEC INFORMATION TECHNOLOGY (BEIJING) Inc.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant