CN110535806B - 监测异常网站的方法、装置、设备和计算机存储介质 - Google Patents

监测异常网站的方法、装置、设备和计算机存储介质 Download PDF

Info

Publication number
CN110535806B
CN110535806B CN201810507450.8A CN201810507450A CN110535806B CN 110535806 B CN110535806 B CN 110535806B CN 201810507450 A CN201810507450 A CN 201810507450A CN 110535806 B CN110535806 B CN 110535806B
Authority
CN
China
Prior art keywords
website
monitored
legal
text
page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810507450.8A
Other languages
English (en)
Other versions
CN110535806A (zh
Inventor
陈明
王宁
罗涛
曾里
向小华
何渝
胡梦飞
焦叶芬
李芳�
陈巧云
周冀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Chongqing Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Chongqing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Chongqing Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201810507450.8A priority Critical patent/CN110535806B/zh
Publication of CN110535806A publication Critical patent/CN110535806A/zh
Application granted granted Critical
Publication of CN110535806B publication Critical patent/CN110535806B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/45Network directories; Name-to-address mapping
    • H04L61/4505Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
    • H04L61/4511Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种监测异常网站的方法、装置、设备和计算机存储介质。该方法包括:确定非法网站库中不包括与待监测网站具有相同域名的非法网站;确定合法网站库中包括与待监测网站具有相同域名的参考合法网站;提取待监测网站的特征元素的文本;计算提取的特征元素的文本,与预先获取的参考合法网站的对应的特征元素的文本之间的匹配结果,并根据匹配结果得出待监测网站与参考合法网站之间的相似值;依据相似值和预设阈值,判断待监测网站是否为异常网站。根据本发明实施例提供的一种监测异常网站的方法、装置、设备和计算机存储介质,实现了对发生异常的网站的监测,保证了用户拥有绿色安全的上网环境。

Description

监测异常网站的方法、装置、设备和计算机存储介质
技术领域
本发明涉及数据业务领域,尤其涉及一种监测异常网站的方法、装置、设备和计算机存储介质。
背景技术
目前全球网络安全进入“大安全时代”。互联网在带给人们便利的同时,也催生出一系列的网络危害,例如:个人隐私的泄漏;低俗的网络文化传播;黑客、病毒的攻击;各类不良信息、虚假广告以及一些不法言论;更为严重的甚至会威胁到国家安全。
常见的非法网站如钓鱼网站,主要通过虚假网址、全球广域网(World Wide Web,web)漏洞、重定向、恶意代码等方式实施。非法网站,一方面可能影响用户的上网体验,即用户被引导至假冒的网站进而无法正常浏览网页,而用户量较大的网站域名被劫持后恶劣影响会不断扩大;另一方面用户可能被诱骗到冒牌网站进行登录等操作导致泄露隐私数据,将正常网页跳转至含有低俗等信息的恶意站点,这些都可能给用户造成经济损失。
因此从每天用户访问的网页中,如何实现快速鉴别网站是否被攻击劫持篡改,即网站是否发生异常,是急需解决的问题。
发明内容
本发明实施例一种监测异常网站的方法、装置、设备和计算机存储介质,实现了对发生异常的网站的监测。
根据本发明实施例的一方面,提供一种监测异常网站的方法,该方法包括:
根据获取的待监测网站的域名和预先采集的非法网站库,确定非法网站库中不包括与待监测网站具有相同域名的非法网站;
利用待监测网站的域名和预先采集的合法网站库,确定合法网站库中包括与待监测网站具有相同域名的参考合法网站;
提取待监测网站的特征元素的文本;
计算提取的特征元素的文本,与预先获取的参考合法网站的对应的特征元素的文本之间的匹配结果,并根据匹配结果得出待监测网站与参考合法网站之间的相似值;
依据相似值和预设阈值,判断待监测网站是否为异常网站。
在一个实施例中,提取待监测网站的特征元素的文本,包括:
模拟用户对待监测网站的首页的访问操作发起网页访问请求,以获取所有网页访问请求对应的响应;
对所有网页访问请求和所有网页访问请求对应的响应进行解析,得到解析结果;
利用待监测网站的特征元素对应的文本关键词,从解析结果中提取待监测网站的特征元素的文本。
在一个实施例中,待监测网站的特征元素包括以下元素中的一种或多种:待监测网站首页的实际互联网协议IP地址、待监测网站首页的超文本传输协议HTTP状态码、待监测网站首页的标题、待监测网站的备案号、备案号的链接、待监测网站首页的版权所有之前的公司信息、待监测网站首页版权所有之后的公司信息、待监测网站首页的HTTP请求中包括的主机HOST名、待监测网站首页的HTTP请求中包括的HTTP请求访问的资源标识和待监测网站首页的层叠样式表CSS的统一资源定位符URL。
在一个实施例中,合法网站库包括多个合法网站中每个合法网站的信息,每个合法网站的信息包括每个合法网站的域名和每个合法网站的每个特征元素的文本;
其中,合法网站库中的多个合法网站是根据互联网数据中心IDC的用户访问日志,得到的IDC流量访问排名前n名的网站,n为正整数;
或,
合法网站库中的多个合法网站是预先选取的网站。
在一个实施例中,监测异常网站的方法还包括:
确定非法网站库中包括与待监测网站具有相同域名的非法网站;
确定待监测网站为异常网站。
在一个实施例中,计算提取的特征元素的文本,与预先获取的参考合法网站的对应的特征元素的文本之间的匹配结果,并根据匹配结果得出待监测网站与参考合法网站之间的相似值,包括:
计算提取的特征元素的文本,与预先获取的参考合法网站的对应的特征元素的文本之间的匹配结果;
根据匹配结果和待监测网站的特征元素对应的预设权重,得出待监测网站与参考合法网站之间的相似值。
在一个实施例中,计算提取的特征元素的文本,与预先获取的参考合法网站的对应的特征元素的文本之间的匹配结果,包括:
提取的特征元素的每个文本在参考合法网站对应的特征元素的文本构成的集合中,匹配结果为匹配;
提取的特征元素的至少一个文本在参考合法网站对应的特征元素的文本构成的集合之外,匹配结果为不匹配。
在一个实施例中,依据相似值和预设阈值,判断待监测网站是否为异常网站,包括:
若相似值大于等于预设阈值,判定待监测网站为异常网站;
若相似值小于预设阈值,判定待监测网站为合法网站。
根据本发明实施例的另一方面,提供一种监测异常网站的装置,该装置包括:
第一确定模块,用于根据获取的待监测网站的域名和预先采集的非法网站库,确定非法网站库中不包括与待监测网站具有相同域名的非法网站;
第二确定模块,用于利用待监测网站的域名和预先采集的合法网站库,确定合法网站库中包括与待监测网站具有相同域名的参考合法网站;
提取模块,用于提取待监测网站的特征元素的文本;
相似值获取模块,用于计算提取的特征元素的文本,与预先获取的参考合法网站的对应的特征元素的文本之间的匹配结果,并根据匹配结果得出待监测网站与参考合法网站之间的相似值;
异常网站判断模块,用于依据相似值和预设阈值,判断待监测网站是否为异常网站。
根据本发明实施例的再一方面,提供一种监测异常网站的设备,其特征在于,设备包括:处理器以及存储有计算机程序指令的存储器;
处理器执行计算机程序指令时实现如本发明实施例提供的监测异常网站的方法。
根据本发明实施例的再一方面,一种计算机存储介质,其特征在于,计算机存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现如本发明实施例提供的监测异常网站的方法。
根据本发明实施例中的监测异常网站的方法、装置、设备和计算机存储介质,当确定非法网站库中不包括与待监测网站域名相同的非法网站后,确定合法网站库中具有与待监测网站具有相同域名的参考合法网站;然后利用提取的待监测网站的特征元素的文本和参考合法网站对应的特征元素的文本的匹配结果,计算待监测网站和参考合法网站之间的相似值,并根据该相似值和预设阈值,判断待监测网站是否为异常网站,以确保用户拥有安全绿色的上网环境。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出本发明一实施例提供的监测异常网站的方法的流程示意图;
图2示出本发明一实施例提供的提取待监测网站的特征元素的文本的流程示意图;
图3示出本发明一实施例提供的监测异常网站的装置的结构示意图;
图4示出本发明一实施例提供的监测异常网站的设备的硬件结构示意图。
具体实施方式
下面将详细描述本发明的各个方面的特征和示例性实施例,为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本发明,并不被配置为限定本发明。对于本领域技术人员来说,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
由于钓鱼网站、被挟持或篡改的网站等异常网站,会给用户带来很多严重危害,因此及时发现异常网站至关重要。
基于此,本发明实施例提供一种监测异常网站的方法、装置、设备及计算机存储介质,当确定非法网站库中不包括与待监测网站域名相同的非法网站后,确定合法网站库中具有与待监测网站具有相同域名的参考合法网站,然后根据提取的待监测网站的特征元素的文本和参考合法网站对应的特征元素的文本的匹配结果和预设阈值,判断待监测网站是否为异常网站,进而实现对异常网站进行报警,以使运维人员通过告警能够大大缩小网站排查的范围,有针对性解决问题网站,确保用户拥有安全绿色的上网环境。
下面首先结合附图对本发明实施例提供的监测异常网站的方法进行详细说明。图1示出根据本发明实施例提供的监测异常网站的方法100的流程示意图。如图1所示,本发明实施例提供中的监测异常网站的方法包括以下步骤:
S110,根据获取的待监测网站的域名和预先采集的非法网站库,确定非法网站库中不包括与待监测网站具有相同域名的非法网站。
在本发明的实施例中,非法网站库,也就是黑名单库,包括多个非法网站的域名信息。其中对于非法网站的域名信息主要来源于运营商互联网数据中心(Internet DataCenter,IDC)系统、国内钓鱼举报论坛、不良信息举报网站等多个数据源。其中,从上述多个数据源中获取的非法网站的域名经过人工验证确定为非法网站的域名,才会存入非法网站库。
在本发明的实施例中,首先将获取的待监测网站的域名与非法网站库中的多个非法网站的域名进行一一比对,以判断非法网站库中是否包括与待监测网站具有相同域名的非法网站。
若确定非法网站库中包括与待监测网站具有相同域名的非法网站,也就是说,待监测网站的域名与非法网站库中某一非法网站的域名相同,则判定该待监测网站为异常网站。
若确定非法网站库中不包括与待监测网站具有相同域名的非法网站,即待监测网站的域名与非法网站库中每一个非法网站的域名均不相同,则将该待监测网站的域名与预先采集的合法网站库中的多个合法网站的域名进行一一比对,以判断该待监测网站是否为异常网站。
对于待监测网站的数目可以为一个或多个,也就是说本发明实施例提供的监测异常网站的方法可以实现对多个待监测网站同时进行监测。
在本发明的实施例中,在对待监测网站进行监测之前,可先创建监测任务,即对待监测网站进行预先配置。监测任务中包括任务名称、待监测网站的名称、待监测网站的首页统一资源定位符(Uniform Resource Locator,URL)和监控周期。
其中,为了便于区分,对待监测的网站设置任务名称及说明,以方便运维人员对该待监测网站的追踪。作为一个示例,若要监测流量访问量前100名的网站,可设置任务名称为TOP100。对于一个监测任务,至少可以支持对200个网站的监测。
为了便于对待监测网站之间的区分,监测任务中包括待监测网站的名称和待监测网站首页的URL。作为一个示例,待监测网站的名称为“百度”,待监测网站的首页URL为“www.baidu.com”。
在本发明的实施例中,对于多个待监测网站的域名、待监测网站的名称和待监测网站的首页URL等信息可支持一次性批量获取。
对于待监测网站的监测时间,可按天或按小时进行设置监测周期。或者,定时对待监测网站进行监测。其中,对于监测周期和监测的定时时间可根据具体应用场景而定,本发明实施例不做具体限制。
在本发明的实施例中,通过首先利用待监测网站的域名与非法网站库中的各个非法网站的域名进行比对,提高了对待监测网站的监测效率。
S120,利用待监测网站的域名和预先采集的合法网站库,确定合法网站库中包括与待监测网站具有相同域名的参考合法网站。
在本发明的实施例中,合法网站库包括多个合法网站中每个合法网站的信息。其中,每个合法网站的信息包括每个合法网站的域名和每个合法网站的每个特征元素的文本。另外,合法网站库中还可以包括每个合法网站的互联网协议(Internet Protocol,IP)和每个合法网站在工信部的备案信息。
其中,合法网站库中的多个合法网站可以是根据互联网数据中心IDC的用户访问日志,得到的IDC流量访问排名前n名的网站,其中n为正整数,作为一个示例,n为10000。
具体地,首先通过端口镜像技术采集IDC机房的用户访问日志,以实现对网络的数据流量的镜像。端口镜像将被镜像端口的数据流量完全拷贝到镜像端口,即实现了对网络的数据流量的镜像,以得到镜像流量。然后通过对采集到的镜像流量进行解析,获取用户实际访问的网站的IP和域名等信息。最后根据用户对不同域名的网站的访问次数,得到IDC流量访问排名前n名的网站。
在本发明的实施例中,合法网站库中的多个合法网站也可以是根据不同应用场景下的监测需求进行预先选取的合法网站。也就是说,合法网站库中的合法网站不仅可以是流量访问排名前n名的网站,也可以是根据自主监测需求选择的合法网站。
在本发明的实施例中,若确定非法网站库中不包括与待监测网站具有相同域名的非法网站,则将待监测网站的域名与合法网站库中每个合法网站的域名进行比对,以确定合法网站库中与待监测网站具有相同域名的参考合法网站。
在本发明的实施例中,根据对需要监测网站的需求,可以对合法网站库中的合法网站的信息进行更新,以实现当确定非法网站库中不包括与待监测网站具有相同域名的非法网站之后,可以在合法网站库中找到待监测网站对应的参考合法网站,以利用该参考合法网站对该待监测网站的异常进行判断。
S130,提取待监测网站的特征元素的文本。
在本发明的实施例中,网站的特征元素为能够标识该网站和/或能够区分该网站异常的关键参数。
作为一个示例,待监测网站的特征元素包括以下元素的一种或多种:待监测网站首页的实际互联网协议IP地址、待监测网站首页的超文本传输协议(Hyper Text TransferProtocol,HTTP)状态码、待监测网站首页的标题、待监测网站的备案号、备案号的链接、待监测网站首页的版权所有之前的公司信息、待监测网站首页版权所有之后的公司信息、待监测网站首页的HTTP请求中包括的主机HOST名、待监测网站首页的HTTP请求中包括的HTTP请求访问的资源标识和待监测网站首页的层叠样式表(Cascading Style Sheets,CSS)的URL。
其中,待监测网站首页的实际互联网协议IP地址是根据待监测网站的域名解析出的IP地址。
在本发明的实施例中,状态码为表示网页服务器HTTP响应状态的3位数字代码,待监测网站首页的HTTP状态码为用于代表待监测网站首页是否能够正常打开的数字代码。
当HTTP状态码大于等于400时,代表该待监测网站的网页不能打开,当HTTP状态码大于0且小于400时,代表待监测网站可以打开。
待监测网站首页的标题即表示该网站的正式名称。
待监测网站的备案号是该网站合法注册经营的标识信息,该待监测网站的备案信息可在国家工业和信息化部网站备案系统上进行查询。作为一个示例,待监测网站的备案号为“京ICP备04000001号”。
待监测网站的备案号链接用以从待监测网站可以链接到工信部备案网站,作为一个示例,备案号链接为“http://www.miitbeian.gov.cn”。
待监测网站首页的版权所有之前的公司信息和待监测网站首页版权所有之后的公司信息,可以分别为待监测网站首页版权所有之前的公司名称和待监测网站首页版权所有之后的公司名称。
待监测网站的HTTP请求中包括的主机HOST名,用于指定被请求资源的网络主机。由于待监测网站首页具有多个HTTP请求,因此HTTP请求中包括的主机HOST名会存在重复,需要去重并记录。
待监测网站首页的HTTP请求中包括的HTTP请求访问的资源标识,用于告知服务器HTTP请求的来源页面。作为一个示例,该资源标识为HTTP请求中的Referer字段。
待监测网站首页的CSS的URL,表示待监测网站首页的样式的网址链接。
在本发明的实施例中,图2示出提取待监测网站的特征元素的文本200的流程示意图,即步骤S130包括以下步骤:
S1301,模拟用户对待监测网站的首页的访问操作发起网页访问请求,以获取网页访问请求对应的响应。
在本发明的实施例中,通过利用爬虫工具模拟用户访问待监测网站的首页,即模拟用户点击待监测网站首页的所有链接,以发送待监测网站首页的所有访问请求,并获取所有访问请求对应的响应。
S1302,对网页访问请求和网页访问请求对应的响应进行解析,得到解析结果。
在本发明的实施例中,通过对网页访问请求报文和响应内容进行解析,即解析出每个网页访问请求的URL、IP地址、请求消息头、响应消息以及解析网页访问请求对应的响应内容,即可解析出包括待监测网站的特征元素的信息的解析结果。
作为一个示例,解析结果中包括待监测网站首页的实际互联网协议IP地址、待监测网站首页的HTTP状态码、待监测网站首页的标题、待监测网站的备案号、备案号的链接、待监测网站首页的版权所有之前的公司信息、待监测网站首页版权所有之后的公司信息、待监测网站首页的HTTP请求中包括的主机HOST名、待监测网站首页的HTTP请求中包括的HTTP请求访问的资源标识和待监测网站首页的CSS的URL等信息。
S1303,利用待监测网站的特征元素对应的文本关键词,从解析结果中提取待监测网站的特征元素的文本。
在本发明的实施例中,通过利用待监测网站的特征元素对应的文本关键词,可以从对待监测网站首页的解析结果中提取特征元素对应的文本。
作为一个示例,待监测网站的特征元素包括第一特征元素和第二特征元素。其中,第一特征元素为待监测网站首页的HTTP状态码。第二特征元素为待监测网站首页的HTTP请求中包括的Referer字段。
通过利用第一特征元素对应的文本关键词“状态码”,从解析结果中提取该第一特征元素的文本“200”。通过利用第二特征元素对应的文本关键词“Referer”,从解析结果中提取第二特征元素对应的文本https://www.baidu.com/。
对于待监测网站的特征元素的种类和数量,以及特征元素对应的文本关键词,可视具体应用场景而定。
在本发明的实施例中,提取的待监测网站的特征元素的文本信息可以存储到待监测网站的特征库中。待监测网站的特征库即为待监测网站的特征元素的文本信息进行提取存档形成的数据库。
在本发明的实施例中,对于合法网站库中每个合法网站的特征元素的文本可以利用与提取待监测网站的特征元素的文本相似的方法进行预先获取,在此不再赘述。
在本发明的实施例中,对于合法网站库中的每个合法网站库的特征元素的文本信息可以存储到合法网站的特征库。合法网站的特征库即为合法网站库中每个合法网站的特征元素的文本信息进行提取存档形成的数据库。对于合法网站的特征库可根据需要监测的网站进行定期更新。
在本发明的实施例中,监测任务的状态包括启动、运行中、暂停和停止四种状态。当监测任务启动之前,需要先生成合法网站库的特征库。启动监测任务时,记录监测任务的启动时间,并更新监测任务为监测状态为运行中。当停止监测任务后,记录监测任务的停止时间,变更监测状态为未启动。
在本发明的实施例中,若原监测任务中的待监测网站的信息需要变更或需要建立新的监测任务时,则需要停止原来的监测任务,即处于运行中的监测状态的监测任务不能被修改。当停止原来的监测任务后,需要重新生成合法网站的特征库,再进行重新监测。但是,若只是对原监测任务的任务名称或监控周期进行修改,则不需要重新生成合法网站的特征库。
在本发明的实施例中,对于合法网站的特征库的状态分为未生成、获取中和已完成三种状态。在监测任务创建之后,合法网站的特征库的状态为未生成。在监测任务启动之前,需要先生成合法网站的特征库,此时合法网站的特征库进入获取中的状态。当提取完合法网站库中每个合法网站的特征元素的文本后,此时合法网站的特征库状态更新为“已完成”,并更新合法网站的特征库的生成时间。
在本发明的实施例中,可以实现对监测任务的单个删除和批量删除。但是,当合法网站的特征库状态为获取中时,既不能删除监测任务也不能启动监测任务。并且,处于监控状态的监测任务也不能被删除。
S140,计算提取的特征元素的文本,与预先获取的参考合法网站的对应的特征元素的文本之间的匹配结果,并根据匹配结果得出待监测网站与参考合法网站之间的相似值。
在本发明的实施例中,步骤S140包括以下步骤:
S1401,计算提取的特征元素的文本,与预先获取的参考合法网站的对应的特征元素的文本之间的匹配结果。
作为一个示例,若待监测网站的特征元素包括待监测网站首页的实际IP地址、待监测网站首页的HTTP状态码和待监测网站首页的标题。与待监测网站的域名相同的参考合法网站包括参考合法网站首页的实际IP地址、参考合法网站首页的HTTP状态码和参考合法网站首页的标题。则分别计算待监测网站首页的实际IP地址对应的文本和参考合法网站的实际IP地址对应的文本的匹配结果,待监测网站首页的HTTP状态码对应的文本和参考合法网站首页的HTTP状态码对应的文本的匹配结果,以及待监测网站首页的标题对应的文本和参考合法网站首页的标题对应的文本的匹配结果。
在本发明的实施例中,有些待监测网站的特征元素的对应的文本的个数是唯一的,例如待监测网站首页的实际IP地址、待监测网站首页的HTTP状态码、待监测网站首页的标题、待监测网站的备案号、备案号的链接、待监测网站首页的版权所有之前的公司名称和待监测网站首页版权所有之后的公司名称等特征元素。
但是,有些待监测网站的特征元素的对应的文本的个数不是唯一的,即该类特征元素包括多个文本。例如待监测网站首页的HTTP请求中包括的主机HOST名、待监测网站首页的HTTP请求中包括的Referer字段和待监测网站首页的CSS的URL等特征元素。作为一个示例,网站首页的CSS的URL对应的文本包括的不只是一个URL对应的文本,可能是多个URL的文本。
在本发明的实施例中,步骤S1401包括以下步骤:
提取的特征元素的每个文本在参考合法网站对应的特征元素的文本构成的集合中,匹配结果为匹配;
提取的特征元素的至少一个文本在参考合法网站对应的特征元素的文本构成的集合之外,匹配结果为不匹配。
其中,匹配结果为匹配时包括以下两种情况:(1)提取的待监测网站的特征元素的文本与参考合法网站对应的特征元素的文本完全相同;(2)提取的待监测网站的特征元素的文本与参考合法网站对应的特征元素的文本不完全相同,但是提取的特征元素的每个文本均在参考合法网站对应的特征元素的文本构成的集合中。
作为一个示例,若待监测网站的特征元素包括待监测网站首页的HTTP状态码和待监测网站首页的CSS的URL。其中,待监测网站首页的HTTP状态码对应的文本为“200”,待监测网站首页的CSS的URL的文本包括第一URL的文本、第二URL的文本和第三URL的文本。
(1)若参考合法网站的HTTP状态码的文本也为“200”,则待监测网站的HTTP状态码的文本,与参考合法网站的HTTP状态码的文本完全相同,则待监测网站的HTTP状态码的文本与参考合法网站的HTTP状态码的匹配结果为匹配。
若参考合法网站的HTTP状态码的文本为“404”,则待监测网站的HTTP状态码的文本,与参考合法网站的HTTP状态码的文本不相同,则待监测网站的HTTP状态码的文本与参考合法网站的HTTP状态码的匹配结果为不匹配。
其中,对于待监测网站的特征元素的文本与参考合法网站的对应的特征元素的文本之间的匹配结果,可以利用判断字符串是否相等的函数进行计算。作为一个示例,可以利用strcmp函数,判断待监测网站的特征元素的文本与参考合法网站的对应的特征元素的文本是否匹配。
在本发明的实施例中,若待监测网站的特征元素对应的文本的个数是唯一的,则可以通过判断待监测网站的特征元素的文本与参考合法网站的对应的特征元素的文本是否完全相同,以得出待监测网站的特征元素的文本与参考合法网站的对应的特征元素的文本之间的匹配结果。
(2)若参考合法网站首页的CSS的URL的文本包括第一URL的文本、第二URL的文本、第三URL的文本和第四URL的文本。则监测网站首页CSS的所有URL的文本均在参考合法网站首页的CSS的所有URL的文本构成的集合中。即待监测网站首页的CSS的URL的文本与参考合法网站的CSS的URL的文本的匹配结果为匹配。
若参考合法网站首页的CSS的URL的文本包括第一URL的文本、第二URL的文本、第四URL的文本和第五URL的文本,则监测网站首页CSS的第三URL的文本不在参考合法网站首页的CSS的所有URL的文本构成的集合中。即待监测网站首页的CSS的URL的文本与参考合法网站的CSS的URL的文本的匹配结果为不匹配。
在本发明的实施例中,若待监测网站的特征元素的对应的文本的个数不是唯一的,可以根据待监测网站的特征元素的每个文本是否在参考合法网站对应的特征元素的所有文本构成的集合中,或根据参考合法网站的特征元素的文本和待监测网站的对应的特征元素的文本是否完全相同,得出待监测网站的特征元素的文本与参考合法网站的对应的特征元素的文本之间的匹配结果。
S1402,根据匹配结果和待监测网站的特征元素对应的预设权重,得出待监测网站与参考合法网站之间的相似值。
在本发明的实施例中,待监测网站与参考合法网站之间的相似值η可以利用下面的表达式进行计算:
Figure BDA0001671896240000141
其中,i表示第i个特征元素;Ri表示对于第i个特征元素,待监测网站的第i个特征元素的文本与参考合法网站的第i个特征元素的文本的匹配结果,待监测网站的第i个特征元素与参考合法网站的第i个特征元素为相同的特征元素;Qi表示第i个特征元素对应的预设权重。
作为一个示例,待监测网站和该待监测网站对应的参考合法网站均包括10种特征元素。其中,10种特征元素包括网站首页的实际IP地址、网站首页的HTTP状态码、网站首页的标题、网站的备案号、备案号的链接、网站首页的版权所有之前的公司名称、网站首页版权所有之后的公司名称、网站首页的HTTP请求中包括的主机HOST名、网站首页的HTTP请求中包括的Referer字段和网站首页的CSS的URL。其中,上述10种特征元素的预设权重均为10。
网站首页的实际IP地址、网站首页的HTTP状态码、网站首页的标题、网站的备案号、备案号的链接、网站首页的版权所有之前的公司名称、网站首页版权所有之后的公司名称这七个特征元素中的每个特征元素,其中,每个特征元素对应的待监测网站的文本与参考合法网站的文本之间的匹配结果均为不匹配。其中,当待监测网站的文本与参考合法网站的文本之间的匹配结果为不匹配时,匹配结果设为1。
对于网站首页版权所有之后的公司名称、网站首页的HTTP请求中包括的主机HOST名、网站首页的HTTP请求中包括的Referer字段和网站首页的CSS的URL这三个特征元素中的每个特征元素,每个特征元素对应的待监测网站的文本与参考合法网站的文本之间的匹配结果为均为匹配。其中,当待监测网站的文本与参考合法网站的文本之间的匹配结果为匹配时,匹配结果设为0。
根据上述公式,可以计算出待监测网站与参考合法网站之间的相似值为70。
在本发明的实施例中,对于特征元素对应的预设权重可以根据特征元素对网站发生异常的影响而定,本发明实施例不做具体限定。
S150,依据相似值和预设阈值,判断待监测网站是否为异常网站。
在本发明的实施例中,监测任务中还包括预设阈值,该预设阈值用于判断待监测网站是否发生异常。具体地,若待监测网站与参考合法网站之间的相似值大于等于预设阈值,判定待监测网站为异常网站;若相似值小于预设阈值,判定待监测网站为合法网站。
作为一个示例,预设阈值为60,利用上述待监测网站与参考合法网站之间的相似值70,可以得出该待监测网站为异常网站。
对于预设阈值的设定,本发明实施例不做具体限制,可视具体应用场景而定。
在本发明的实施例中,当若待监测网站与参考合法网站之间的相似值大于等于预设阈值,即判定待监测网站为异常网站时,产生告警,以使运维人员可以针对告警的网站进行排查,以保证用户的上网环境。
在本发明的实施例中,通过计算待监测网站的特征元素的文本与参考合法网站对应的特征元素的文本之间的匹配结果,并根据该匹配结果和待监测网站的特征元素对应的预设权重,判断待监测网站的异常,从而确保用户访问网站的安全性。
在本发明的实施例中,当对发生异常的网站进行报警之后,还可以报表的形式输出对发生异常的待监测网站的监测结果。
其中,该报表中包括出现告警的每个异常的待监测网站的名称、每个异常的待监测网站首页的地址、每个异常的待监测网站与对应的参考合法网站的相似值、每个异常的待监测网站的特征元素的具体信息和每个异常的待监测网站产生告警的时间等信息,以使运维人员可以根据该报表快速掌握发生异常的网站的具体情况,以及时进行解决发生异常的网站存在的问题。
在本发明的实施例中,在出现异常的待监测网站的监测结果的报表中,可以按照出现异常的待监测网站与对应的参考合法网站的相似值进行排序,以使运维人员可根据发生异常的待监测网站的异常程度进行处理,提高了处理效率,节省了资源。
图3示出了根据本发明一实施例提供的监测异常网站的装置300的结构示意图,该监测异常网站的装置包括:
第一确定模块310,用于根据获取的待监测网站的域名和预先采集的非法网站库,确定非法网站库中不包括与待监测网站具有相同域名的非法网站。
第二确定模块320,用于利用待监测网站的域名和预先采集的合法网站库,确定合法网站库中包括与待监测网站具有相同域名的参考合法网站。
提取模块330,用于提取待监测网站的特征元素的文本。
相似值获取模块340,用于计算提取的特征元素的文本,与预先获取的参考合法网站的对应的特征元素的文本之间的匹配结果,并根据匹配结果得出待监测网站与参考合法网站之间的相似值。
异常网站判断模块350,用于依据相似值和预设阈值,判断待监测网站是否为异常网站。
在本发明的实施例中,通过将待监测网站的域名与非法网站库中各个非法网站的域名对比,对待监测网站的异常进行了初步筛选,提高了对网站的监测效率。
在本发明的实施例中,通过利用待监测网站的特征元素的文本与参考合法网站的对应的特征元素的文本之间的匹配结果,计算待监测网站与参考合法网站之间的相似值,并根据该相似值和预设阈值确定待监测网站的异常状况,保证了用户的安全上网环境。并且,利用待监测网站的特征元素的文本和参考合法网站的特征元素的文本,计算待监测网站与参考合法网站之间的相似值,提高了计算性能,节约了资源。
在本发明的实施例中,提取模块330,具体可以用于:
模拟用户对待监测网站的首页的访问操作发起网页访问请求,以获取网页访问请求对应的响应;
对网页访问请求和网页访问请求对应的响应进行解析,得到解析结果;
利用待监测网站的特征元素对应的文本关键词,从解析结果中提取待监测网站的特征元素的文本。
在本发明的实施例中,待监测网站的特征元素包括以下元素中的一种或多种:待监测网站首页的实际互联网协议IP地址、待监测网站首页的超文本传输协议HTTP状态码、待监测网站首页的标题、待监测网站的备案号、备案号的链接、待监测网站首页的版权所有之前的公司信息、待监测网站首页版权所有之后的公司信息、待监测网站首页的HTTP请求中包括的主机HOST名、待监测网站首页的HTTP请求中包括的HTTP请求访问的资源标识和待监测网站首页的层叠样式表CSS的统一资源定位符URL。
在本发明的实施例中,待监测网站的特征元素是通过大量数据实践对比总结出的可以标识该网站和/或区分该网站的异常参数,能够快速高效的实现对网站的监测。
在本发明的实施例中,合法网站库包括多个合法网站中每个合法网站的信息,每个合法网站的信息包括每个合法网站的域名和每个合法网站的每个特征元素的文本;
其中,合法网站库中的多个合法网站是根据互联网数据中心IDC的用户访问日志,得到的IDC流量访问排名前n名的网站,n为正整数;
或,
合法网站库中的多个合法网站是预先选取的网站。
在本发明的实施例中,监测异常网站的装置还包括:
第三确定模块360,用于确定非法网站库中包括与待监测网站具有相同域名的非法网站。
第四确定模块370,用于确定待监测网站为异常网站。
在本发明的实施例中,相似值获取模块340,具体可以用于:
计算提取的特征元素的文本,与预先获取的参考合法网站的对应的特征元素的文本之间的匹配结果;
根据匹配结果和待监测网站的特征元素对应的预设权重,得出待监测网站与参考合法网站之间的相似值。
在本发明的实施例中,通过设置待监测网站的特征元素的合理权重计算待监测网站与参考合法网站之间的相似值,大大提高可操作性和准备率。
在本发明的实施例中,相似值获取模块340,具体还可以用于:
提取的特征元素的每个文本在参考合法网站对应的特征元素的文本构成的集合中,匹配结果为匹配;
提取的特征元素的至少一个文本在参考合法网站对应的特征元素的文本构成的集合之外,匹配结果为不匹配。
在本发明的实施例中,异常网站判断模块350,具体可以用于:
若相似值大于等于预设阈值,判定待监测网站为异常网站;
若相似值小于预设阈值,判定待监测网站为合法网站。
根据本发明实施例提供的监测异常网站的装置,通过引入待监测网站与参考合法网站的特征元素文本之间的匹配结果,计算待监测网站与参考合法网站的相似值,进而根据该相似值判定待监测网站的监测结果,从而使运维人员能够及时根据监测结果进行有针对性的解决异常网站,保证了用户的绿色上网环境。
根据本发明实施例的监测异常网站的装置的其他细节与以上结合图1至图2描述的根据本发明实施例的监测异常网站的方法类似,在此不再赘述。
结合图1至图3描述的根据本发明实施例的监测异常网站的方法和装置可以由监测异常网站的设备来实现。图4是示出根据发明实施例的监测异常网站的设备的硬件结构400示意图。
如图4所示,本实施例中的监测异常网站的设备400包括:处理器401、存储器402、通信接口403和总线410,其中,处理器401、存储器402、通信接口403通过总线410连接并完成相互间的通信。
具体地,上述处理器401可以包括中央处理器(CPU),或者特定集成电路(ASIC),或者可以被配置成实施本发明实施例的一个或多个集成电路。
存储器402可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器402可包括HDD、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器402可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器402可在监测异常网站的设备400的内部或外部。在特定实施例中,存储器402是非易失性固态存储器。在特定实施例中,存储器402包括只读存储器(ROM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。
通信接口403,主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。
总线410包括硬件、软件或两者,将监测异常网站的设备400的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线410可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线,但本发明考虑任何合适的总线或互连。
也就是说,图4所示的监测异常网站的设备400可以被实现为包括:处理器401、存储器402、通信接口403和总线410。处理器401、存储器402和通信接口403通过总线410连接并完成相互间的通信。存储器402用于存储程序代码;处理器401通过读取存储器402中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于执行本发明任一实施例中的监测异常网站的方法,从而实现结合图1至图3描述的监测异常网站的方法和装置。
本发明实施例还提供一种计算机存储介质,该计算机存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现本发明实施例提供的监测异常网站的方法。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
以上,仅为本发明的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。

Claims (9)

1.一种监测异常网站的方法,其特征在于,所述方法包括:
根据获取的待监测网站的域名和预先采集的非法网站库,确定所述非法网站库中不包括与所述待监测网站具有相同域名的非法网站;
利用所述待监测网站的域名和预先采集的合法网站库,确定所述合法网站库中包括与所述待监测网站具有相同域名的参考合法网站;
提取所述待监测网站的特征元素的文本;
计算提取的特征元素的文本,与预先获取的所述参考合法网站的对应的特征元素的文本之间的匹配结果,并根据所述匹配结果得出所述待监测网站与所述参考合法网站之间的相似值;
依据所述相似值和预设阈值,判断所述待监测网站是否为异常网站;
所述待监测网站的特征元素包括以下元素中的一种或多种:所述待监测网站首页的实际互联网协议IP地址、所述待监测网站首页的超文本传输协议HTTP状态码、所述待监测网站首页的标题、所述待监测网站的备案号、所述备案号的链接、所述待监测网站首页的版权所有之前的公司信息、所述待监测网站首页版权所有之后的公司信息、所述待监测网站首页的HTTP请求中包括的主机HOST名、所述待监测网站首页的HTTP请求中包括的HTTP请求访问的资源标识和所述待监测网站首页的层叠样式表CSS的统一资源定位符URL;
计算提取的特征元素的文本,与预先获取的所述参考合法网站的对应的特征元素的文本之间的匹配结果,包括:
所述提取的特征元素的每个文本在所述参考合法网站对应的特征元素的文本构成的集合中,所述匹配结果为匹配;
所述提取的特征元素的至少一个文本在所述参考合法网站对应的特征元素的文本构成的集合之外,所述匹配结果为不匹配。
2.根据权利要求1所述的方法,其特征在于,所述提取所述待监测网站的特征元素的文本,包括:
模拟用户对所述待监测网站的首页的访问操作发起网页访问请求,以获取所有所述网页访问请求对应的响应;
对所述所有网页访问请求和所述所有网页访问请求对应的响应进行解析,得到解析结果;
利用所述待监测网站的特征元素对应的文本关键词,从所述解析结果中提取所述待监测网站的特征元素的文本。
3.根据权利要求1所述的方法,其特征在于,所述合法网站库包括多个合法网站中每个合法网站的信息,所述每个合法网站的信息包括所述每个合法网站的域名和所述每个合法网站的每个特征元素的文本;
其中,所述合法网站库中的多个合法网站是根据互联网数据中心IDC的用户访问日志,得到的IDC流量访问排名前n名的网站,n为正整数;
或,
所述合法网站库中的多个合法网站是预先选取的网站。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定所述非法网站库中包括与所述待监测网站具有相同域名的非法网站;
确定所述待监测网站为异常网站。
5.根据权利要求1所述的方法,其特征在于,所述根据所述匹配结果得出所述待监测网站与所述参考合法网站之间的相似值,包括:
根据所述匹配结果和所述待监测网站的特征元素对应的预设权重,得出所述待监测网站与所述参考合法网站之间的相似值。
6.根据权利要求1所述的方法,其特征在于,所述依据所述相似值和预设阈值,判断所述待监测网站是否为异常网站,包括:
若所述相似值大于等于预设阈值,判定所述待监测网站为合法网站;
若所述相似值小于所述预设阈值,判定所述待监测网站为异常网站。
7.一种监测异常网站的装置,其特征在于,所述装置包括:
第一确定模块,用于根据获取的待监测网站的域名和预先采集的非法网站库,确定所述非法网站库中不包括与所述待监测网站具有相同域名的非法网站;
第二确定模块,用于利用所述待监测网站的域名和预先采集的合法网站库,确定所述合法网站库中包括与所述待监测网站具有相同域名的参考合法网站;
提取模块,用于提取所述待监测网站的特征元素的文本;
相似值获取模块,用于计算提取的特征元素的文本,与预先获取的所述参考合法网站的对应的特征元素的文本之间的匹配结果,并根据所述匹配结果得出所述待监测网站与所述参考合法网站之间的相似值;
异常网站判断模块,用于依据所述相似值和预设阈值,判断所述待监测网站是否为异常网站;
所述待监测网站的特征元素包括以下元素中的一种或多种:所述待监测网站首页的实际互联网协议IP地址、所述待监测网站首页的超文本传输协议HTTP状态码、所述待监测网站首页的标题、所述待监测网站的备案号、所述备案号的链接、所述待监测网站首页的版权所有之前的公司信息、所述待监测网站首页版权所有之后的公司信息、所述待监测网站首页的HTTP请求中包括的主机HOST名、所述待监测网站首页的HTTP请求中包括的HTTP请求访问的资源标识和所述待监测网站首页的层叠样式表CSS的统一资源定位符URL;
相似值获取模块,具体用于:
提取的特征元素的每个文本在参考合法网站对应的特征元素的文本构成的集合中,匹配结果为匹配;
提取的特征元素的至少一个文本在参考合法网站对应的特征元素的文本构成的集合之外,匹配结果为不匹配。
8.一种监测异常网站的设备,其特征在于,所述设备包括:处理器以及存储有计算机程序指令的存储器;
所述处理器执行所述计算机程序指令时实现如权利要求1-6任意一项所述的监测异常网站的方法。
9.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-6任意一项所述的监测异常网站的方法。
CN201810507450.8A 2018-05-24 2018-05-24 监测异常网站的方法、装置、设备和计算机存储介质 Active CN110535806B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810507450.8A CN110535806B (zh) 2018-05-24 2018-05-24 监测异常网站的方法、装置、设备和计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810507450.8A CN110535806B (zh) 2018-05-24 2018-05-24 监测异常网站的方法、装置、设备和计算机存储介质

Publications (2)

Publication Number Publication Date
CN110535806A CN110535806A (zh) 2019-12-03
CN110535806B true CN110535806B (zh) 2022-04-01

Family

ID=68657309

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810507450.8A Active CN110535806B (zh) 2018-05-24 2018-05-24 监测异常网站的方法、装置、设备和计算机存储介质

Country Status (1)

Country Link
CN (1) CN110535806B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111311411B (zh) * 2020-02-14 2022-03-08 北京三快在线科技有限公司 一种非法行为的识别方法及装置
CN112149063B (zh) * 2020-09-14 2022-06-24 浙江数秦科技有限公司 一种网络图片侵权在线监测方法
CN112329423A (zh) * 2020-11-05 2021-02-05 上海钐昆网络科技有限公司 Icp备案公司分类方法、装置、电子设备及计算机存储介质
CN112532624B (zh) * 2020-11-27 2023-09-05 深信服科技股份有限公司 一种黑链检测方法、装置、电子设备及可读存储介质
CN113098870B (zh) * 2021-04-01 2022-12-02 恒安嘉新(北京)科技股份公司 一种网络诈骗检测方法、装置、电子设备及存储介质
CN113221035A (zh) * 2021-05-13 2021-08-06 北京百度网讯科技有限公司 用于确定异常网页的方法、装置、设备、介质和程序产品
CN113726808A (zh) * 2021-09-06 2021-11-30 杭州安恒信息安全技术有限公司 一种网站监测方法、装置、设备及存储介质
CN113961834A (zh) * 2021-10-22 2022-01-21 百度在线网络技术(北京)有限公司 数据处理方法、装置、设备以及存储介质
CN115037537A (zh) * 2022-06-06 2022-09-09 恒安嘉新(北京)科技股份公司 异常流量拦截、异常域名识别方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103428186A (zh) * 2012-05-24 2013-12-04 中国移动通信集团公司 一种检测钓鱼网站的方法及装置
CN105119909A (zh) * 2015-07-22 2015-12-02 国家计算机网络与信息安全管理中心 一种基于页面视觉相似性的仿冒网站检测方法和系统
CN105491031A (zh) * 2015-11-30 2016-04-13 睿峰网云(北京)科技股份有限公司 一种钓鱼网站的识别方法及装置
CN107872452A (zh) * 2017-10-25 2018-04-03 东软集团股份有限公司 一种恶意网站的识别方法、装置、存储介质及程序产品

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8799465B2 (en) * 2004-10-13 2014-08-05 International Business Machines Corporation Fake web addresses and hyperlinks

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103428186A (zh) * 2012-05-24 2013-12-04 中国移动通信集团公司 一种检测钓鱼网站的方法及装置
CN105119909A (zh) * 2015-07-22 2015-12-02 国家计算机网络与信息安全管理中心 一种基于页面视觉相似性的仿冒网站检测方法和系统
CN105491031A (zh) * 2015-11-30 2016-04-13 睿峰网云(北京)科技股份有限公司 一种钓鱼网站的识别方法及装置
CN107872452A (zh) * 2017-10-25 2018-04-03 东软集团股份有限公司 一种恶意网站的识别方法、装置、存储介质及程序产品

Also Published As

Publication number Publication date
CN110535806A (zh) 2019-12-03

Similar Documents

Publication Publication Date Title
CN110535806B (zh) 监测异常网站的方法、装置、设备和计算机存储介质
US10498761B2 (en) Method for identifying phishing websites and hindering associated activity
Ludl et al. On the effectiveness of techniques to detect phishing sites
CN109922052B (zh) 一种结合多重特征的恶意url检测方法
US8601586B1 (en) Method and system for detecting web application vulnerabilities
US11212305B2 (en) Web application security methods and systems
US9680866B2 (en) System and method for analyzing web content
Li et al. Remedying web hijacking: Notification effectiveness and webmaster comprehension
CN110855676B (zh) 网络攻击的处理方法、装置及存储介质
Rao et al. Phishshield: a desktop application to detect phishing webpages through heuristic approach
US9300682B2 (en) Composite analysis of executable content across enterprise network
Jacob et al. {PUBCRAWL}: Protecting users and businesses from {CRAWLers}
EP3646218A1 (en) Cyber-security system and method for weak indicator detection and correlation to generate strong indicators
CN110012005B (zh) 识别异常数据的方法、装置、电子设备及存储介质
US20140245438A1 (en) Download resource providing method and device
US8136029B2 (en) Method and system for characterising a web site by sampling
CN103595732A (zh) 一种网络攻击取证的方法及装置
CN107911232B (zh) 一种确定业务操作规则的方法及装置
CN108337269A (zh) 一种WebShell检测方法
CN111079138A (zh) 异常访问检测方法、装置、电子设备及可读存储介质
KR101005866B1 (ko) 룰기반 웹아이디에스 시스템용 웹로그 전처리방법 및 시스템
CN110889113A (zh) 一种日志分析方法、服务器、电子设备及存储介质
Massa et al. A fraud detection system based on anomaly intrusion detection systems for e-commerce applications
CN117336098B (zh) 一种网络空间数据安全性监测分析方法
Pramono Anomaly-based intrusion detection and prevention system on website usage using rule-growth sequential pattern analysis: Case study: Statistics of Indonesia (BPS) website

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant