CN115225291A - 网页访问安全性检测方法、装置和存储介质 - Google Patents

网页访问安全性检测方法、装置和存储介质 Download PDF

Info

Publication number
CN115225291A
CN115225291A CN202110347934.2A CN202110347934A CN115225291A CN 115225291 A CN115225291 A CN 115225291A CN 202110347934 A CN202110347934 A CN 202110347934A CN 115225291 A CN115225291 A CN 115225291A
Authority
CN
China
Prior art keywords
webpage
fingerprint
malicious
target website
web page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110347934.2A
Other languages
English (en)
Inventor
刘健
张辉
艾敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110347934.2A priority Critical patent/CN115225291A/zh
Publication of CN115225291A publication Critical patent/CN115225291A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • H04L63/0876Network architectures or network communication protocols for network security for authentication of entities based on the identity of the terminal or configuration, e.g. MAC address, hardware or software configuration or device fingerprint
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/06Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Power Engineering (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提出了网页访问安全性检测方法、装置和存储介质。该方法包括:获取待检测的目标网址的网页内容,目标网址的网页内容与网页结构相对应;对网页内容进行网页结构解析处理,得到目标网址的网页结构信息;基于网页结构信息对目标网址进行网页指纹生成处理,得到目标网址的网页指纹;将目标网址的网页指纹与网页指纹库进行指纹安全性匹配处理,以确定网页指纹是否存在于恶意网页指纹库中;若网页指纹存在于恶意网页指纹库中,将目标网址定义为风险网址,输出网页访问风险提示;若网页指纹不存在于恶意网页指纹库中,对目标网址进行进阶访问风险检测。通过建立网页指纹,提高了恶意网址检测覆盖率,同时提高了恶意网址的识别速度和效率。

Description

网页访问安全性检测方法、装置和存储介质
技术领域
本发明涉及互联网领域,具体来说涉及恶意网址的识别方法、装置、计算设备和计算机可读存储介质。
背景技术
互联网技术的快速发展给人们生活带来越来越多的便利,与此同时互联网的安全形势也不容乐观。比如,各类木马病毒伪装成正常文件肆意传播,钓鱼网站模仿正常网站盗取用户帐号密码愈演愈烈。
传统的恶意网址检测技术通常是下载网页内容,并根据网页内容中的相关关键词来做判定。比如,博彩网页通常含有类似“下注”、“充值”、“娱乐城”等关键词。通过对诸如此类关键词的检测来综合判定网页的类型。
现有网址检测技术对于所有待检测网页,均需要对大量关键词(可能成千上万个)逐个进行检测,资源开销大,运行速度慢。另一方面,恶意网址经常会采用读音相似、意义相似等方法规避明显的恶意关键词,用以绕过简单的文本检测,比如将“博彩”替换为“菠菜”(读音相似)这类黑话,相关技术难以有效应对这类变化。
发明内容
鉴于此,本发明提供了恶意网址的识别方法、装置、计算设备和计算机可读存储介质,期望缓解或克服上面提到的部分或全部缺陷以及其他可能的缺陷。
根据本发明的第一方面,提供给了一种网页访问安全性检测方法,包括:获取待检测的目标网址的网页内容,其中,所述目标网址的网页内容与网页结构相对应;对所述网页内容进行网页结构解析处理,得到所述目标网址的网页结构信息;基于所述网页结构信息对所述目标网址进行网页指纹生成处理,以得到目标网址的网页指纹;将所述目标网址的网页指纹与网页指纹库进行指纹安全性匹配处理,以确定所述网页指纹是否存在于恶意网页指纹库中,所述恶意网页指纹库至少包括一个或更多个恶意网址的网页指纹;若所述网页指纹存在于所述恶意网页指纹库中,将所述目标网址定义为风险网址,输出网页访问风险提示;若所述网页指纹不存在于所述恶意网页指纹库中,对所述目标网址进行进阶访问风险检测。
在一个实施例中,所述基于所述网页结构信息对所述目标网址进行网页指纹生成处理,以得到目标网址的网页指纹包括:基于所述目标网址的网页内容提取网络要素信息作为所述目标网址的网页结构信息;对所述网络要素信息进行遍历,生成网页结构信息的标签序列;计算所述标签序列的散列值,得到所述目标网址的网页指纹。
在一个实施例中,基于所述目标网址的网页内容提取网络要素信息作为所述目标网址的网页结构信息包括:基于所述目标网址的网页内容提取生成文档对象模型DOM树作为所述目标网址的网页结构信息;所述对所述网络要素信息进行遍历,生成网页结构信息的标签序列包括:对所述DOM树进行遍历,生成网页结构信息的标签序列。
在一个实施例中,DOM树进行遍历,生成网页结构信息的标签序列包括:确定DOM树是否符合预定格式;响应于DOM树不符合预定格式,将DOM树补齐以符合预定格式。
在一个实施例中,对所述DOM树进行遍历包括采用下述顺序中的至少一种对所述DOM树进行遍历:从所述DOM树的根节点开始经过所述DOM树的左子树到所述DOM树的右子树结束的先序遍历;从所述DOM树的左子树开始经过所述DOM树的根节点到所述DOM树的右子树结束的中序遍历;和从所述DOM树的左子树开始经过所述DOM树的右子树到所述DOM树的根节点结束的后序遍历。
在一个实施例中,计算标签序列的散列值包括:采用MD5算法或SHA 256算法计算标签序列的散列值。
在一个实施例中,若所述网页指纹不存在于所述恶意网页指纹库中,对所述目标网址进行进阶访问风险检测还包括:当确定网页指纹不存在于恶意网址指纹库中时,对目标网址的网页内容进行逻辑检测,其中逻辑检测包括:对目标网址的网页内容进行文本过滤,获取目标语句中的预设对象词。
在一个实施例中,该方法还包括:响应于所述预设对象词存在于预先存储的预设对象词数据库中,将所述目标网址识别为恶意网址,输出网页访问风险提示;以及响应于所述预设对象词未存在于预先存储的预设对象词数据库中,将所述目标网址识别为恶意网址,输出网页访问正常提示。
在一个实施例中,该方法还包括:对在预定时间段内与所识别的多个恶意网址相对应的多个网页指纹进行聚合分析;响应于与多个网页指纹中的一个相关联的恶意网址数目大于预定阈值,将该网页指纹添加到恶意网页指纹库中;更新恶意网页指纹库。
在一个实施例中,获取目标网址的网页内容包括:获取待检测的统一资源定位器URL队列中的第一URL;下载与第一URL相对应的网页内容;响应于与第一URL相对应的网页内容下载失败,确定所述第一URL是非恶意URL;响应于与第一URL相对应的网页内容下载成功,获取目标网址的网页内容。
根据本发明的第二方面,提供了一种网页访问安全性检测装置。该装置包括:获取模块,被配置成获取待检测的目标网址的网页内容,其中,所述目标网址的网页内容与网页结构相对应;网络结构解析模块,被配置成对所述网页内容进行网页结构解析处理,得到所述目标网址的网页结构信息;网页指纹生成模块,被配置成基于所述网页结构信息对所述目标网址进行网页指纹生成处理,以得到目标网址的网页指纹;安全性匹配模块,被配置成将所述目标网址的网页指纹与网页指纹库进行指纹安全性匹配处理,以确定所述网页指纹是否存在于恶意网页指纹库中,所述恶意网页指纹库至少包括一个或更多个恶意网址的网页指纹;若所述网页指纹存在于所述恶意网页指纹库中,将所述目标网址定义为风险网址,输出网页访问风险提示;若所述网页指纹不存在于所述恶意网页指纹库中,对所述目标网址进行进阶访问风险检测。
根据本发明的第三方面,提供了一种计算机设备,其特征在于,包括存储器和处理器,存储器中存储有计算机程序。该计算机程序被处理器执行时,使得处理器执行以上方面描述方法的步骤。
根据本发明的第四方面,提供了一种计算机可读存储介质,其特征在于,计算机可读存储介质上存储有计算机程序。该计算机程序被处理器执行时,使得处理器执行以上方面描述方法的步骤。
本发明首先通过对页面内容进行DOM树解析以获取网页结构信息,然后基于网页结构信息生成网页指纹。通过将网页指纹与恶意网页指纹库中的网页指纹进行匹配来识别恶意网址。该方法针对相同类型的恶意网址生成相同的网页指纹,因此具有良好的区分性和鲁棒性。通过建立网页指纹,能够识别恶意网址的变种,极大提高恶意网址检测覆盖率,同时提高了恶意网址的识别速度和效率,更好地保护了用户的上网安全。
根据下文描述的实施例,本发明的这些和其它优点将变得清楚,并且参考下文描述的实施例来阐明本发明的这些和其它优点。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例所描述中需要使用的附图进行简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示意性示出了本发明一个实施例提供的实施环境的示意图;
图2示意性示出了根据本发明一个实施例的恶意网址识别方案的系统架构;
图3示意性示出了根据本发明一个实施例的网页访问安全性检测方法的逻辑流程图;
图4a示意性示出了HTML内容的示例;
图4b示意性示出了DOM树的结构;
图5示意性示出了根据本发明另一个实施例的网页访问安全性检测方法的逻辑流程图;
图6示意性示出了根据本发明实施例的恶意网址的识别方法;
图7a和7b分别示意性示出了根据本发明实施例的恶意网址识别方案的提示信息示意图;
图8示意性示出了根据本发明实施例的恶意网址的识别装置;以及
图9示出了能够实现根据本发明的一些实施例的用于恶意网址的识别的计算系统的示意框图。
具体实施方式
下面将参照附图更详细地描述本发明的若干个实施例以便使得本领域技术人员能够理解和实现本发明。然而,本发明可以具体实现为许多不同的形式并且不应被解释为局限于本文所阐述的实施例。相反,本文提供这些实施例以使得本发明全面且完整,并将充分地向本领域技术人员传达本发明的范围。这些实施例用于说明而不是限定本发明。
将理解的是,尽管术语第一、第二、第三等在本文中可以用来描述各种元件、步骤和/或部分,但是这些元件、步骤和/或部分不应当由这些术语限制。这些术语仅用来将一个元件、步骤或部分与另一个元件、步骤或部分相区分。因此,下面讨论的第一元件、步骤或部分可以被称为第二元件、步骤或部分而不偏离本发明的教导。
本文中使用的术语仅出于描述特定实施例的目的并且不意图限制本发明。如本文中使用的,单数形式“一个”、“一”和“该”意图也包括复数形式,除非上下文清楚地另有指示。将进一步理解的是,术语“包括”和/或“包含”当在本说明书中使用时指定特征、整体、步骤、操作、元件和/或部件的存在,但不排除一个或多个其他特征、整体、步骤、操作、元件、部件和/或其群组的存在。如本文中使用的,术语“和/或”包括相关联的列出项目中的一个或多个的任意和全部组合。
除非另有定义,本文中使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域的普通技术人员所通常理解的相同含义。将进一步理解的是,诸如那些在通常使用的字典中定义的术语应当被解释为具有与其在相关领域和/或本说明书上下文中的含义相一致的含义,并且将不在理想化或过于正式的意义上进行解释,除非本文中明确地如此定义。
需要注意的是,在不冲突的前提下,不同实施例中的特征可以任意组合使用。
在详细介绍本发明的实施例之前,首先对一些相关的概念进行解释:
恶意内容:指网页中包含预设关键词的文字内容、图片内容或视频内容,其中该预设关键词具有非法属性。比如,该预设关键词为“下注”、“赌场”、“娱乐场”等。本发明实施例中,恶意网址对应的网页内容中即直接或间接包含恶意内容。
DOM(Document Object Model,为了更好地与下文虚拟DOM区分开,本文中称为真实DOM),文档对象模型,是W3C指定的标准接口规范,是处理HTML的标准API。真实DOM提供了对整个文档的访问模型,其可以将文档内容表示成包括多层次节点的树状结构(真实DOM的节点树),该树状结构可以指示HTML页面内各种元素的关联关系。
MD5算法(Message-Digest 5 Algorithm),一种被广泛使用的密码散列函数,可以产生出一个128位(16字节)的散列值,用于确保信息传输完整一致。
参考图1,其示出了本发明一个实施例提供的实施环境100的示意图。该实施环境100中包括智能设备101和服务器102。
智能设备101是具有互联网访问功能的电子设备。该电子设备为智能手机、平板电脑、MP3播放器或个人计算机等等。
在一种可能的实施方式中,智能设备101中运行有具有恶意网址识别功能的应用程序,该应用程序为浏览器应用程序、即时通信应用程序、社交类应用程序等。比如,当用户使用浏览器应用程序进行互联网访问时,智能设备101即能够对用户所要访问网址的安全性进行检测。可选的,对于恶意网址,智能设备101显示警告标识,并限制用户访问;对于安全网址,智能设备101正常显示相应的网页内容。
智能设备101与服务器102之间通过有线网络或无线网络相连。
服务器102为一台服务器、由若干台服务器组成的服务器集群或云计算中心。
在一种可能的实施方式中,服务器102为智能设备101中(具有恶意网址识别功能的)应用程序的后台服务器。服务器102接收到智能设备101通过应用程序发送的网页访问请求后,即对网页访问请求中包含的待识别网址进行识别,并向智能设备101返回相应的识别结果,供智能设备101进行显示。
可选的,服务器102中构建有恶意网址数据库103和恶意指纹数据库104,其中,恶 意网址数据库103中存储有经过验证的恶意网址(或同时存储有经过验证的安全网址或恶 意网址),恶意指纹数据库104中存储有大量恶意网址的指纹。恶意网址的指纹通常包含表1 中的信息。
字段 含义 类型 示例
fingerprint 网页指纹 String 17953903182303171429
eviltype 恶意分类 String 区分不同类型如色情、赌博、仿冒等
time 发现时间 datetime 2020-09-11 09:56:00
url 样本URL String http://www.example.com
taglist 标签序列 String html-head-title-body-p-div
表1 恶意指纹数据库包含的信息。
在对待识别网址进行识别时,服务器102即结合恶意网址数据库103和恶意指纹数据库104中的数据,检测待识别网址的网页内容中是否包含恶意内容,并在网页内容中均不包含的恶意内容时,确定待识别网址为安全网址;否则确定待识别网址为恶意网址。
可选地,上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络,包括但不限于局域网(Local Area Network,LAN)、城域网(Metropolitan Area Network,MAN)、广域网(Wide Area Network,WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。在一些实施例中,使用包括超文本标记语言(Hyper Text Mark-up Language,HTML)、可扩展标记语言(ExtensibleMarkupLanguage,XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer,SSL)、传输层安全(Transport Layer Security,TLS)、虚拟专用网络(Virtual Private Network,VPN)、网际协议安全(Internet ProtocolSecurity,IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中,还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。
本发明各个实施例提供的网页访问安全性检测方法均用于图1所示的服务器102,下面采用示意性的实施例进行说明。
图2示意性示出了根据本发明一个实施例的恶意网址识别方案的系统架构200。系统架构200可以包括网页内容下载模块201、网页指纹生成模块202、网页内容检测模块203、恶意指纹数据库204、恶意网址数据库205和统一查询接口206。
统一查询接口206被配置为接入各个客户端产品,例如即时通信软件、浏览器、电脑管家等。例如,在用户使用浏览器访问一URL时,该URL将被发送到统一查询接口206。在一些实施例中,统一查询接口206可首先对该URL在恶意网址数据库205中进行匹配。恶意网址数据库205存储有指示URL为“安全”或“恶意”的状态的安全记录或恶意记录。如果匹配到恶意记录,则返回“恶意”的查询结果给客户端产品,客户端可以相应地给出风险提示。如果匹配到安全记录,则返回“安全”给客户端产品,用户可以继续正常访问该网站。如果没有匹配到任何记录,则返回“未知”给客户端产品,与此同时将该URL作为待检测URL发送给网页内容下载模块201。
网页内容下载模块201对于输入的待检测URL,下载与该URL相对应的网页内容,包括HTML文件、引用的CSS文件、Javascript文件、图片等资源文件。在网页内容下载失败时,可以认为当前URL是非恶意URL,结束检测并将“安全”返回给客户端产品。在网页内容下载成功时,需要将网页内容发送给网页指纹生成模块202进行识别。网页指纹生成模块202对给定的网页内容生成唯一的网页指纹标识。如本领域技术人员所理解的,网页指纹的生成算法应该有很多类型,这里不做限制。通常,一种性能良好的指纹生成算法应当同时具备良好的区分性和良好的鲁棒性。区分性指的是对于完全不同的网站生成不同的指纹。鲁棒性(即抗干扰性)指的是页面内容的轻度变化不影响生成的网页指纹。比如,要求在新闻网站上的新闻内容更新频繁但网站的基本结构不变的情况下,生成的网页指纹也不发生变化。在一个实施例中,网页指纹生成方法可以包括:基于目标网址的网页内容提取网络要素信息作为目标网址的网页结构信息;对网络要素信息进行遍历,生成网页结构信息的标签序列;计算标签序列的散列值,得到目标网址的网页指纹。在另一个实施例中,基于目标网址的网页内容提取网络要素信息作为目标网址的网页结构信息包括:基于目标网址的网页内容提取生成文档对象模型DOM树作为目标网址的网页结构信息;对网络要素信息进行遍历,生成网页结构信息的标签序列包括:对DOM树进行遍历,生成网页结构信息的标签序列。
然后,将网页指纹生成模块202所生成的网页指纹与存储有大量恶意网址指纹的恶意指纹数据库204中预先存储的恶意网址指纹进行比较。如果匹配成功,则将待检测URL识别为恶意URL,且可以输出当前待检测URL的恶意类型(与所匹配的恶意指纹的恶意类型相一致),进而结束当前的检测任务。这里,在恶意指纹数据库204中的数据较少时,可以采用逐个对比的方法;而在恶意指纹数据库204中的数据量校大时(例如,达到数十万~数百万的量级),则可以采用Hash表或将指纹排序后进行二分查找来加快匹配的进程。如果匹配失败,则利用网页内容检测模块203和恶意网址数据库205执行恶意网址检测流程。恶意网址流程可包括例如将待检测URL输入网页内容检测模块203,以提取网页内容中的与恶意内容相关的关键词等信息,以及通过将所提取的关键词等信息与恶意网址数据库205中存储的恶意关键词进行比较来识别当前URL为恶意还是正常URL。
图3示意性示出了根据本发明一个实施例的网页访问安全性检测方法300的逻辑流程图。
首先,在步骤301和302中获取待检测的目标网址的网页内容,其中,所述目标网址的网页内容与网页结构相对应。
在301中,在待检测URL队列中获取一条待检测URL,并通过网页采集手段采集/下载页面的内容。在一个实施例中,对于页面包含跳转的情况,需要持续跟踪跳转,直到得到最终页面内容为止。下载URL内容包括两部分信息:HTTP包头和包体。包头包括HTTP状态码。例如,以状态码301或302代表跳转,表示当前URL会跳转到另一条URL。此外,也可以通过包体实现跳转。例如,包体包含下列内容时<meta http-equiv="Refresh" content="3;url=http://www.example.com"/>,代表3秒后自动跳转到新的网址http://www.example.com。
在302中,判断是否下载成功。判断是否下载成功有几种方式:首先可通过HTTP包头中的HTTP状态码判断,一般状态为200为成功,404代表无法访问等。其次,即使状态码为200,也可能下载失败,比如HTTP包体内容可能包含“当前网页已关闭”,“当前商品已下架”,“当前内容已删除”等自定义内容,需要进行识别。当判断下载失败时,可认为当前URL非恶意URL,结束检测。否则进入步骤303。
在步骤303中,对所述网页内容进行网页结构解析处理,得到所述目标网址的网页结构信息。其中对页面内容进行DOM树解析,获取网页结构信息,生成DOM树便于后续分析。对于部分网页HTML内容,由于人工编辑的原因,可能不符合标准格式,解析逻辑需要具备标签自动补齐功能。比如对于“<p>测试”,自动补齐为“<html><body><p>测试</p></body></html>”,即补齐p的闭合标签以及html、body等基础标签。
图4a示意性示出了HTML内容的示例。页面的文本信息可以是超文本标记语言HTML的源码文件。这里,以URL=xx.com为例,直接访问xx.com,通过查看其网页HTML源代码,可以发现其系统标签信息。可以通过对页面的文本信息进行DOM树解析来得到DOM树。
图4b示意性示出了HTML源码以及对应的DOM树的结构。HTML DOM 定义了访问和操作 HTML 文档的标准方法,其可以以一种独立于平台和语言的方式访问和修改一个文档的内容和结构。 DOM 将 HTML 文档表达为树结构。可以将网页HTML源码重新构建为一颗DOM树,以便于后续分析处理。如图4b所示,左侧的HTML编码被表达为右侧的DOM树,该DOM树中根节点(root)为html标签,其包含两个子节点即head标签和body标签。节点head标签又包含子节点title标签,节点body标签又包含子节点p和div标签,以此类推。
由于大量恶意、仿冒网站为降低成本,通常都采用相同或类似的模版制作修改得到,即大量恶意网址之间具有相似的网页结构特征,所以可以采用页面标签序列来表征页面的结构性特点,而忽略具体的文本内容的差异。可以通过对于树形数据结构的遍历,例如采用先序、中序、后序、层次遍历等多种方法来生成页面标签序列。这里以先序遍历为例,针对图4b中的示例生成的页面标签序列可以是字符串html-head-title-body-p-div。在一些实施例中,一种指纹生成算法可以是对上述字符串计算Hash值(可采用MD5、SHA256等多种Hash算法),且将该Hash值作为网页指纹(Fingerprint)特征。
接下来,在步骤304中,基于所述网页结构信息对所述目标网址进行网页指纹生成处理,以得到目标网址的网页指纹。采用指纹生成算法对页面内容生成页面的指纹。在指纹生成过程中,针对DOM树的遍历可采用先序、中序、后序、层次遍历等方法,这里不做限制。比如对图4b中示例的DOM树,生成的标签序列可以为“html-body-p”。然后可以对该字符串计算hash值,比如采用MD5算法,得到0fc439a4dd4594a8608580a1e19d98ac即为最终的网页指纹。
最后在305和306中,将所述目标网址的网页指纹与网页指纹库进行指纹安全性匹配处理,以确定所述网页指纹是否存在于恶意网页指纹库中,所述恶意网页指纹库至少包括一个或更多个恶意网址的网页指纹。
在305中,判断生成的网页指纹是否在现有的恶意网页指纹库中。在一些实施例中,可以将生成的网页指纹与恶意网页指纹库中的数据(例如恶意指纹样本)进行比对,以确定其是否匹配。如果能匹配上,则输出当前待检测URL的恶意类型(与匹配上的恶意指纹的恶意类型一致),结束当前检测任务。如果未能匹配上恶意网页指纹库中的任何数据,则进入现有的传统检测逻辑,比如通过网站内容关键词等信息来识别当前URL为恶意还是正常URL。当恶意网页指纹库中数据量较少时,可采用逐个比对方法;当恶意网页指纹库中数据量较多时(如数十万~上百万量级),可采用Hash表或者将指纹排序后进行二分查找来加速匹配查找。
在306中,确定恶意检测逻辑的结果是否为恶意网址。如果是,则判定该URL为恶意URL,否则判定其为正常URL。
图5示意性示出了根据本发明另一个实施例的网页访问安全性检测方法500的逻辑流程图。方法500中的步骤301~306与图3类似。在501中,在待检测URL队列中获取一条待检测URL,并通过网页采集手段采集/下载页面的内容。在一个实施例中,对于页面包含跳转的情况,需要持续跟踪跳转,直到得到最终页面内容为止。下载URL内容包括两部分信息:HTTP包头和包体。包头包括HTTP状态码。例如,以状态码301或302代表跳转,表示当前URL会跳转到另一条URL。此外,也可以通过包体实现跳转。例如,包体包含下列内容时<metahttp-equiv="Refresh" content="3;url=http://www.example.com"/>,代表3秒后自动跳转到新的网址http://www.example.com。
在502中,判断是否下载成功。判断是否下载成功有几种方式:首先可通过HTTP包头中的HTTP状态码判断,一般状态为200为成功,404代表无法访问等。其次,即使状态码为200,也可能下载失败,比如HTTP包体内容可能包含“当前网页已关闭”,“当前商品已下架”,“当前内容已删除”等自定义内容,需要进行识别。当判断下载失败时,可认为当前URL非恶意URL,结束检测。否则进入步骤503。
在503中,对页面内容进行DOM树解析,获取网页结构信息,生成DOM树便于后续分析。对于部分网页HTML内容,由于人工编辑的原因,可能不符合标准格式,解析逻辑需要具备标签自动补齐功能。比如对于“<p>测试”,自动补齐为“<html><body><p>测试</p></body></html>”,即补齐p的闭合标签以及html、body等基础标签。
返回图5,在504中,采用指纹生成算法对页面内容生成页面的指纹。在指纹生成过程中,针对DOM树的遍历可采用先序、中序、后序、层次遍历等方法,这里不做限制。比如对图4b中示例的DOM树,生成的标签序列可以为“html-body-p”。然后可以对该字符串计算hash值,比如采用MD5算法,得到0fc439a4dd4594a8608580a1e19d98ac即为最终的网页指纹。
在505中,判断生成的网页指纹是否在现有的恶意网页指纹库中。在一些实施例中,可以将生成的网页指纹与恶意网页指纹库中的数据(例如恶意指纹样本)进行比对,以确定其是否匹配。如果能匹配上,则输出当前待检测URL的恶意类型(与匹配上的恶意指纹的恶意类型一致),结束当前检测任务。如果未能匹配上恶意网页指纹库中的任何数据,则进入现有的传统检测逻辑,比如通过网站内容关键词等信息来识别当前URL为恶意还是正常URL。当恶意网页指纹库中数据量较少时,可采用逐个比对方法;当恶意网页指纹库中数据量较多时(如数十万~上百万量级),可采用Hash表或者将指纹排序后进行二分查找来加速匹配查找。
在506中,确定恶意检测逻辑的结果是否为恶意网址。如果是,则判定该URL为恶意URL,否则判定其为正常URL。
在该实施例中,还包括在507中,对于新检测到的恶意URL集合,对其网页指纹进行聚合分析,筛选其中关联网站较多的恶意指纹。可以设定阈值N(比如取100),当某恶意指纹关联的恶意网址数目大于N时,需进入后续专家审核流程,否则丢弃。在508中,由专家进行二次复核无误后,将该网页指纹补充更新到恶意网页指纹库中。通过这样的方式,使得后续出现类似恶意网址时,则可以快速命中指纹库,无需进入复杂和耗时的传统检测逻辑,极大地节省了服务器的资源开销。
图6示意性示出了根据本发明实施例的恶意网址的识别方法600。该方法600可以由于图1中所示的服务器102执行。
在步骤601中,获取待检测的目标网址的网页内容,其中,目标网址的网页内容与网页结构相对应。在一个实施例中,获取待检测的统一资源定位器URL队列中的第一URL;下载与第一URL相对应的网页内容;响应于与第一URL相对应的网页内容下载失败,确定目标网址是正常网址;响应于与第一URL相对应的网页内容下载成功,获取目标网址的网页内容。具体地,在待检测URL队列中获取一条待检测URL,并通过网页采集手段采集/下载页面的内容。对于页面包含跳转的情况,需要持续跟踪跳转,直到得到最终页面内容为止。下载的URL内容包含两部分信息:HTTP包头与包体,包头包含HTTP状态码,通过状态码301或302代表跳转,表示当前URL会跳转到另一条URL。此外,也可通过包体实现跳转,比如包体包含下列内容时<meta http-equiv="Refresh" content="3;url=http://www.example.com" />,代表3秒后自动跳转到新的网址http://www.example.com。判断是否下载成功。判断是否下载成功有几种方式:首先可通过HTTP包头中的HTTP状态码判断,一般状态为200为成功,404代表无法访问等。其次,即使状态码为200,也可能下载失败,比如HTTP包体内容可能包含“当前网页已关闭”,“当前商品已下架”,“当前内容已删除”等自定义内容,需要进行识别。当判断下载失败时,可认为当前URL非恶意URL,结束检测。否则进入下一步。
在步骤602中,对网页内容进行网页结构解析处理,得到目标网址的网页结构信息。示例性地,可以对页面内容进行DOM树解析,获取网页结构信息,生成DOM树便于后续分析。对于部分网页HTML内容,由于人工编辑的原因,可能不符合标准格式,解析逻辑需要具备标签自动补齐功能。比如对于“<p>测试”,自动补齐为“<html><body><p>测试</p></body></html>”,即补齐p的闭合标签以及html、body等基础标签。在一个实施例中,网页指纹生成方法可以包括:基于目标网址的网页内容提取网络要素信息作为目标网址的网页结构信息;对网络要素信息进行遍历,生成网页结构信息的标签序列;计算标签序列的散列值,得到目标网址的网页指纹。在一个实施例中,基于目标网址的网页内容生成文档对象模型DOM树,以获取目标网址的网页结构信息;对DOM树进行遍历,生成网页结构信息的标签序列;计算标签序列的散列值,得到目标网址的网页指纹。在另一个实施例中,采用先序遍历、中序遍历、后序遍历、层次遍历中的至少一个对DOM树进行遍历。先序遍历从DOM树的根节点开始经过DOM树的左子树到DOM树的右子树结束。中序遍历从DOM树的左子树开始经过DOM树的根节点到DOM树的右子树结束。后序遍历从DOM树的左子树开始经过DOM树的右子树到DOM树的根节点结束。在一个实施例中,采用MD5算法或SHA 256算法计算标签序列的散列值。在又一个实施例中,对DOM树进行遍历,生成网页结构信息的标签序列包括:确定DOM树是否符合预定格式;响应于DOM树不符合预定格式,将DOM树补齐以符合预定格式。
在步骤603中,基于网页结构信息对目标网址进行网页指纹生成处理,以得到目标网址的网页指纹。具体地,采用指纹生成算法对页面内容生成页面的指纹;在指纹生成过程中,针对DOM树的遍历可采用先序、中序、后序、层次遍历等方法,这里不做限制。比如对图4b中示例的DOM树,生成的标签序列可以为“html-body-p”。然后可以对该字符串计算hash值,比如采用MD5算法,得到0fc439a4dd4594a8608580a1e19d98ac即为最终的网页指纹。
在步骤604中,将目标网址的网页指纹与网页指纹库进行指纹安全性匹配处理,以确定网页指纹是否存在于恶意网页指纹库中,恶意网页指纹库至少包括一个或更多个恶意网址的网页指纹。在一些实施例中,可以将生成的网页指纹与恶意网页指纹库中的数据(例如恶意指纹样本)进行比对,以确定其是否匹配。在步骤6051中,若网页指纹存在于恶意网页指纹库中,将目标网址定义为风险网址,输出网页访问风险提示,结束当前检测任务。在步骤6052中,若网页指纹不存在于恶意网页指纹库中,对目标网址进行进阶访问风险检测,比如通过网站内容关键词等信息来识别当前URL为恶意还是正常URL。例如,当确定网页指纹不存在于恶意网址指纹库中时,对目标网址的网页内容进行逻辑检测,其中逻辑检测包括:对目标网址的网页内容进行文本过滤,获取目标语句中的预设对象词。以及,响应于预设对象词存在于预先存储的预设对象词数据库中,将目标网址识别为恶意网址,输出网页访问风险提示;以及响应于预设对象词未存在于预先存储的预设对象词数据库中,将目标网址识别为恶意网址,输出网页访问正常提示。当恶意网页指纹库中数据量较少时,可采用逐个比对方法;当恶意网页指纹库中数据量较多时(如数十万~上百万量级),可采用Hash表或者将指纹排序后进行二分查找来加速匹配查找。
这里,关于输出正常提示或风险提示的示意图如图7中所示。图7a和7b分别示意性示出了根据本发明实施例的恶意网址识别方案的提示信息示意图。在目标网站被确定为恶意网址时,用户终端生成用于提示用户该网站为恶意网址的提示信息,并在显示界面上进行显示。在一个实施例中,如图7a中所示,在接收到的消息中含有恶意网址URL的情况下,智能终端会显示“该链接内容可能非法”的提示。在另一实施例中,如图7b中所示,当用户意图访问的网址被检测为恶意网址时,浏览器会禁止对该网址的访问,并显示“已停止访问该网页”的提示。
进一步地,用户终端还可以生成包含引导信息的提示信息,例如引导用户对目标网站的目标网页进行管理操作。管理操作可以包括但不限于:对目标网页进行申诉,例如打开申诉网站的网页,以引导用户对目标网页进行申诉;按照预设方式(例如:社交网站、论坛等)将目标网页信息(例如,目标网页的网址、网页截图等)发布到网络中。同时,用户终端可以暂停对目标网页进行显示。如本领域技术人员所理解的,用户终端也可以在显示目标网页的同时,显示提示信息。
当确定网页指纹不存在于恶意网址指纹库中时,对目标网址的网页内容进行逻辑检测,其中逻辑检测包括:对目标网址的网页内容进行文本过滤,获取目标语句中的预设对象词,响应于预设对象词存在于预先存储的预设对象词数据库中,将目标网址识别为恶意网址。
在一个实施例中,该方法还包括:对在预定时间段内与所确定的多个恶意网址相对应的多个网页指纹进行聚合分析;响应于与多个网页指纹中的一个相关联的恶意网址数目大于预定阈值,将该网页指纹添加到恶意网页指纹库中;更新恶意网页指纹库。
在另一个实施例中,该方法还包括:当确定网页指纹不存在于恶意网址指纹库中时,对目标网址的网页内容进行逻辑检测,其中逻辑检测包括:对目标网址的网页内容进行文本过滤,获取目标语句中的预设对象词,响应于预设对象词存在于预先存储的预设对象词数据库中,确定目标网址为恶意网址。
该方法首先通过对页面内容进行DOM树解析以获取网页结构信息,然后基于网页结构信息生成网页指纹。通过将网页指纹与恶意网页指纹库中的网页指纹进行匹配来识别恶意网址。该方法针对相同类型的恶意网址生成相同的网页指纹,因此具有良好的区分性和鲁棒性。通过建立网页指纹,能够识别恶意网址的变种,极大提高恶意网址检测覆盖率,同时提高了恶意网址的识别速度和效率,更好地保护了用户的上网安全。
图8示意性示出了根据本发明实施例的网页访问安全性检测装置800。装置800可以包括:获取模块801、网络结构解析模块802、网页指纹生成模块803、安全性匹配模块804。获取模块801被配置成获取待检测的目标网址的网页内容,其中,目标网址的网页内容与网页结构相对应。网络结构解析模块802被配置成对网页内容进行网页结构解析处理,得到目标网址的网页结构信息。网页指纹生成模块803被配置成基于网页结构信息对目标网址进行网页指纹生成处理,以得到目标网址的网页指纹。确定模块804被配置成将目标网址的网页指纹与网页指纹库进行指纹安全性匹配处理,以确定网页指纹是否存在于恶意网页指纹库中,恶意网页指纹库至少包括一个或更多个恶意网址的网页指纹;若网页指纹存在于恶意网页指纹库中,将目标网址定义为风险网址,输出网页访问风险提示;若网页指纹不存在于恶意网页指纹库中,对目标网址进行进阶访问风险检测。
该装置首先通过对页面内容进行DOM树解析以获取网页结构信息,然后基于网页结构信息生成网页指纹。通过将网页指纹与恶意网页指纹库中的网页指纹进行匹配来识别恶意网址。该方法针对相同类型的恶意网址生成相同的网页指纹,因此具有良好的区分性和鲁棒性。通过建立网页指纹,能够识别恶意网址的变种,极大提高恶意网址检测覆盖率,同时提高了恶意网址的识别速度和效率,更好地保护了用户的上网安全。
本发明还提供了一种网页指纹的生成方法。该方法包括:获取待检测的统一资源定位器URL队列中的第一URL;下载与第一URL相对应的网页内容;基于目标网址的网页内容生成文档对象模型DOM树作为目标网址的网页结构信息;对DOM树进行遍历,生成网页结构信息的标签序列;计算标签序列的散列值,得到目标网址的网页指纹。
在一个实施例中,DOM树进行遍历包括:采用先序遍历、中序遍历、后序遍历、层次遍历中的至少一个对DOM树进行遍历。
在一个实施例中,计算标签序列的散列值包括:采用MD5算法或SHA 256算法计算标签序列的散列值。
在一个实施例中,DOM树进行遍历,生成网页结构信息的标签序列包括:确定DOM树是否符合预定格式;响应于DOM树不符合预定格式,将DOM树补齐以符合预定格式。
本发明还提供了一种网页指纹的生成装置。该装置包括:获取模块,被配置成获取待检测的统一资源定位器URL队列中的第一URL;下载模块,被配置成下载与第一URL相对应的网页内容;网页结构获取模块,被配置成基于网页内容生成文档对象模型DOM树,以获取目标网址的网页结构信息;标签序列生成模块,被配置成对DOM树进行遍历,生成网页结构信息的标签序列;指纹生成模块,被配置成计算标签序列的散列值,得到目标网址的网页指纹。
本申请提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算设备执行上述各种可选实现方式中提供的网页访问安全性检测方法。
图9图示了示例系统900,其包括代表可以实现本文描述的各种技术的一个或多个系统和/或设备的示例计算设备910。计算设备910可以是例如服务提供商的服务器、与服务器相关联的设备、片上系统、和/或任何其它合适的计算设备或计算系统。上面参照图8描述的网页访问安全性检测装置800可以采取计算设备910的形式。替换地,网页访问安全性检测装置800可以以应用916的形式被实现为计算机程序。
如图示的示例计算设备910包括彼此通信耦合的处理系统911、一个或多个计算机可读介质912以及一个或多个I/O接口913。尽管未示出,但是计算设备910还可以包括系统总线或其他数据和命令传送系统,其将各种组件彼此耦合。系统总线可以包括不同总线结构的任何一个或组合,总线结构诸如存储器总线或存储器控制器、外围总线、通用串行总线、和/或利用各种总线架构中的任何一种的处理器或局部总线。还构思了各种其他示例,诸如控制和数据线。
处理系统911代表使用硬件执行一个或多个操作的功能。因此,处理系统911被图示为包括可被配置成处理器、功能块等的硬件元件914。这可以包括在硬件中实现为专用集成电路或使用一个或多个半导体形成的其它逻辑器件。硬件元件914不受其形成的材料或其中采用的处理机构的限制。例如,处理器可以由(多个)半导体和/或晶体管(例如,电子集成电路(IC))组成。在这样的上下文中,处理器可执行指令可以是电子可执行指令。
计算机可读介质912被图示为包括存储器/存储装置915。存储器/存储装置915表示与一个或多个计算机可读介质相关联的存储器/存储容量。存储器/存储装置915可以包括易失性介质(诸如随机存取存储器(RAM))和/或非易失性介质(诸如只读存储器(ROM)、闪存、光盘、磁盘等)。存储器/存储装置915可以包括固定介质(例如,RAM、ROM、固定硬盘驱动器等)以及可移动介质(例如,闪存、可移动硬盘驱动器、光盘等)。计算机可读介质912可以以下面进一步描述的各种其他方式进行配置。
一个或多个I/O接口913代表允许用户使用各种输入设备向计算设备910输入命令和信息并且可选地还允许使用各种输出设备将信息呈现给用户和/或其他组件或设备的功能。输入设备的示例包括键盘、光标控制设备(例如,鼠标)、麦克风(例如,用于语音输入)、扫描仪、触摸功能(例如,被配置成检测物理触摸的容性或其他传感器)、相机(例如,可以采用可见或不可见的波长(诸如红外频率)将不涉及触摸的运动检测为手势)等等。输出设备的示例包括显示设备(例如,监视器或投影仪)、扬声器、打印机、网卡、触觉响应设备等。因此,计算设备910可以以下面进一步描述的各种方式进行配置以支持用户交互。
计算设备910还包括应用916。应用916可以例如是网页访问安全性检测装置800的软件实例,并且与计算设备910中的其他元件相组合地实现本文描述的技术。
本文可以在软件硬件元件或程序模块的一般上下文中描述各种技术。一般地,这些模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元素、组件、数据结构等。本文所使用的术语“模块”,“功能”和“组件”一般表示软件、固件、硬件或其组合。本文描述的技术的特征是与平台无关的,意味着这些技术可以在具有各种处理器的各种计算平台上实现。
所描述的模块和技术的实现可以存储在某种形式的计算机可读介质上或者跨某种形式的计算机可读介质传输。计算机可读介质可以包括可由计算设备910访问的各种介质。作为示例而非限制,计算机可读介质可以包括“计算机可读存储介质”和“计算机可读信号介质”。
与单纯的信号传输、载波或信号本身相反,“计算机可读存储介质”是指能够持久存储信息的介质和/或设备,和/或有形的存储装置。因此,计算机可读存储介质是指非信号承载介质。计算机可读存储介质包括诸如易失性和非易失性、可移动和不可移动介质和/或以适用于存储信息(诸如计算机可读指令、数据结构、程序模块、逻辑元件/电路或其他数据)的方法或技术实现的存储设备之类的硬件。计算机可读存储介质的示例可以包括但不限于RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字通用盘(DVD)或其他光学存储装置、硬盘、盒式磁带、磁带,磁盘存储装置或其他磁存储设备,或其他存储设备、有形介质或适于存储期望信息并可以由计算机访问的制品。
“计算机可读信号介质”是指被配置成诸如经由网络将指令发送到计算设备910的硬件的信号承载介质。信号介质典型地可以将计算机可读指令、数据结构、程序模块或其他数据体现在诸如载波、数据信号或其它传输机制的调制数据信号中。信号介质还包括任何信息传递介质。术语“调制数据信号”是指这样的信号,该信号的特征中的一个或多个被设置或改变,从而将信息编码到该信号中。作为示例而非限制,通信介质包括诸如有线网络或直接连线的有线介质以及诸如声、RF、红外和其它无线介质的无线介质。
如前,硬件元件914和计算机可读介质912代表以硬件形式实现的指令、模块、可编程器件逻辑和/或固定器件逻辑,其在一些实施例中可以用于实现本文描述的技术的至少一些方面。硬件元件可以包括集成电路或片上系统、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、复杂可编程逻辑器件(CPLD)以及硅中的其它实现或其他硬件设备的组件。在这种上下文中,硬件元件可以作为执行由硬件元件所体现的指令、模块和/或逻辑所定义的程序任务的处理设备,以及用于存储用于执行的指令的硬件设备,例如,先前描述的计算机可读存储介质。
前述的组合也可以用于实现本文的各种技术和模块。因此,可以将软件、硬件或程序模块和其它程序模块实现为在某种形式的计算机可读存储介质上和/或由一个或多个硬件元件914体现的一个或多个指令和/或逻辑。计算设备910可以被配置成实现与软件和/或硬件模块相对应的特定指令和/或功能。因此,例如通过使用处理系统的计算机可读存储介质和/或硬件元件914,可以至少部分地以硬件来实现将模块实现为可由计算设备910作为软件执行的模块。指令和/或功能可以由一个或多个制品(例如,一个或多个计算设备910和/或处理系统911)可执行/可操作以实现本文所述的技术、模块和示例。
在各种实施方式中,计算设备910可以采用各种不同的配置。例如,计算设备910可以被实现为包括个人计算机、台式计算机、多屏幕计算机、膝上型计算机、上网本等的计算机类设备。计算设备910还可以被实现为包括诸如移动电话、便携式音乐播放器、便携式游戏设备、平板计算机、多屏幕计算机等移动设备的移动装置类设备。计算设备910还可以实现为电视类设备,其包括具有或连接到休闲观看环境中的一般地较大屏幕的设备。这些设备包括电视、机顶盒、游戏机等。
本文描述的技术可以由计算设备910的这些各种配置来支持,并且不限于本文所描述的技术的具体示例。功能还可以通过使用分布式系统、诸如通过如下所述的平台922而在“云”920上全部或部分地实现。
云920包括和/或代表用于资源924的平台922。平台922抽象云920的硬件(例如,服务器)和软件资源的底层功能。资源924可以包括在远离计算设备910的服务器上执行计算机处理时可以使用的应用和/或数据。资源924还可以包括通过因特网和/或通过诸如蜂窝或Wi-Fi网络的订户网络提供的服务。
平台922可以抽象资源和功能以将计算设备910与其他计算设备连接。平台922还可以用于抽象资源的分级以提供遇到的对于经由平台922实现的资源924的需求的相应水平的分级。因此,在互连设备实施例中,本文描述的功能的实现可以分布在整个系统900内。例如,功能可以部分地在计算设备910上以及通过抽象云920的功能的平台922来实现。
应当理解,为清楚起见,参考不同的功能单元对本申请的实施例进行了描述。然而,将明显的是,在不偏离本申请的情况下,每个功能单元的功能性可以被实施在单个单元中、实施在多个单元中或作为其它功能单元的一部分被实施。例如,被说明成由单个单元执行的功能性可以由多个不同的单元来执行。因此,对特定功能单元的参考仅被视为对用于提供所描述的功能性的适当单元的参考,而不是表明严格的逻辑或物理结构或组织。因此,本申请可以被实施在单个单元中,或者可以在物理上和功能上被分布在不同的单元和电路之间。
尽管已经结合一些实施例描述了本申请,但是其不旨在被限于在本文中所阐述的特定形式。相反,本申请的范围仅由所附权利要求来限制。附加地,尽管单独的特征可以被包括在不同的权利要求中,但是这些可以可能地被有利地组合,并且包括在不同权利要求中不暗示特征的组合不是可行的和/或有利的。特征在权利要求中的次序不暗示特征必须以其工作的任何特定次序。此外,在权利要求中,词“包括”不排除其它元件,并且术语“一”或“一个”不排除多个。权利要求中的附图标记仅作为明确的示例被提供,不应该被解释为以任何方式限制权利要求的范围。

Claims (12)

1.一种网页访问安全性检测方法,包括:
获取待检测的目标网址的网页内容,其中,所述目标网址的网页内容与网页结构相对应;
对所述网页内容进行网页结构解析处理,得到所述目标网址的网页结构信息;
基于所述网页结构信息对所述目标网址进行网页指纹生成处理,以得到目标网址的网页指纹;
将所述目标网址的网页指纹与网页指纹库进行指纹安全性匹配处理,以确定所述网页指纹是否存在于恶意网页指纹库中,所述恶意网页指纹库至少包括一个或更多个恶意网址的网页指纹;
若所述网页指纹存在于所述恶意网页指纹库中,将所述目标网址定义为风险网址,输出网页访问风险提示;
若所述网页指纹不存在于所述恶意网页指纹库中,对所述目标网址进行进阶访问风险检测。
2.如权利要求1所述的方法,其中所述基于所述网页结构信息对所述目标网址进行网页指纹生成处理,以得到目标网址的网页指纹包括:
基于所述目标网址的网页内容提取网络要素信息作为所述目标网址的网页结构信息;
对所述网络要素信息进行遍历,生成网页结构信息的标签序列;
计算所述标签序列的散列值,得到所述目标网址的网页指纹。
3.如权利要求2所述的方法,其中所述基于所述目标网址的网页内容提取网络要素信息作为所述目标网址的网页结构信息包括:
基于所述目标网址的网页内容提取生成文档对象模型DOM树作为所述目标网址的网页结构信息;
所述对所述网络要素信息进行遍历,生成网页结构信息的标签序列包括:
对所述DOM树进行遍历,生成网页结构信息的标签序列。
4.如权利要求3所述的方法,其中对所述DOM树进行遍历,生成网页结构信息的标签序列包括:
确定所述DOM树是否符合预定格式;
响应于所述DOM树不符合预定格式,将所述DOM树补齐以符合所述预定格式。
5.如权利要求2所述的方法,其中对所述DOM树进行遍历包括采用下述顺序中的至少一种对所述DOM树进行遍历:
从所述DOM树的根节点开始经过所述DOM树的左子树到所述DOM树的右子树结束的先序遍历;
从所述DOM树的左子树开始经过所述DOM树的根节点到所述DOM树的右子树结束的中序遍历;和
从所述DOM树的左子树开始经过所述DOM树的右子树到所述DOM树的根节点结束的后序遍历。
6.如权利要求2或3所述的方法,其中所述计算所述标签序列的散列值包括:
采用MD5算法或SHA 256算法计算所述标签序列的散列值。
7.如权利要求1所述的方法,所述若所述网页指纹不存在于所述恶意网页指纹库中,对所述目标网址进行进阶访问风险检测还包括:
当确定所述网页指纹不存在于所述恶意网址指纹库中时,对所述目标网址的网页内容进行逻辑检测,其中所述逻辑检测包括:
对所述目标网址的网页内容进行文本过滤,获取所述目标语句中的预设对象词。
8.如权利要求7所述的方法,还包括:
响应于所述预设对象词存在于预先存储的预设对象词数据库中,将所述目标网址识别为恶意网址,输出网页访问风险提示;以及
响应于所述预设对象词未存在于预先存储的预设对象词数据库中,将所述目标网址识别为恶意网址,输出网页访问正常提示。
9.如权利要求7所述的方法,还包括:
对在预定时间段内与所识别的多个恶意网址相对应的多个网页指纹进行聚合分析;
响应于与所述多个网页指纹中的一个相关联的恶意网址数目大于预定阈值,将该网页指纹添加到所述恶意网页指纹库中;
更新所述恶意网页指纹库。
10.如权利要求1-5中任一项所述的方法,其中所述获取目标网址的网页内容包括:
获取待检测的统一资源定位器URL队列中的第一URL;
下载与第一URL相对应的网页内容;
响应于与第一URL相对应的网页内容下载失败,确定所述第一URL是非恶意URL;
响应于与第一URL相对应的网页内容下载成功,将与第一URL相对应的网页内容作为所述目标网址的网页内容。
11.一种网页访问安全性检测装置,包括:
获取模块,被配置成获取待检测的目标网址的网页内容,其中,所述目标网址的网页内容与网页结构相对应;
网络结构解析模块,被配置成对所述网页内容进行网页结构解析处理,得到所述目标网址的网页结构信息;
网页指纹生成模块,被配置成基于所述网页结构信息对所述目标网址进行网页指纹生成处理,以得到目标网址的网页指纹;
安全性匹配模块,被配置成将所述目标网址的网页指纹与网页指纹库进行指纹安全性匹配处理,以确定所述网页指纹是否存在于恶意网页指纹库中,所述恶意网页指纹库至少包括一个或更多个恶意网址的网页指纹;
若所述网页指纹存在于所述恶意网页指纹库中,将所述目标网址定义为风险网址,输出网页访问风险提示;
若所述网页指纹不存在于所述恶意网页指纹库中,对所述目标网址进行进阶访问风险检测。
12.一种计算设备,包括处理器和存储器,所述存储器被配置成存储计算机可执行指令,所述计算机可执行指令被配置成,当在所述处理器上执行时,使所述处理器执行如权利要求1至10中任一项所述的方法。
CN202110347934.2A 2021-03-31 2021-03-31 网页访问安全性检测方法、装置和存储介质 Pending CN115225291A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110347934.2A CN115225291A (zh) 2021-03-31 2021-03-31 网页访问安全性检测方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110347934.2A CN115225291A (zh) 2021-03-31 2021-03-31 网页访问安全性检测方法、装置和存储介质

Publications (1)

Publication Number Publication Date
CN115225291A true CN115225291A (zh) 2022-10-21

Family

ID=83604120

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110347934.2A Pending CN115225291A (zh) 2021-03-31 2021-03-31 网页访问安全性检测方法、装置和存储介质

Country Status (1)

Country Link
CN (1) CN115225291A (zh)

Similar Documents

Publication Publication Date Title
US9614862B2 (en) System and method for webpage analysis
US10454969B2 (en) Automatic generation of low-interaction honeypots
US7941420B2 (en) Method for organizing structurally similar web pages from a web site
CN110177114B (zh) 网络安全威胁指标识别方法、设备、装置以及计算机可读存储介质
US9304979B2 (en) Authorized syndicated descriptions of linked web content displayed with links in user-generated content
WO2016201819A1 (zh) 检测恶意文件的方法和装置
US8433906B2 (en) Method and system for microlocking web content
CN104766014A (zh) 用于检测恶意网址的方法和系统
WO2015139507A1 (zh) 一种检测下载文件安全性的方法及装置
CN110855676A (zh) 网络攻击的处理方法、装置及存储介质
CN108021598B (zh) 页面抽取模板匹配方法、装置及服务器
CN107463844B (zh) Web木马检测方法及系统
CN103716394B (zh) 下载文件的管理方法及装置
US10474689B1 (en) Model score recall for machine learning systems and applications
CN104023046B (zh) 移动终端识别方法和装置
CN115150261B (zh) 告警分析的方法、装置、电子设备及存储介质
CN112532624B (zh) 一种黑链检测方法、装置、电子设备及可读存储介质
CN113067792A (zh) 一种xss攻击识别方法、装置、设备及介质
CN107786529B (zh) 网站的检测方法、装置及系统
US9398041B2 (en) Identifying stored vulnerabilities in a web service
CN109657472B (zh) Sql注入漏洞检测方法、装置、设备及可读存储介质
US11886590B2 (en) Emulator detection using user agent and device model learning
CN115470489A (zh) 检测模型训练方法、检测方法、设备以及计算机可读介质
CN115225291A (zh) 网页访问安全性检测方法、装置和存储介质
US11470114B2 (en) Malware and phishing detection and mediation platform

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination