CN106209889B - 检测网页中劫持信息的方法及装置 - Google Patents

检测网页中劫持信息的方法及装置 Download PDF

Info

Publication number
CN106209889B
CN106209889B CN201610592398.1A CN201610592398A CN106209889B CN 106209889 B CN106209889 B CN 106209889B CN 201610592398 A CN201610592398 A CN 201610592398A CN 106209889 B CN106209889 B CN 106209889B
Authority
CN
China
Prior art keywords
web page
page element
fixed
domain name
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610592398.1A
Other languages
English (en)
Other versions
CN106209889A (zh
Inventor
於一飞
刘守群
左景龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Mobile Software Co Ltd
Original Assignee
Beijing Xiaomi Mobile Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaomi Mobile Software Co Ltd filed Critical Beijing Xiaomi Mobile Software Co Ltd
Priority to CN201610592398.1A priority Critical patent/CN106209889B/zh
Publication of CN106209889A publication Critical patent/CN106209889A/zh
Application granted granted Critical
Publication of CN106209889B publication Critical patent/CN106209889B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/12Applying verification of the received information
    • H04L63/126Applying verification of the received information the source of the received data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本公开是关于一种检测网页中劫持信息的方法及装置,涉及网络技术领域。该方法包括在网页加载完成后,从该网页包括的网页元素中,确定至少一个固定网页元素和至少一个非固定网页元素,该至少一个固定网页元素中的每个固定网页元素是指固定在该网页的指定位置且位置不随页面滚动而改变的网页元素;对于该至少一个固定网页元素中的每个固定网页元素,判断该至少一个非固定网页元素中是否存在与该固定网页元素的来源网站相同的网页元素;当不存在时,确定该固定网页元素为劫持信息。本公开可以检测出网页上被恶意插入的劫持信息,且不受劫持信息的种类和更新速度的限制,也无需将网页信息与预先存储的内容信息一一进行匹配,提高了浏览器的运行性能。

Description

检测网页中劫持信息的方法及装置
技术领域
本公开涉及网络技术领域,尤其涉及一种检测网页中劫持信息的方法及装置。
背景技术
网络劫持是指通过技术手段,在用户上网时向用户硬性推送广告、插件等骚扰信息的现象。目前的网络劫持技术多种多样,其中一种是由网络运营商实现的,为了获得非法利益,某些网络运营商会在所运营的路由设备上向经过的网页插入广告或其他骚扰信息,在用户浏览网页时会给用户带来极大困扰。其中,该插入的广告或其他骚扰信息即为劫持信息。而且,网页由各种网页元素构成,而大部分的劫持信息即是浮动在页面的固定位置上且位置不随页面滚动而发生改变的网页元素。因此,为了解决用户的困扰,需要对网页上的劫持信息进行检测,以便根据检测结果对网页进行处理。
目前广泛应用的一种检测网页中劫持信息的方法,是在浏览器中预先存储可能会在网页插入的劫持信息的内容信息,例如可能插入的广告的关键字、图片的url(UniformResource Locator,统一资源定位符)等,以便浏览器在打开网页时,将网页上的信息与预先存储的内容信息进行匹配,当匹配成功时,即可确定该网页上存在劫持信息。
发明内容
为克服相关技术中存在的问题,本公开提供一种检测网页中劫持信息的方法及装置。所述技术方案如下:
根据本公开实施例的第一方面,提供了一种检测网页中劫持信息的方法,所述方法包括:
在网页加载完成后,从所述网页包括的网页元素中,确定至少一个固定网页元素和至少一个非固定网页元素,所述至少一个固定网页元素中的每个固定网页元素是指固定在所述网页的指定位置且位置不随页面滚动而改变的网页元素,所述至少一个非固定网页元素是指所述网页包括的网页元素中除所述至少一个固定网页元素之外的网页元素;
对于所述至少一个固定网页元素中的每个固定网页元素,判断所述至少一个非固定网页元素中是否存在与所述固定网页元素的来源网站相同的网页元素;
当所述至少一个非固定网页元素中不存在与所述固定网页元素的来源网站相同的网页元素时,确定所述固定网页元素为劫持信息。
可选地,所述判断所述至少一个非固定网页元素中是否存在与所述固定网页元素的来源网站相同的网页元素,包括:
获取所述固定网页元素的来源网站域名;
获取所述至少一个非固定网页元素的来源网站域名;
当所述固定网页元素的来源网站域名与所述至少一个非固定网页元素中每个非固定网页元素的来源网站域名均不相同时,确定所述至少一个非固定网页元素中不存在与所述固定网页元素的来源网站相同的网页元素;
当所述固定网页元素的来源网站域名与所述至少一个非固定网页元素中任一非固定网页元素的来源网站域名相同时,确定所述至少一个非固定网页元素中存在与所述固定网页元素的来源网站相同的网页元素。
可选地,所述判断所述至少一个非固定网页元素中是否存在与所述固定网页元素的来源网站相同的网页元素,包括:
获取所述固定网页元素的来源网站域名和所述固定网页元素包括的各个子元素的来源网站域名;
将所述固定网页元素的来源网站域名和所述固定网页元素包括的各个子元素的来源网站域名,组成第一网站域名集合;
获取所述至少一个非固定网页元素的来源网站域名;
将所述至少一个非固定网页元素的来源网站域名组成第二网站域名集合;
当所述第一网站域名集合与所述第二网站域名集合之间的交集为空时,确定所述至少一个非固定网页元素中不存在与所述固定网页元素的来源网站相同的网页元素;
当所述第一网站域名集合与所述第二网站域名集合之间的交集不为空时,确定所述至少一个非固定网页元素中存在与所述固定网页元素的来源网站相同的网页元素。
可选地,所述获取所述固定网页元素的来源网站域名,包括:
获取所述固定网页元素的地址属性信息;
从所述固定网页元素的地址属性信息中提取所述固定网页元素的来源网站域名;
相应地,获取所述至少一个非固定网页元素的来源网站域名,包括:
获取所述至少一个非固定网页元素中每个非固定网页元素的地址属性信息;
从所述每个非固定网页元素的地址属性信息中提取所述每个非固定网页元素的来源网站域名,得到所述至少一个非固定网页元素的来源网站域名。
可选地,所述方法还包括:
将所述网页上显示的所述固定网页元素进行隐藏。
可选地,所述方法还包括:
判断所述网页包括的网页元素中是否存在固定网页元素;
当所述网页包括的网页元素中存在固定网页元素时,执行所述从所述网页包括的网页元素中,确定至少一个固定网页元素和至少一个非固定网页元素的步骤;
当所述网页包括的网页元素中不存在固定网页元素时,确定所述网页中不存在劫持信息。
根据本公开实施例的第二方面,提供了一种检测网页中劫持信息的装置,所述装置包括:
第一确定模块,用于在网页加载完成后,从所述网页包括的网页元素中,确定至少一个固定网页元素和至少一个非固定网页元素,所述至少一个固定网页元素中的每个固定网页元素是指固定在所述网页的指定位置且位置不随页面滚动而改变的网页元素,所述至少一个非固定网页元素是指所述网页包括的网页元素中除所述至少一个固定网页元素之外的网页元素;
第一判断模块,用于对于所述至少一个固定网页元素中的每个固定网页元素,判断所述至少一个非固定网页元素中是否存在与所述固定网页元素的来源网站相同的网页元素;
第二确定模块,用于当所述至少一个非固定网页元素中不存在与所述固定网页元素的来源网站相同的网页元素时,确定所述固定网页元素为劫持信息。
可选地,所述第一判断模块包括:
第一获取子模块,用于获取所述固定网页元素的来源网站域名;
第二获取子模块,用于获取所述至少一个非固定网页元素的来源网站域名;
第一确定子模块,用于当所述固定网页元素的来源网站域名与所述至少一个非固定网页元素中每个非固定网页元素的来源网站域名均不相同时,确定所述至少一个非固定网页元素中不存在与所述固定网页元素的来源网站相同的网页元素;
第二确定子模块,用于当所述固定网页元素的来源网站域名与所述至少一个非固定网页元素中任一非固定网页元素的来源网站域名相同时,确定所述至少一个非固定网页元素中存在与所述固定网页元素的来源网站相同的网页元素。
可选地,所述第一判断模块包括:
第一获取子模块,用于获取所述固定网页元素的来源网站域名和所述固定网页元素包括的各个子元素的来源网站域名;
第一组合子模块,用于将所述固定网页元素的来源网站域名和所述固定网页元素包括的各个子元素的来源网站域名,组成第一网站域名集合;
第二获取子模块,用于获取所述至少一个非固定网页元素的来源网站域名;
第二组合子模块,用于将所述至少一个非固定网页元素的来源网站域名组成第二网站域名集合;
第三确定子模块,用于当所述第一网站域名集合与所述第二网站域名集合之间的交集为空时,确定所述至少一个非固定网页元素中不存在与所述固定网页元素的来源网站相同的网页元素;
第四确定子模块,用于当所述第一网站域名集合与所述第二网站域名集合之间的交集不为空时,确定所述至少一个非固定网页元素中存在与所述固定网页元素的来源网站相同的网页元素。
可选地,所述第一获取子模块用于:
获取所述固定网页元素的地址属性信息;
从所述固定网页元素的地址属性信息中提取所述固定网页元素的来源网站域名;
相应地,所述第二获取子模块用于:
获取所述至少一个非固定网页元素中每个非固定网页元素的地址属性信息;
从所述每个非固定网页元素的地址属性信息中提取所述每个非固定网页元素的来源网站域名,得到所述至少一个非固定网页元素的来源网站域名。
可选地,所述装置还包括:
隐藏模块,用于将所述网页上显示的所述固定网页元素进行隐藏。
可选地,所述装置还包括:
第二判断模块,用于判断所述网页包括的网页元素中是否存在固定网页元素;
触发模块,用于当所述网页包括的网页元素中存在固定网页元素时,触发所述第一确定模块从所述网页包括的网页元素中,确定至少一个固定网页元素和至少一个非固定网页元素;
第三确定模块,用于当所述网页包括的网页元素中不存在固定网页元素时,确定所述网页中不存在劫持信息。
根据本公开实施例的第三方面,提供了一种检测网页中劫持信息的装置,所述装置包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器用于:
在网页加载完成后,从所述网页包括的网页元素中,确定至少一个固定网页元素和至少一个非固定网页元素,所述至少一个固定网页元素中的每个固定网页元素是指固定在所述网页的指定位置且位置不随页面滚动而改变的网页元素,所述至少一个非固定网页元素是指所述网页包括的网页元素中除所述至少一个固定网页元素之外的网页元素;
对于所述至少一个固定网页元素中的每个固定网页元素,判断所述至少一个非固定网页元素中是否存在与所述固定网页元素的来源网站相同的网页元素;
当所述至少一个非固定网页元素中不存在与所述固定网页元素的来源网站相同的网页元素时,确定所述固定网页元素为劫持信息。
本公开的实施例提供的技术方案可以包括以下有益效果:
本公开实施例中,终端可以在网页加载完成后,从该网页包括的网页元素中确定至少一个固定网页元素和至少一个非固定网页元素,由于目前网页中被恶意插入的大部分劫持信息都是以固定网页元素的形式存在,且与该网页中的非固定网页元素的来源网站不同,因此对于该至少一个固定网页元素中的每个固定网页元素,当确定该至少一个非固定元素中不存在与该固定网页元素的来源网站相同的网页元素时,也即是与该至少一个非固定元素中的任一非固定元素的来源网站均不相同时,即可确定该固定网页元素为劫持信息,从而可以检测出网页上被恶意插入的劫持信息。本公开提供的方法不受劫持信息的种类和更新速度的限制,应用范围广,而且浏览器无需预先存储劫持信息的内容信息,也无需将网页信息与预先存储的内容信息一一进行匹配,从而减轻了浏览器的处理负担,提高了浏览器的运行性能。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种检测网页中劫持信息的方法流程图;
图2是根据一示例性实施例示出的另一种检测网页中劫持信息的方法流程图;
图3是根据一示例性实施例示出的一种检测网页中劫持信息的装置框图;
图4是根据一示例性实施例示出的一种检测网页中劫持信息的装置400的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在对本公开实施例进行详细的解释说明之前,先对本公开实施例的应用场景予以介绍。相关技术中采用了通过浏览器将网页上的信息与预先存储的内容信息进行匹配,来检测网页中劫持信息的手段,但是由于劫持信息多种多样,且更新速度快,因此浏览器不可能预先存储所有的劫持信息,也就不可能匹配出所有的劫持信息,从而会导致检测遗漏,而且当浏览器中存储较多劫持信息时,匹配过程也就相对繁琐,将会影响浏览器的运行性能。因此,本公开实施例为了解决相关技术存在的上述问题,提出了另一种检测网页中劫持信息的方法,该方法应用于终端中,该终端可以为诸如计算机、智能手机、平板电脑、笔记本电脑、超级移动个人计算机(Ultra-mobile Personal Computer,UMPC)、上网本、个人数字助理(Personal Digital Assistant,PDA)等之类的设备,本公开实施例对此不做限定。进一步地,该方法还可以应用于终端安装的浏览器中。
图1是根据一示例性实施例示出的一种检测网页中劫持信息的方法流程图,如图1所示,该方法包括以下步骤:
在步骤101中,在网页加载完成后,从该网页包括的网页元素中,确定至少一个固定网页元素和至少一个非固定网页元素,该至少一个固定网页元素中的每个固定网页元素是指固定在该网页的指定位置且位置不随页面滚动而改变的网页元素,该至少一个非固定网页元素是指该网页包括的网页元素中除该至少一个固定网页元素之外的网页元素。
在步骤102中,对于该至少一个固定网页元素中的每个固定网页元素,判断该至少一个非固定网页元素中是否存在与该固定网页元素的来源网站相同的网页元素。
在步骤103中,当该至少一个非固定网页元素中不存在与该固定网页元素的来源网站相同的网页元素时,确定该固定网页元素为劫持信息。
本公开实施例中,终端可以在网页加载完成后,从该网页包括的网页元素中确定至少一个固定网页元素和至少一个非固定网页元素,由于目前网页中被恶意插入的大部分劫持信息都是以固定网页元素的形式存在,且与该网页中的非固定网页元素的来源网站不同,因此对于该至少一个固定网页元素中的每个固定网页元素,当确定该至少一个非固定元素中不存在与该固定网页元素的来源网站相同的网页元素时,也即是与该至少一个非固定元素中的任一非固定元素的来源网站均不相同时,即可确定该固定网页元素为劫持信息,从而可以检测出网页上被恶意插入的劫持信息。本公开提供的方法不受劫持信息的种类和更新速度的限制,应用范围广,而且浏览器无需预先存储劫持信息的内容信息,也无需将网页信息与预先存储的内容信息一一进行匹配,提高了浏览器的运行性能。
可选地,判断该至少一个非固定网页元素中是否存在与该固定网页元素的来源网站相同的网页元素,包括:
获取该固定网页元素的来源网站域名;
获取该至少一个非固定网页元素的来源网站域名;
当该固定网页元素的来源网站域名与该至少一个非固定网页元素中每个非固定网页元素的来源网站域名均不相同时,确定该至少一个非固定网页元素中不存在与该固定网页元素的来源网站相同的网页元素;
当该固定网页元素的来源网站域名与该至少一个非固定网页元素中任一非固定网页元素的来源网站域名相同时,确定该至少一个非固定网页元素中存在与该固定网页元素的来源网站相同的网页元素。
本公开实施例中,通过将固定网页元素的来源网站域名与非固定网页元素的来源网站域名进行比较,由于网站域名能够精确地指示出来源网站,因此根据来源网站域名是否相同,能够较为准确地判断出来源网站是否相同,进而能够准确地判断出该固定网页元素是否为劫持信息,提高了检测网页中劫持信息的准确度。
可选地,判断该至少一个非固定网页元素中是否存在与该固定网页元素的来源网站相同的网页元素,包括:
获取该固定网页元素的来源网站域名和该固定网页元素包括的各个子元素的来源网站域名;
将该固定网页元素的来源网站域名和该固定网页元素包括的各个子元素的来源网站域名,组成第一网站域名集合;
获取该至少一个非固定网页元素的来源网站域名;
将该至少一个非固定网页元素的来源网站域名组成第二网站域名集合;
当该第一网站域名集合与该第二网站域名集合之间的交集为空时,确定该至少一个非固定网页元素中不存在与该固定网页元素的来源网站相同的网页元素;
当该第一网站域名集合与该第二网站域名集合之间的交集不为空时,确定该至少一个非固定网页元素中存在与该固定网页元素的来源网站相同的网页元素。
本公开实施例中,终端可以分别获取固定网页元素及其子元素的来源网站域名,组成第一网站域名集合,并获取该至少一个非固定网页元素的来源网站域名组成第二网站域名集合,当该第一网站域名集合与该第二网站域名集合之间的交集为空时,说明不仅该固定网页元素的来源网站与该至少一个非固定元素的来源网站不同,该固定网页元素的各个子元素的来源网站与该至少一个非固定元素的来源网站也不同,此时可以确定该固定元素的来源与该至少一个非固定元素的来源毫无关联,从而可以准确地判定该固定元素为劫持信息,提高了确定固定元素为劫持信息的准确度。
可选地,获取该固定网页元素的来源网站域名,包括:
获取该固定网页元素的地址属性信息;
从该固定网页元素的地址属性信息中提取该固定网页元素的来源网站域名;
相应地,获取该至少一个非固定网页元素的来源网站域名,包括:
获取该至少一个非固定网页元素中每个非固定网页元素的地址属性信息;
从该每个非固定网页元素的地址属性信息中提取该每个非固定网页元素的来源网站域名,得到该至少一个非固定网页元素的来源网站域名。
本公开实施例中,由于网页元素的地址属性信息可以包括该网页元素的来源网站域名,因此通过获取网页元素的地址属性信息,并从中直接提取该网页元素的来源网站域名,可以提高获取来源网站域名的效率。
可选地,该方法还包括:
将该网页上显示的该固定网页元素进行隐藏。
本公开实施例中,通过在确定该固定网页元素为劫持信息之后,将该网页上显示的该固定网页元素进行隐藏,可以消除网页上显示的劫持信息,从而避免了劫持信息在用户使用网页过程中对用户的干扰,提高了用户体验。
可选地,该方法还包括:
判断该网页包括的网页元素中是否存在固定网页元素;
当该网页包括的网页元素中存在固定网页元素时,执行该从该网页包括的网页元素中,确定至少一个固定网页元素和至少一个非固定网页元素的步骤;
当该网页包括的网页元素中不存在固定网页元素时,确定该网页中不存在劫持信息。
本公开实施例中,可以在确定该网页中存在固定网页元素时,才对该固定元素是否为劫持信息进行检测,而在确定该网页中不存在固定网页元素时,则可以直接确定该网页不存在劫持信息,并中止检测劫持信息的步骤,从而可以减小终端的处理压力,节省终端的处理资源,提高了检测劫持信息的灵活性。
上述所有可选技术方案,均可按照任意结合形成本公开的可选实施例,本公开实施例对此不再一一赘述。
图2是根据一示例性实施例示出的一种检测网页中劫持信息的方法流程图,如图2所示,该方法包括以下步骤:
在步骤201中,在网页加载完成后,从该网页包括的网页元素中,确定至少一个固定网页元素和至少一个非固定网页元素,该至少一个固定网页元素中的每个固定网页元素是指固定在该网页的指定位置且位置不随页面滚动而改变的网页元素,该至少一个非固定网页元素是指该网页包括的网页元素中除该至少一个固定网页元素之外的网页元素。
其中,网页元素是指构成网页的基本对象,该网页元素可以为网页上的文本、图片、动画、超级链接等,本公开实施例对此不做限定。
实际应用中,网页上可以包括多种类型的网页元素,其中一种类型的网页元素可以悬浮显示在该网页页面的指定位置,且当用户滚动该网页页面时该网页元素的位置也不会发生变化,将仍悬浮显示在该页面的指定位置,本公开实施例中将这种类型的网页元素称之为固定网页元素。例如,该固定网页元素可以为Fixed元素等,另外,该固定网页元素可以为网页上悬浮显示的文本、图片、动画、超级链接等,本公开实施例对此不做限定。
本公开实施例中,考虑到网页上被插入的劫持信息大部分都是以固定网页元素的形式存在,且网页上的固定网页元素也不一定都是劫持信息,因此为了检测网页中的劫持信息,可以在网页加载完成后,从该网页包括的网页元素中确定至少一个固定网页元素和至少一个非固定网页元素,以便后续判断该至少一个固定网页元素是否为劫持信息。
其中,由于固定网页元素具有其独特的元素特征,因此在网页加载完成之后,该终端可以对该网页包括的所有网页元素进行一次遍历,并在遍历的过程中,判断每一个网页元素的元素特征是否符合固定网页元素的元素特征,当符合时,即确定该网页元素为固定网页元素,当不符合时,即确定该网页元素为非固定网页元素,从而确定出该网页的至少一个固定网页元素和至少一个非固定网页元素。
进一步地,网页实际上是由多种网页元素构成的文本文件,在终端加载完成该网页的文本文件之后,可以通过解析该文本文件从而对页面进行渲染,得到显示的网页。例如,Html(Hyper Text Markup Language,超文本标记语言)网页即是由多种Html网页元素组成的Html文本文件。其中,在网页的文本文件中,网页元素可以使用标签进行定义,位于启示标签和结束标签之间的文本就是网页元素的具体内容。而且,对于固定网页元素,在该固定网页元素的具体内容中通常具有特定的指示代码,例如Fixed元素代码等。
其中,在解析网页的文本文件的过程中,通常可以得到一个可以形象化指示该文本文件的DOM(Document Object Model,文档对象模型)树,该DOM树包括多个节点,某些节点即是网页元素节点。因此,本公开实施例中,可以在解析该网页的文本文件的过程中,遍历该文本文件的DOM树的每个网页元素节点,进而判断该网页元素节点对应的网页元素是否为固定网页元素。
其中,可以通过判断该网页元素的具体内容中是否包含用于指示固定网页元素的指示代码,来确定该网页元素是否为固定网页元素,当然也可以通过其他方式来确定该网页元素是否为固定网页元素,本公开实施例对此不做限定。
本公开实施例中,可以在解析该网页的过程中遍历该网页DOM树中的网页元素节点,来确定至少一个固定网页元素和至少一个非固定网页元素,由于该方法在解析文本文件的过程中实现,因此只需在现有解析算法中增加简单的判断固定网页元素的算法即可,算法简单,易于实现,提高了确定固定网页元素的效率。
进一步地,从该网页包括的网页元素中,确定至少一个固定网页元素和至少一个非固定网页元素之前,还可以包括:判断该网页包括的网页元素中是否存在固定网页元素;当该网页包括的网页元素中存在固定网页元素时,执行从该网页包括的网页元素中,确定至少一个固定网页元素和至少一个非固定网页元素的步骤;当该网页包括的网页元素中不存在固定网页元素时,确定该网页中不存在劫持信息。
其中,由于当该网页包括的网页元素中不存在固定网页元素时,该网页中也就不可能存在被插入的以固定网页元素形式存在的劫持信息,因此此时可以确定该网页中不存在劫持信息。
本公开实施例中,可以在确定该网页包括的网页元素中不存在固定网页元素时,确定该网页中不存在劫持信息,并结束操作,也即是中止执行从该网页包括的网页元素中,确定至少一个固定网页元素和至少一个非固定网页元素的步骤,以及下述202-204的步骤,而只有在确该网页包括的网页元素中存在固定网页元素时,才确认执行从该网页包括的网页元素中,确定至少一个固定网页元素和至少一个非固定网页元素的步骤,以及下述202-204的步骤,从而可以减小终端的处理压力,节省终端的处理资源,提高检测劫持信息的灵活性。
在步骤202中,对于该至少一个固定网页元素中的每个固定网页元素,判断该至少一个非固定网页元素中是否存在与该固定网页元素的来源网站相同的网页元素。
实际应用中,网页上被插入的劫持信息的来源网站与该网页的原始网页元素的来源网站通常毫无关联,而且该网页上的非固定网页元素通常一定是该网页的原始网页元素,因此对于该至少一个固定网页元素中的每个固定网页元素,可以通过判断该至少一个非固定网页元素中是否存在与该固定网页元素的来源网站相同的网页元素,来判断该固定网页元素是否为劫持信息。
其中,判断该至少一个非固定网页元素中是否存在与该固定网页元素的来源网站相同的网页元素的过程,可以包括以下两种实现方式:
第一种实现方式:获取该固定网页元素的来源网站域名;获取该至少一个非固定网页元素的来源网站域名;当该固定网页元素的来源网站域名与该至少一个非固定网页元素中每个非固定网页元素的来源网站域名均不相同时,确定该至少一个非固定网页元素中不存在与该固定网页元素的来源网站相同的网页元素;当该固定网页元素的来源网站域名与该至少一个非固定网页元素中任一非固定网页元素的来源网站域名相同时,确定该至少一个非固定网页元素中存在与该固定网页元素的来源网站相同的网页元素。
该种方式中,对于该至少一个固定元素中的每个固定网页元素,可以获取该固定网页元素的来源网站域名,并将该固定网页元素的来源网站域名与该至少一个非固定网页元素中的每个非固定网页元素的来源网页域名一一进行比较,由于来源网页域名可以精确地指示网页元素的来源网站,因此,根据该固定网页元素的来源网站域名与该至少一个非固定网页元素中每个非固定网页元素的来源网站域名是否相同,可以精确地确定出该至少一个非固定网页元素中是否存在与该固定网页元素的来源网站相同的网页元素。
第二种实现方式:获取该固定网页元素的来源网站域名和该固定网页元素包括的各个子元素的来源网站域名;将该固定网页元素的来源网站域名和该固定网页元素包括的各个子元素的来源网站域名,组成第一网站域名集合;获取该至少一个非固定网页元素的来源网站域名;将该至少一个非固定网页元素的来源网站域名组成第二网站域名集合;当该第一网站域名集合与该第二网站域名集合之间的交集为空时,确定该至少一个非固定网页元素中不存在与该固定网页元素的来源网站相同的网页元素;当该第一网站域名集合与该第二网站域名集合之间的交集不为空时,确定该至少一个非固定网页元素中存在与该固定网页元素的来源网站相同的网页元素。
该种方式中,为了提高确定劫持信息的准确性,该终端还可以分别获取该固定网页元素及其子元素的来源网站域名,组成第一网站域名集合,并获取该至少一个非固定网页元素的来源网站域名组成,第二网站域名集合,当该第一网站域名集合与该第二网站域名集合之间的交集为空时,说明不仅该固定网页元素的来源网站与该至少一个非固定元素的来源网站不同,该固定网页元素的各个子元素的来源网站与该至少一个非固定元素的来源网站也不同,因此此时可以准确地确定该固定元素的来源网站与该至少一个非固定元素的来源网站一定毫无关联,从而可以确定该至少一个非固定网页元素中不存在与该固定网页元素的来源网站相同的网页元素。
而当该第一网站域名集合与该第二网站域名集合之间的交集不为空时,说明该第二网页域名集合中有可能存在与该固定网页元素或者其子元素的来源网站相同的网页元素,而且,当该固定网页元素的来源网页域名与该至少一个非固定网页元素中的每一个非固定网页元素的来源网站均不相同,但是该固定网页元素的某一子元素的来源网站却与该至少一个非固定网页元素中的某一非固定网页元素的来源网站相同时,该固定网页元素也有可能就是该网页的原始网页元素,而非插入的劫持信息,因此在该第一网站域名集合与该第二网站域名集合之间的交集不为空时,确定该至少一个非固定网页元素中存在与该固定网页元素的来源网站相同的网页元素,以便确定该固定网页元素不是劫持信息,从而可以提高检测网页中劫持信息的准确性。
例如,当该网页中包括N个固定网页元素和M个非固定网页元素时,对于该N个固定网页元素中每个固定网页元素,该终端可以获取该固定网页元素及其子元素的来源网站域名,组成第一网站域名集合Fn(1<n<N),从而得到至少一个第一网站域名集合(F1、F2,…,FN),并分别获取该M个非固定网页元素中每个非固定网页元素的来源网站域名集合,组成第二网站域名集合{NF1,NF2,…,NFM}。之后,对于该至少一个第一网站域名集合(F1、F2,…,FN)中的任一第一网站域名集合Fn,当该第一网站域名集合Fn与该第二网站域名集合{NF1,NF2,…,NFM}的交集为空集时,即可确定该M个非固定网页元素中不存在与该第一网站域名集合Fn对应的固定网页元素的来源网站相同的网页元素。
其中,若该N个固定网页元素中的某个固定网页元素的来源网站域名为A,其2个子元素的来源网站域名分别为B和C,则组成的第一来源网站域名集合Fn即为{A,B,C},从而当该第一网站域名集合Fn{A,B,C}与该第二网站域名集合{NF1,NF2,…,NFM}的交集为空集时,即可确定该M个非固定网页元素中不存在与该第一网站域名集合Fn对应的固定网页元素的来源网站相同的网页元素。
进一步地,在上述两种实现方式中,获取该固定网页元素的来源网站域名的实现过程可以包括:获取该固定网页元素的地址属性信息;从该固定网页元素的地址属性信息中提取该固定网页元素的来源网站域名;相应地,获取该至少一个非固定网页元素的来源网站域名的过程可以包括:获取该至少一个非固定网页元素中每个非固定网页元素的地址属性信息;从该每个非固定网页元素的地址属性信息中提取该每个非固定网页元素的来源网站域名,得到该至少一个非固定网页元素的来源网站域名。
另外,在上述第二种实现方式中,获取该固定网页元素包括的各个子元素的来源网站域名的过程也可以包括:获取该固定网页元素的各个子元素的地址属性信息;从该固定网页元素的各个子元素的地址属性信息中提取该固定网页元素的各个子元素的来源网站域名。
其中,上述网页元素的地址属性信息可以为网页元素的链接地址信息,如该网页元素的url等,本公开实施例对此也不做限定。从而从该地址属性信息中可以提取出该网页元素的来源网站域名,例如,可以从网页元素的url中直接提取出该网页元素的来源网站域名。示例的,当该网页元素的url为“www.A.com/3921502”时,则该网页元素的来源网站域名即为“A”。
实际应用中,由于每个网页元素可能包括多个属性,因此在获取网页元素的地址属性信息的过程中,该终端还可以先从该网页元素的多个属性中确定出地址属性,再获取该地址属性的值,以得到地址属性信息。
其中,该地址属性可以为网页元素的src(Source,源文件)属性、href(HypertextReference,超文本引用)属性等,本公开实施例对此不做限定。例如,当该固定网页元素为图片时,可以获取该固定网页元素的src属性的值,得到地址属性信息;当该固定网页元素为超链接时,可以获取该固定网页元素的href属性的值,得到地址属性信息等。
另外,为了提高处理效率,该终端还可以在遍历该网页DOM树的每个网页元素节点的过程中,获取每个网页元素的地址属性信息,并提取出每个网页元素的来源网站域名,本公开实施例对此不做限定。
在步骤203中,当该至少一个非固定网页元素中不存在与该固定网页元素的来源网站相同的网页元素时,确定该固定网页元素为劫持信息。
当该至少一个非固定网页元素中存在与该固定网页元素的来源网站相同的网页元素时,确定该固定网页元素不是劫持信息。
其中,当该至少一个非固定网页元素中不存在与该固定网页元素的来源网站相同的网页元素时,说明该固定网页元素来源网站与该网页的原始网页元素的来源网站毫无关联,该固定网页元素可能是被恶意插入的网页元素,因此此时可以确定该固定网页元素为劫持信息;而当该至少一个非固定网页元素中存在与该固定网页元素的来源网站相同的网页元素时,说明该固定网页元素来源网站与该网页的原始网页元素的来源网站有关联,则该固定网页元素可能就是该网页的原始网页元素,而非恶意插入的网页元素,因此此时可以判断该固定网页元素不是劫持信息。
本公开实施例中,通过确定固定网页元素的来源网站与该网页的原始网页元素的关联性,可以确定该固定网页元素与该网页是否相关,从而可以精确地确定出该固定网页元素是否为劫持信息。
在步骤204中,将该网页上显示的该固定网页元素进行隐藏。
本公开实施例中,当确定出该固定网页元素为劫持信息时,为了避免该固定网页元素对用户的干扰,可以将该网页上显示的该固定网页元素进行隐藏,也即是,取消该固定网页元素的显示,从而可以提高查看网页的用户体验。
其中,该终端可以通过将该固定网页元素的显示属性更改为隐藏模式,来将该固定网页元素进行隐藏,当然也可以通过其他方式将该固定网页元素进行隐藏,本公开实施例对此不做限定。
需要说明的是,本公开实施例中仅是以在确定出该固定网页元素为劫持信息之后,将该固定网页元素进行隐藏为例进行说明,而在其他实施例中,该终端还可以从该网页上将该固定网页元素删除,或者将该固定网页元素的特征信息上传至服务器,例如将该固定网页元素的来源网站域名、关键字、url等上传至服务器,以便服务器进行其它处理,本公开实施例对此不做限定。
本公开实施例中,终端可以在网页加载完成后,从该网页包括的网页元素中确定至少一个固定网页元素和至少一个非固定网页元素,由于目前网页中被恶意插入的大部分劫持信息都是以固定网页元素的形式存在,且与该网页中的非固定网页元素的来源网站不同,因此对于该至少一个固定网页元素中的每个固定网页元素,当确定该至少一个非固定元素中不存在与该固定网页元素的来源网站相同的网页元素时,也即是与该至少一个非固定元素中的任一非固定元素的来源网站均不相同时,即可确定该固定网页元素为劫持信息,从而可以检测出网页上被恶意插入的劫持信息。本公开提供的方法不受劫持信息的种类和更新速度的限制,应用范围广,而且浏览器无需预先存储劫持信息的内容信息,也无需将网页信息与预先存储的内容信息一一进行匹配,从而减轻了浏览器的处理负担,提高了浏览器的运行性能。
图3是根据一示例性实施例示出的一种检测网页中劫持信息的装置框图。参照图3,该装置包括第一确定模块301、第一判断模块302和第二确定模块303。
第一确定模块301,用于在网页加载完成后,从该网页包括的网页元素中,确定至少一个固定网页元素和至少一个非固定网页元素,该至少一个固定网页元素中的每个固定网页元素是指固定在该网页的指定位置且位置不随页面滚动而改变的网页元素,该至少一个非固定网页元素是指该网页包括的网页元素中除该至少一个固定网页元素之外的网页元素;
第一判断模块302,用于对于该至少一个固定网页元素中的每个固定网页元素,判断该至少一个非固定网页元素中是否存在与该固定网页元素的来源网站相同的网页元素;
第二确定模块303,用于当该至少一个非固定网页元素中不存在与该固定网页元素的来源网站相同的网页元素时,确定该固定网页元素为劫持信息。
可选地,该第一判断模块302包括:
第一获取子模块,用于获取该固定网页元素的来源网站域名;
第二获取子模块,用于获取该至少一个非固定网页元素的来源网站域名;
第一确定子模块,用于当该固定网页元素的来源网站域名与该至少一个非固定网页元素中每个非固定网页元素的来源网站域名均不相同时,确定该至少一个非固定网页元素中不存在与该固定网页元素的来源网站相同的网页元素;
第二确定子模块,用于当该固定网页元素的来源网站域名与该至少一个非固定网页元素中任一非固定网页元素的来源网站域名相同时,确定该至少一个非固定网页元素中存在与该固定网页元素的来源网站相同的网页元素。
可选地,该第一判断模块302包括:
第一获取子模块,用于获取该固定网页元素的来源网站域名和该固定网页元素包括的各个子元素的来源网站域名;
第一组合子模块,用于将该固定网页元素的来源网站域名和该固定网页元素包括的各个子元素的来源网站域名,组成第一网站域名集合;
第二获取子模块,用于获取该至少一个非固定网页元素的来源网站域名;
第二组合子模块,用于将该至少一个非固定网页元素的来源网站域名组成第二网站域名集合;
第三确定子模块,用于当该第一网站域名集合与该第二网站域名集合之间的交集为空时,确定该至少一个非固定网页元素中不存在与该固定网页元素的来源网站相同的网页元素;
第四确定子模块,用于当该第一网站域名集合与该第二网站域名集合之间的交集不为空时,确定该至少一个非固定网页元素中存在与该固定网页元素的来源网站相同的网页元素。
可选地,该第一获取子模块用于:
获取该固定网页元素的地址属性信息;
从该固定网页元素的地址属性信息中提取该固定网页元素的来源网站域名;
相应地,该第二获取子模块用于:
获取该至少一个非固定网页元素中每个非固定网页元素的地址属性信息;
从该每个非固定网页元素的地址属性信息中提取该每个非固定网页元素的来源网站域名,得到该至少一个非固定网页元素的来源网站域名。
可选地,该装置还包括:
隐藏模块,用于将该网页上显示的该固定网页元素进行隐藏。
可选地,该装置还包括:
第二判断模块,用于判断该网页包括的网页元素中是否存在固定网页元素;
触发模块,用于当该网页包括的网页元素中存在固定网页元素时,触发该第一确定模块从该网页包括的网页元素中,确定至少一个固定网页元素和至少一个非固定网页元素;
第三确定模块,用于当该网页包括的网页元素中不存在固定网页元素时,确定该网页中不存在劫持信息。
本公开实施例中,终端可以在网页加载完成后,从该网页包括的网页元素中确定至少一个固定网页元素和至少一个非固定网页元素,由于目前网页中被恶意插入的大部分劫持信息都是以固定网页元素的形式存在,且与该网页中的非固定网页元素的来源网站不同,因此对于该至少一个固定网页元素中的每个固定网页元素,当确定该至少一个非固定元素中不存在与该固定网页元素的来源网站相同的网页元素时,也即是与该至少一个非固定元素中的任一非固定元素的来源网站均不相同时,即可确定该固定网页元素为劫持信息,从而可以检测出网页上被恶意插入的劫持信息。本公开提供的方法不受劫持信息的种类和更新速度的限制,应用范围广,而且浏览器无需预先存储劫持信息的内容信息,也无需将网页信息与预先存储的内容信息一一进行匹配,从而减轻了浏览器的处理负担,提高了浏览器的运行性能。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图4是根据一示例性实施例示出的一种检测网页中劫持信息的装置400的框图。例如,装置400可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图4,装置400可以包括以下一个或多个组件:处理组件402,存储器404,电源组件406,多媒体组件408,音频组件410,输入/输出(I/O)的接口412,传感器组件414,以及通信组件416。
处理组件402通常控制装置400的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件402可以包括一个或多个处理器420来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件402可以包括一个或多个模块,便于处理组件402和其他组件之间的交互。例如,处理组件402可以包括多媒体模块,以方便多媒体组件408和处理组件402之间的交互。
存储器404被配置为存储各种类型的数据以支持在装置400的操作。这些数据的示例包括用于在装置400上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器404可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件406为装置400的各种组件提供电源。电源组件406可以包括电源管理系统,一个或多个电源,及其他与为装置400生成、管理和分配电源相关联的组件。
多媒体组件408包括在所述装置400和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件408包括一个前置摄像头和/或后置摄像头。当装置400处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件410被配置为输出和/或输入音频信号。例如,音频组件410包括一个麦克风(MIC),当装置400处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器404或经由通信组件416发送。在一些实施例中,音频组件410还包括一个扬声器,用于输出音频信号。
I/O接口412为处理组件402和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件414包括一个或多个传感器,用于为装置400提供各个方面的状态评估。例如,传感器组件414可以检测到装置400的打开/关闭状态,组件的相对定位,例如所述组件为装置400的显示器和小键盘,传感器组件414还可以检测装置400或装置400一个组件的位置改变,用户与装置400接触的存在或不存在,装置400方位或加速/减速和装置400的温度变化。传感器组件414可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件414还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件414还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件416被配置为便于装置400和其他设备之间有线或无线方式的通信。装置400可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件416经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件416还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置400可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器404,上述指令可由装置400的处理器420执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种检测网页中劫持信息的方法,所述方法包括:
在网页加载完成后,从所述网页包括的网页元素中,确定至少一个固定网页元素和至少一个非固定网页元素,所述至少一个固定网页元素中的每个固定网页元素是指固定在所述网页的指定位置且位置不随页面滚动而改变的网页元素,所述至少一个非固定网页元素是指所述网页包括的网页元素中除所述至少一个固定网页元素之外的网页元素;
对于所述至少一个固定网页元素中的每个固定网页元素,判断所述至少一个非固定网页元素中是否存在与所述固定网页元素的来源网站相同的网页元素;
当所述至少一个非固定网页元素中不存在与所述固定网页元素的来源网站相同的网页元素时,确定所述固定网页元素为劫持信息。
可选地,所述判断所述至少一个非固定网页元素中是否存在与所述固定网页元素的来源网站相同的网页元素,包括:
获取所述固定网页元素的来源网站域名;
获取所述至少一个非固定网页元素的来源网站域名;
当所述固定网页元素的来源网站域名与所述至少一个非固定网页元素中每个非固定网页元素的来源网站域名均不相同时,确定所述至少一个非固定网页元素中不存在与所述固定网页元素的来源网站相同的网页元素;
当所述固定网页元素的来源网站域名与所述至少一个非固定网页元素中任一非固定网页元素的来源网站域名相同时,确定所述至少一个非固定网页元素中存在与所述固定网页元素的来源网站相同的网页元素。
可选地,所述判断所述至少一个非固定网页元素中是否存在与所述固定网页元素的来源网站相同的网页元素,包括:
获取所述固定网页元素的来源网站域名和所述固定网页元素包括的各个子元素的来源网站域名;
将所述固定网页元素的来源网站域名和所述固定网页元素包括的各个子元素的来源网站域名,组成第一网站域名集合;
获取所述至少一个非固定网页元素的来源网站域名;
将所述至少一个非固定网页元素的来源网站域名组成第二网站域名集合;
当所述第一网站域名集合与所述第二网站域名集合之间的交集为空时,确定所述至少一个非固定网页元素中不存在与所述固定网页元素的来源网站相同的网页元素;
当所述第一网站域名集合与所述第二网站域名集合之间的交集不为空时,确定所述至少一个非固定网页元素中存在与所述固定网页元素的来源网站相同的网页元素。
可选地,所述获取所述固定网页元素的来源网站域名,包括:
获取所述固定网页元素的地址属性信息;
从所述固定网页元素的地址属性信息中提取所述固定网页元素的来源网站域名;
相应地,获取所述至少一个非固定网页元素的来源网站域名,包括:
获取所述至少一个非固定网页元素中每个非固定网页元素的地址属性信息;
从所述每个非固定网页元素的地址属性信息中提取所述每个非固定网页元素的来源网站域名,得到所述至少一个非固定网页元素的来源网站域名。
可选地,所述确定所述固定网页元素为劫持信息之后,还包括:
将所述网页上显示的所述固定网页元素进行隐藏。
可选地,所述从所述网页包括的网页元素中,确定至少一个固定网页元素和至少一个非固定网页元素之前,还包括:
判断所述网页包括的网页元素中是否存在固定网页元素;
当所述网页包括的网页元素中存在固定网页元素时,执行所述从所述网页包括的网页元素中,确定至少一个固定网页元素和至少一个非固定网页元素的步骤;
当所述网页包括的网页元素中不存在固定网页元素时,确定所述网页中不存在劫持信息。
本公开实施例中,终端可以在网页加载完成后,从该网页包括的网页元素中确定至少一个固定网页元素和至少一个非固定网页元素,由于目前网页中被恶意插入的大部分劫持信息都是以固定网页元素的形式存在,且与该网页中的非固定网页元素的来源网站不同,因此对于该至少一个固定网页元素中的每个固定网页元素,当确定该至少一个非固定元素中不存在与该固定网页元素的来源网站相同的网页元素时,也即是与该至少一个非固定元素中的任一非固定元素的来源网站均不相同时,即可确定该固定网页元素为劫持信息,从而可以检测出网页上被恶意插入的劫持信息。本公开提供的方法不受劫持信息的种类和更新速度的限制,应用范围广,而且浏览器无需预先存储劫持信息的内容信息,也无需将网页信息与预先存储的内容信息一一进行匹配,从而减轻了浏览器的处理负担,提高了浏览器的运行性能。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (14)

1.一种检测网页中劫持信息的方法,其特征在于,所述方法包括:
在网页加载完成后,从所述网页包括的网页元素中,确定至少一个固定网页元素和至少一个非固定网页元素,所述至少一个固定网页元素中的每个固定网页元素是指固定在所述网页的指定位置且位置不随页面滚动而改变的网页元素,所述至少一个非固定网页元素是指所述网页包括的网页元素中除所述至少一个固定网页元素之外的网页元素;
对于所述至少一个固定网页元素中的每个固定网页元素,判断所述至少一个非固定网页元素中是否存在与所述固定网页元素的来源网站相同的网页元素;
当所述至少一个非固定网页元素中不存在与所述固定网页元素的来源网站相同的网页元素时,确定所述固定网页元素为劫持信息;
所述判断所述至少一个非固定网页元素中是否存在与所述固定网页元素的来源网站相同的网页元素,包括:
当所述固定网页元素的来源网站域名与所述至少一个非固定网页元素中每个非固定网页元素的来源网站域名均不相同时,或者,当第一网站域名集合与第二网站域名集合之间的交集为空时,确定所述至少一个非固定网页元素中不存在与所述固定网页元素的来源网站相同的网页元素;
其中,所述第一网站域名集合为所述固定网页元素的来源网站域名和所述固定网页元素包括的各个子元素的来源网站域名所组成的集合,所述第二网站域名集合为所述至少一个非固定网页元素的来源网站域名组成的集合。
2.如权利要求1所述的方法,其特征在于,所述判断所述至少一个非固定网页元素中是否存在与所述固定网页元素的来源网站相同的网页元素,还包括:
获取所述固定网页元素的来源网站域名;
获取所述至少一个非固定网页元素的来源网站域名;
当所述固定网页元素的来源网站域名与所述至少一个非固定网页元素中任一非固定网页元素的来源网站域名相同时,确定所述至少一个非固定网页元素中存在与所述固定网页元素的来源网站相同的网页元素。
3.如权利要求1所述的方法,其特征在于,所述判断所述至少一个非固定网页元素中是否存在与所述固定网页元素的来源网站相同的网页元素,还包括:
获取所述固定网页元素的来源网站域名和所述固定网页元素包括的各个子元素的来源网站域名;
将所述固定网页元素的来源网站域名和所述固定网页元素包括的各个子元素的来源网站域名,组成第一网站域名集合;
获取所述至少一个非固定网页元素的来源网站域名;
将所述至少一个非固定网页元素的来源网站域名组成第二网站域名集合;
当所述第一网站域名集合与所述第二网站域名集合之间的交集不为空时,确定所述至少一个非固定网页元素中存在与所述固定网页元素的来源网站相同的网页元素。
4.如权利要求2或3所述的方法,其特征在于,所述获取所述固定网页元素的来源网站域名,包括:
获取所述固定网页元素的地址属性信息;
从所述固定网页元素的地址属性信息中提取所述固定网页元素的来源网站域名;
相应地,获取所述至少一个非固定网页元素的来源网站域名,包括:
获取所述至少一个非固定网页元素中每个非固定网页元素的地址属性信息;
从所述每个非固定网页元素的地址属性信息中提取所述每个非固定网页元素的来源网站域名,得到所述至少一个非固定网页元素的来源网站域名。
5.如权利要求1所述的方法,其特征在于,所述方法还包括:
将所述网页上显示的所述固定网页元素进行隐藏;
将所述网页上显示的所述固定网页元素的特征信息上传至服务器。
6.如权利要求1所述的方法,其特征在于,所述方法还包括:
判断所述网页包括的网页元素中是否存在固定网页元素;
当所述网页包括的网页元素中存在固定网页元素时,执行所述从所述网页包括的网页元素中,确定至少一个固定网页元素和至少一个非固定网页元素的步骤;
当所述网页包括的网页元素中不存在固定网页元素时,确定所述网页中不存在劫持信息。
7.一种检测网页中劫持信息的装置,其特征在于,所述装置包括:
第一确定模块,用于在网页加载完成后,从所述网页包括的网页元素中,确定至少一个固定网页元素和至少一个非固定网页元素,所述至少一个固定网页元素中的每个固定网页元素是指固定在所述网页的指定位置且位置不随页面滚动而改变的网页元素,所述至少一个非固定网页元素是指所述网页包括的网页元素中除所述至少一个固定网页元素之外的网页元素;
第一判断模块,用于对于所述至少一个固定网页元素中的每个固定网页元素,判断所述至少一个非固定网页元素中是否存在与所述固定网页元素的来源网站相同的网页元素;
第二确定模块,用于当所述至少一个非固定网页元素中不存在与所述固定网页元素的来源网站相同的网页元素时,确定所述固定网页元素为劫持信息;
所述第一判断模块包括:
第一确定子模块,用于当所述固定网页元素的来源网站域名与所述至少一个非固定网页元素中每个非固定网页元素的来源网站域名均不相同时,或者,第三确定子模块,用于当第一网站域名集合与第二网站域名集合之间的交集为空时,确定所述至少一个非固定网页元素中不存在与所述固定网页元素的来源网站相同的网页元素;
其中,所述第一网站域名集合为所述固定网页元素的来源网站域名和所述固定网页元素包括的各个子元素的来源网站域名所组成的集合,所述第二网站域名集合为所述至少一个非固定网页元素的来源网站域名组成的集合。
8.如权利要求7所述的装置,其特征在于,所述第一判断模块还包括:
第一获取子模块,用于获取所述固定网页元素的来源网站域名;
第二获取子模块,用于获取所述至少一个非固定网页元素的来源网站域名;
第二确定子模块,用于当所述固定网页元素的来源网站域名与所述至少一个非固定网页元素中任一非固定网页元素的来源网站域名相同时,确定所述至少一个非固定网页元素中存在与所述固定网页元素的来源网站相同的网页元素。
9.如权利要求7所述的装置,其特征在于,所述第一判断模块还包括:
第一获取子模块,用于获取所述固定网页元素的来源网站域名和所述固定网页元素包括的各个子元素的来源网站域名;
第一组合子模块,用于将所述固定网页元素的来源网站域名和所述固定网页元素包括的各个子元素的来源网站域名,组成第一网站域名集合;
第二获取子模块,用于获取所述至少一个非固定网页元素的来源网站域名;
第二组合子模块,用于将所述至少一个非固定网页元素的来源网站域名组成第二网站域名集合;
第四确定子模块,用于当所述第一网站域名集合与所述第二网站域名集合之间的交集不为空时,确定所述至少一个非固定网页元素中存在与所述固定网页元素的来源网站相同的网页元素。
10.如权利要求8或9所述的装置,其特征在于,所述第一获取子模块用于:
获取所述固定网页元素的地址属性信息;
从所述固定网页元素的地址属性信息中提取所述固定网页元素的来源网站域名;
相应地,所述第二获取子模块用于:
获取所述至少一个非固定网页元素中每个非固定网页元素的地址属性信息;
从所述每个非固定网页元素的地址属性信息中提取所述每个非固定网页元素的来源网站域名,得到所述至少一个非固定网页元素的来源网站域名。
11.如权利要求7所述的装置,其特征在于,所述装置还包括:
隐藏模块,用于将所述网页上显示的所述固定网页元素进行隐藏,将所述网页上显示的所述固定网页元素的特征信息上传至服务器。
12.如权利要求7所述的装置,其特征在于,所述装置还包括:
第二判断模块,用于判断所述网页包括的网页元素中是否存在固定网页元素;
触发模块,用于当所述网页包括的网页元素中存在固定网页元素时,触发所述第一确定模块从所述网页包括的网页元素中,确定至少一个固定网页元素和至少一个非固定网页元素;
第三确定模块,用于当所述网页包括的网页元素中不存在固定网页元素时,确定所述网页中不存在劫持信息。
13.一种检测网页中劫持信息的装置,其特征在于,所述装置包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器用于:
在网页加载完成后,从所述网页包括的网页元素中,确定至少一个固定网页元素和至少一个非固定网页元素,所述至少一个固定网页元素中的每个固定网页元素是指固定在所述网页的指定位置且位置不随页面滚动而改变的网页元素,所述至少一个非固定网页元素是指所述网页包括的网页元素中除所述至少一个固定网页元素之外的网页元素;
对于所述至少一个固定网页元素中的每个固定网页元素,判断所述至少一个非固定网页元素中是否存在与所述固定网页元素的来源网站相同的网页元素;
当所述至少一个非固定网页元素中不存在与所述固定网页元素的来源网站相同的网页元素时,确定所述固定网页元素为劫持信息;
所述判断所述至少一个非固定网页元素中是否存在与所述固定网页元素的来源网站相同的网页元素,包括:
当所述固定网页元素的来源网站域名与所述至少一个非固定网页元素中每个非固定网页元素的来源网站域名均不相同时,或者,当第一网站域名集合与第二网站域名集合之间的交集为空时,确定所述至少一个非固定网页元素中不存在与所述固定网页元素的来源网站相同的网页元素;
其中,所述第一网站域名集合为所述固定网页元素的来源网站域名和所述固定网页元素包括的各个子元素的来源网站域名所组成的集合,所述第二网站域名集合为所述至少一个非固定网页元素的来源网站域名组成的集合。
14.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,所述指令被处理器执行时实现权利要求1-6任一项所述的方法的步骤。
CN201610592398.1A 2016-07-25 2016-07-25 检测网页中劫持信息的方法及装置 Active CN106209889B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610592398.1A CN106209889B (zh) 2016-07-25 2016-07-25 检测网页中劫持信息的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610592398.1A CN106209889B (zh) 2016-07-25 2016-07-25 检测网页中劫持信息的方法及装置

Publications (2)

Publication Number Publication Date
CN106209889A CN106209889A (zh) 2016-12-07
CN106209889B true CN106209889B (zh) 2019-07-05

Family

ID=57494985

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610592398.1A Active CN106209889B (zh) 2016-07-25 2016-07-25 检测网页中劫持信息的方法及装置

Country Status (1)

Country Link
CN (1) CN106209889B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109218270B (zh) * 2017-07-06 2021-08-10 北京京东尚科信息技术有限公司 一种处理被劫持请求的方法和装置
CN107749838B (zh) * 2017-09-27 2020-11-24 微梦创科网络科技(中国)有限公司 一种检测网络劫持的方法及装置
CN110602092B (zh) * 2019-09-12 2022-03-04 福建深空信息技术有限公司 一种基于进程转发的仅允许指定ip更新网站的方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101383713B (zh) * 2007-09-06 2011-06-22 上海艾瑞市场咨询有限公司 一种互联网广告信息处理方法
CN101419620A (zh) * 2008-12-03 2009-04-29 腾讯科技(深圳)有限公司 一种屏蔽网页元素的方法及其装置
CN102999636B (zh) * 2012-12-19 2016-11-16 北京奇虎科技有限公司 对网页中的弹窗进行拦截处理的方法和浏览器
CN103605688B (zh) * 2013-11-01 2017-05-10 北京奇虎科技有限公司 一种网页广告的拦截方法、装置和浏览器
CN103886088B (zh) * 2014-03-28 2017-05-17 北京金山网络科技有限公司 一种拦截网页中的广告的方法及装置
CN104239422B (zh) * 2014-08-21 2018-05-08 小米科技有限责任公司 广告识别方法及装置、电子设备

Also Published As

Publication number Publication date
CN106209889A (zh) 2016-12-07

Similar Documents

Publication Publication Date Title
CN105956026B (zh) 网页渲染方法及装置
CN104778405B (zh) 广告拦截方法及装置
CN104615655B (zh) 信息推荐方法和装置
CN107329743A (zh) 应用页面的展示方法、装置及存储介质
CN104991916B (zh) 网页的加载方法及装置
CN104021350A (zh) 隐私信息隐藏方法及装置
CN104050266B (zh) 用户行为记录方法、装置和网页浏览器
CN104809158B (zh) 网络内容过滤方法及装置
CN107256509A (zh) 比价方法及装置、终端、服务器及存储介质
CN109614482A (zh) 标签的处理方法、装置、电子设备及存储介质
CN108874939A (zh) 一种信息搜索方法及装置
CN106209889B (zh) 检测网页中劫持信息的方法及装置
CN107291465A (zh) 页面显示方法、装置及存储介质
CN108073606A (zh) 一种新闻推荐方法和装置、一种用于新闻推荐的装置
CN104536787B (zh) 资源预加载方法及装置
CN105550235A (zh) 信息获取方法及装置
CN104572848B (zh) 基于浏览器的搜索方法及装置
CN106777016A (zh) 基于即时通信进行信息推荐的方法及装置
CN107229403A (zh) 一种信息内容选择方法及装置
CN104572875A (zh) 推广信息投放有效性确定方法及装置
CN104951445B (zh) 一种网页处理方法及装置
CN108628870A (zh) 一种网页预览方法和装置
CN104780153B (zh) 信息过滤方法及装置
CN105630987A (zh) 自适应用户代理的统一资源定位符前缀挖掘方法和装置
CN108268507B (zh) 一种基于浏览器的处理方法、装置及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant