CN101587488A - 一种搜索引擎中页面重定向的检测方法及装置 - Google Patents

一种搜索引擎中页面重定向的检测方法及装置 Download PDF

Info

Publication number
CN101587488A
CN101587488A CNA200910085562XA CN200910085562A CN101587488A CN 101587488 A CN101587488 A CN 101587488A CN A200910085562X A CNA200910085562X A CN A200910085562XA CN 200910085562 A CN200910085562 A CN 200910085562A CN 101587488 A CN101587488 A CN 101587488A
Authority
CN
China
Prior art keywords
page
dom tree
script
node
redirected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA200910085562XA
Other languages
English (en)
Other versions
CN101587488B (zh
Inventor
张海清
林世飞
马杰
李佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Tencent Computer Systems Co Ltd
Original Assignee
Shenzhen Tencent Computer Systems Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Tencent Computer Systems Co Ltd filed Critical Shenzhen Tencent Computer Systems Co Ltd
Priority to CN200910085562XA priority Critical patent/CN101587488B/zh
Publication of CN101587488A publication Critical patent/CN101587488A/zh
Application granted granted Critical
Publication of CN101587488B publication Critical patent/CN101587488B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明实施例提供了一种搜索引擎中页面重定向的检测方法及装置。首先对原始页面进行解析,创建保存有所述原始页面每一个脚本语言节点内容的文档对象模型DOM树;然后遍历所述DOM树中的每一个脚本语言节点,若存在引用外部动态脚本语言的节点,则执行所述外部动态脚本语言,并更新所述的DOM树;再根据所更新后的DOM树,依次判断当前页面地址属性、延时执行函数、页面加载初始化函数、元信息属性和打开新窗口函数中是否有一项元素发生了重定向,若有,则确定发生了页面重定向。通过上述技术方案的实施,就可以在现有静态页面分析的基础上,检测到通过动态脚本来达到的页面重定向,从而提高了搜索的安全度和效率,改善了用户的使用感受。

Description

一种搜索引擎中页面重定向的检测方法及装置
技术领域
本发明涉及网络通信领域,尤其涉及一种搜索引擎中页面重定向的检测方法及装置。
背景技术
目前,在网络搜索引擎的应用过程中,一般会存在重定向垃圾(Redirection Spam)的问题,所谓的重定向垃圾指的是通过提供虚假内容使搜索引擎建立索引,但是当用户实际访问该索引提供的页面时,页面会自动重定向到另外的页面上。例如:当用户访问索引提供的A页面时,该页面马上就重定向到了B页面,而这个B页面很有可能是一个有问题的页面,这样就给用户的搜索过程带来的安全隐患。
在现有技术中,搜索引擎一般是基于静态页面的分析来创建索引,以便用户在搜索关键字时可以迅速找到需要的资料;而对于页面重定向的问题,搜索引擎仅能通过简单的比较超文件传输协议(HTTP,Hyper Text Transmission Protocol)的返回码及HTTP页面中的元信息(Meta)属性值来进行判断,上述技术方案都是基于静态页面分析的一种检测方法。
而在实际应用过程中,往往有恶意用户通过动态脚本来生成重定向垃圾页面,以便提高该垃圾页面的搜索排行,从而通过欺骗搜索引擎来增加垃圾页面的访问量。目前很多的重定向垃圾页面都是通过动态脚本,例如Java脚本语言(JS,JavaScript)来动态的修改各种能够引起页面重定向的元素,从而达到页面重定向的目的,这里能够引起页面重定向的元素包括浏览器对象模型当前页面地址属性document.Location、元信息Meta或浏览器对象模型中打开新窗口函数window.Open()方法等。由于现有技术方案中的搜索引擎是基于静态页面分析的检测机制,无法检测到通过动态脚本来达到的页面重定向,这样就造成了很多重定向垃圾的产生,使得重定向垃圾页面在搜索结果中展现出来,给用户的搜索过程带来的安全隐患,影响了用户的使用感受。
发明内容
本发明实施例提供了一种搜索引擎中页面重定向的检测方法及装置,能够在现有静态页面分析的基础上,检测到通过动态脚本来达到的页面重定向,从而提高了搜索的安全度和效率,改善了用户的使用感受。
本发明实施例提供了一种搜索引擎中页面重定向的检测方法,包括:
对原始页面进行解析,创建保存有所述原始页面每一个脚本语言节点内容的文档对象模型DOM树;
遍历所述DOM树中的每一个脚本语言节点,若存在引用外部动态脚本语言的节点,则执行所述外部动态脚本语言,并更新所述的DOM树;
根据所更新后的DOM树,依次判断当前页面地址属性、延时执行函数、页面加载初始化函数、元信息属性和打开新窗口函数中是否有一项元素发生了重定向,若有,则确定发生了页面重定向。
所述若存在引用外部动态脚本语言的节点,则执行所述外部动态脚本语言,具体包括:
若存在引用外部动态脚本语言的节点,则下载所述外部动态脚本语言作为该节点的代码内容,并执行该节点的代码内容。
所述更新所述的DOM树,具体包括:
将执行所述外部动态脚本语言所输出的子DOM树作为替换节点,替换原DOM树中引用外部动态脚本语言的节点,更新所述的DOM树。
所述执行所述外部动态脚本语言所输出的子DOM树,具体包括:
若执行所述外部动态脚本语言后直接操作原DOM树,则输出的子DOM树为空;
若执行所述外部动态脚本语言后,通过页面回写函数动态输出新的超文本标记语言HTML代码,则继续遍历所输出的子DOM树,并执行其中存在的外部动态脚本语言,直到该子DOM树中不再包含脚本语言节点。
在更新所述的DOM树之后,所述方法还包括:
依次遍历所更新后的DOM树中的每一个脚本语言节点;
为每一个触发性质的节点构造脚本语言代码,并执行该脚本语言代码;
若执行该脚本语言代码后操作所述更新后的DOM树,则对所述更新后的DOM树中相应的脚本语言节点的属性进行修改。
所述根据所更新后的DOM树,依次判断当前页面地址属性、延时执行函数、页面加载初始化函数、元信息属性和打开新窗口函数中是否有一项元素发生了重定向,若有,则确定发生了页面重定向,具体包括:
根据所更新后的DOM树,判断当前页面地址属性是否发生了重定向,若是,则确定发生了页面重定向;
否则,继续判断所述更新后DOM树中的延时执行函数是否存在延迟重定向,若存在,则确定发生了页面重定向;
否则,继续判断页面加载初始化函数中是否存在页面加载时产生的重定向,若是,则确定发生了页面重定向;
否则,继续判断所述更新后DOM树中所有的元信息属性是否发生了重定向,若是,则确定发生了页面重定向;
否则,继续判断是否通过打开新窗口函数发生了重定向,若是,则确定发生了页面重定向。
在所述确定发生了页面重定向之后,所述方法还包括:
提取发生了所述页面重定向的地址,并对所述地址进行良性分析;
若所述地址与原统一资源定位符URL地址为同一域名,则所述页面重定向为良性;否则,所述页面重定向为重定向垃圾。
本发明实施例还提供了一种搜索引擎中页面重定向的检测装置,包括:
静态解析单元,用于对原始页面进行解析,并创建保存有所述原始页面每一个脚本语言节点内容的文档对象模型DOM树;
脚本解析单元,用于遍历所述静态解析单元所创建的DOM树中的每一个脚本语言节点,若存在引用外部动态脚本语言的节点,则执行所述外部动态脚本语言,并更新所述的DOM树;
重定向分析单元,用于根据所述脚本解析单元所更新后的DOM树,依次判断当前页面地址属性、延时执行函数、页面加载初始化函数、元信息属性和打开新窗口函数中是否有一项元素发生了重定向,若有,则确定发生了页面重定向。
所述装置还包括:
触发事件构造单元,用于依次遍历所述脚本解析单元更新后的DOM树中的每一个脚本语言节点,并为每一个触发性质的节点构造脚本语言代码;
所述脚本解析单元还用于执行所述触发事件构造单元所构造的脚本语言代码,若执行该脚本语言代码后操作所述更新后的DOM树,则对所述更新后的DOM树中相应的脚本语言节点的属性进行修改。
所述重定向分析单元还包括:
重定向垃圾分析模块,用于提取发生了所述页面重定向的地址,并对所述地址进行良性分析,若所述地址与原统一资源定位符URL地址为同一域名,则所述页面重定向为良性;否则,所述页面重定向为重定向垃圾。
由上述所提供的技术方案可以看出,首先对原始页面进行解析,创建保存有所述原始页面每一个脚本语言节点内容的文档对象模型DOM树;然后遍历所述DOM树中的每一个脚本语言节点,若存在引用外部动态脚本语言的节点,则执行所述外部动态脚本语言,并更新所述的DOM树;再根据所更新后的DOM树,依次判断当前页面地址属性、延时执行函数、页面加载初始化函数、元信息属性和打开新窗口函数中是否有一项元素发生了重定向,若有,则确定发生了页面重定向。通过上述技术方案的实施,就可以在现有静态页面分析的基础上,检测到通过动态脚本来达到的页面重定向,从而提高了搜索的安全度和效率,改善了用户的使用感受。
附图说明
图1为本发明实施例1所提供方法的流程示意图;
图2为本发明实施例2所提供装置的结构示意图。
具体实施方式
本发明实施例提供了一种搜索引擎中页面重定向的检测方法及装置。通过动态解析页面中引用外部动态脚本语言的节点内容,分析出所有可能的重定向问题,从而检测出通过动态脚本来实现的页面重定向问题,提高了搜索引擎的安全度和效率,改善了用户的使用感受。
实施例1:为更好的描述本发明实施例,现结合附图对本发明的具体实施例进行说明,如图1所示为本发明实施例1所提供的搜索引擎中页面重定向检测方法的流程示意图,所述方法包括:
步骤11:对原始页面进行解析,创建原始DOM树。
在该步骤11中,对原始页面进行解析,创建保存有所述原始页面每一个脚本语言节点内容的文档对象模型DOM树。具体可以先输入原始页面超文本标记语言HTML源代码,然后对该原始页面HTML源代码进行解析,并创建保存有原始页面每一个脚本语言节点内容的DOM树。
步骤12:遍历该DOM树中的每一个脚本语言节点,执行其中的外部动态脚本语言。
在该步骤12中,在创建DOM树之后,可以遍历所述DOM树中的每一个脚本语言节点,若存在引用外部动态脚本语言的节点,则执行所述外部动态脚本语言。
具体来说,在判断存在引用外部动态脚本语言的节点时,可以下载该外部动态脚本语言作为该节点的代码内容,再执行该节点的代码内容。
步骤13:更新该DOM树。
在该步骤13中,具体是将执行所述外部动态脚本语言所输出的子DOM树作为替换节点,来替换原DOM树中引用外部动态脚本语言的节点,更新所述的DOM树。
在具体实现过程中,若执行外部动态脚本语言后直接操作原DOM树,则输出的子DOM树为空;若执行所述外部动态脚本语言后,通过浏览器对象模型中页面回写函数document.Write()方法动态输出HTML代码,则继续遍历所输出的子DOM树,并执行其中存在的外部动态脚本语言,直到该子DOM树中不再包含脚本语言节点。
然后再将该子DOM树作为原脚本语言节点的替换节点,更新原来的DOM树。
另外,在更新该DOM树之后,还可以根据含有触发性质的节点对该DOM树作进一步更新和修改。具体来说,可以依次遍历所更新后的DOM树中的每一个脚本语言节点;为每一个触发性质的节点构造脚本语言代码,并执行该脚本语言代码;若执行该脚本语言代码后操作所述更新后的DOM树,则对所述更新后的DOM树中相应的脚本语言节点的属性进行修改。
在完成上述步骤后,就得到了最终更新后的DOM树。
步骤14:根据所更新后的DOM树,判断是否发生了页面重定向。
在该步骤14中,根据所更新后的DOM树,依次判断当前页面地址属性、延时执行函数、页面加载初始化函数、元信息属性和打开新窗口函数中是否有一项元素发生了重定向,若有,则确定发生了页面重定向。
具体来说,可以根据所更新后的DOM树,判断当前页面地址document.Location属性值是否发生了重定向,若是,则确定发生了页面重定向;否则,继续判断所述更新后DOM树中的延时执行函数setTimeout()方法中是否发生了重定向,若是,则确定发生了页面重定向;否则,继续判断页面加载初始化函数body.onload()方法是否发生了重定向,若是,则确定发生了页面重定向;否则,继续判断所述更新后DOM树中所有的元信息META节点属性是否发生了重定向,若是,则确定发生了页面重定向;否则,继续判断打开新窗口函数window.Open()是否发生了重定向,若是,则确定发生了页面重定向。
举例来说,首先根据所更新后的DOM树,比较解析前后document.Location属性的值,如果有发生变化,则表明该页面会通过js语句修改location属性实现重定向,则确定发生了页面重定向。
如果没发生变化,则遍历执行DOM树中的setTimeout()函数,判断是否有实现重定向,如果有,则确定发生了页面重定向。
如果没有,则执行body.onload()函数中的js,判断是否有实现重定向,如果有,则确定发生了页面重定向。
如果没有,则遍历DOM树中的所有META节点,分析是否有http-equiv=refresh的属性,如有则为跳转,则确定发生了页面重定向。
如果没有,则对window.open函数进行hook,如有调用,则新窗口的URL为重定向地址,则确定发生了页面重定向。
通过上述技术方案的实施,就可以在现有静态页面分析的基础上,检测到通过动态脚本来达到的页面重定向,从而提高了搜索的安全度和效率,改善了用户的使用感受。
另外,在本实施例1中,当确定发生了页面重定向之后,还可以进一步提取发生了所述页面重定向的地址,并对所述地址进行良性分析;若所述地址与原统一资源定位符URL地址为同一域名,则判断该页面重定向为良性;否则,该页面重定向为重定向垃圾。这样也可以在现有静态页面分析的基础上,提高搜索引擎检测重定向垃圾的发现率,进一步提升了用户的使用感受。
实施例2:本发明实施例2提供了一种搜索引擎中页面重定向的检测装置,如图2所示为本实施例2所提供装置的结构示意图,所述装置包括静态解析单元、脚本解析单元和重定向分析单元,其中:
所述静态解析单元用于对原始页面进行解析,并创建保存有所述原始页面每一个脚本语言节点内容的文档对象模型DOM树。
所述脚本解析单元用于遍历所述静态解析单元所创建的DOM树中的每一个脚本语言节点,若存在引用外部动态脚本语言的节点,则执行所述外部动态脚本语言,并更新所述的DOM树。具体进行解析和更新的方式见以上方法实施例1中所述。
所述重定向分析单元用于根据所述脚本解析单元所更新后的DOM树,依次判断当前页面地址属性、延时执行函数、页面加载初始化函数、元信息属性和打开新窗口函数中是否有一项元素发生了重定向,若有,则确定发生了页面重定向。具体进行判断分析的过程见以上方法实施例1中所述。
另外,以上所述装置还包括触发事件构造单元,该触发事件构造单元用于依次遍历所述脚本解析单元更新后的DOM树中的每一个脚本语言节点,并为每一个触发事件构造脚本语言代码。
所述脚本解析单元还用于执行所述触发事件构造单元所构造的脚本语言代码,若执行该脚本语言代码后操作所述更新后的DOM树,则对所述更新后的DOM树中相应的脚本语言节点的属性进行修改。
另外,以上所述重定向分析单元中还可包括重定向垃圾分析模块,该重定向垃圾分析模块用于提取发生了所述页面重定向的地址,并对所述地址进行良性分析,若所述地址与原统一资源定位符URL地址为同一域名,则所述页面重定向为良性;否则,所述页面重定向为重定向垃圾。
以上所述的检测装置可以集成设置于搜索引擎系统中;或设置成单独的功能实体,和搜索引擎系统保持连接关系。
值得注意的是,上述装置实施例中,所包括的各个单元只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
另外,本领域普通技术人员可以理解实现上述方法实施例中的全部或部分步骤是可以通过程序来指令相关的硬件完成,相应的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
综上所述,本发明实施例能够在现有静态页面分析的基础上,检测到通过动态脚本来达到的页面重定向,从而提高了搜索的安全度和效率,改善了用户的使用感受。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (10)

1、一种搜索引擎中页面重定向的检测方法,其特征在于,
对原始页面进行解析,创建保存有所述原始页面每一个脚本语言节点内容的文档对象模型DOM树;
遍历所述DOM树中的每一个脚本语言节点,若存在引用外部动态脚本语言的节点,则执行所述外部动态脚本语言,并更新所述的DOM树;
根据所更新后的DOM树,依次判断当前页面地址属性、延时执行函数、页面加载初始化函数、元信息属性和打开新窗口函数中是否有一项元素发生了重定向,若有,则确定发生了页面重定向。
2、如权利要求1所述的方法,其特征在于,所述若存在引用外部动态脚本语言的节点,则执行所述外部动态脚本语言,具体包括:
若存在引用外部动态脚本语言的节点,则下载所述外部动态脚本语言作为该节点的代码内容,并执行该节点的代码内容。
3、如权利要求1所述的方法,其特征在于,所述更新所述的DOM树,具体包括:
将执行所述外部动态脚本语言所输出的子DOM树作为替换节点,替换原DOM树中引用外部动态脚本语言的节点,更新所述的DOM树。
4、如权利要求3所述的方法,其特征在于,所述执行所述外部动态脚本语言所输出的子DOM树,具体包括:
若执行所述外部动态脚本语言后直接操作原DOM树,则输出的子DOM树为空;
若执行所述外部动态脚本语言后,通过页面回写函数动态输出新的超文本标记语言HTML代码,则继续遍历所输出的子DOM树,并执行其中存在的外部动态脚本语言,直到该子DOM树中不再包含脚本语言节点。
5、如权利要求1所述的方法,其特征在于,在更新所述的DOM树之后,所述方法还包括:
依次遍历所更新后的DOM树中的每一个脚本语言节点;
为每一个触发性质的节点构造脚本语言代码,并执行该脚本语言代码;
若执行该脚本语言代码后操作所述更新后的DOM树,则对所述更新后的DOM树中相应的脚本语言节点的属性进行修改。
6、如权利要求1所述的方法,其特征在于,所述根据所更新后的DOM树,依次判断当前页面地址属性、延时执行函数、页面加载初始化函数、元信息属性和打开新窗口函数中是否有一项元素发生了重定向,若有,则确定发生了页面重定向,具体包括:
根据所更新后的DOM树,判断当前页面地址属性是否发生了重定向,若是,则确定发生了页面重定向;
否则,继续判断所述更新后DOM树中的延时执行函数是否存在延迟重定向,若存在,则确定发生了页面重定向;
否则,继续判断页面加载初始化函数中是否存在页面加载时产生的重定向,若是,则确定发生了页面重定向;
否则,继续判断所述更新后DOM树中所有的元信息属性是否发生了重定向,若是,则确定发生了页面重定向;
否则,继续判断是否通过打开新窗口函数发生了重定向,若是,则确定发生了页面重定向。
7、如权利要求1或6所述的方法,其特征在于,在所述确定发生了页面重定向之后,所述方法还包括:
提取发生了所述页面重定向的地址,并对所述地址进行良性分析;
若所述地址与原统一资源定位符URL地址为同一域名,则所述页面重定向为良性;否则,所述页面重定向为重定向垃圾。
8、一种搜索引擎中页面重定向的检测装置,其特征在于,包括:
静态解析单元,用于对原始页面进行解析,并创建保存有所述原始页面每一个脚本语言节点内容的文档对象模型DOM树;
脚本解析单元,用于遍历所述静态解析单元所创建的DOM树中的每一个脚本语言节点,若存在引用外部动态脚本语言的节点,则执行所述外部动态脚本语言,并更新所述的DOM树;
重定向分析单元,用于根据所述脚本解析单元所更新后的DOM树,依次判断当前页面地址属性、延时执行函数、页面加载初始化函数、元信息属性和打开新窗口函数中是否有一项元素发生了重定向,若有,则确定发生了页面重定向。
9、如权利要求8所述的装置,其特征在于,所述装置还包括:
触发事件构造单元,用于依次遍历所述脚本解析单元更新后的DOM树中的每一个脚本语言节点,并为每一个触发性质的节点构造脚本语言代码;
所述脚本解析单元还用于执行所述触发事件构造单元所构造的脚本语言代码,若执行该脚本语言代码后操作所述更新后的DOM树,则对所述更新后的DOM树中相应的脚本语言节点的属性进行修改。
10、如权利要求8或9所述的装置,其特征在于,所述重定向分析单元还包括:
重定向垃圾分析模块,用于提取发生了所述页面重定向的地址,并对所述地址进行良性分析,若所述地址与原统一资源定位符URL地址为同一域名,则所述页面重定向为良性;否则,所述页面重定向为重定向垃圾。
CN200910085562XA 2009-05-25 2009-05-25 一种搜索引擎中页面重定向的检测方法及装置 Active CN101587488B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200910085562XA CN101587488B (zh) 2009-05-25 2009-05-25 一种搜索引擎中页面重定向的检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910085562XA CN101587488B (zh) 2009-05-25 2009-05-25 一种搜索引擎中页面重定向的检测方法及装置

Publications (2)

Publication Number Publication Date
CN101587488A true CN101587488A (zh) 2009-11-25
CN101587488B CN101587488B (zh) 2011-04-06

Family

ID=41371737

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910085562XA Active CN101587488B (zh) 2009-05-25 2009-05-25 一种搜索引擎中页面重定向的检测方法及装置

Country Status (1)

Country Link
CN (1) CN101587488B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101984429A (zh) * 2010-11-04 2011-03-09 百度在线网络技术(北京)有限公司 获取目标页面的方法、装置、搜索引擎和浏览器
CN102682098A (zh) * 2012-04-27 2012-09-19 北京神州绿盟信息安全科技股份有限公司 检测网页内容变更的方法及装置
CN103268361A (zh) * 2013-06-07 2013-08-28 百度在线网络技术(北京)有限公司 网页中隐藏url的提取方法、装置和系统
CN103620586A (zh) * 2011-06-23 2014-03-05 微软公司 将源代码链接到运行元素
CN104598465A (zh) * 2013-10-30 2015-05-06 腾讯科技(深圳)有限公司 一种浏览器内嵌地址栏的实现方法及装置
CN107807927A (zh) * 2016-09-08 2018-03-16 广州市动景计算机科技有限公司 基于下发规则的页面解析方法、装置、客户端设备及系统
CN108280102A (zh) * 2017-02-08 2018-07-13 广州市动景计算机科技有限公司 上网行为记录方法、装置及用户终端
CN109067587A (zh) * 2018-08-20 2018-12-21 腾讯科技(深圳)有限公司 关键信息基础设施的确定方法及装置
US10534830B2 (en) 2011-06-23 2020-01-14 Microsoft Technology Licensing, Llc Dynamically updating a running page
CN111191225A (zh) * 2020-01-03 2020-05-22 北京字节跳动网络技术有限公司 一种切换隔离对象的方法、装置、介质和电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101089856A (zh) * 2007-07-20 2007-12-19 李沫南 一种提取网页数据的方法和Web爬虫系统

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101984429A (zh) * 2010-11-04 2011-03-09 百度在线网络技术(北京)有限公司 获取目标页面的方法、装置、搜索引擎和浏览器
CN101984429B (zh) * 2010-11-04 2012-03-14 北京百度网讯科技有限公司 获取目标页面的方法、装置、搜索引擎和浏览器
US10540416B2 (en) 2011-06-23 2020-01-21 Microsoft Technology Licensing, Llc Linking source code to running element
CN103620586A (zh) * 2011-06-23 2014-03-05 微软公司 将源代码链接到运行元素
US10534830B2 (en) 2011-06-23 2020-01-14 Microsoft Technology Licensing, Llc Dynamically updating a running page
CN103620586B (zh) * 2011-06-23 2017-03-08 微软技术许可有限责任公司 将源代码链接到运行元素
CN102682098A (zh) * 2012-04-27 2012-09-19 北京神州绿盟信息安全科技股份有限公司 检测网页内容变更的方法及装置
CN102682098B (zh) * 2012-04-27 2014-05-14 北京神州绿盟信息安全科技股份有限公司 检测网页内容变更的方法及装置
CN103268361B (zh) * 2013-06-07 2019-05-31 百度在线网络技术(北京)有限公司 网页中隐藏url的提取方法、装置和系统
CN103268361A (zh) * 2013-06-07 2013-08-28 百度在线网络技术(北京)有限公司 网页中隐藏url的提取方法、装置和系统
CN104598465B (zh) * 2013-10-30 2019-04-12 腾讯科技(深圳)有限公司 一种浏览器内嵌地址栏的实现方法及装置
CN104598465A (zh) * 2013-10-30 2015-05-06 腾讯科技(深圳)有限公司 一种浏览器内嵌地址栏的实现方法及装置
CN107807927A (zh) * 2016-09-08 2018-03-16 广州市动景计算机科技有限公司 基于下发规则的页面解析方法、装置、客户端设备及系统
CN107807927B (zh) * 2016-09-08 2022-04-29 阿里巴巴(中国)有限公司 基于下发规则的页面解析方法、装置、客户端设备及系统
CN108280102A (zh) * 2017-02-08 2018-07-13 广州市动景计算机科技有限公司 上网行为记录方法、装置及用户终端
CN108280102B (zh) * 2017-02-08 2020-12-08 阿里巴巴(中国)有限公司 上网行为记录方法、装置及用户终端
CN109067587A (zh) * 2018-08-20 2018-12-21 腾讯科技(深圳)有限公司 关键信息基础设施的确定方法及装置
CN109067587B (zh) * 2018-08-20 2020-09-04 腾讯科技(深圳)有限公司 关键信息基础设施的确定方法及装置
CN111191225A (zh) * 2020-01-03 2020-05-22 北京字节跳动网络技术有限公司 一种切换隔离对象的方法、装置、介质和电子设备
CN111191225B (zh) * 2020-01-03 2022-05-27 北京字节跳动网络技术有限公司 一种切换隔离对象的方法、装置、介质和电子设备

Also Published As

Publication number Publication date
CN101587488B (zh) 2011-04-06

Similar Documents

Publication Publication Date Title
CN101587488B (zh) 一种搜索引擎中页面重定向的检测方法及装置
US20180124203A1 (en) Extensible, asynchronous, centralized analysis and optimization of server responses to client requests
US10567407B2 (en) Method and system for detecting malicious web addresses
RU2611965C2 (ru) Способ и устройство отображения страницы
US9418243B2 (en) Invoking a private browsing mode by selection of a visual control element within a browser tab
US8413044B2 (en) Method and system of retrieving Ajax web page content
US8762556B2 (en) Displaying content on a mobile device
CN102469113B (zh) 一种安全网关及其转发网页的方法
KR101623223B1 (ko) 하나의 인터넷 호스팅 시스템 집합에 의해 제공되는 다수의 병렬 사용자 경험
CN108632219B (zh) 一种网站漏洞检测方法、检测服务器、系统及存储介质
GB2505410A (en) Display of hypertext documents grouped according to their affinity
CN104735112A (zh) 发送资源文件的方法、缓存资源文件的方法和装置
CN104572777B (zh) 基于UIWebView组件的网页加载方法及装置
US8839126B1 (en) Secure HTML components for building client-side user interface
CN102930057A (zh) 搜索实现方法和装置
JP2020126641A (ja) Apiマッシュアップ探査及びリコメンデーション
CN102937981A (zh) 网页呈现系统和方法
CN112637361B (zh) 一种页面代理方法、装置、电子设备及存储介质
CN103077349B (zh) 一种浏览器侧提示访问安全信息的方法及装置
Zhou et al. An analysis of urls generated from javascript code
CN103838865A (zh) 用于挖掘时效性种子页的方法及装置
CN103258055A (zh) 一种文件下载设备和方法
CN103390050A (zh) 网页预取的方法、装置及终端设备
US20200104483A1 (en) Risk computation for software extensions
CN116599877B (zh) 一种基于爬虫技术的IPv6的链接测试方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant