CN103092937A - 可视化网页收录检测方法 - Google Patents

可视化网页收录检测方法 Download PDF

Info

Publication number
CN103092937A
CN103092937A CN2013100062179A CN201310006217A CN103092937A CN 103092937 A CN103092937 A CN 103092937A CN 2013100062179 A CN2013100062179 A CN 2013100062179A CN 201310006217 A CN201310006217 A CN 201310006217A CN 103092937 A CN103092937 A CN 103092937A
Authority
CN
China
Prior art keywords
url
server
web browser
information
webpage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013100062179A
Other languages
English (en)
Other versions
CN103092937B (zh
Inventor
刘云剑
姚健
潘柏宇
卢述奇
黄冬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Network Technology Co Ltd
Original Assignee
1Verge Internet Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 1Verge Internet Technology Beijing Co Ltd filed Critical 1Verge Internet Technology Beijing Co Ltd
Priority to CN201310006217.9A priority Critical patent/CN103092937B/zh
Publication of CN103092937A publication Critical patent/CN103092937A/zh
Application granted granted Critical
Publication of CN103092937B publication Critical patent/CN103092937B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种可视化网页收录检测方法,该方法包括:判断是否获取到页面的所有统一资源定位符URL,如果没有获取到URL,则结束,否则将获取到的所有URL请求提交到服务器,并等待服务器的响应;服务器获取所述请求后,查询所有URL的结构化信息,其中所述结构化信息包括:是否被收录、最近一次的扫描时间、收录的标题,并返回所述结构化信息;遍历所有的URL,并获取到每个URL在网络浏览器中的绝对位置;根据服务器返回的信息构造成html信息,并将所述html信息显示在相应URL的绝对位置旁边,并修改URL在网络浏览器中显示的颜色;通过网络浏览器显示不同颜色的URL以及相应的html信息。

Description

可视化网页收录检测方法
技术领域
本发明涉及视频领域,特别是视频信息抓取领域。
背景技术
抓取系统,主要是信息收录方主动抓取所需的网页信息。在整个流程中,选择收录哪些网页,一方面是系统制定一定的规则,只对符合规则的网页信息进行收录;另一方面,也提供网站提交入口,让网站的所有者,自行提交URL给抓取系统,抓取系统在根据过滤规则和爬虫协议(robots.txt是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被漫游器获取的。)进行信息抓取。
目前评价收录系统是否完善主要有几个方面:
1、收录内容是否全面
2、收录内容是否快速
3、是否遵守爬虫协议和是否智能抓取新的网页及不重复抓取,避免导致源服务器压力过大、带宽等资源浪费
在系统的开发阶段、测试阶段、运行阶段以及运行期的不断优化阶段。我们都会涉及到如何判断我们的系统是否达到设计的预期、是否在不断的完善、以及如何帮助相关人员方便的反馈各种问题和信息。
目前没有看到可以通过这种可视化的技术来完成检测工作,常用的方式,在网页中找出URL链接,然后在通过人工到收录网页库中去查询。存在如下缺陷:1、非常麻烦,需要人工参与,效率低下;2、不能可视化。
发明内容
本发明就是为了克服老旧方案的这些局限性,这些需求促使我们设计出了该技术方案,该方案主要但不限于:
如何让系统的开发人员、测试人员、网站提供者在打开任何网页时,判断网页中的链接是否已被收录、是否符合收录的规则及查看已收录(或已抓取)的网页的收录的时间及提取的内容等信息,目前还未看到有效的实现和技术方案。
本方案提供一种可视化的效果,结合网络浏览器,将网络浏览器中打开网页的链接用各种色块突出的标识出哪些已被收录;哪些是不符合收录规则的;哪些是已扫描的;哪些可能是抓取系统漏掉的。这样就能让开发人员、测试人员、网站提供者等使用者,非常方便的看到一个网页中各个链接的被收录情况、其中主要有下面几种信息可通过这个可视化装置看到:
1、如果一个链接被标识出“已收录”,那么可以将鼠标放在链接旁边的色块上,可详细看到该链接被收录的时间、网页的标题信息。
2、被标识出“已扫描”,那么可以将鼠标放在链接旁边的色块上,可详细看到该链接被最近一次被扫描的时间。
3、被标识出“不符合收录规则”,那么表示,这一类链接所指向网页中的信息,很有可能就不是收录系统想要或被认为不好的内容。如果人工查看这类链接和所指向的网页内容是该被收录的内容,那么可提交该链接给收录系统,便于收录系统的改进和优化。
4、被标识出“可能漏掉的”。那么这类链接有助于人工检验和配合改进收录系统。
具体的,本发明提出了一种可视化网页收录检测方法,该方法具体包括:
S101、判断是否获取到页面的所有统一资源定位符URL,如果没有获取到URL,则结束,否则执行步骤S102;
S102、将获取到的所有URL请求提交到服务器,并等待服务器的响应;
S103、服务器获取所述请求后,查询所有URL的结构化信息,其中所述结构化信息包括:是否被收录、最近一次的扫描时间、收录的标题,并返回所述结构化信息;
S104、遍历所有的URL,并获取到每个URL在网络浏览器中的绝对位置;
S105、根据服务器返回的结构化信息构造成html信息,并将所述html信息显示在相应URL的绝对位置旁边,并修改URL在网络浏览器中显示的颜色;
S106、通过网络浏览器显示不同颜色的URL以及相应的html信息。
根据本发明另一个方面,其中在S101步骤之前,还包括:
抓取系统根据预定的抓取规则将所有抓取过的URL记录在所述服务器上。
根据本发明另一个方面,其中,步骤S102中进一步包括通过AJAX请求将所述URL提交到所述服务器上。
根据本发明另一个方面,其中,所述服务器提供查询接口,用于接收AJAX请求信息。
本发明通过分别在网络浏览器端和服务器端编程,让用户(开发人员、测试人员、网站提供者等使用者)在打开一个网页后,只需点击一个书签,就能清楚的看见页面中的各个链接被我们的收录系统收录的情况。避免了繁杂的检查被收录的方法,大大降低了人工成本和提升了使用者的体验。
附图说明
下面结合附图及具体实施例对本发明再作进一步详细的说明:
附图1所示为本发明所提出的可视化网页收录检测方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在抓取系统本身已存在(我们的抓取系统对扫描过的链接、已收录的信息都已经记录在服务器)的结构化信息基础上,利用AJAX即“AsynchronousJavaScript and XML”(异步JavaScript和XML),将抓取系统中本身的结构化信息提供给网络浏览器;再利用javascript编程动态的将结构化信息通过html和css展示在网络浏览器中,形成在原网页中显示额外的可视化信息。
参见图1,其为本发明提出的一种可视化网页收录检测方法流程图,该方法具体包括:
S101、判断是否获取到页面的所有URL,如果没有获取到URL,则结束,否则执行步骤S102;
S102、将获取到的所有URL请求提交到服务器,并等待服务器的响应;
S103、服务器获取所述请求后,查询所有URL的结构化信息,其中所述结构化信息包括:是否被收录、最近一次的扫描时间、收录的标题,并返回所述结构化信息;
S104、遍历所有的URL,并获取到每个URL在网络浏览器中的绝对位置;
S105、根据服务器返回的信息构造成html信息,并将所述html信息显示在相应URL的绝对位置旁边,并修改URL在网络浏览器中显示的颜色;
S106、通过网络浏览器显示不同颜色的URL以及相应的html信息。
其中,在S101步骤之前,还包括:
抓取系统根据预定的抓取规则将所有抓取过的URL记录在所述服务器上。
其中,步骤S102中,是通过AJAX请求将所述URL提交到所述服务器上的。
其中,所述服务器提供查询接口,用于接受http请求。
下面给出本发明的一个具体实施方式,在检测土豆网首页中链接被抓取系统的收录情况,具体包括:
1、为网络浏览器添加一个书签。网址填写为指定的一段javascript代码。
2、在网络浏览器中打开土豆网。
3、点击步骤1添加的书签(点击后,下面为网络浏览器和服务器之间的交互)
a)网络浏览器执行书签中的javascript
b)网络浏览器从抓取系统服务器上下载一个javascript文件并加载到网络浏览器中
c)执行这个javascript文件(这个文件是专门写的一些程序功能)
i.首先获取当前页面(土豆首页)中所有的URL链接
ii.将所有的URL链接通过AJAX请求,提交到抓取系统服务器
iii.等待服务器返回信息
d)服务器接收到AJAX请求,查询所有URL链接扫描时间、是否收录、收录信息等结构化信息;并返回给AJAX的请求端。
e)继续执行c)步的javascript文件
i.获取到服务器返回的结构化信息。
ii.循环遍历所有的URL。获取每个URL的绝对位置,使用javascript构造出html代码,再利用网络浏览器本身对html和css的动态渲染。将服务器上返回的每个URL结构化信息展示在网络浏览器中。
4、短暂的等待后,页面中的链接会变成不同的颜色,同时链接的右上角也会显示一个相应颜色的数字方块。同时整个页面的右上角,还会弹出一个对各数字颜色块的说明。
使用者,就可看到各个链接不同的被收录信息。
采用本发明,避免了要查看一个网页中的链接是否被抓取系统收录,首先得找出这些链接,然后通过人工到数据存储的服务器上去查询,才能得到是否已被收录。该方案大大降低这样复杂的人工成本,非常方便就能看得到视觉化的效果。此外,通过可视化,可以让网站内容提供方方便、快速的看到网站内容被收录的情况,具有较高的操作性和便宜性。
综上所述,虽然本发明已以优选实施例披露如上,然而其并非用以限定本发明。本发明所属技术领域的普通技术人员,在不脱离本发明的精神和范围内,可作各种变动与修饰。因此,本发明的保护范围当视所附的权利要求所界定的范围为准。

Claims (4)

1.一种可视化网页收录检测方法,该方法具体包括:
S101、判断是否获取到页面的所有统一资源定位符URL,如果没有获取到URL,则结束,否则执行步骤S102;
S102、将获取到的所有URL请求提交到服务器,并等待服务器的响应;
S103、所述服务器获取所述请求后,查询所有URL的结构化信息,其中所述结构化信息包括:所述URL是否被收录、最近一次的扫描时间、收录的标题,并返回所述结构化信息;
S104、遍历所有的URL,并获取到每个URL在网络浏览器中的绝对位置;
S105、根据服务器返回的所述结构化信息构造成html信息,并将所述html信息显示在相应URL的绝对位置旁边,并修改URL在网络浏览器中显示的颜色;
S106、通过网络浏览器显示不同颜色的URL以及相应的html信息。
2.如权利要求1所述的方法,其中在S101步骤之前,还包括:
抓取系统根据预定的抓取规则将所有抓取过的URL记录在所述服务器上。
3.如权利要求1所述的方法,其中,步骤S102中进一步包括通过AJAX请求将所述URL提交到所述服务器上。
4.如权利要求1所述的方法,其中,所述服务器提供查询接口,用于接收AJAX请求信息。
CN201310006217.9A 2013-01-08 2013-01-08 可视化网页收录检测方法 Expired - Fee Related CN103092937B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310006217.9A CN103092937B (zh) 2013-01-08 2013-01-08 可视化网页收录检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310006217.9A CN103092937B (zh) 2013-01-08 2013-01-08 可视化网页收录检测方法

Publications (2)

Publication Number Publication Date
CN103092937A true CN103092937A (zh) 2013-05-08
CN103092937B CN103092937B (zh) 2016-04-27

Family

ID=48205502

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310006217.9A Expired - Fee Related CN103092937B (zh) 2013-01-08 2013-01-08 可视化网页收录检测方法

Country Status (1)

Country Link
CN (1) CN103092937B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104199844A (zh) * 2014-08-08 2014-12-10 北京奇虎科技有限公司 新发布的站点收录方法和装置
CN104408156A (zh) * 2014-12-03 2015-03-11 北京国双科技有限公司 网站页面在搜索引擎中收录数量的检测方法和装置
CN110929184A (zh) * 2018-09-19 2020-03-27 北京国双科技有限公司 链接的显示方法、系统、存储介质和处理器
CN113407873A (zh) * 2021-06-21 2021-09-17 北京一雄信息科技有限公司 基于web浏览器的车辆检测方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101382954A (zh) * 2008-09-25 2009-03-11 北京搜狗科技发展有限公司 提供网址收藏名称的方法及系统
CN101996193A (zh) * 2009-08-21 2011-03-30 北京搜狗科技发展有限公司 一种展现网络资源链接的处理方法、系统及互联网终端
WO2011049641A1 (en) * 2009-10-19 2011-04-28 Alibaba Group Holding Limited A method and apparatus of generating internet navigation page
CN102123195A (zh) * 2009-12-11 2011-07-13 三星电子株式会社 在通信终端中提供书签服务的设备和方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101382954A (zh) * 2008-09-25 2009-03-11 北京搜狗科技发展有限公司 提供网址收藏名称的方法及系统
CN101996193A (zh) * 2009-08-21 2011-03-30 北京搜狗科技发展有限公司 一种展现网络资源链接的处理方法、系统及互联网终端
WO2011049641A1 (en) * 2009-10-19 2011-04-28 Alibaba Group Holding Limited A method and apparatus of generating internet navigation page
CN102123195A (zh) * 2009-12-11 2011-07-13 三星电子株式会社 在通信终端中提供书签服务的设备和方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104199844A (zh) * 2014-08-08 2014-12-10 北京奇虎科技有限公司 新发布的站点收录方法和装置
CN104408156A (zh) * 2014-12-03 2015-03-11 北京国双科技有限公司 网站页面在搜索引擎中收录数量的检测方法和装置
CN104408156B (zh) * 2014-12-03 2017-12-22 北京国双科技有限公司 网站页面在搜索引擎中收录数量的检测方法和装置
CN110929184A (zh) * 2018-09-19 2020-03-27 北京国双科技有限公司 链接的显示方法、系统、存储介质和处理器
CN113407873A (zh) * 2021-06-21 2021-09-17 北京一雄信息科技有限公司 基于web浏览器的车辆检测方法及系统

Also Published As

Publication number Publication date
CN103092937B (zh) 2016-04-27

Similar Documents

Publication Publication Date Title
CN101971172B (zh) 移动站点地图
US8230320B2 (en) Method and system for social bookmarking of resources exposed in web pages that don't follow the representational state transfer architectural style (REST)
CN104077387B (zh) 一种网页内容显示方法和浏览器装置
CN101539949B (zh) 一种网址补全提示的方法及装置
CN104536973B (zh) 图片识别的方法和浏览器客户端
US20060259867A1 (en) System and method for automatic generation of browsing favorites
CN108052632B (zh) 一种网络信息获取方法、系统及企业信息搜索系统
US20150379128A1 (en) Deep links for native applications
US9684718B2 (en) System for searching for a web document
CN101335762A (zh) 反映网页的历史使用行为的方法,及服务器、终端和系统
US8135731B2 (en) Administration of search results
CN103246654A (zh) 搜索结果的展示处理方法和装置
CN105900087A (zh) 用于查询答案的丰富内容
CN103577596A (zh) 基于当前浏览页面的关键词搜索方法及装置
CN111090797B (zh) 数据获取方法、装置、计算机设备和存储介质
CN105302461B (zh) 一种用于在移动应用中提供目标页面的方法与设备
CN104102577A (zh) 多版本网页访问测试方法
CN102982118A (zh) 一种基于收藏夹的搜索方法和装置
CN103092937A (zh) 可视化网页收录检测方法
CN104283865A (zh) 一种下载处理方法、装置、服务器及客户端设备
CN106547803B (zh) 爬取网站增量资源的方法和装置
JP2011043924A (ja) Web行動履歴取得システム、Web行動履歴取得方法、ゲートウェイ装置、及びプログラム
CN105930385A (zh) 一种数据爬取方法及系统
CN101866362A (zh) 移动通讯设备终端的自动定位页面主要内容的方法及系统
CN104268246A (zh) 生成访问互联网站点指令脚本的方法及访问方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 100080 Beijing Haidian District city Haidian street A Sinosteel International Plaza No. 8 block 5 layer A, C

Patentee after: Youku network technology (Beijing) Co.,Ltd.

Address before: 100080 Beijing Haidian District city Haidian street A Sinosteel International Plaza No. 8 block 5 layer A, C

Patentee before: 1VERGE INTERNET TECHNOLOGY (BEIJING) Co.,Ltd.

CP01 Change in the name or title of a patent holder
TR01 Transfer of patent right

Effective date of registration: 20200619

Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Alibaba (China) Co.,Ltd.

Address before: 100080 Beijing Haidian District city Haidian street A Sinosteel International Plaza No. 8 block 5 layer A, C

Patentee before: Youku network technology (Beijing) Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210302

Address after: No. 699, Wangshang Road, Binjiang District, Hangzhou City, Zhejiang Province, 310052

Patentee after: Alibaba (China) Network Technology Co.,Ltd.

Address before: 310052 room 508, 5th floor, building 4, No. 699 Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee before: Alibaba (China) Co.,Ltd.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160427

Termination date: 20210108

CF01 Termination of patent right due to non-payment of annual fee