CN103064873B

CN103064873B - 一种网页质量数据获取方法和系统

Info

Publication number: CN103064873B
Application number: CN201210417855.5A
Authority: CN
Inventors: 吴浩; 张鹏翼; 任寰
Original assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2012-10-26
Filing date: 2012-10-26
Publication date: 2017-03-08
Anticipated expiration: 2032-10-26
Also published as: CN103064873A

Abstract

本发明公开了一种网页质量数据获取方法，其中该方法包括：浏览器接收用户要访问的网页的统一资源定位符URL，并且加载该页面；浏览器对页面内容进行散列计算得到散列值；浏览器将URL和散列值发送给服务器；服务器根据所述URL和散列值获取相关网页质量数据并返回给浏览器；浏览器从服务器接收返回的质量数据，并显示该数据。利用本发明的方案，用户可以了解网页的制作质量，从而可以提高网上浏览速率。

Description

一种网页质量数据获取方法和系统

技术领域

本发明涉及数据处理技术领域，具体地涉及一种网页质量数据获取方法和系统。

背景技术

万维网联盟(World Wide Web Consortium，缩写W3C)，又称W3C理事会。W3C组织是对网络标准制定的一个非赢利组织，像HTML、XHTML、CSS、XML的标准就是由W3C来定制。W3C是专门致力于创建Web相关技术标准并促进Web向更深、更广发展的国际组织。到目前为止，W3C已开发了超过50个规范(草案)。这些规范(草案)包括人们早已耳熟能详的HTML、HTTP、URIs、XML等，也包括针对语义Web的RDF、OWL等。

WEB标准不是某一个标准，而是一系列标准的集合。网页主要由三部分组成：结构(Structure)、表现(Presentation)和行为(Behavior)。对应的标准也分三方面：结构化标准语言主要包括XHTML和XML，表现标准语言主要包括CSS，行为标准主要包括对象模型(如W3C DOM)、ECMAScript等。这些标准大部分由W3C起草和发布。

按照W3C标准来设计网站将带来以下好处：

1)对网站浏览者的好处包括：文件下载与页面显示速度更快；内容能被更多的用户所访问(包括失明、视弱、色盲等残障人士)；内容能被更广泛的设备所访问(包括屏幕阅读机、手持设备、搜索机器人、打印机、电冰箱等等)；用户能够通过样式选择定制自己的表现界面；所有页面都能提供适于打印的版本。

2)对网站所有者的好处包括：更少的代码和组件，容易维护；带宽要求降低(代码更简洁)，成本降低。举个例子：当ESPN.com使用CSS改版后，每天节约超过两兆字节(terabytes)的带宽；更容易被搜寻引擎搜索到；改版方便，不需要变动页面内容；提供打印版本而不需要复制内容；提高网站易用性。在美国，有严格的法律条款(Section 508)来约束政府网站必须达到一定的易用性，其他国家也有类似的要求。

现有技术中，用户通过浏览器浏览各个网站。然而各个网站制作质量良莠不齐，缺乏质量标识。用户盲目地浏览网页将不可避免地在制作质量很差的网站上耗费精力和时间。

有一些网站会进行W3C标准的验证和质量数据的获取，并把验证通过信息或者质量数据显示于网页上，供用户参考。然而这依赖于网站的个体行为，无法要求每个网站都提供类似的基于W3C标准的质量数据。并且，现有的质量数据计算机制之间各有差异，虽然都基于W3C标准，然而各项分值设置不同，造成各种质量数据之间的差异。从而采用不同质量数据计算机制的网站给出的质量数据之间可比性不高。当然，W3C仅是众多标准中的一种主要标准，网站也可基于其他标准进行验证和获取质量数据。

综上所述，现有技术中，用户不能有效地获取网页质量数据，从而造成浏览网页的盲目和效率低下。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的网页质量数据获取方法和相应的网页质量数据获取系统。依据本发明的一个方面，提供了一种网页质量数据获取方法，该方法包括：浏览器接收用户要访问的网页的统一资源定位符URL，并且加载该页面；浏览器对页面内容进行散列计算得到散列值；浏览器将URL和散列值发送给服务器；服务器根据所述URL和散列值获取相关网页质量数据并返回给浏览器；浏览器从服务器接收返回的质量数据，并显示该数据。

可选地，服务器在接收到URL和散列值之后，在质量数据管理表中查找对应的散列值，如果表中有该散列值，则服务器返回与该散列值对应的质量数据。

可选地，服务器在接收到URL和散列值之后，在质量数据管理表中查找对应的散列值，如果表中没有查到该散列值，则服务器根据该URL获取网页，并计算该网页的质量数据。

可选地，服务器在计算得到质量数据之后，判断表中是否具有与该URL对应的质量数据，如果有，则利用计算得到的质量数据来更新表中已有的质量数据，如果没有，则新建表项，存储与该URL、散列值相对应的质量数据。

可选地，服务器在接收到URL和散列值之后，在质量数据管理表中查找对应的散列值，如果表中没有查到该散列值，则服务器向浏览器返回相关数据。

可选地，相关数据包括预设时间段内针对该URL产生的质量数据。

可选地，质量数据为评分。

可选地，评分为万维网联盟W3C评分，相关数据包括该URL的上级域名或上级目录的评分。

可选地，服务器分析各个网页的评分，在新标签页中给出按评分得到的网页排序，或者给出按照评分的网页推荐。

可选地，当用户搜索某一关键词时，将搜索列表网页按照评分排序进行呈现。

根据本发明的另一方面，提供了一种网页质量数据获取系统，该系统包括：浏览器，用于接收用户要访问的网页的统一资源定位符URL，并且加载该页面，根据页面内容计算散列值，将URL和散列值发送给服务器，并显示从服务器接收的质量数据；服务器，服务器根据URL和散列值获取相关网页质量数据并返回给浏览器。

可选地，质量数据为评分。

可选地，评分为万维网联盟W3C评分，相关数据是包括该URL的上级域名或上级目录的评分。

根据本发明的再一方面，提供了一种浏览器，包括：数据获取单元，用于接收用户要访问的网页的统一资源定位符URL，并且加载该页面；计算单元，用于对页面内容进行散列计算得到散列值；通信单元，用于将URL和散列值发送给服务器，并接收服务器根据URL和散列值获取的相关网页质量数据；显示单元，用于显示质量数据。

根据本发明的再一方面，提供了一种网页质量数据获取方法，包括：接收用户要访问的网页的统一资源定位符URL，并且加载该页面；对页面内容进行散列计算得到散列值；将URL和散列值发送给服务器；接收服务器根据URL和散列值获取的相关网页质量数据；显示质量数据。

根据本发明的再一方面，提供了一种服务器，其包括：通信单元，用于从浏览器接收统一资源定位符URL和散列值并将获取的相关网页质量数据返回给浏览器，该散列值是浏览器根据从用户接收的URL进行页面加载，对页面内容进行散列计算得到的；存储单元，用于存储网页质量数据；质量数据获取单元，用于根据URL和散列值获取相关网页质量数据。

可选地，存储单元通过质量数据管理表来管理质量数据，质量数据获取单元在接收到URL和散列值之后，在质量数据管理表中查找对应的散列值，如果表中有该散列值，则服务器返回与该散列值对应的质量数据。

可选地，存储单元通过质量数据管理表来管理质量数据，质量数据获取单元在接收到URL和散列值之后，在质量数据管理表中查找对应的散列值，如果表中没有查到该散列值，则质量数据获取单元根据该URL获取网页，并根据W3C标准来计算该网页的质量数据。

可选地，质量数据获取单元在计算得到质量数据之后，判断质量数据管理表中是否具有与该URL对应的质量数据，如果有，则利用计算得到的质量数据来更新表中已有的质量数据，如果没有，则新建表项，存储与该URL、散列值相对应的质量数据。

可选地，存储单元通过质量数据管理表来管理质量数据，质量数据获取单元在接收到URL和散列值之后，在质量数据管理表中查找对应的散列值，如果表中没有查到该散列值，则质量数据获取单元向浏览器返回相关数据。

根据本发明的再一方面，提供了一种网页质量数据获取方法，其包括：从浏览器接收统一资源定位符URL和散列值，该散列值是浏览器根据从用户接收的URL进行页面加载，对页面内容进行散列计算得到的；存储网页质量数据；根据URL和散列值获取相关网页质量数据并返回给浏览器。

可选地，通过质量数据管理表来管理质量数据，在接收到URL和散列值之后，在质量数据管理表中查找对应的散列值，如果表中有该散列值，则返回与该散列值对应的质量数据。

可选地，通过质量数据管理表来管理质量数据，质量数据获取单元在接收到URL和散列值之后，在质量数据管理表中查找对应的散列值，如果表中没有查到该散列值，则根据该URL获取网页，并计算该网页的质量数据。

可选地，在计算得到质量数据之后，判断质量数据管理表中是否具有与该URL对应的质量数据，如果有，则利用计算得到的质量数据来更新表中已有的质量数据，如果没有，则新建表项，存储与该URL、散列值相对应的质量数据。

可选地，通过质量数据管理表来管理质量数据，在接收到URL和散列值之后，在质量数据管理表中查找对应的散列值，如果表中没有查到该散列值，则质量数据获取单元向浏览器返回相关数据。

根据本发明的网页质量数据获取方法和系统，用户可以对网页的制作质量有所了解，从而提高网上浏览的效率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1A示出了根据本发明一个实施例的网页质量数据获取方法的基本流程图；

图1B示出了根据本发明另一个实施例的本发明网页质量数据获取方法的详细流程图；

图2示出了根据本发明一个实施例的网页质量数据获取系统结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明提供一种网页质量数据获取方法和系统，解决用户无法获得网页质量数据，从而网上浏览效率低下的问题。

图1A为根据本发明一个实施例的网页质量数据获取方法的基本流程图。

参照图1，该方法包括：步骤S100，浏览器接收用户要访问的网页的统一资源定位符URL，并且加载该页面；步骤S110，浏览器对页面内容进行散列计算得到散列值；步骤S120，浏览器将URL和散列值发送给服务器；步骤S130，服务器根据所述URL和散列值获取相关网页质量数据并返回给浏览器；步骤S140，浏览器从服务器接收返回的质量数据，并显示该数据。

其中在步骤S110，散列计算采用MD5算法，MD5即Message-DigestAlgorithm5(信息-摘要算法5)，用于确保信息传输完整一致，是计算机广泛使用的杂凑算法之一，MD5又译摘要算法、哈希算法，主流编程语言普遍由MD5实现。将数据(如汉字)运算为另一固定长度值，是杂凑算法的基础原理，MD5的前身有MD2、MD3和MD4。MD5的作用是让大容量信息在用数字签名软件签署私人密钥前被″压缩″成一种保密的格式(就是把一个任意长度的字节串变换成一定长的十六进制数字串)。除了MD5以外，也可以采用其他算法，比如sha-1、RIPEMD以及Haval等。下面以MD5为例进行说明，当然也可采用其他算法。

图1B示出了根据本发明另一个实施例中网页质量数据获取方法的详细流程图。根据图1A，在步骤S130服务器根据所述URL和散列值获取相关网页质量数据并返回给浏览器，参照图1B，该步骤进一步包括以下各步骤：

在步骤S131，服务器接收到URL和MD5之后，首先在质量数据管理表中查找是否有对应的MD5。

质量数据管理表例如是如下形式：

在该表格中，每一行列出URL、MD5、质量数据以及质量数据获取时间。如上表中例示，该时间可以是一个时间戳。该表仅为示例，根据实际情况，该质量数据管理表中可以包含其他信息，也可以不包含上述信息中的一项或多项。

具体来说，根据该表格中的信息，服务器还可以对数据进行处理以提炼出一些其他的信息。例如，根据时间可以提炼出趋势信息，根据逐级的目录和域名可以综合得到该目录或域名的总分(平均分)。服务器还可以提炼出其他各类信息。

在步骤S131如果服务器根据质量数据管理表查找到该MD5，则转到步骤S132，服务器向浏览器返回质量数据以及相关信息以进行显示，质量数据例如是评分，相关信息例如是上述趋势信息等信息。

在步骤S131如果服务器根据质量数据管理表未查找到该MD5，则执行步骤S133，服务器向浏览器返回相关数据以进行显示。相关数据例如是质量管理数据表中同一URL的质量数据、该URL的某一级别目录的总分、域名总分等。也可以返回上述相关数据的相关信息，例如上述质量数据的趋势等。服务器也可以不返回上述内容。另外，如果没有相关数据，则服务器返回空，或返回没有相关数据的提示信息。也就是说，步骤S133是可选的。

其中，服务器在向浏览器返回质量数据表中同一URL的质量数据时，也可能需要设置时间阈值(例如1天)，即在该时间阈值内有对该URL的质量数据时，向浏览器返回该质量数据。

在上述步骤之后执行步骤S134，即为该MD5计算质量数据，即根据对应的URL获取网页，然后由特定算法计算该网页根据W3C标准的质量数据，本发明不限于基于W3C标准获取质量数据，也可以是基于其他标准在步骤134计算质量数据之后，在步骤S135，服务器判断质量数据表中是否记载过与从浏览器接收的URL相同的URL，如果表中记载过同一URL，则转至步骤S136更新表项，使用在步骤S134计算的该URL的MD5、质量数据和质量数据获取时间更新表中原来的内容，可以同时保留原来的数据，以供对其进行进一步的分析。如果原表中没有记载过同一URL，则转至步骤S137新建表项，存储该URL、MD5、质量数据、质量数据获取时间以及其他相关信息。

在步骤S140浏览器对接收到的信息进行显示，呈现给用户。请注意，也可以在此不向浏览器返回该质量数据，而是仅存储在表中，以供以后使用。

在上述描述的本发明的方法流程中，可根据实际需要制定各种不同的返回策略，例如：1)在质量数据表中，如果有该MD5，则返回与该MD5对应的质量数据以及相关信息，没有的不返回信息；2)在质量数据表中没有该MD5的，可以返回同一URL的相关数据，可以返回对应的某级目录的相关数据，也可以返回对应域名的相关数据。对于以上返回信息可以预设一个时间值(如1天)，在该时间范围内才返回相关数据。返回的相关数据可以包括质量数据、目录质量数据、域名质量数据等等。也可以同时返回上述数据的例如趋势信息等的相关信息。

另外，由于服务器分析了各个网页的W3C质量数据，因而它也可以例如在新标签页中给出按质量数据(例如评分)得到的网页排序，或者给出依据于质量数据的网页推荐。这种质量数据获取体系也可以结合搜索使用，当用户搜索某一关键词时，将搜索列表网页按质量数据排序进行呈现。

图2为本发明网页质量数据获取系统结构框图。参照图2，该系统包括一种网页质量数据获取系统，该系统包括浏览器和服务器。浏览器用于接收用户要访问的URL，并且加载该页面，根据页面内容进行散列计算得到散列值，该散列值例如是MD5，也可以是通过其他算法得到的散列值，下面以MD5为例进行说明。浏览器将URL和MD5发送给服务器，并显示从服务器接收的质量数据。服务器根据所述URL和MD5获取相关网页质量数据并返回给浏览器。

其中浏览器进一步包括：数据获取单元201，用于接收用户要访问的URL，并且加载该页面；计算单元202，用于根据页面内容计算MD5；通信单元203，用于将URL和MD5发送给服务器，并接收服务器根据所述URL和MD5获取的相关网页质量数据；显示单元204，用于显示所述质量数据。

服务器进一步包括：通信单元205，用于从浏览器接收URL和MD5并将获取的相关网页质量数据返回给浏览器；存储单元207，用于存储网页质量数据；质量数据获取单元206，用于根据所述URL和MD5获取相关网页质量数据。

该存储单元207通过质量数据管理表来管理质量数据，质量数据获取单元206在接收到URL和MD5之后，在存储单元207的质量数据管理表中查找对应的MD5，如果表中有该MD5，则服务器返回与该MD5对应的质量数据。

如果表中没有查到该MD5，则质量数据获取单元206可以向浏览器返回相关数据，并且质量数据获取单元206可以根据该URL获取网页，并根据W3C标准来计算该网页的质量数据，质量数据获取单元206在计算得到质量数据之后，判断存储单元207中的质量数据管理表中是否具有与该URL对应的质量数据，如果有，则利用计算得到的质量数据来更新表中已有的质量数据，如果没有，则新建表项，存储与该URL、MD5相对应的质量数据。

质量数据获取单元206在返回相关数据时，同时设置一时间阈值，在该时间阈值内如果有针对该URL的质量数据产生，则返回该质量数据。

根据本发明提供的网页质量数据获取方法和系统，用户可以得到基于W3C标准的网页质量数据，可以对于该网页的制作质量有所了解，从而提高网上浏览的效率。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的网页质量数据获取方法中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种网页质量数据获取方法，该方法包括：

浏览器接收用户要访问的统一资源定位符URL，并且加载该页面；

浏览器对页面内容进行散列计算得到散列值；

浏览器将URL和散列值发送给服务器；

服务器根据所述URL和散列值获取相关网页质量数据并返回给浏览器；

浏览器从服务器接收返回的质量数据，并显示该数据；

服务器在计算得到质量数据之后，判断质量数据管理表中是否具有与该URL对应的质量数据，如果有，则利用计算得到的质量数据来更新表中已有的质量数据，如果没有，则新建表项，存储与该URL、散列值相对应的质量数据。

2.如权利要求1所述的方法，服务器在接收到URL和散列值之后，在质量数据管理表中查找对应的散列值，如果表中有该散列值，则服务器返回与该散列值对应的质量数据。

3.如权利要求1所述的方法，服务器在接收到URL和散列值之后，在质量数据管理表中查找对应的散列值，如果表中没有查到该散列值，则服务器根据该URL获取网页，并计算该网页的质量数据。

4.如权利要求1所述的方法，服务器在接收到URL和散列值之后，在质量数据管理表中查找对应的散列值，如果表中没有查到该散列值，则服务器向浏览器返回相关数据。

5.如权利要求4所述的方法，所述相关数据包括预设时间段内针对该URL产生的质量数据。

6.如权利要求4所述的方法，所述质量数据为评分；所述评分为万维网联盟W3C评分，所述相关数据包括该URL的上级域名或上级目录的评分。

7.如权利要求6所述的方法，服务器分析各个网页的评分，在新标签页中给出按评分得到的网页排序，或者给出按照评分的网页推荐。

8.如权利要求6所述的方法，当用户搜索某一关键词时，将搜索列表网页按照评分排序进行呈现。

9.一种网页质量数据获取系统，该系统包括：

浏览器，用于接收用户要访问的网页的统一资源定位符URL，并且加载该页面，根据页面内容计算散列值，将URL和散列值发送给服务器，并显示从服务器接收的质量数据；

服务器，服务器根据所述URL和散列值获取相关网页质量数据并返回给浏览器；服务器在计算得到质量数据之后，判断质量数据管理表中是否具有与该URL对应的质量数据，如果有，则利用计算得到的质量数据来更新表中已有的质量数据，如果没有，则新建表项，存储与该URL、散列值相对应的质量数据。

10.如权利要求9所述的系统，服务器在接收到URL和散列值之后，在质量数据管理表中查找对应的散列值，如果表中有该散列值，则服务器返回与该散列值对应的质量数据。

11.如权利要求9所述的系统，服务器在接收到URL和散列值之后，在质量数据管理表中查找对应的散列值，如果表中没有查到该散列值，则服务器根据该URL获取网页，并计算该网页的质量数据。

12.如权利要求9所述的系统，服务器在接收到URL和散列值之后，在质量数据管理表中查找对应的散列值，如果表中没有查到该散列值，则服务器向浏览器返回相关数据。

13.如权利要求12所述的系统，所述相关数据包括预设时间段内针对该URL产生的质量数据。

14.如权利要求13所述的系统，所述质量数据为评分；所述评分为万维网联盟W3C评分，所述相关数据是包括该URL的上级域名或上级目录的评分。

15.如权利要求14所述的系统，服务器分析各个网页的评分，在新标签页中给出按评分得到的网页排序，或者给出按照评分的网页推荐。