CN103605770A - 网页模板生成方法和服务器 - Google Patents

网页模板生成方法和服务器 Download PDF

Info

Publication number
CN103605770A
CN103605770A CN201310612915.3A CN201310612915A CN103605770A CN 103605770 A CN103605770 A CN 103605770A CN 201310612915 A CN201310612915 A CN 201310612915A CN 103605770 A CN103605770 A CN 103605770A
Authority
CN
China
Prior art keywords
web page
template
page template
coverage rate
threshold value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310612915.3A
Other languages
English (en)
Inventor
翟光亚
郑海洪
周向根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ucweb Inc
Original Assignee
Ucweb Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ucweb Inc filed Critical Ucweb Inc
Priority to CN201310612915.3A priority Critical patent/CN103605770A/zh
Publication of CN103605770A publication Critical patent/CN103605770A/zh
Priority to PCT/CN2014/087822 priority patent/WO2015078231A1/zh
Priority to US15/156,753 priority patent/US10747951B2/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种网页模板生成方法和服务器。该网页模板生成方法包括:采集网页的网页数据,根据网页数据生成网页的网页模板。通过本发明,解决了现有技术中的网页模板生成方法对目标网站依赖性比较强的问题,降低了网页模板生成方法对目标网站的依赖性。

Description

网页模板生成方法和服务器
技术领域
本发明涉及移动浏览器领域,具体而言,涉及一种网页模板生成方法和服务器。
背景技术
针对网页浏览,在现有技术中提出了一种压缩技术,通过扩展HTTP请求,允许网站提供模板和增量文件,在客户端访问相同模板网页时,仅第一次需要下载模板,其它请求仅需要下载增量文件,使用增量文件和模板文件重建原始页面,从而减少客户端的访问流量。因此,该技术可以利用多网页之间的相同部分来压缩流量。
发明人发现该技术的缺陷在于目标网站必须支持该协议,对目标网站的依赖性比较强,并且需要目标网站自己提供模板和对应的增量文件,这也是该压缩技术不能广泛推广的原因之一。
另外,现有技术的自动生成模板的方式主要是依据解析网页DOM(DocumentObject Model)树结构,提取公共部分,此方法计算量大,不易提取,兼容性不强。而且,现有的常用的模板生成程序是对单个网站的,处理规模小。
针对现有技术中的网页模板生成方法对目标网站依赖性比较强的问题,目前尚未提出有效的解决方案。
发明内容
本发明的主要目的在于提供一种网页模板生成方法和服务器,以解决现有技术中的网页模板生成方法对目标网站依赖性比较强的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种网页模板生成方法。根据本发明的网页模板生成方法包括:采集网页的网页数据;根据网页数据生成网页的网页模板;根据生成的网页模板生成模板索引。
进一步地,在根据网页数据生成网页的网页模板之后,网页模板生成方法还包括:向提供网页模板的多个模板服务器发布网页模板和模板索引;多个模板服务器分别存储网页模板和模板索引;多个模板服务器中的第一模板服务器利用模板索引检索与网页匹配的网页模板,向多个模板服务器中除第一模板服务器之外的其它模板服务器提供与网页匹配的模板。
进一步地,向提供网页模板的多个模板服务器发布网页模板和模板索引包括:在生成多个网页模板和模板索引之后;计算多个网页模板的集合与历史模板集合的整体差异率;判断整体差异率是否大于预设整体差异率阈值;如果判断出整体差异率大于预设整体差异率阈值,则发布网页模板和模板索引;如果判断出整体差异率不大于预设整体差异率阈值,则不发布网页模板和模板索引。
进一步地,根据生成的网页模板生成模板索引包括:选取质量符合预定质量条件的模板;确定模板适用的URL路径;从URL路径中选取质量符合预定质量条件的模板适用的URL路径;将选取的路径转换成模板索引。
进一步地,在根据网页数据生成网页的网页模板之后,网页模板生成方法还包括:判断网页模板的数量是否达到预设数量;如果判断出网页模板的数量达到预设数量,则计算每个网页模板的覆盖率;将覆盖率小于第一预设覆盖率阈值的网页模板与大于第一预设覆盖率阈值的网页模板进行对比;如果小于第一预设覆盖率阈值的网页模板与大于第一预设覆盖率阈值的网页模板的差异率小于预设差异率阈值,则将小于第一预设覆盖率阈值的网页模板与大于第一预设覆盖率阈值的网页模板合并。
进一步地,将覆盖率小于第一预设覆盖率阈值的网页模板与大于第一预设覆盖率阈值的网页模板进行对比包括:将多个网页模板按照覆盖率大小进行由大到小的排序;将排在后面的网页模板与排在前面的网页模板进行对比。
进一步地,根据生成的网页模板生成模板索引包括:存储多个网页模板;计算每个网页模板的覆盖率;判断每个路径下的网页模板的覆盖率的总和是否达到第二预设覆盖率阈值;删除网页模板的覆盖率的总和未达到第二预设覆盖率阈值的路径下的网页模板。
为了实现上述目的,根据本发明的另一方面,提供了一种网页模板生成服务器。根据本发明的网页模板生成服务器包括:采集单元,用于采集网页的网页数据;生成单元,用于根据网页数据生成网页的网页模板;索引单元,用于根据生成的网页模板生成模板索引。
进一步地,网页模板生成服务器还包括:发布单元,用于在根据网页数据生成网页的网页模板之后,向提供网页模板的多个模板服务器发布网页模板和模板索引;存储单元,用于在多个模板服务器分别存储网页模板和模板索引;模板检索单元,用于利用模板索引检索与网页匹配的网页模板,向其它服务器提供与网页匹配的模板。
进一步地,发布单元包括:计算模块,用于计算多个网页模板的集合与历史模板集合的整体差异率;判断模块,用于判断整体差异率是否大于预设整体差异率阈值;发布模块,用于在判断出整体差异率大于预设整体差异率阈值,发布网页模板,在判断出整体差异率不大于预设整体差异率阈值,不发布网页模板。
进一步地,索引单元包括:模板选取模块,用于选取质量符合预定质量条件的模板;模板路径推导模块,用于确定模板适用的URL路径;模板路径剪枝模块,用于从URL路径中选取质量符合预定质量条件的模板适用的URL路径;模板索引生成模块,用于将选取的路径转换成模板索引。
进一步地,网页模板生成服务器还包括:判断单元,用于在根据网页数据生成网页的网页模板之后判断网页模板的数量是否达到预设数量;计算单元,用于在判断出网页模板的数量达到预设数量时,计算每个网页模板的覆盖率;对比单元,用于将覆盖率小于第一预设覆盖率阈值的网页模板与大于第一预设覆盖率阈值的网页模板进行对比;合并单元,用于在小于第一预设覆盖率阈值的网页模板与大于第一预设覆盖率阈值的网页模板的差异率小于预设差异率阈值,将小于第一预设覆盖率阈值的网页模板与大于第一预设覆盖率阈值的网页模板合并。
进一步地,对比单元包括:排序模块,用于将多个网页模板按照覆盖率大小进行由大到小的排序;对比模块,用于将排在后面的网页模板与排在前面的网页模板进行对比。
进一步地,索引单元包括:存储模块,用于在根据网页数据生成网页的网页模板之后,存储多个网页模板;计算模块,用于计算每个网页模板的覆盖率;第三判断模块,用于判断每个路径下的网页模板的覆盖率的总和是否达到第二预设覆盖率阈值;删除模块,用于删除网页模板的覆盖率的总和未达到第二预设覆盖率阈值的路径下的网页模板。
通过本发明,采用采集网页的网页数据,根据网页数据生成网页的网页模板,解决了现有技术中的网页模板生成方法对目标网站依赖性比较强的问题,进而达到了降低网页模板生成方法对目标网站的依赖性的效果。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明第一实施例的网页模板生成方法的流程图;
图2是根据本发明第二实施例的网页模板生成方法的流程图;
图3是根据本发明第三实施例的网页模板生成方法的流程图;
图4是根据本发明第四实施例的网页模板生成方法的流程图;
图5是根据本发明第一实施例的网页模板生成服务器的示意图;
图6是根据本发明第二实施例的网页模板生成服务器的示意图;
图7是根据本发明第三实施例的网页模板生成服务器的示意图;以及
图8是根据本发明第四实施例的网页模板生成服务器的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例提供了一种网页模板生成方法。
图1是根据本发明第一实施例的网页模板生成方法的流程图。如图所示,该网页模板生成方法包括如下步骤:
步骤S101,采集网页的网页数据。采集网页的网页数据是需要浏览网页的网页数据,网页的网页数据来自一个客户端或多个客户端,采集网页的网页数据可以是来自一个客户端的一个或者多个网页的网页数据,采集网页的网页数据还可以是相同域名或不同域名下网页的数据。存储这些采集到的网页数据。
需要说明的是,采集网页的网页数据可以根据用户浏览网页的需要进行采集,上述网页的网页数据的来源只是为了举例说明可以采集上述来源的网页的数据,并不用于限定在采集网页的网页数据过程中一定要采集上述所有网页来源的所有网页的网页数据。
步骤S102,根据采集到的网页数据生成该网页的网页模板。
生成网页模板可以利用一种局部敏感的哈希算法(simhash)算法计算生成。具体地,可以利用simhash算法对网页数据生成一个N位的哈希值,对生成的N位哈希值通过随机散列取前缀的方法生成T个标签值,对每个标签值从同域名下的网页模板中查找网页模板,如果找到合适的网页模板,可以将查找到的网页模板作为需要浏览网页的网页模板进行增量数据的传输,如果没有找到合适的网页模板,可以将需要浏览的网页模板作为网页模板存储在模板库中。
步骤S103,根据生成的网页模板生成模板索引。为了模板调用方便,根据生成的网页模板生成模板索引,利用模板索引查找匹配的网页模板。
由于通过上述方法生成的网页模板可能会导致出现相同或相似的网页模板,这些相同或相似的模板可能存储在不同的客户端中,为了使得到的网页模板减少存储空间的占用以及使得得到的网页模板更加有代表性,可以保留相同或相似的网页模板中的其中一个,将其余相同或相似的模板删除。
在该实施例中,在建立网页模板时,可以利用采集到的网页数据建立该网页的网页模板,这样,模板的建立不依赖于特定的目标网站,降低了对目标网站的依赖性,能够针对任何的目标网站建立相应的网页模板。
图2是根据本发明第二实施例的网页模板生成方法的流程图。如图所述,该网页模板生成方法包括如下步骤:
步骤S201,采集网页的网页数据。采集网页的网页数据可以是需要浏览网页的网页数据,网页的网页数据可以来自一个客户端或多个客户端,采集网页的网页数据可以是来自一个客户端的一个或者多个网页的网页数据,采集网页的网页数据还可以是相同域名或不同域名下网页的数据。
需要说明的是,采集网页的网页数据可以根据用户浏览网页的需要进行采集,上述网页的网页数据的来源只是为了举例说明可以采集上述来源的网页的数据,并不用于限定在采集网页的网页数据过程中一定要采集上述所有网页来源的所有网页的网页数据。
步骤S202,根据采集到的网页数据生成该网页的网页模板。
由于通过上述步骤生成的模板不止一个,为了能够获得与用户浏览的网页匹配的网页模板,还需要对生成的网页模板进行筛选。为了筛选方便,首先执行以下步骤S203至步骤S205。
步骤S203,向提供网页模板的多个模板服务器发布网页模板和模板索引。在根据网页数据生成网页的网页模板之后,可以向提供网页模板的多个模板服务器发布网页模板。其中,多个模板服务器可以向不同的网站提供网页模板。
步骤S204,多个模板服务器分别存储网页模板和模板索引。多个模板服务器分别存储接收到的网页模板,这样,在多个模板服务器中的每个模板服务器中都存在网页模板,需要在该网页模板的基础上传输网页数据的时候,可以选择多个模板服务器中的网络状况较好的模板服务器中的网页模板进行增量数据的传输,从而增加了调用网页模板的方便性和可靠性。
步骤S205,多个模板服务器中的第一模板服务器利用模板索引检索与网页匹配的网页模板,向该多个模板服务器中除第一模板服务器外的其它模板服务器提供与网页匹配的模板,第一模板服务器可以为多个模板服务器中的任意一个模板服务器。利用模板索引快速确定一个网页请求是否匹配服务器中存储的网页模板,并且根据请求网页的网址确定匹配的网页模板。在确定与网页匹配的网页模板之后,将匹配的网页模板发送至其他模板服务器。
考虑到上述过程要处理的数据量极大,可以使用Hadoop等分布式计算框架构建程序,使用HBase等大数据量存储服务。另外,为了增加可靠性,发明实施例的网页模板生成方法例如采集网页数据、生成网页模板、网页模板发布和网页模板检索等,都可以在多个服务器上部署,使得多个服务器协同服务,即本发明的网页模板生成服务器的功能可以由多个共同服务器完成。
图3是根据本发明第三实施例的网页模板生成方法的流程图。该图所示实施例可以作为图2所示实施例中步骤S203向提供网页模板的多个模板服务器发布网页模板和模板索引的优选实施方式,在执行图2所示步骤S202之后,执行以下步骤:
步骤S301,在生成多个网页模板之后,建立多个网页模板的索引。在生成多个网页模板之后,为了方便查找网页模板建立多个网页模板索引。网页模板索引可以通过网址或者域名来索引网页模板。具体地,为了提高索引网页模板的准确性,可以利用生成行标签值或者域名的MD5值获得网页模板的索引。
步骤S302,计算多个网页模板的集合与历史模板集合的整体差异率。为了避免网页模板的变动较小时更换网页模板重新生成增量文件而造成的资源浪费,因此计算多个网页模板的集合与历史模板集合的整体差异率。
步骤S303,判断整体差异率是否大于预设整体差异率阈值。判断多个网页模板的集合与历史模板集合的整体差异率是否大于预设整体差异率阈值,如果多个网页模板的集合与历史模板集合的整体差异率大于预设整体差异率阈值,则网页模板变动较大,直接发布网页模板,如果多个网页模板的集合与历史模板集合的整体差异率小于预设整体差异率阈值,则网页模板变动较小,不发布网页模板。
步骤S304,如果判断出整体差异率大于预设整体差异率阈值,则发布网页模板。如果多个网页模板的集合与历史模板集合的整体差异率大于预设整体差异阈值,表示生成的多个网页模板的集合较历史模板集合的变动较大,可以发布网页模板。
步骤S305,如果判断出整体差异率不大于预设整体差异率阈值,则不发布网页模板。如果多个网页模板的集合与历史模板集合的整体差异率小于预设整体差异阈值,表示生成的多个网页模板的集合较历史模板集合的变动较小,可以基于历史模板进行增量文件传输,可以不发布网页模板。
为了方便在生成的网页模板中与网页匹配的网页模板,根据生成的网页模板生成模板索引,生成模板索引的方法如下:
首先,选取质量符合预定质量条件的模板。在生成的网页模板中查找符合预定质量条件的模板,其中,预定质量条件可以是模板对用户访问的网页的覆盖率大于预定阈值,质量符合预定质量条件的模板相较于质量不符合预定质量条件的模板能够节约差量数据的传输量。
其次,确定模板适用的URL路径。根据模板使用的URL路径查找该路径下的所有网页模板,从而能够提高查找网页模板的速度。
再次,从URL路径中选取质量符合预定质量条件的模板适用的URL路径。由于短路径的模板的覆盖度更好,因此查找URL路径可以从距离根目录最近的短路径开始查找。
最后,将选取的路径转换成模板索引。将根据URL路径选取的网页模板的路径与用户访问的网页相对应,形成模板索引。
图4是根据本发明第四实施例的网页模板生成方法的流程图。如图所示,该图所示实施例可以作为图1所示实施例的优选实施方式,具体步骤如下:
步骤S401,采集网页的网页数据。采集网页的网页数据可以是需要浏览网页的网页数据,网页的网页数据可以来自一个客户端或多个客户端,采集网页的网页数据可以是来自一个客户端的一个或者多个网页的网页数据,采集网页的网页数据还可以是相同域名或不同域名下网页的数据。
步骤S402,判断网页模板的数量是否达到预设数量。在根据网页数据生成网页的网页模板之后,需要判断网页模板的数量是否达到预设数量,如果判断出网页模板的数量没有达到预设数量,可以继续根据网页数据生成网页的网页模板,如果判断出网页模板的数量达到预设数量,可以计算每个网页模板的覆盖率。
步骤S403,如果判断出网页模板的数量达到预设数量,则计算每个网页模板的覆盖率。模板覆盖率是衡量生成的网页模板质量的重要指标,模板覆盖率可以是一个网站内,网页模板能够应用到网站内的网页上的数量与该网站全部网页数量的比值,模板覆盖率越大,能应用到该网站内网页的数量也就越多。模板覆盖率不仅可以衡量一个网站的网站模板质量,还可以衡量某一个路径下的网页模板的质量。例如,某个网页模板的网站覆盖率不是很高,但是在某个路径下的覆盖率很高,该网页模板在实际应用中也能达到很好的效果。
步骤S404,将覆盖率小于第一预设覆盖率阈值的网页模板与大于第一预设覆盖率阈值的网页模板进行对比。在计算出每个网页模板的覆盖率之后,为了避免网页模板变动较小的情况下重新选择相似的网页模板进行增量文件传输,可以比较覆盖率小于第一预设覆盖率阈值的模板与覆盖率大于第一预设覆盖率阈值的网页模板。
步骤S405,如果小于第一预设覆盖率阈值的网页模板与大于第一预设覆盖率阈值的网页模板的差异率小于预设差异率阈值,则将小于第一预设覆盖率阈值的网页模板与大于第一预设覆盖率阈值的网页模板合并。小于第一预设覆盖率阈值的网页模板与大于第一预设覆盖率阈值的网页模板的差异率可以是两个模板以open-vcdiff算法算出两个网页模板的差值与小于第一预设覆盖率阈值的网页模板的大小的比值,小于第一预设覆盖率阈值的网页模板与大于第一预设覆盖率阈值的网页模板的差异率可以用来衡量小于第一预设覆盖率阈值的网页模板与大于第一预设覆盖率阈值的网页模板的差异程度。
如果小于第一预设覆盖率阈值的网页模板与大于第一预设覆盖率阈值的网页模板的差异率小于预设差异率阈值,则认为小于第一预设覆盖率阈值的网页模板与大于第一预设覆盖率阈值的网页模板相似,将小于第一预设覆盖率阈值的网页模板与大于第一预设覆盖率阈值的网页模板合并,合并的过程可以是将小于第一预设覆盖率阈值的网页模板的数据合并到大于第一预设覆盖率阈值的网页模板的数据中。
优选地,为了方便的将将覆盖率小于第一预设覆盖率阈值的网页模板与大于第一预设覆盖率阈值的网页模板进行对比,可以将多个网页模板按照覆盖率大小进行由大到小的排序,然后将排在后面的网页模板与排在前面的网页模板进行对比。
在对多个网页模板按照覆盖率大小进行由大到小的排序之后,通过对队列中的网页模板进行两两比较或者逐个比较,能够将网页模板的差异率小于预设差异率阈值的网页模板合并。
在将网页模板的差异率小于预设差异率阈值的网页模板合并之后,根据网页的网址或者域名得到网页模板索引将该网页模板数据和网页模板索引都发布出去。
为了方便存储和调用,优选地,根据生成的网页模板生成模板索引包括如下步骤:
步骤S501,存储多个网页模板。为了方便模板的调用,在生成网页的网页模板之后,存储生成的多个网页模板。
步骤S502,计算每个网页模板的覆盖率。由于接近根目录的模板通常具有更好的覆盖率,查找模板的时候优先处理接近根目录的模板,因此在计算多个网页模板的时候,首先将生成的网页模板按照路径深度进行排序,短路径相对于深路径的网页模板的排列位置更靠近根目录。
由于已经对多个网页模板按照路径深度进行排序,在计算每个网页模板的覆盖率时可以计算一个路径下每个网页模板的覆盖率。其中,每个网页模板的覆盖率可以是该网页模板相对于整个路径下的所有网页模板的覆盖率。
为了便于使用覆盖率较大的网页模板进行增量文件的传输,可以按覆盖率从高到低进行排序。同时,在同一路径下网页模板数量较多时,可以按照路径深度从长到短的顺序截取一定数量的网页模板,避免同一路径下网页模板数量较多降低计算速度。
步骤S503,判断每个路径下的网页模板的覆盖率的总和是否达到第二预设覆盖率阈值。
在计算出每个网页模板的覆盖率之后,判断每个路径下的网页模板的覆盖率的总和是否达到第二预设覆盖率阈值,如果达到第二预设覆盖率阈值保留此路径;如果判断出每个路径下的网页模板的覆盖率总和没有达到第二预设覆盖率阈值,则将网页模板的覆盖率的总和未达到第二预设覆盖率阈值的路径下的网页模板删除。
步骤S504,删除网页模板的覆盖率的总和未达到第二预设覆盖率阈值的路径下的网页模板。由于网页模板的覆盖率的总和未达到第二预设覆盖率阈值,那么网页模板的覆盖率的总和未达到第二预设覆盖率阈值的路径下的网页模板都不需要再进行处理和使用,因此可以将网页模板的覆盖率的总和未达到第二预设覆盖率阈值的路径下的网页模板删除,以节省存储资源。
通过上述步骤S501至步骤S504能够根据生成的网页模板生成模板索引。从而在用户访问网页时可以利用模板索引查找匹配的网页模板。
图5是根据本发明第一实施例的网页模板生成服务器的示意图,该网页模板生成服务器可以和前述实施例中的模板服务器为同一个服务器。如图所示,该网页模板生成服务器包括采集单元10、生成单元30和索引单元60。
采集单元10用于采集网页的网页数据。采集网页的网页数据可以是需要浏览网页的网页数据,网页的网页数据可以来自一个客户端或多个客户端,采集网页的网页数据可以是来自一个客户端的一个或者多个网页的网页数据,采集网页的网页数据还可以是相同域名或不同域名下网页的数据。存储这些采集到的网页数据。
需要说明的是,采集网页的网页数据可以根据用户浏览网页的需要进行采集,上述网页的网页数据的来源只是为了举例说明可以采集上述来源的网页的数据,并不用于限定在采集网页的网页数据过程中一定要采集上述所有网页来源的所有网页的网页数据。
生成单元30用于根据采集到的网页数据生成该网页对应的模板,例如,可以根据网页的网页数据生成该网页的网页模板。
生成网页模板可以利用一种局部敏感的哈希算法(simhash)算法计算生成。具体地,可以利用simhash算法对网页数据生成一个N位的哈希值,对生成的N位哈希值通过随机散列取前缀的方法生成T个标签值,对每个标签值从同域名下的网页模板中查找网页模板,如果找到合适的网页模板,可以将查找到的网页模板作为需要浏览网页的网页模板进行增量数据的传输,如果没有找到合适的网页模板,可以将需要浏览的网页模板作为网页模板存储在模板库中。
索引单元60用于根据生成的网页模板生成模板索引。索引单元能够根据生成的网页模板可以建立网页模板的URL路径与模板的映射关系,将该映射关系作为模板索引。
由于通过上述方法生成的网页模板可能会导致出现相同或相似的网页模板,这些相同或相似的模板可能存储在不同的客户端中,为了使得到的网页模板减少存储空间的占用以及使得得到的网页模板更加有代表性,可以保留相同或相似的网页模板中的其中一个,将其余相同或相似的模板删除。
在该实施例中,在建立网页模板时,可以利用采集到的网页数据建立该网页的网页模板,这样,模板的建立不依赖于特定的目标网站,降低了对目标网站的依赖性,能够针对任何的目标网站建立相应的网页模板。
图6是根据本发明第二实施例的网页模板生成服务器的示意图。该实施例可以作为图5所示实施例的优选实施方式,如图所示,该网页模板生成服务器包括采集单元10、生成单元30、发布单元40、存储单元50、索引单元60和模板检索单元20。
发布单元40用于在根据网页数据生成网页的网页模板之后,向提供网页模板的多个模板服务器发布网页模板。在根据网页数据生成网页的网页模板之后,可以向提供网页模板的多个模板服务器发布网页模板。其中,多个模板服务器可以向多个网站发送网页模板,还可以采集来自多个网站的网页数据。
存储单元50用于在多个模板服务器分别存储网页模板。多个模板服务器分别存储接收到的网页模板,这样,在多个模板服务器中的每个模板服务器中都存在网页模板,需要在该网页模板的基础上传输网页数据的时候,可以选择多个模板服务器中的网络状况的模板服务器中的网页模板进行增量数据的传输,从而增加了基于网页模板加载网页数据的方便性和可靠性。
索引单元60用于根据生成的网页模板生成模板索引。索引单元能够根据生成的网页模板可以建立网页模板的URL路径与模板的映射关系,将该映射关系作为模板索引。
模板检索单元20用于利用模板索引检索与网页匹配的网页模板,向其它服务器提供与网页匹配的模板。利用模板索引快速确定一个网页请求是否匹配服务器中存储的网页模板,并且根据请求网页的网址确定匹配的网页模板。在多个模板生成服务器中的任意一个模板生成服务器在确定与网页匹配的网页模板之后,将匹配的网页模板发送至多个模板生成服务器中的其他服务器。
考虑到上述过程要处理的数据量极大,可以使用Hadoop等分布式计算框架构建程序,使用HBase等大数据量存储服务。另外,为了增加可靠性,发明实施例的网页模板生成方法例如采集网页数据、生成网页模板、网页模板发布和网页模板检索等,都可以在多个服务器上部署,使得多个服务器协同服务。即本发明的网页模板生成服务器的功能可以由多个共同服务器完成。不同的功能模板可以部署在不同的服务器中。也可以在不同的服务器中部署相同的功能模块。
优选地,为了生成模板索引,上述索引单元60包括模板选取模块、模板路径推导模块、模板路径剪枝模块和模板索引生成模块。
模板选取模块用于选取质量符合预定质量条件的模板。在生成的网页模板中查找符合预定质量条件的模板,其中,预定质量条件可以是模板对用户访问的网页的覆盖率大于预定阈值,质量符合预定质量条件的模板相较于质量不符合预定质量条件的模板能够节约差量数据的传输量。
模板路径推导模块用于确定模板适用的URL路径。根据模板使用的URL路径查找该路径下的所有网页模板,从而能够提高查找网页模板的速度。
模板路径剪枝模块用于从URL路径中选取质量符合预定质量条件的模板适用的URL路径。由于短路径的模板的覆盖度更好,因此查找URL路径可以从距离根目录最近的短路径开始查找。
模板索引生成模块用于将选取的路径转换成模板索引。将根据URL路径选取的网页模板的路径与用户访问的网页相对应,形成模板索引。
图7是根据本发明第三实施例的网页模板生成服务器的示意图。该实施例可以作为图5所示实施例的优选实施方式,如图所示,该网页模板生成服务器包括采集单元10、生成单元30、发布单元40、存储单元50和索引单元60,其中,发布单元40包括计算模块401、判断模块402和发布模块403。
计算模块401用于计算多个网页模板的集合与历史模板集合的整体差异率。为了避免网页模板的变动较小时更换网页模板重新生成增量文件而造成的资源浪费,因此计算多个网页模板的集合与历史模板集合的整体差异率。
判断模块402用于判断整体差异率是否大于预设整体差异率阈值。判断多个网页模板的集合与历史模板集合的整体差异率是否大于预设整体差异率阈值,如果多个网页模板的集合与历史模板集合的整体差异率大于预设整体差异率阈值,则网页模板变动较大,直接发布网页模板,如果多个网页模板的集合与历史模板集合的整体差异率小于预设整体差异率阈值,则网页模板变动较小,不发布网页模板。
发布模块403用于在判断出整体差异率大于预设整体差异率阈值,发布网页模板,在判断出整体差异率不大于预设整体差异率阈值,不发布网页模板。如果多个网页模板的集合与历史模板集合的整体差异率大于预设整体差异阈值,表示生成的多个网页模板的集合较历史模板集合的变动较大,可以发布网页模板。如果多个网页模板的集合与历史模板集合的整体差异率小于预设整体差异阈值,表示生成的多个网页模板的集合较历史模板集合的变动较小,可以基于历史模板进行增量文件传输,可以不发布网页模板。
图8是根据本发明第四实施例的网页模板生成服务器的示意图。如图所示,该网页模板生成服务器包括采集单元10、生成单元30、判断单元60、计算单元70、对比单元80和合并单元90。其中,图8所示的采集单元10、和生成单元30的功能与图5所示实施例中的采集单元10、和生成单元30的功能相同,在此不做赘述。
判断单元60用于在根据网页数据生成网页的网页模板之后判断网页模板的数量是否达到预设数量。在根据网页数据生成网页的网页模板之后,需要判断网页模板的数量是否达到预设数量,如果判断出网页模板的数量没有达到预设数量,可以继续根据网页数据生成网页的网页模板,如果判断出网页模板的数量达到预设数量,可以计算每个网页模板的覆盖率。
计算单元70用于在判断出网页模板的数量达到预设数量时,计算每个网页模板的覆盖率。模板覆盖率是衡量生成的网页模板质量的重要指标,模板覆盖率可以是一个网站内,网页模板能够应用到网站内的网页上的数量与该网站全部网页数量的比值,模板覆盖率越大,该网页模板能够应用到该网站内网页的数量也就越多。模板覆盖率不仅可以衡量一个网站的网站模板质量,还可以衡量某一个路径下的网页模板的质量。例如,某个网页模板的网站覆盖率不是很高,但是在某个路径下的覆盖率很高,该网页模板在实际应用中也能达到很好的效果。
对比单元80用于将覆盖率小于预设覆盖率阈值的网页模板与大于预设覆盖率阈值的网页模板进行对比。在计算出每个网页模板的覆盖率之后,为了避免网页模板变动较小的情况下重新选择相似的网页模板进行增量文件传输,可以比较覆盖率小于第一预设覆盖率阈值的模板与覆盖率大于第一预设覆盖率阈值的网页模板。
合并单元90用于在小于预设覆盖率阈值的网页模板与大于预设覆盖率阈值的网页模板的差异率小于预设差异率阈值,将小于预设覆盖率阈值的网页模板与大于预设覆盖率阈值的网页模板合并。小于第一预设覆盖率阈值的网页模板与大于第一预设覆盖率阈值的网页模板的差异率可以是两个模板以open-vcdiff算法算出两个网页模板的差值与小于第一预设覆盖率阈值的网页模板的大小的比值,小于第一预设覆盖率阈值的网页模板与大于第一预设覆盖率阈值的网页模板的差异率可以用来衡量小于第一预设覆盖率阈值的网页模板与大于第一预设覆盖率阈值的网页模板的差异程度。
如果小于第一预设覆盖率阈值的网页模板与大于第一预设覆盖率阈值的网页模板的差异率小于预设差异率阈值,则认为小于第一预设覆盖率阈值的网页模板与大于第一预设覆盖率阈值的网页模板相似,将小于第一预设覆盖率阈值的网页模板与大于第一预设覆盖率阈值的网页模板合并,合并的过程可以是将小于第一预设覆盖率阈值的网页模板的数据合并到大于第一预设覆盖率阈值的网页模板的数据中。
优选地,为了方便的将将覆盖率小于第一预设覆盖率阈值的网页模板与大于第一预设覆盖率阈值的网页模板进行对比,对比单元80包括排序模块和对比模块,其中,排序模块,用于将多个网页模板按照覆盖率大小进行由大到小的排序;对比模块,用于将排在后面的网页模板与排在前面的网页模板进行对比。
在对多个网页模板按照覆盖率大小进行由大到小的排序之后,通过对队列中的网页模板进行两两比较或者逐个比较,能够将网页模板的差异率小于预设差异率阈值的网页模板合并。
在将网页模板的差异率小于预设差异率阈值的网页模板合并之后,可以根据网页的网址或者域名得到网页模板索引,可以将该网页模板数据和网页模板索引都发布出去。
为了方便存储和调用,索引单元60还包括:存储模块、计算模块、第三判断模块和删除模块。
存储模块,用于在根据网页数据生成网页的网页模板之后,存储多个网页模板.为了方便模板的调用,在生成网页的网页模板之后,存储生成的多个网页模板。
计算模块,用于计算每个网页模板的覆盖率。由于接近根目录的模板通常具有更好的覆盖率,查找模板的时候优先处理接近根目录的模板,因此在计算多个网页模板的时候,首先将生成的网页模板按照路径深度进行排序,短路径相对于深路径的网页模板的排列位置更靠近根目录。
由于已经对多个网页模板按照路径深度进行排序,在计算每个网页模板的覆盖率时可以计算一个路径下每个网页模板的覆盖率。其中,每个网页模板的覆盖率可以是该网页模板相对于整个路径下的所有网页模板的覆盖率。
为了便于使用覆盖率较大的网页模板进行增量文件的传输,可以按覆盖率从高到低进行排序。同时,在同一路径下网页模板数量较多时,可以按照路径深度从长到短的顺序截取一定数量的网页模板,避免同一路径下网页模板数量较多降低计算速度。
第三判断模块,用于判断每个路径下的网页模板的覆盖率的总和是否达到预设覆盖率阈值。在计算出每个网页模板的覆盖率之后,判断每个路径下的网页模板的覆盖率的总和是否达到第二预设覆盖率阈值,如果达到第二预设覆盖率阈值保留此路径;如果判断出每个路径下的网页模板的覆盖率总和没有达到第二预设覆盖率阈值,则将网页模板的覆盖率的总和未达到第二预设覆盖率阈值的路径下的网页模板删除。
删除模块,用于删除网页模板的覆盖率的总和未达到预设覆盖率阈值的路径下的网页模板。由于网页模板的覆盖率的总和未达到第二预设覆盖率阈值,那么网页模板的覆盖率的总和未达到第二预设覆盖率阈值的路径下的网页模板都不需要再进行处理和使用,因此可以将网页模板的覆盖率的总和未达到第二预设覆盖率阈值的路径下的网页模板删除,以节省存储资源。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (14)

1.一种网页模板生成方法,其特征在于,包括:
采集网页的网页数据;
根据所述网页数据生成所述网页的网页模板;
根据生成的所述网页模板生成模板索引。
2.根据权利要求1所述的网页模板生成方法,其特征在于,在根据所述网页数据生成所述网页的网页模板之后,所述网页模板生成方法还包括:
向提供网页模板的多个模板服务器发布所述网页模板和所述模板索引;
所述多个模板服务器分别存储所述网页模板和所述模板索引;以及
所述多个模板服务器中的第一模板服务器利用所述模板索引检索与所述网页匹配的网页模板,向所述多个模板服务器中除所述第一模板服务器之外的其它模板服务器提供所述与所述网页匹配的模板。
3.根据权利要求2所述的网页模板生成方法,其特征在于,向提供网页模板的多个模板服务器发布所述网页模板和所述模板索引包括:
在生成多个所述网页模板和所述模板索引之后;
计算多个所述网页模板的集合与历史模板集合的整体差异率;
判断所述整体差异率是否大于预设整体差异率阈值;
如果判断出所述整体差异率大于所述预设整体差异率阈值,则发布所述网页模板和所述模板索引;以及
如果判断出所述整体差异率不大于所述预设整体差异率阈值,则不发布所述网页模板和所述模板索引。
4.根据权利要求1所述的网页模板生成方法,其特征在于,根据生成的所述网页模板生成模板索引包括:
选取质量符合预定质量条件的模板;
确定模板适用的URL路径;
从所述URL路径中选取质量符合所述预定质量条件的模板适用的URL路径;以及
将选取的路径转换成模板索引。
5.根据权利要求1所述的网页模板生成方法,其特征在于,在根据所述网页数据生成所述网页的网页模板之后,所述网页模板生成方法还包括:
判断所述网页模板的数量是否达到预设数量;
如果判断出所述网页模板的数量达到所述预设数量,则计算每个网页模板的覆盖率;
将覆盖率小于第一预设覆盖率阈值的网页模板与大于所述第一预设覆盖率阈值的网页模板进行对比;以及
如果小于所述第一预设覆盖率阈值的网页模板与大于所述第一预设覆盖率阈值的网页模板的差异率小于预设差异率阈值,则将小于所述第一预设覆盖率阈值的网页模板与大于所述第一预设覆盖率阈值的网页模板合并。
6.根据权利要求5所述的网页模板生成方法,其特征在于,将覆盖率小于第一预设覆盖率阈值的网页模板与大于所述第一预设覆盖率阈值的网页模板进行对比包括:
将多个所述网页模板按照覆盖率大小进行由大到小的排序;以及
将排在后面的网页模板与排在前面的网页模板进行对比。
7.根据权利要求1所述的网页模板生成方法,其特征在于,根据生成的所述网页模板生成模板索引包括:
存储多个所述网页模板;
计算每个所述网页模板的覆盖率;
判断每个路径下的所述网页模板的覆盖率的总和是否达到第二预设覆盖率阈值;以及
删除所述网页模板的覆盖率的总和未达到所述第二预设覆盖率阈值的路径下的网页模板。
8.一种网页模板生成服务器,其特征在于,包括:
采集单元,用于采集网页的网页数据;
生成单元,用于根据所述网页数据生成所述网页的网页模板;以及
索引单元,用于根据生成的所述网页模板生成模板索引。
9.根据权利要求8所述的网页模板生成服务器,其特征在于,所述网页模板生成服务器还包括:
发布单元,用于在根据所述网页数据生成所述网页的网页模板之后,向提供网页模板的多个模板服务器发布所述网页模板和所述模板索引;
存储单元,用于在所述多个模板服务器分别存储所述网页模板和所述模板索引;以及
模板检索单元,用于利用所述模板索引检索与所述网页匹配的网页模板,向其它服务器提供与所述网页匹配的模板。
10.根据权利要求9所述的网页模板生成服务器,其特征在于,所述发布单元包括:
计算模块,用于计算多个所述网页模板的集合与历史模板集合的整体差异率;
判断模块,用于判断所述整体差异率是否大于预设整体差异率阈值;以及
发布模块,用于在判断出所述整体差异率大于所述预设整体差异率阈值,发布所述网页模板,在判断出所述整体差异率不大于所述预设整体差异率阈值,不发布所述网页模板。
11.根据权利要求9所述的网页模板生成服务器,其特征在于,所述索引单元包括:
模板选取模块,用于选取质量符合预定质量条件的模板;
模板路径推导模块,用于确定模板适用的URL路径;
模板路径剪枝模块,用于从所述URL路径中选取质量符合所述预定质量条件的模板适用的URL路径;以及
模板索引生成模块,用于将选取的路径转换成模板索引。
12.根据权利要求9所述的网页模板生成服务器,其特征在于,所述网页模板生成服务器还包括:
判断单元,用于在根据所述网页数据生成所述网页的网页模板之后判断所述网页模板的数量是否达到预设数量;
计算单元,用于在判断出所述网页模板的数量达到所述预设数量时,计算每个网页模板的覆盖率;
对比单元,用于将覆盖率小于第一预设覆盖率阈值的网页模板与大于所述第一预设覆盖率阈值的网页模板进行对比;以及
合并单元,用于在小于所述第一预设覆盖率阈值的网页模板与大于所述第一预设覆盖率阈值的网页模板的差异率小于预设差异率阈值,将小于所述第一预设覆盖率阈值的网页模板与大于所述第一预设覆盖率阈值的网页模板合并。
13.根据权利要求12所述的网页模板生成服务器,其特征在于,所述对比单元包括:
排序模块,用于将多个所述网页模板按照覆盖率大小进行由大到小的排序;以及
对比模块,用于将排在后面的网页模板与排在前面的网页模板进行对比。
14.根据权利要求9所述的网页模板生成服务器,其特征在于,所述索引单元包括:
存储模块,用于在根据所述网页数据生成所述网页的网页模板之后,存储多个所述网页模板;
计算模块,用于计算每个所述网页模板的覆盖率;
第三判断模块,用于判断每个路径下的所述网页模板的覆盖率的总和是否达到第二预设覆盖率阈值;以及
删除模块,用于删除所述网页模板的覆盖率的总和未达到所述第二预设覆盖率阈值的路径下的网页模板。
CN201310612915.3A 2013-11-26 2013-11-26 网页模板生成方法和服务器 Pending CN103605770A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201310612915.3A CN103605770A (zh) 2013-11-26 2013-11-26 网页模板生成方法和服务器
PCT/CN2014/087822 WO2015078231A1 (zh) 2013-11-26 2014-09-29 网页模板生成方法和服务器
US15/156,753 US10747951B2 (en) 2013-11-26 2016-05-17 Webpage template generating method and server

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310612915.3A CN103605770A (zh) 2013-11-26 2013-11-26 网页模板生成方法和服务器

Publications (1)

Publication Number Publication Date
CN103605770A true CN103605770A (zh) 2014-02-26

Family

ID=50123992

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310612915.3A Pending CN103605770A (zh) 2013-11-26 2013-11-26 网页模板生成方法和服务器

Country Status (1)

Country Link
CN (1) CN103605770A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015078231A1 (zh) * 2013-11-26 2015-06-04 优视科技有限公司 网页模板生成方法和服务器
CN105022806A (zh) * 2015-07-03 2015-11-04 厦门二五八集团有限公司 基于翻译模板的互联网网页建构移动页面的方法与系统
CN106790334A (zh) * 2015-11-25 2017-05-31 广州市动景计算机科技有限公司 一种页面数据传输方法及系统
CN109241473A (zh) * 2017-07-10 2019-01-18 北京搜狗科技发展有限公司 一种页面生成方法、装置和设备
CN110780960A (zh) * 2019-09-29 2020-02-11 中至数据集团股份有限公司 一种网页制作方法、系统、可读存储介质及服务器
CN111124528A (zh) * 2019-11-11 2020-05-08 泰康保险集团股份有限公司 页面加载方法、装置、电子设备及计算机可读存储介质

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015078231A1 (zh) * 2013-11-26 2015-06-04 优视科技有限公司 网页模板生成方法和服务器
US10747951B2 (en) 2013-11-26 2020-08-18 Uc Mobile Co., Ltd. Webpage template generating method and server
CN105022806A (zh) * 2015-07-03 2015-11-04 厦门二五八集团有限公司 基于翻译模板的互联网网页建构移动页面的方法与系统
CN105022806B (zh) * 2015-07-03 2018-08-10 厦门二五八集团有限公司 基于翻译模板的互联网网页建构移动页面的方法与系统
CN106790334A (zh) * 2015-11-25 2017-05-31 广州市动景计算机科技有限公司 一种页面数据传输方法及系统
CN109241473A (zh) * 2017-07-10 2019-01-18 北京搜狗科技发展有限公司 一种页面生成方法、装置和设备
CN110780960A (zh) * 2019-09-29 2020-02-11 中至数据集团股份有限公司 一种网页制作方法、系统、可读存储介质及服务器
CN110780960B (zh) * 2019-09-29 2024-01-26 中至数据集团股份有限公司 一种网页制作方法、系统、可读存储介质及服务器
CN111124528A (zh) * 2019-11-11 2020-05-08 泰康保险集团股份有限公司 页面加载方法、装置、电子设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN103605770A (zh) 网页模板生成方法和服务器
CN102843445B (zh) 一种浏览器及其进行域名解析的方法
US10747951B2 (en) Webpage template generating method and server
CN102761627B (zh) 基于终端访问统计的云网址推荐方法及系统及相关设备
CN104572777B (zh) 基于UIWebView组件的网页加载方法及装置
CN104915398A (zh) 一种网页埋点的方法及装置
US20130185429A1 (en) Processing Store Visiting Data
CN107145556B (zh) 通用的分布式采集系统
CN103078945B (zh) 对浏览器崩溃数据进行处理的方法与系统
CN102571404A (zh) 网站访问统计方法和网站访问统计系统
CN103019879A (zh) 浏览器崩溃信息的处理方法及系统
CN102968591B (zh) 基于行为片段共享的恶意软件特征聚类分析方法及系统
CN103324756A (zh) 一种提高浏览器访问速度的方法及装置
CN103530292A (zh) 网页显示方法和装置
CN103455600A (zh) 一种视频url抓取方法、装置及服务器设备
CN103530336A (zh) 统一资源定位符url中无效参数的识别设备及方法
CN103186666A (zh) 基于收藏进行搜索的方法、装置与设备
CN104834736A (zh) 构建索引库的方法、装置及检索的方法、装置和系统
CN102902784B (zh) 网页分类存储系统及方法
US10491606B2 (en) Method and apparatus for providing website authentication data for search engine
CN103530337A (zh) 识别统一资源定位符url中无效参数的设备及方法
CN111552696A (zh) 基于大数据的数据处理方法、装置、计算机设备和介质
CN105468412A (zh) 动态打包方法和装置
CN102937977A (zh) 一种搜索服务器及搜索方法
CN104361007A (zh) 浏览器及其收藏夹的处理方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20140226