CN103605769B - 用于实现增量传输的网页模板生成方法和装置 - Google Patents

用于实现增量传输的网页模板生成方法和装置 Download PDF

Info

Publication number
CN103605769B
CN103605769B CN201310612758.6A CN201310612758A CN103605769B CN 103605769 B CN103605769 B CN 103605769B CN 201310612758 A CN201310612758 A CN 201310612758A CN 103605769 B CN103605769 B CN 103605769B
Authority
CN
China
Prior art keywords
web page
page template
webpage
row
coverage rate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310612758.6A
Other languages
English (en)
Other versions
CN103605769A (zh
Inventor
周向根
郑海洪
翟光亚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Ucweb Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ucweb Inc filed Critical Ucweb Inc
Priority to CN201310612758.6A priority Critical patent/CN103605769B/zh
Publication of CN103605769A publication Critical patent/CN103605769A/zh
Application granted granted Critical
Publication of CN103605769B publication Critical patent/CN103605769B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种用于实现增量传输的网页模板生成方法和装置。该方法包括:获取网页的网页数据;对网页数据进行分行处理,得到多个行;分别查找每个行的网页模板;计算查找到的网页模板对网页的覆盖率;以及根据计算得到的覆盖率确定是否生成新的网页模板。通过本发明,达到了在实现增量传输生成网页模板时减小系统开销的效果。

Description

用于实现增量传输的网页模板生成方法和装置
技术领域
本发明涉及互联网领域,具体而言,涉及一种用于实现增量传输的网页模板生成方法和装置。
背景技术
对于C/S架构的手机浏览器,当用户使用浏览器浏览网页时,浏览器通过在本地缓存网页模板,服务端只需要传输网页的增量编码文件,从而达到节约网络数据传输提高浏览速度的效果。
在实际应用中,并不是所有的网页都基于缓存的网页模板,对于是否基于缓存的网页模板,往往决定于模板对网页的覆盖率,如果模板对网页的覆盖率高,则基于缓存的网页模板,如果模板对网页的覆盖率不够高,则不基于缓存的网页模板,创建新的网页模板。在现有技术中,如果缓存有大量网页模板,在接收新的网页时,则需要将新接收到的网页和每个网页模板一一进行比较,数据处理量和系统开销比较大。
针对现有技术中在实现增量传输生成网页模板时系统开销比较大的问题,目前尚未提出有效的解决方案。
发明内容
本发明的主要目的在于提供一种用于实现增量传输的网页模板生成方法和装置,以解决现有技术中在实现增量传输生成网页模板时系统开销比较大的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种用于实现增量传输的网页模板生成方法。该方法包括:获取网页的网页数据;对网页数据进行分行处理,得到多个行;分别查找每个行的网页模板;计算查找到的网页模板对网页的覆盖率;以及根据计算得到的覆盖率确定是否生成新的网页模板。
进一步地,对网页数据进行分行处理,得到多个行包括:按照换行符对网页数据进行切分,得到多个行。
进一步地,在对网页数据进行分行处理,得到多个行之后,该方法还包括:对每个行根据域名和行数据生成关键词;分别查找每个行的网页模板包括:通过关键词查找网页模板行索引表,得到分别每个行的网页模板。
进一步地,查找到的网页模板包括第一网页模板,计算查找到的网页模板对网页的覆盖率包括:计算第一网页模板所对应的行总长度;计算网页的行总长度;根据第一网页模板所对应的行总长度和网页的行总长度计算第一网页模板对网页的覆盖率。
进一步地,根据计算得到的覆盖率确定是否生成新的网页模板包括:分别获取查找到的每个网页模板对网页的覆盖率,得到多个覆盖率;获取多个覆盖率中的最大覆盖率;判断最大覆盖率是否大于设定阈值;如果最大覆盖率大于或等于设定阈值,则基于最大覆盖率对应的网页模板传输增量文件;如果最大覆盖率小于设定阈值,则生成新的网页模板。
为了实现上述目的,根据本发明的另一方面,提供了一种用于实现增量传输的网页模板生成装置。该装置包括:获取单元,用于获取网页的网页数据;分行单元,用于对网页数据进行分行处理,得到多个行;查找单元,用于分别查找每个行的网页模板;计算单元,用于计算查找到的网页模板对网页的覆盖率;第一生成单元,用于根据计算得到的覆盖率确定是否生成新的网页模板。
进一步地,分行单元用于按照换行符对网页数据进行切分,得到多个行。
进一步地,该用于实现增量传输的网页模板生成装置还包括:第二生成单元,用于在对网页数据进行分行处理,得到多个行之后,对每个行根据域名和行数据生成关键词,其中,查找单元用于通过关键词查找网页模板行索引表,得到分别每个行的网页模板。
进一步地,查找到的网页模板包括第一网页模板,计算单元包括:第一计算模块,用于计算第一网页模板所对应的行总长度;第二计算模块,用于计算网页的行总长度;第三计算模块,用于根据第一网页模板所对应的行总长度和网页的行总长度计算第一网页模板对网页的覆盖率。
进一步地,第一生成单元包括:第一获取模块,用于分别获取查找到的每个网页模板对网页的覆盖率,得到多个覆盖率;第二获取模块,用于获取多个覆盖率中的最大覆盖率;判断模块,用于判断最大覆盖率是否大于设定阈值;传输模块,用于在最大覆盖率大于或等于设定阈值时,基于最大覆盖率对应的网页模板传输增量文件;生成模块,用于在最大覆盖率小于设定阈值时,生成新的网页模板。
通过本发明,由于对网页数据进行了分行处理,得到多个行,在计算网页模板对网页的覆盖率时,对网页进行了分行处理,得到多个行,仅需要对包括这些行的网页模板进行计算,无需对所有的网页模板均进行计算,解决了现有技术中在实现增量传输生成网页模板时系统开销比较大的问题,进而达到了在实现增量传输生成网页模板时减小系统开销的效果。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明第一实施例的用于实现增量传输的网页模板生成装置的示意图;
图2是根据本发明第二实施例的用于实现增量传输的网页模板生成装置的示意图;
图3是根据本发明第三实施例的用于实现增量传输的网页模板生成装置的示意图;
图4是根据本发明第四实施例的用于实现增量传输的网页模板生成装置的示意图;
图5是根据本发明实施例的用于实现增量传输的网页模板生成方法的流程图;
图6是根据本发明实施例中计算查找到的网页模板对网页的覆盖率的方法流程图;以及
图7是根据本发明实施例中根据计算得到的覆盖率确定是否生成新的网页模板方法的流程图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例提供了一种用于实现增量传输的网页模板生成装置。该网页模板生成装置用于生成网页模板以实现对网页内容的增量进行传输。
图1是根据本发明第一实施例的实现增量传输的网页模板生成装置的示意图。如图所示,该实现增量传输的网页模板生成装置包括获取单元10、分行单元20、查找单元30、计算单元40和第一生成单元50。
获取单元10用于获取网页的网页数据。获取单元10可以获取任意一个网页的网页数据,获取的网页数据可以包括获取网页内所有内容的数据,例如网页内新闻数据、网页内的广告数据、网页内的链接数据等。
获取网页数据可以首先获取网页地址,然后再根据获取到的网页地址从网页数据表中获取相应的网页数据。网页数据表中存储的网页数据包括:网页的URL和网页的源文件,网页数据表中可以存储了字段部分和描述部分。例如,存储的字段是“网页URL”,对应的描述是该URL去除协议部分,去除锚部分,按域翻转域名部分。例如:http://www.sina.com.cn/a/b.php?ac=b#ab,对应的的描述部分应该是:cn.com.sina.www/a/b.php?ac=b。同一个域名下的网页存储于同一个网页数据表中。
分行单元20用于对网页数据进行分行处理,得到多个行。分行单元可以按照换行符对网页数据进行切分,将网页数据分成多个行,从而得到多个行。这里的进行分行处理的网页数据是指网页的源文件,即对网页的源文件进行分行处理。具体来讲,将模板网页切分为行的目的是能够按行对模板网页建立倒排索引,这样,对网页切分为行后,就可以按行查找倒排索引。
查找单元30用于分别查找每个行的网页模板。查找单元对已经存在的网页模板进行查找,已经存在的模板可以是存储在服务器中的网页模板,也可以是存储在缓存中的网页模板,还可以是存储在内存中的网页模板。查找单元查找到的网页模板包括由分行单元20分行之后得到的任意多个行,可以是分行之后的部分行,也可以是分行之后的全部行。在查找每个行的网页模板时,针对分行之后的每个行分别查找对应于该行的网页模板,查找的网页模板可以是包括一个行的网页模板,也可以是同时包括多个行或者所有行的网页模板。
计算单元40用于计算查找到的网页模板对网页的覆盖率。查找到的网页模板可以是一个模板,也可以是多个模板。分别对查找到的网页模板对网页的覆盖率进行计算。查找到的网页模板对网页的覆盖率越大,查找到的网页模板与网页的相似度越大,也就是网页模板与网页重复相同的内容越多,需要传输的增量文件也就越小。网页模板对网页的覆盖率可以通过计算行长度的比值得到。增量文件就是在网页数据中,去除掉与网页模板的相同部分的网页数据之后,得到的网页数据文件。
第一生成单元50用于根据计算得到的覆盖率确定是否生成新的网页模板。如果计算得到的覆盖率达到设定的阈值,第一生成模块50确定不生成新的网页模板,如果计算得到的覆盖率未达到设定的阈值,第一生成模块50确定生成新的网页模板。
在该实施例中,由于分行单元20对网页数据进行了分行处理,得到多个行,在计算单元40计算网页模板对网页的覆盖率时,仅需要对包括多个行中全部行或部分行的网页模板进行计算,无需对所有的网页模板均进行计算,因而实现了在增量传输生成网页模板时减小系统开销的效果。
图2是根据本发明第二实施例的用于实现增量传输的网页模板生成装置的示意图。图2所示实施例的实现增量传输的网页模板生成装置可以作为图1所示实施例的实现增量传输的网页模板生成装置的优选实施方式。作为优选实施方式,该装置包括获取单元10、分行单元20、查找单元30、计算单元40、第一生成单元50和第二生成单元60。
该实施例中的获取单元10、分行单元20、计算单元40、第一生成单元50与图1所示实施例的实现增量传输的网页模板生成装置中的获取单元10、分行单元20、计算单元40、第一生成单元50功能相同,在此不做赘述。
第二生成单元60用于对网页数据进行分行处理,得到多个行之后,对每个行根据域名和行数据生成关键词。在分行单元20按照换行符对网页数据进行切分得到多个行之后,第二生成单元60生成关键词,关键词的形式可以为“域名/行数据的MD5值”。对于不同的行数据能够生成不同的MD5值,且同一个行数据生成的MD5值是独一无二的,因此,基于行数据的MD5和域名得到的关键词也是唯一的,用“域名/行数据的MD5值”作为关键词能够准确表示一个行数据。需要说明的是,这里的域名可以是该行所属网页的域名。
优选地,MD5值可以通过哈希算法得到。通过哈希算法能够计算不同长度的行数据,并且根据行数据得到唯一的MD5值。
在得到关键词之后,查找单元30能够通过关键词查找网页模板行索引表,得到包括任意多个行的网页模板。查找得到的网页模板可以是一个,也可以是多个,查找得到的任意一个网页模板包括该网页的部分行或者所有行。
例如:分行单元20对网页数据进行分行处理后,得到的多个行包括第一行和第二行,查找单元,分别查找包括第一行的网页模板和包括第二行的网页模板,也可以查找同时包括第一行和第二行的网页模板。
图3是根据本发明第三实施例的用于实现增量传输的网页模板生成装置的示意图。图3所示实施例的实现增量传输的网页模板生成装置可以作为图1所示实施例的实现增量传输的网页模板生成装置的优选实施方式。作为优选实施方式,该装置包括获取单元10、分行单元20、查找单元30、计算单元40和第一生成单元50,其中,计算单元40还包括第一计算模块401、第二计算模块402和第三计算模块403。
该实施例中的获取单元10、分行单元20、查找单元30、第一生成单元50与图1所示实施例的实现增量传输的网页模板生成装置中的获取单元10、分行单元20、查找单元30、第一生成单元50功能相同,在此不做赘述。
第一计算模块401用于计算第一网页模板所对应的行总长度。第一网页模板所对应的行总长度可以是所有行的总字节数,也可以是第一网页模板所对应行的总个数。需要指出的是,该处的第一网页模板是缓存的网页模板中的任意一个网页模板。
第二计算模块402用于计算网页的行总长度。网页的行总长度可以是网页内所有行的总字节数,也可以是通过对网页数据切分得到的行的总个数。
第三计算模块403用于根据第一网页模板所对应的行总长度和网页的行总长度计算第一网页模板对网页的覆盖率。计算公式为:覆盖率=第一网页模板所对应的行总长度/网页的行总长度。
行的总长度可以是第一网页模板所对应的行的个数,根据行的个数计算网页模板对网页的覆盖率。例如,第一网页模板所对应的行总长度为第一网页模板内所对应的行的总个数为假设为4,这里所对应的行为当前网页与第一网页模板中相同的行;网页的行总长度为网页内行的总个数,假设为5,则计算得到的覆盖率=4/5=80%。
优选地,行的总长度可以是行的总字节数,根据行的总字节数计算网页模板对网页的覆盖率。例如,第一网页模板所对应的行总长度为第一网页模板内所对应的行的总字节数,这里所对应的行为当前网页与第一网页模板中相同的行;网页的行总长度为网页内所有行的总字节数,假设网页里面有行a,行b,行c,长度分别是200,300,400。模板里面包括行a,行c。覆盖率就是(行a+行c)的长度/(行a+行b+行c)的长度=(200+400)/(200+300+400)=600/900。利用行的总字节数计算网页模板对网页的覆盖率,能够更加准确的计算出查找得到的网页模板对网页的覆盖率。
图4是根据本发明第四实施例的用于实现增量传输的网页模板生成装置示意图。图4所示实施例的实现增量传输的网页模板生成装置可以作为图1所示实施例的实现增量传输的网页模板生成装置的优选实施方式。作为优选实施方式,该装置包括获取单元10、分行单元20、查找单元30、计算单元40和第一生成单元50,其中,第一生成单元50还包括第一获取模块501、第二获取模块502、判断模块503、传输模块504和生成模块505。
该实施例中的获取单元10、分行单元20、查找单元30、计算单元40与图1所示实施例的实现增量传输的网页模板生成装置中的获取单元10、分行单元20、查找单元30、计算单元40功能相同,在此不做赘述。
第一获取模块501用于分别获取查找到的每个网页模板对网页的覆盖率,得到多个覆盖率。查找到的网页模板可能是一个,也可以是多个,不论查找到的网页模板是一个还是多个,第一获取模块501可以获取查找到的每个网页模板对网页的覆盖率,从而得到多个覆盖率。
第二获取模块502用于获取多个覆盖率中的最大覆盖率。在获取得到多个覆盖率之后,可以对多个覆盖率进行排序,从而获取最大的覆盖率;也可以对获取的多个覆盖进行逐个比较,例如,可以对获取到的多个覆盖率进行两两比较的时候,将两个中的最大的覆盖率与下一个覆盖率进行比较。
优选地,通过基于行的倒排索引来完成覆盖率的计算。通过倒排索引的方法能够及时处理大规模的网页数据,并且快速得到最大覆盖率,提高了运算速度。
判断模块503用于判断最大覆盖率是否大于设定阈值。设定的阈值可以根据网页的需要自动获取。例如,网页需要的最大覆盖率要达到80%,则可以获取设定阈值为80%。
传输模块504用于在最大覆盖率大于或等于设定阈值时,基于最大覆盖率对应的网页模板传输增量文件。如果最大覆盖率大于或等于设定阈值,将最大覆盖率对应的网页模板作为网页的网页模板,然后基于网页模板传输增量文件。增量文件就是在网页数据中,去除掉与网页模板的相同部分的网页数据之后,得到的网页数据文件。
由于基于最大覆盖率对应的网页模板之后,需要传输的增量文件远远小于原始网页的网页数据,因此基于最大覆盖率对应的网页模板传输增量文件能够大大缩短文件传输、加载以及运行的时间,并且节约的传输资源,提高了运行速度。
生成模块505用于在最大覆盖率小于设定阈值时,生成新的网页模板。生成新的网页模板可以首先生成网页模板ID。网页模板ID的形式可以是“域名/网页数据MD5值的前48位”。将生成的网页模板存储到网页模板表中,然后将网页的关键词与生成的网页模板ID一一对应,并将关键词和网页模板ID对应存储在网页模板ID表中。
通过生成新的网页模板的网页模板ID,并将网页模板ID与网页关键此对应存储在网页模板ID表中,能够在下一次查询网页模板时直接查询并调用该生成的网页模板,不必再重新生成。
本发明实施例还提供了一种实现增量传输的网页模板生成方法。该实现增量传输的网页模板生成方法提供了一种生成网页模板以实现对网页内容的增量进行传输的方法。该方法可以运行在计算机处理设备上,例如,本发明实施例的实现增量传输的网页模板生成方法可以通过本发明实施例所提供的实现增量传输的网页模板生成装置来执行,本发明实施例的实现增量传输的网页模板生成装置也可以用于执行本发明实施例所提供的实现增量传输的网页模板生成方法。
图5是根据本发明实施例的用于实现增量传输的网页模板生成方法的流程图,以下结合该流程图对本实施例的实现增量传输的网页模板生成方法进行说明。如图所示,该方法包括如下步骤:
步骤S101,获取网页的网页数据。获取网页的网页数据可以是获取任意一个网页的网页数据,获取的网页数据可以包括获取网页内所有内容的数据,例如网页内新闻数据、网页内的广告数据、网页内的链接数据等。
获取网页数据可以首先获取网页地址,然后再根据获取到的网页地址从网页数据表中获取相应的网页数据。网页数据表中存储的网页数据包括:网页的URL和网页的源文件,网页数据表中可以存储了字段部分和描述部分。例如,存储的字段是“网页URL”,对应的描述是URL去除协议部分,去除锚部分,按域翻转域名部分。例如:http://www.sina.com.cn/a/b.php?ac=b#ab,对应的描述部分是:cn.com.sina.www/a/b.php?ac=b。
步骤S102,对网页数据进行分行处理,得到多个行。
为了方便地对网页数据进行分行处理,在该实施例中,优选地,按照换行符对网页数据进行切分,得到多个行。这里的进行分行处理的网页数据是指网页的源文件,即对网页的源文件进行分行处理。具体来讲,将模板网页切分为行的目的是能够按行对模板网页建立倒排索引,这样,对网页切分为行后,就可以按行查找倒排索引。
为了便于后续对分别每个行的网页模板进行查找,在对网页数据进行分行处理,得到多个行之后,对每个行根据域名和行数据生成关键词,这样,在后续进行查找时,可以基于关键词对网页模板建立倒排索引,进而按关键词查找倒排索引。
关键词的形式可以为“域名/行数据的MD5值”。对于不同的行数据能够生成不同的MD5值,且同一个行数据生成的MD5值是独一无二的,因此,基于行数据的MD5和域名得到的关键词也是唯一的,用“域名/行数据的MD5值”作为关键词能够准确表示一个行数据。
优选地,MD5值可以通过哈希算法得到。通过哈希算法能够计算不同长度的行数据,并且根据行数据得到唯一的MD5值。
步骤S103,分别查找每个行的网页模板。分别查找每个行的网页模板可以通过关键词查找网页模板行索引表,得到分别每个行的网页模板。
在查找每个行的网页模板时,针对分行之后的每个行分别查找对应于该行的网页模板,查找的网页模板可以是包括一个行的网页模板,也可以是同时包括多个行或者所有行的网页模板。
例如,在对网页数据进行分行处理后,得到的多个行包括第一行和第二行,在该步骤中,分别查找包括第一行的网页模板和包括第二行的网页模板。
查找得到的网页模板可以是一个,也可以是多个,查找得到网页模板包括任意多个切分后的行。
步骤S104,计算查找到的网页模板对网页的覆盖率。查找到的网页模板可以是一个模板,也可以是多个模板。分别对查找到的网页模板对网页的覆盖率进行计算。查找到的网页模板对网页的覆盖率越大,查找到的网页模板与网页的相似度越大,也就是网页模板与网页重复相同的内容越多,需要传输的增量文件也就越小。网页模板对网页的覆盖率可以通过计算行长度的比值得到。增量文件就是在网页数据中,去除掉与网页模板的相同部分的网页数据之后,得到的网页数据文件。
步骤S105,根据计算得到的覆盖率确定是否生成新的网页模板。如果计算得到的覆盖率达到设定的阈值,确定不生成新的网页模板,如果计算得到的覆盖率未达到设定的阈值,确定生成新的网页模板。
图6是根据本发明实施例中计算查找到的网页模板对网页的覆盖率的方法流程图。该方法包括如下步骤:
步骤S201,计算第一网页模板所对应的行总长度。第一网页模板所对应的行总长度可以是所有行的总字节数,也可以是第一网页模板所对应行的总个数。
步骤S202,计算网页的行总长度。网页的行总长度可以是网页内所有行的总字节数,也可以是通过对网页数据切分得到的行的总个数。
步骤S203,根据第一网页模板所对应的行总长度和网页的行总长度计算第一网页模板对网页的覆盖率。计算公式为:覆盖率=第一网页模板所对应的行总长度/网页的行总长度。
行的总长度可以是第一网页模板所对应的行的个数,根据行的个数计算网页模板对网页的覆盖率。例如,第一网页模板所对应的行总长度为第一网页模板内所对应的行的总个数为假设为4,这里所对应的行为当前网页与第一网页模板中相同的行;网页的行总长度为网页内行的总个数,假设为5,则计算得到的覆盖率=4/5=80%。
优选地,行的总长度可以是行的总字节数,根据行的总字节数计算网页模板对网页的覆盖率。例如,第一网页模板所对应的行总长度为第一网页模板所对应的行的总字节数,这里所对应的行为当前网页与第一网页模板中相同的行;网页的行总长度为网页内所有行的总字节数,假设网页里面有行a,行b,行c,长度分别是200,300,400。模板里面包括行a,行c。覆盖率就是(行a+行c)的长度/(行a+行b+行c)的长度=(200+400)/(200+300+400)=600/900。
利用行的总字节数计算网页模板对网页的覆盖率,能够更加准确的计算出查找得到的网页模板对网页的覆盖率。
图7是根据本发明实施例中根据计算得到的覆盖率确定是否生成新的网页模板方法的流程图。该方法包括如下步骤:
步骤S301,分别获取查找到的每个网页模板对网页的覆盖率,得到多个覆盖率。查找到的网页模板可能是一个,也可以是多个,不论查找到的网页模板是一个还是多个,第一获取模块501可以获取查找到的每个网页模板对网页的覆盖率,从而得到多个覆盖率。
步骤S302,获取多个覆盖率中的最大覆盖率。在获取得到多个覆盖率之后,可以对多个覆盖率进行排序,从而获取最大的覆盖率;也可以对获取的多个覆盖进行逐个比较,例如,可以对获取到的多个覆盖率进行两两比较的时候,将两个中的最大的覆盖率与下一个覆盖率进行比较。
优选地,通过基于行的倒排索引来完成覆盖率的计算。通过倒排索引的方法能够及时处理大规模的网页数据,并且快速得到最大覆盖率,提高了运算速度。
步骤S303,判断最大覆盖率是否大于设定阈值。设定的阈值可以根据网页的需要自动获取。例如,网页需要的最大覆盖率要达到80%,则可以获取设定阈值为80%,如果网页不需要80%覆盖率的模板,则可以获取的小于80%覆盖率的模板。
步骤S304,如果最大覆盖率大于或等于设定阈值,则将最大覆盖率对应的网页加入相应网页模板所覆盖的网页集中,在传输增量文件时,基于最大覆盖率对应的网页模板传输增量文件。
如果最大覆盖率大于或等于设定阈值,将最大覆盖率对应的网页模板作为网页的网页模板,并存储网页模板所覆盖的相应网页集中,然后基于网页模板传输增量文件。增量文件就是在网页数据中,去除掉与网页模板的相同部分的网页数据之后,得到的网页数据文件。
由于基于最大覆盖率对应的网页模板之后,需要传输的增量文件远远小于原始网页的网页数据,因此基于最大覆盖率对应的网页模板传输增量文件能够大大缩短文件传输、加载以及运行的时间,并且节约的传输资源,提高了运行速度。
步骤S305,如果最大覆盖率小于设定阈值,则将最大覆盖率对应的网页作为一个新的网页模板,生成新的网页模板。网页模板ID的形式可以是“域名/网页数据MD5值的前48位”。将生成的网页模板存储到网页模板表中,然后将网页的关键词与生成的网页模板ID一一对应,并将关键词和网页模板ID对应存储在网页模板ID表中。
通过生成新的网页模板的网页模板ID,并将网页模板ID与网页关键此对应存储在网页模板ID表中,能够在下一次查询网页模板时直接查询并调用该生成的网页模板,不必再重新生成。
从以上的描述中,可以看出,本发明实施例实现了如下技术效果:
1、通过网页模板进行增量文件的传输,不仅提高的传输效率,还节约的传输资源,提高了加载速度。
2、通过将新生成的网页模板存储在网页模板表中,并且更新网页模板ID和模板行索引表,能够在下一次需要生成网页模板时直接查询和调用。
3、通过将网页数据切分为行,能够按行对网页模板建立倒排索引,这样,对网页数据切分为行后,就可以按行查找倒排索引,提高了网页模板的生成速度。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种用于实现增量传输的网页模板生成方法,其特征在于,包括:
获取网页的网页数据;
对所述网页数据进行分行处理,得到多个行;
分别查找每个行的网页模板;
分别计算查找到的每个网页模板对所述网页的覆盖率;以及
根据计算得到的覆盖率确定是否生成新的网页模板。
2.根据权利要求1所述的用于实现增量传输的网页模板生成方法,其特征在于,对所述网页数据进行分行处理,得到多个行包括:
按照换行符对所述网页数据进行切分,得到多个行。
3.根据权利要求1所述的用于实现增量传输的网页模板生成方法,其特征在于,
在对所述网页数据进行分行处理,得到多个行之后,所述方法还包括:对每个行根据域名和行数据生成关键词;
分别查找每个行的网页模板包括:通过所述关键词查找网页模板行索引表,得到每个行的网页模板。
4.根据权利要求1所述的用于实现增量传输的网页模板生成方法,其特征在于,查找到的网页模板包括第一网页模板,分别计算查找到的每个网页模板对所述网页的覆盖率包括:
计算所述第一网页模板所对应的行总长度;
计算所述网页的行总长度;以及
根据所述第一网页模板所对应的行总长度和所述网页的行总长度计算所述第一网页模板对所述网页的覆盖率,其中,计算的公式为:覆盖率=第一网页模板所对应的行总长度/网页的行总长度。
5.根据权利要求1所述的用于实现增量传输的网页模板生成方法,其特征在于,根据计算得到的覆盖率确定是否生成新的网页模板包括:
分别获取查找到的每个网页模板对所述网页的覆盖率,得到多个覆盖率;
获取所述多个覆盖率中的最大覆盖率;
判断所述最大覆盖率是否大于设定阈值;如果所述最大覆盖率大于或等于所述设定阈值,则基于所述最大覆盖率对应的网页模板传输增量文件;
如果所述最大覆盖率小于所述设定阈值,则生成新的网页模板。
6.一种用于实现增量传输的网页模板生成装置,其特征在于,包括:
获取单元,用于获取网页的网页数据;
分行单元,用于对所述网页数据进行分行处理,得到多个行;
查找单元,用于分别查找每个行的网页模板;
计算单元,用于分别计算查找到的每个网页模板对所述网页的覆盖率;以及
第一生成单元,用于根据计算得到的覆盖率确定是否生成新的网页模板。
7.根据权利要求6所述的用于实现增量传输的网页模板生成装置,其特征在于,所述分行单元用于按照换行符对所述网页数据进行切分,得到多个行。
8.根据权利要求6所述的用于实现增量传输的网页模板生成装置,其特征在于,还包括:
第二生成单元,用于在对所述网页数据进行分行处理,得到多个行之后,对每个行根据域名和行数据生成关键词,
其中,所述查找单元用于通过所述关键词查找网页模板行索引表,得到分别每个行的网页模板。
9.根据权利要求6所述的用于实现增量传输的网页模板生成装置,其特征在于,查找到的网页模板包括第一网页模板,所述计算单元包括:
第一计算模块,用于计算所述第一网页模板所对应的行总长度;
第二计算模块,用于计算所述网页的行总长度;以及
第三计算模块,用于根据所述第一网页模板所对应的行总长度和所述网页的行总长度计算所述第一网页模板对所述网页的覆盖率,其中,计算的公式为:覆盖率=第一网页模板所对应的行总长度/网页的行总长度。
10.根据权利要求6所述的用于实现增量传输的网页模板生成装置,其特征在于,所述第一生成单元包括:
第一获取模块,用于分别获取查找到的每个网页模板对所述网页的覆盖率,得到多个覆盖率;
第二获取模块,用于获取所述多个覆盖率中的最大覆盖率;
判断模块,用于判断所述最大覆盖率是否大于设定阈值;
传输模块,用于在所述最大覆盖率大于或等于所述设定阈值时,基于所述最大覆盖率对应的网页模板传输增量文件;
生成模块,用于在所述最大覆盖率小于所述设定阈值时,生成新的网页模板。
CN201310612758.6A 2013-11-26 2013-11-26 用于实现增量传输的网页模板生成方法和装置 Active CN103605769B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310612758.6A CN103605769B (zh) 2013-11-26 2013-11-26 用于实现增量传输的网页模板生成方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310612758.6A CN103605769B (zh) 2013-11-26 2013-11-26 用于实现增量传输的网页模板生成方法和装置

Publications (2)

Publication Number Publication Date
CN103605769A CN103605769A (zh) 2014-02-26
CN103605769B true CN103605769B (zh) 2017-05-03

Family

ID=50123991

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310612758.6A Active CN103605769B (zh) 2013-11-26 2013-11-26 用于实现增量传输的网页模板生成方法和装置

Country Status (1)

Country Link
CN (1) CN103605769B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101908047A (zh) * 2009-06-08 2010-12-08 北京搜狗科技发展有限公司 无效模板生成方法及装置、无效网页识别方法及装置
CN101916285A (zh) * 2010-08-20 2010-12-15 北京新岸线网络技术有限公司 一种互联网网页内容解析方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3781005B2 (ja) * 2002-12-12 2006-05-31 セイコーエプソン株式会社 文書抽出装置及び文書抽出プログラム並びに文書抽出方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101908047A (zh) * 2009-06-08 2010-12-08 北京搜狗科技发展有限公司 无效模板生成方法及装置、无效网页识别方法及装置
CN101916285A (zh) * 2010-08-20 2010-12-15 北京新岸线网络技术有限公司 一种互联网网页内容解析方法及装置

Also Published As

Publication number Publication date
CN103605769A (zh) 2014-02-26

Similar Documents

Publication Publication Date Title
CN105224959B (zh) 排序模型的训练方法和装置
CN103077254B (zh) 网页获取方法和装置
CN104283723B (zh) 网络访问日志处理方法及装置
CN102043862B (zh) 网页数据定向抓取方法
CN103108051A (zh) 一种从云端服务器同步共享文件的方法
Small et al. Information diffusion on the iterated local transitivity model of online social networks
CN102737065A (zh) 数据的获取方法和装置
CN103077250A (zh) 一种网页内容抓取方法及装置
CN103593444B (zh) 网络关键词识别处理方法和装置
CN102404387A (zh) 一种用于与其他节点进行信息同步的方法、装置和设备
US10491606B2 (en) Method and apparatus for providing website authentication data for search engine
CN104200380B (zh) 推广信息的定位方法及装置
CN104809161A (zh) 一种对稀疏矩阵进行压缩和查询的方法及系统
CN107798106A (zh) 一种分布式爬虫系统中的url去重方法
CN112598514B (zh) 基于区块链的跨链交易管理方法、跨链平台及介质
CN107888700B (zh) 一种共享云渲染系统及其处理方法
EP3119044B1 (en) Page insertion method and device
CN103605769B (zh) 用于实现增量传输的网页模板生成方法和装置
CN108768857B (zh) 一种虚拟路由转发方法、装置及系统
CN106993041A (zh) 一种电力营销移动作业数据同步方法
EP3026567B1 (en) Method and system for exchanging messages on the basis of current position
CN106412003A (zh) 信息推送方法、装置及信息请求装置
CN107368923A (zh) 景点热度预测方法及装置
CN103823891B (zh) 用于计算机历史行为分析的数据处理方法和装置
CN103902715B (zh) Ip区间查找方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200615

Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Alibaba (China) Co.,Ltd.

Address before: 100080, room 16, building 10-20, Building 29, Haidian District, Suzhou Street, Beijing

Patentee before: UC MOBILE Ltd.

TR01 Transfer of patent right