CN105512305B

CN105512305B - 一种基于序列化的文档压缩、文档解压方法和装置

Info

Publication number: CN105512305B
Application number: CN201510925451.0A
Authority: CN
Inventors: 武志刚; 魏少俊
Original assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2015-12-14
Filing date: 2015-12-14
Publication date: 2019-04-26
Anticipated expiration: 2035-12-14
Also published as: CN105512305A

Abstract

本发明实施例提供了一种基于序列化的文档压缩方法和装置，该方法包括：提取准备压缩的多个文档；从所述多个文档中查找内容相似的多个目标文档；对所述多个目标文档的一行或多行文档数据计算内容标识；根据所述内容标识对所述多个目标文档进行序列化，获得一个或多个数据块；将所述一个或多个数据块进行压缩处理，获得压缩对象。本发明实施例利用了网页本身的业务特性进行压缩，大大提高了压缩率，减少了存储空间的占用。

Description

一种基于序列化的文档压缩、文档解压方法和装置

技术领域

本发明涉及计算机处理的技术领域，特别是涉及一种基于序列化的文档压缩方法、一种基于序列化的文档解压方法、一种基于序列化的文档压缩装置和一种基于序列化的文档解压装置。

背景技术

为了构建索引及更新索引，搜索引擎的网络爬虫(又称蜘蛛，Spider)每天都要从互联网抓取海量的网页，数量高达几十亿的级别。

除了完全可以判别为垃圾的网页，蜘蛛每天抓取的大部分网页都会按照一定的格式存储在数据库中，这个数据库一般称为网页库。

经过长时间的积累，网页库中存储了多达几千亿张网页，平均每张原始网页大小为30～50KB，几千亿张网页的总存储量十分之高。

因此，一般在存储前都会对网页库中的网页进行压缩，采用的压缩算法有GZip，LZO，Zlib等。

但是，这些压缩算法都具有通用性，针对性较差，在压缩网页时，压缩率较低，占用较多的存储空间。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于序列化的文档压缩方法、一种基于序列化的文档解压方法和相应的一种基于序列化的文档压缩装置、一种基于序列化的文档解压装置。

依据本发明的一个方面，提供了一种基于序列化的文档压缩方法，包括：

提取准备压缩的多个文档；

从所述多个文档中查找内容相似的多个目标文档；

对所述多个目标文档的一行或多行文档数据计算内容标识；

根据所述内容标识对所述多个目标文档进行序列化，获得一个或多个数据块；

将所述一个或多个数据块进行压缩处理，获得压缩对象。

可选地，所述从所述多个文档中查找内容相似的多个目标文档的步骤包括：

计算所述多个文档的URL的相似性；

当所述相似性超过预设的相似性阈值时，确认所述多个文档为多个目标文档。

可选地，所述根据所述内容标识对所述多个目标文档进行序列化，获得一个或多个数据块的步骤包括：

提取所述多个目标文档中、内容标识相同的文档数据；

将所述内容标识相同的文档数据写入同一个数据块中。

可选地，所述根据所述内容标识对所述多个目标文档进行序列化，获得一个或多个数据块的步骤还包括：

对所述多个目标文档中、内容标识相同的文档数据进行编号；

记录所述文档数据在所属的目标文档中的位置。

可选地，所述多个文档以Host逆序的URL为行键，存储在数据库中。

根据本发明的另一方面，提供了一种基于序列化的文档解压方法，包括：

提取预先压缩的压缩对象，所述压缩文件中具有一个或多个数据块；

对所述一个或多个数据块进行解压处理，每个数据块具有关联的内容标识；

根据内容标识对解压处理之后的一个或多个数据块进行反序列化，获得多个目标文档。

可选地，所述根据内容标识对解压处理之后的一个或多个数据块进行反序列化，获得多个目标文档的步骤包括：

读取解压处理之后的一个或多个数据块中的文档数据，所述文档数据具有编号和内容标识；

按照所述编号计算所述文档数据所属的目标文档；

按照所述内容标识查找所述文档数据在所属的目标文档中的位置；

将所述文档数据写入所述目标文档中的位置。

根据本发明的另一方面，提供了一种基于序列化的文档压缩装置，包括：

文档提取模块，适于提取准备压缩的多个文档；

目标文档查找模块，适于从所述多个文档中查找内容相似的多个目标文档；

内容标识计算模块，适于对所述多个目标文档的一行或多行文档数据计算内容标识；

序列化模块，适于根据所述内容标识对所述多个目标文档进行序列化，获得一个或多个数据块；

压缩模块，适于将所述一个或多个数据块进行压缩处理，获得压缩对象。

可选地，所述目标文档查找模块还适于：

计算所述多个文档的URL的相似性；

可选地，所述序列化模块还适于：

提取所述多个目标文档中、内容标识相同的文档数据；

将所述内容标识相同的文档数据写入同一个数据块中。

可选地，所述序列化模块还适于：

记录所述文档数据在所属的目标文档中的位置。

根据本发明的另一方面，提供了一种基于序列化的文档解压装置，包括：

压缩对象提取模块，适于提取预先压缩的压缩对象，所述压缩文件中具有一个或多个数据块；

解压模块，适于对所述一个或多个数据块进行解压处理，每个数据块具有关联的内容标识；

反序列模块，适于根据内容标识对解压处理之后的一个或多个数据块进行反序列化，获得多个目标文档。

可选地，所述反序列模块还适于：

按照所述编号计算所述文档数据所属的目标文档；

将所述文档数据写入所述目标文档中的位置。

本发明实施例针对内容相似的多个目标文档，基于文档数据的内容标识进行序列化，进而压缩，获得压缩对象，利用了网页本身的业务特性进行压缩，大大提高了压缩率，减少了存储空间的占用。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的一种基于序列化的文档压缩方法实施例的步骤流程图；

图2示出了根据本发明一个实施例的一种网页的结构示例图；

图3示出了一种基于传统压缩方式压缩文档的示例图；

图4示出了根据本发明一个实施例的一种基于序列化压缩文档的示例图；

图5示出了根据本发明一个实施例的一种基于序列化的文档解压方法实施例的步骤流程图；

图6示出了根据本发明一个实施例的一种基于序列化的文档压缩装置实施例的结构框图；以及

图7示出了根据本发明一个实施例的一种基于序列化的文档解压装置实施例的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

参照图1，示出了根据本发明一个实施例的一种基于序列化的文档压缩方法实施例的步骤流程图，具体可以包括如下步骤：

步骤101，提取准备压缩的多个文档；

在本发明实施例中，爬虫可以预先通过网页间的链接关系，抓取互联网的网页，保存在网页库中，形成大量的搜索资源。

网页，通常是基于HTML(HyperText Markup Language，超文本标记语言)开发，每一张网页，也可以称之为HTML文档。

在本发明实施例中，由于网页的数据量十分之巨大，因此，可以存储在分布式的数据库中，如HBase等，本发明实施例对此不加以限制。

由于相似块结构压缩压缩比更高，因此，多个文档可以基于Key-Value的方式进行存储，以Host(主机)逆序的URL(Uniform Resource Locator，统一资源定位符)为行键，存储在数据库中。

当然，HTML文档除了上述存储方式之外，还可以采用其他存储方式，本发明实施例对此不加以限制。

若准备对网页进行压缩，则可以从网页库中提取准备压缩的多个文档。

步骤102，从所述多个文档中查找内容相似的多个目标文档；

本发明实施例中，在对多张网页进行压缩时，利用网页之间的相似性，将相似的网页放在一块，按照一定的算法重组这些相似的网页，然后进行压缩，进而提高压缩率。

在具体实现中，可以采用字符串的相似对比、最大相似公共子串、基于pattern(模式)等方法，计算多个文档的URL的相似性，当相似性超过预设的相似性阈值时，确认多个文档为多个目标文档。

以pattern为例，如图2所示，在某BBS(Bulletin Board System，论坛)的网页中，网页按照功能可以划分为多个区域，该页面可以划分为导航块(1)、垃圾块(2、4)、翻页块(3)、标题块(5)、作者信息块(6)、发表日期块(7)、正文块(8)，存在大量相似的内容。

其中，导航块可以位于网页页眉顶部，或者banner(网页的横幅广告)下部，用于指向网页的信息栏目。

垃圾块可以为与网页主题相关度很低的页面元素所在的区域，例如“发帖”、“回复”等功能按钮。

翻页块可以为指示翻页的区域。标题块可以为网页主题的标题(例如图2所示的“安全浏览器聚集黑色星期四”)所在的区域。

作者信息块为记载该网页主题作者信息的区域。正文块为记载该网页主题正文的区域。

其URL为：

http://bbs.XXX.com/forum-99-2.html；

http://bbs.XXX.com/forum-99-3.html。

其中，“99”、“2”被识别出为页码，以“(\d+)”作为替换字符，则其URL的pattern为http://bbs.XXX.com/forum-(\d+)-(\d+).html，符合这个pattern的URL所属的网页，具有相似性。

步骤103，对所述多个目标文档的一行或多行文档数据计算内容标识；

在具体实现中，HMTL文档通常以行为单位进行编译，因此，每行的文档数据为HTML文档的内容本身。

内容标识，可以指代表一个唯一确定的内容的信息，例如，Hash(哈希值)、MD5(Message-Digest Algorithm 5，信息摘要算法5)、SHA(Secure Hash Algorithm，安全哈希算法)等等。

步骤104，根据所述内容标识对所述多个目标文档进行序列化，获得一个或多个数据块；

在本发明实施例中，序列化可以指将对象的状态信息转换为可以存储或传输的形式的过程。

在具体实现中，可以提取多个目标文档中、内容标识相同的文档数据，将内容标识相同的文档数据写入同一个数据块中。

此外，可以对多个目标文档中、内容标识相同的文档数据进行编号，并记录文档数据在所属的目标文档中的位置，以便进行反序列化。

步骤105，将所述一个或多个数据块进行压缩处理，获得压缩对象。

在实际应用中，可以采用传统的压缩算法，如GZip，LZO，Zlib等，对数据块进行压缩处理，本发明实施例对此不加以限制。

应用GZip，LZO，Zlib等传统的压缩算法对网页进行直接的压缩，都是基于二进制字节流进行的压缩，如图3所示，针对网页301、网页302、网页303是逐个进行压缩，按照箭头方向，先压缩文档数据“Xxxxxxxxxxxxxx”、再压缩文档数据“Yyyyyyyyyyyyyy”，最后压缩文档数据“Zzzzzzzzzzzzzz”，忽略了网页本身的业务特性，使得压缩率比较低。

网页库所存储的网页，其中包含了：

1、不同网站使用同一模板生成的大量相似的网页；

2、同一网站利用同一个模板生成了大量相似的网页。

在这些相似的网页中，具有大量相同或相似的内容，如文档数据“Xxxxxxxxxxxxxx”、文档数据“Yyyyyyyyyyyyyy”和文档数据“Zzzzzzzzzzzzzz”。

在本发明实施例中，按照网页本身的业务特性，如图4所示，针对网页401、网页402、网页403按照箭头方向，将文档数据“Xxxxxxxxxxxxxx”、文档数据“Yyyyyyyyyyyyyy”和文档数据“Zzzzzzzzzzzzzz”进行序列化，获得多个数据块，再对数据块进行压缩，提高了压缩率。

在一种极端情况下，假设有N(N为正整数)张网页，每张网页内部都有K(K为正整数)行字符串，N张网页是K行字符串的N种排列组合，则根据本发明实施例中基于序列化的压缩算法，将N张网页相同的行统一放在一起进行编码压缩，则容易推导压缩后的存储空间C2＝C1/N+Ω；

其中，传统压缩算法压缩后的存储空间为C1，Ω为N张网页重组的结构化开销，可以认为远小于C1，因此，C2≈C1/N。

当然，上述示例是一些极端情况，实际环境中还需要考虑压缩时的结构性开销，使用线上实际数据进行模拟对比测试，采用本发明实施例中基于序列化的压缩方案与传统压缩方案进行对比，结果表明，相比于原来的单张网页压缩，基于序列化的压缩方案，利用了多篇文档间的相似性，压缩比可以提高30～45％左右，即平均可节省30～45％的存储空间。

参照图5，示出了根据本发明一个实施例的一种基于序列化的文档解压方法实施例的步骤流程图，具体可以包括如下步骤：

步骤501，提取预先压缩的压缩对象；

在本发明实施例中，压缩对象可以由多个文档经过序列化的压缩方式压缩处理获得。

压缩文件中具有一个或多个数据块，该数据块可以根据文档数据的内容标识进行序列化获得。

具体而言，该数据块为多个目标文档中、内容标识相同的文档数据的集合。

步骤502，对所述一个或多个数据块进行解压处理，每个数据块具有关联的内容标识；

在实际应用中，若在先采用传统的压缩算法，如GZip，LZO，Zlib等，对数据块进行压缩处理，则在本发明实施例中，可以按照该传统的压缩算法，如GZip，LZO，Zlib等，对数据块进行解压处理。

步骤503，根据内容标识对解压处理之后的一个或多个数据块进行反序列化，获得多个目标文档。

在本发明实施例中，反序列化可以指将对象从可以存储或传输的形式转换为状态信息的过程。

在具体实现中，可以读取解压处理之后的一个或多个数据块中的文档数据，其中，文档数据具有编号和内容标识，按照编号计算文档数据所属的目标文档，按照内容标识查找文档数据在所属的目标文档中的位置，将文档数据写入目标文档中的位置，获得原始的目标文档。

对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图6，示出了根据本发明一个实施例的一种基于序列化的文档压缩装置实施例的结构框图，具体可以包括如下模块：

文档提取模块601，适于提取准备压缩的多个文档；

目标文档查找模块602，适于从所述多个文档中查找内容相似的多个目标文档；

内容标识计算模块603，适于对所述多个目标文档的一行或多行文档数据计算内容标识；

序列化模块604，适于根据所述内容标识对所述多个目标文档进行序列化，获得一个或多个数据块；

压缩模块605，适于将所述一个或多个数据块进行压缩处理，获得压缩对象。

在本发明的一种可选实施例中，所述目标文档查找模块603还可以适于：

计算所述多个文档的URL的相似性；

在本发明的一种可选实施例中，所述序列化模块604还可以适于：

提取所述多个目标文档中、内容标识相同的文档数据；

将所述内容标识相同的文档数据写入同一个数据块中。

记录所述文档数据在所属的目标文档中的位置。

在具体实现中，所述多个文档以Host逆序的URL为行键，存储在数据库中。

参照图7，示出了根据本发明一个实施例的一种基于序列化的文档解压装置实施例的结构框图，具体可以包括如下模块：

压缩对象提取模块701，适于提取预先压缩的压缩对象，所述压缩文件中具有一个或多个数据块；

解压模块702，适于对所述一个或多个数据块进行解压处理，每个数据块具有关联的内容标识；

反序列模块703，适于根据内容标识对解压处理之后的一个或多个数据块进行反序列化，获得多个目标文档。

在本发明的一种可选实施例中，所述反序列模块703还可以适于：

按照所述编号计算所述文档数据所属的目标文档；

将所述文档数据写入所述目标文档中的位置。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的基于序列化的文档压缩设备、基于序列化的文档解压设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种基于序列化的文档压缩方法，包括：

提取准备压缩的多个文档；

从所述多个文档中查找内容相似的多个目标文档；

对所述多个目标文档的一行或多行文档数据计算内容标识；

将所述一个或多个数据块进行压缩处理，获得压缩对象；

其中，所述根据所述内容标识对所述多个目标文档进行序列化，获得一个或多个数据块的步骤包括：

提取所述多个目标文档中、内容标识相同的文档数据；

将所述内容标识相同的文档数据写入同一个数据块中。

2.如权利要求1所述的方法，其特征在于，所述从所述多个文档中查找内容相似的多个目标文档的步骤包括：

计算所述多个文档的URL的相似性；

3.如权利要求1或2所述的方法，其特征在于，所述根据所述内容标识对所述多个目标文档进行序列化，获得一个或多个数据块的步骤还包括：

记录所述文档数据在所属的目标文档中的位置。

4.如权利要求1或2所述的方法，其特征在于，所述多个文档以Host逆序的URL为行键，存储在数据库中。

5.一种基于序列化的文档解压方法，包括：

提取预先压缩的压缩对象，所述压缩对象中具有一个或多个数据块；其中，一个或多个所述数据块中包括多个内容标识相同的文档数据；

6.如权利要求5所述的方法，其特征在于，所述根据内容标识对解压处理之后的一个或多个数据块进行反序列化，获得多个目标文档的步骤包括：

按照所述编号计算所述文档数据所属的目标文档；

将所述文档数据写入所述目标文档中的位置。

7.一种基于序列化的文档压缩装置，包括：

文档提取模块，适于提取准备压缩的多个文档；

压缩模块，适于将所述一个或多个数据块进行压缩处理，获得压缩对象；

其中，所述序列化模块还适于：

提取所述多个目标文档中、内容标识相同的文档数据；

将所述内容标识相同的文档数据写入同一个数据块中。

8.如权利要求7所述的装置，其特征在于，所述目标文档查找模块还适于：

计算所述多个文档的URL的相似性；

9.如权利要求7或8所述的装置，其特征在于，所述序列化模块还适于：

记录所述文档数据在所属的目标文档中的位置。

10.如权利要求7或8所述的装置，其特征在于，所述多个文档以Host逆序的URL为行键，存储在数据库中。

11.一种基于序列化的文档解压装置，包括：

压缩对象提取模块，适于提取预先压缩的压缩对象，所述压缩对象中具有一个或多个数据块；其中，一个或多个所述数据块中包括多个内容标识相同的文档数据；

12.如权利要求11所述的装置，其特征在于，所述反序列模块还适于：

按照所述编号计算所述文档数据所属的目标文档；

将所述文档数据写入所述目标文档中的位置。