CN103870487B

CN103870487B - 网页文件处理方法及移动终端

Info

Publication number: CN103870487B
Application number: CN201210539489.0A
Authority: CN
Inventors: 凌艺宾; 李雪峰; 肖曦
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Shenzhen Yayue Technology Co ltd
Priority date: 2012-12-13
Filing date: 2012-12-13
Publication date: 2017-07-25
Anticipated expiration: 2032-12-13
Also published as: US20180293326A1; WO2014090060A1; US10037387B2; US20150278390A1; US10552508B2; CN103870487A

Abstract

本发明公开一种网页文件处理方法及移动终端，其方法包括：从移动终端浏览器上识别单一网页文件格式的网页；从单一网页文件格式的网页中解析出文件头信息；根据文件头信息获取边界字符串及字符编码格式，对单一网页文件格式的网页进行内容分块及解码处理；将内容分块及解码处理所得的数据以页面展示出来，从而实现从移动终端浏览器上直接打开MHT格式等单一网页文件；此外，本发明还可以实现了在手机浏览器上对网页尤其是难于抽取正文的网页的保存为MHT格式等单一网页文件，从而实现手机浏览器对MHT文件等单一网页格式文件格式网页的处理支持，满足了用户在手机上保存和阅读MHT文件等单一网页文件格式网页的需求。

Description

网页文件处理方法及移动终端

技术领域

本发明涉及互联网及移动通信技术领域，尤其涉及一种网页文件处理方法及移动终端。

背景技术

MHT/MHTML是一种单一网页文件格式，它是MIME HTML的缩写（以下统一用MHT来指代这种单一网页文件格式），MHT文件又称为聚合HTML文档、Web档案。与HTML不同，它可以把网页里面相关的标签和图片/css等资源按一定的编码格式保存在一个文件里面，便于使用和保存。这种封装可将整个网站发布为单个内嵌 MIME或将整个网站作为一个电子邮件或附件发送。

随着移动通信技术与互联网技术的不断融合，产生了在手机浏览器中阅读MHT文件的需求，但是，目前在手机浏览器中（包括手机firefox、手机Opera、手机UC浏览器以及手机Chrome浏览器等）没有对MHT文件格式的相关支持，在打开MHT文件时只能看到MHT文件里面的文本。

PC浏览器中虽然提供有对MHT文件的支持，但大多只能是在本地打开，直接访问网站上的MHT文件也不会立即解码还原成网页显示出来。

另外，对于手机浏览器而言，很多网页很难直接抽取正文，而且无法根据手机情况进行优化，由此降低了系统运行性能。

发明内容

本发明的主要目的在于提供一种网页文件处理方法及移动终端，旨在手机等移动终端浏览器上实现对MHT文件等单一网页格式文件的处理支持。

为了达到上述目的，本发明提出一种网页文件处理方法，包括：

从移动终端浏览器上识别单一网页文件格式的网页；

从所述单一网页文件格式的网页中解析出文件头信息；

根据所述文件头信息获取边界字符串及字符编码格式，对所述单一网页文件格式的网页进行内容分块及解码处理；

将内容分块及解码处理所得的数据以页面展示出来。

本发明还提出一种处理网页文件的移动终端，包括：

识别模块，用于从移动终端浏览器上识别单一网页文件格式的网页；

解析模块，用于从所述单一网页文件格式的网页中解析出文件头信息；

分块解码模块，用于根据所述文件头信息获取边界字符串及字符编码格式，对所述单一网页文件格式的网页进行内容分块及解码处理；

展示模块，用于将内容分块及解码处理所得的数据以页面展示出来。

本发明提出的一种网页文件处理方法及移动终端，通过识别移动终端浏览器上的单一网页文件格式的网页；从单一网页文件格式的网页中解析出文件头信息；根据文件头信息获取边界字符串及字符编码格式，对单一网页文件格式的网页进行内容分块及解码处理；然后将内容分块及解码处理所得的数据以页面展示出来，从而实现从移动终端浏览器上直接打开MHT格式等单一网页文件；此外，本发明还可以实现在手机浏览器上对网页尤其是难于抽取正文的网页的保存为MHT格式等单一网页文件，从而实现了手机浏览器对MHT等单一网页格式文件格式网页的处理支持，满足了用户在手机上保存和阅读MHT等单一网页文件格式网页的需求。

附图说明

图1是本发明网页文件处理方法第一实施例的流程示意图；

图2是本发明网页文件处理方法第二实施例的流程示意图；

图3是本发明处理网页文件的移动终端第一实施例的结构示意图；

图4是本发明处理网页文件的移动终端第一实施例中分块解码模块的结构示意图；

图5是本发明处理网页文件的移动终端第二实施例的结构示意图；

图6是本发明处理网页文件的移动终端第二实施例中编码保存模块的结构示意图。

为了使本发明的技术方案更加清楚、明了，下面将结合附图作进一步详述。

具体实施方式

本发明实施例的解决方案主要是：通过识别移动终端浏览器上的单一网页文件格式的网页；从单一网页文件格式的网页中解析出文件头信息；根据文件头信息获取边界字符串及字符编码格式，对单一网页文件格式的网页进行内容分块及解码处理；然后将内容分块及解码处理所得的数据以页面展示出来，以实现从移动终端浏览器上直接打开MHT格式等单一网页文件；此外，还可以实现在手机浏览器上对网页尤其是难于抽取正文的网页的保存为MHT格式等单一网页文件，实现手机浏览器对MHT等单一网页格式文件格式网页的处理支持，满足用户在手机上保存和阅读MHT等单一网页文件格式网页的需求。

如图1所示，本发明第一实施例提出一种网页文件处理方法，包括：

步骤S101，从移动终端浏览器上识别单一网页文件格式的网页；

其中，本实施例所称单一网页文件格式的网页包括但不限于MHT格式网页，比如还可以为邮件格式等，本实施例以MHT格式网页举例说明。

本实施例可以实现在移动终端浏览器上直接打开任意网站上的单一网页文件格式的网页。

具体地，以手机浏览器及MHT格式网页为例，在实现从手机浏览器上打开MHT格式网页时，首先在手机浏览器上输入待打开的MHT格式网页的地址，根据该MHT格式网页的地址从网上或本地识别出该MHT格式网页。

步骤S102，从所述单一网页文件格式的网页中解析出文件头信息；

在识别出MHT格式网页后，对该网页进行解析，获取MHT文件头信息，该MHT文件头信息中包括分隔网页内容的边界字符串等信息。

步骤S103，根据所述文件头信息获取边界字符串及字符编码格式，对所述单一网页文件格式的网页进行内容分块及解码处理；

具体处理时，从所述文件头信息中获取边界字符串；根据所述边界字符串对MHT格式的网页进行内容分块，将MHT格式的网页分块为文件头信息、网页HTML源代码、资源文件数据等。

其中，资源文件数据包括图片、css（Cascading Style Sheet，级联样式表）和/或js（JavaScript，一种脚本语言）数据等。

通过内容分块后得到的每一分块均带有一头信息，然后可以根据每一分块的头信息获取该分块的字符编码格式（UTF-8/GBK等），进而可以根据每一分块的字符编码格式对网页HTML源代码、图片、css和/或js数据等进行相应的解码。

在具体解码时，对分块中的图片进行base64解码，将解码后的图片放入移动终端浏览器的缓存中；对分块中的网页HTML源代码、css和/或js数据进行quoted-printable解码，将其中的css和/或js数据放入移动终端浏览器的缓存中。

步骤S104，将内容分块及解码处理所得的数据以页面展示出来。

以页面打开所述网页HTML源代码，打开后的HTML页面会根据相应的引用地址去读取手机浏览器的缓存，从所述移动终端浏览器的缓存中读取相应的图片、css和/或js数据并展示在所述页面中，从而将MHT格式网页页面完整的展示出来。

本实施例通过上述方案可以实现从手机浏览器上直接打开MHT文件或类似MHT格式的文件，由此通过手机浏览器对MHT文件格式的打开功能的支持，满足了用户在手机上阅读MHT文件等单一网页文件的需求。

需要说明的是，对于普通网页来说，可能会有不同的字符编码格式，这种编码格式与上述base64、quoted-printable等编码是有区别的，前者是原网页文件中对ASCII码之外的字符进行文字编码，后者是对整个文字进行加密，只是这种加密不是真正意义上的加密，因为任何人都可以解密。

对于前者来说，本方案中采用的是在MHT头中加入charset字符编码标识，解码时需要先判断是哪种字符编码，再来对MHT文件其它部分进行相应的解码（不同的字符编码在解码算法中的流程不一样）。

对于后者来说，base64解码出来一般是图片，直接放入缓存就行；而quoted-printable编码在解码时，需要根据它的规则，写自己的算法对字节进行逐个处理，并做出特定的组合来完成解码，最后把得到的所有字节数据转为可读的字符串。

如图2所示，本发明第二实施例提出一种网页文件处理方法，在上述第一实施例的基础上，在上述步骤S101之前还包括：

步骤S105，在移动终端浏览器中读取网页HTML源代码，获取所述网页的页面信息；

步骤S106，解析所述网页的页面信息，获取文件头信息及资源文件数据；

步骤S107，对所述网页HTML源代码，以及资源文件数据中的css和/或js数据分别进行quoted-printable编码；对所述资源文件数据中的图片进行base64编码；

步骤S108，将所述文件头信息、编码后的网页HTML源代码以及资源文件数据依次组合；

步骤S109，将组合后的数据采用边界字符串隔开，并以边界字符串结尾，形成单一网页文件并保存。

本实施例与上述第一实施例的区别在于，本实施例还可以在移动终端浏览器上实现对网站上的网页尤其是难于抽取正文的网页，保存为单一网页文件格式，用户在需要时可以在本地或拷贝至PC端打开。

具体地，以手机浏览器及MHT格式网页为例，首先读取MHT格式网页的HTML源代码，同时获取该网页的页面信息。

解析该网页的页面信息，获取的该网页的页面标题/字符编码等信息生成MHT文件头信息，同时获取图片、css和/或js数据等资源文件数据。

之后，对所述网页HTML源代码，以及资源文件数据中的css和/或js数据分别进行quoted-printable编码；对所述资源文件数据中的图片进行base64编码。

其中，quoted-printable编码是一种采用可打印的ASCII字符来表示各种编码格式下的各种字符的编码方式；base64编码是一种采用大小写字母各26个，加10个数字，再加一个“+”和“=”一共64种字符来表示二进制数据的方法。

然后将所述文件头信息、编码后的网页HTML源代码以及资源文件数据依次组合；将组合后的数据采用边界字符串隔开，并以边界字符串结尾，形成单一网页文件并保存。

本实施例通过上述方案，不仅实现了从手机浏览器上直接打开MHT文件或类似MHT格式的文件，而且实现了在手机浏览器保存MHT文件，对于手机上的浏览器来说，有不少网页的正文是很难抽取并根据手机的情况进行优化的。这种情况下，就可以使用MHT这种格式，保存成一个MHT文件，需要的时候就可以直接在本地打开，或者根据用户选择将手机中保存的MHT文件拷贝至PC端或其他终端，采用本实施例打开解码方案打开，或者采用其他方式打开，在此不作限定。

此外，对于收藏+等手机浏览器上的应用，有很多网页是很难直接抽取正文的，在保存成MHT格式后，在收藏+中就可以覆盖几乎所有网页的收藏。

本实施例方案还可以对类似于MHT文件格式的其他文件进行保存，比如手机浏览器对邮件头信息解析的支持，因为MHT文件的格式和邮件头的格式差不多，邮件头格式里面的quoted-printable编码也是MHT文件里面相对较重要的编码格式，同样可以采用上述保存方案对邮件头信息解析的支持。

需要说明的是，本实施例中上述步骤S105-步骤S109还可以不依赖于上述第一实施例而单独实施，以满足用户在移动终端浏览器中对MHT格式或类似MHT格式的单一网页文件的保存支持的需求。在此不再赘述。

如图3所示，本发明第一实施例提出一种处理网页文件的移动终端，包括：识别模块301、解析模块302、分块解码模块303及展示模块304，其中：

识别模块301，用于从移动终端浏览器上识别单一网页文件格式的网页；

解析模块302，用于从所述单一网页文件格式的网页中解析出文件头信息；

分块解码模块303，用于根据所述文件头信息获取边界字符串及字符编码格式，对所述单一网页文件格式的网页进行内容分块及解码处理；

展示模块304，用于将内容分块及解码处理所得的数据以页面展示出来。

本实施例所称单一网页文件格式的网页包括但不限于MHT格式网页，比如还可以为邮件格式等，本实施例以MHT格式网页举例说明。

具体地，以手机浏览器及MHT格式网页为例，在实现从手机浏览器上打开MHT格式网页时，首先在手机浏览器上输入待打开的MHT格式网页的地址，识别模块301根据该MHT格式网页的地址从网上或本地识别出该MHT格式网页。

在识别模块301识别出MHT格式网页后，解析模块302对该网页进行解析，获取MHT文件头信息，该MHT文件头信息中包括分隔网页内容的边界字符串等信息。

然后，分块解码模块303根据所述边界字符串对MHT格式的网页进行内容分块，将MHT格式的网页分块为文件头信息、网页HTML源代码、资源文件数据等。

最后，展示模块304以页面打开所述网页HTML源代码，打开后的HTML页面会根据相应的引用地址去读取手机浏览器的缓存，从所述移动终端浏览器的缓存中读取相应的图片、css和/或js数据并展示在所述页面中，从而将MHT格式网页页面完整的展示出来。

具体实施过程中，如图4所示，上述分块解码模块303可以包括：边界字符串获取单元3031、分块单元3032、字符编码格式获取单元3033及解码单元3034，其中：

边界字符串获取单元3031，用于从所述文件头信息中获取边界字符串；

分块单元3032，用于以所述边界字符串对所述单一网页文件格式的网页进行文件头信息、网页HTML源代码、资源文件数据的分块，每一分块带有一头信息；

字符编码格式获取单元3033，用于根据每一分块的头信息获取该分块的字符编码格式；

解码单元3034，用于根据每一分块的字符编码格式进行相应的解码。

如图5所示，本发明第二实施例提出一种处理网页文件的移动终端，在上述第一实施例的基础上，还包括编码保存模块305。

如图6所示，该编码保存模块305包括：页面信息获取单元3051、解析获取单元3052、编码单元3053、组合单元3054及分隔保存单元3055，其中：

页面信息获取单元3051，用于在移动终端浏览器中读取网页HTML源代码，获取所述网页的页面信息；

解析获取单元3052，用于解析所述网页的页面信息，获取文件头信息及资源文件数据；

编码单元3053，用于对所述网页HTML源代码，以及资源文件数据中的css和/或js数据分别进行quoted-printable编码；对所述资源文件数据中的图片进行base64编码；

组合单元3054，用于将所述文件头信息、编码后的网页HTML源代码以及资源文件数据依次组合；

分隔保存单元3055，用于将组合后的数据采用边界字符串隔开，并以边界字符串结尾，形成单一网页文件并保存

需要说明的是，本实施例中上述将网站上的网页保存为单一网页文件格式的方案还可以不依赖于上述第一实施例而单独实施，以满足用户在移动终端浏览器中对MHT格式或类似MHT格式的单一网页文件的保存支持的需求。在此不再赘述。

本发明实施例网页文件处理方法及移动终端，通过识别移动终端浏览器上的单一网页文件格式的网页；从单一网页文件格式的网页中解析出文件头信息；根据文件头信息获取边界字符串及字符编码格式，对单一网页文件格式的网页进行内容分块及解码处理；然后将内容分块及解码处理所得的数据以页面展示出来，从而实现从移动终端浏览器上直接打开MHT格式等单一网页文件；此外，通过在移动终端浏览器中读取网页HTML源代码，获取网页的页面信息；解析网页的页面信息，获取文件头信息及资源文件数据；对所述网页HTML源代码，以及资源文件数据中的css和/或js数据分别进行quoted-printable编码；对所述资源文件数据中的图片进行base64编码；将所述文件头信息、编码后的网页HTML源代码以及资源文件数据依次组合；将组合后的数据采用边界字符串隔开，并以边界字符串结尾，形成单一网页文件并保存，由此实现了在手机浏览器上对网页尤其是难于抽取正文的网页的保存；通过在手机浏览器对MHT文件等单一网页格式文件的处理支持，满足了用户在手机上保存和阅读MHT文件等单一网页文件的需求。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种网页文件处理方法，其特征在于，包括：

从移动终端浏览器上识别单一网页文件格式的网页；

从所述单一网页文件格式的网页中解析出文件头信息；

将内容分块及解码处理所得的数据以页面展示出来；

所述根据所述文件头信息获取边界字符串及字符编码格式，对所述单一网页文件格式的网页进行内容分块及解码处理的步骤包括：

从所述文件头信息中获取边界字符串；

以所述边界字符串对所述单一网页文件格式的网页进行文件头信息、网页HTML源代码、资源文件数据的分块，每一分块带有一头信息；

根据每一分块的头信息获取该分块的字符编码格式；

根据每一分块的字符编码格式进行相应的解码。

2.根据权利要求1所述的方法，其特征在于，所述资源文件数据包括图片、css和/或js数据，所述根据每一分块的字符编码格式进行相应的解码的步骤包括：

对分块中的图片进行base64解码，将解码后的图片放入移动终端浏览器的缓存中；对分块中的网页HTML源代码、css和/或js数据进行quoted-printable解码，将其中的css和/或js数据放入移动终端浏览器的缓存中。

3.根据权利要求2所述的方法，其特征在于，所述将内容分块及解码处理所得的数据以页面展示出来的步骤包括：

以页面打开所述网页HTML源代码；

根据所述网页HTML源代码中的引用地址，从所述移动终端浏览器的缓存中读取相应的图片、css和/或js数据并展示在所述页面中。

4.根据权利要求2或3所述的方法，其特征在于，所述从移动终端浏览器上识别单一网页文件格式的网页的步骤之前还包括：

在移动终端浏览器中读取网页HTML源代码，获取所述网页的页面信息；

解析所述网页的页面信息，获取文件头信息及资源文件数据；

对所述网页HTML源代码，以及资源文件数据中的css和/或js数据分别进行quoted-printable编码；对所述资源文件数据中的图片进行base64编码；

将所述文件头信息、编码后的网页HTML源代码以及资源文件数据依次组合；

将组合后的数据采用边界字符串隔开，并以边界字符串结尾，形成单一网页文件并保存。

5.根据权利要求4所述的方法，其特征在于，所述网页的页面信息至少包括网页中的标题或字符编码。

6.一种处理网页文件的移动终端，其特征在于，包括：

展示模块，用于将内容分块及解码处理所得的数据以页面展示出来；

所述分块解码模块包括：

边界字符串获取单元，用于从所述文件头信息中获取边界字符串；

分块单元，用于以所述边界字符串对所述单一网页文件格式的网页进行文件头信息、网页HTML源代码、资源文件数据的分块，每一分块带有一头信息；

字符编码格式获取单元，用于根据每一分块的头信息获取该分块的字符编码格式；

解码单元，用于根据每一分块的字符编码格式进行相应的解码。

7.根据权利要求6所述的移动终端，其特征在于，所述资源文件数据包括图片、css和/或js数据，所述解码单元还用于对分块中的图片进行base64解码，将解码后的图片放入移动终端浏览器的缓存中；对分块中的网页HTML源代码、css和/或js数据进行quoted-printable解码，将其中的css和/或js数据放入移动终端浏览器的缓存中。

8.根据权利要求7所述的移动终端，其特征在于，所述展示模块还用于以页面打开所述网页HTML源代码；根据所述网页HTML源代码中的引用地址，从所述移动终端浏览器的缓存中读取相应的图片、css和/或js数据并展示在所述页面中。

9.根据权利要求6或7所述的移动终端，其特征在于，还包括编码保存模块，所述编码保存模块包括：

页面信息获取单元，用于在移动终端浏览器中读取网页HTML源代码，获取所述网页的页面信息；

解析获取单元，用于解析所述网页的页面信息，获取文件头信息及资源文件数据；

编码单元，用于对所述网页HTML源代码，以及资源文件数据中的css和/或js数据分别进行quoted-printable编码；对所述资源文件数据中的图片进行base64编码；

组合单元，用于将所述文件头信息、编码后的网页HTML源代码以及资源文件数据依次组合；

分隔保存单元，用于将组合后的数据采用边界字符串隔开，并以边界字符串结尾，形成单一网页文件并保存。