CN103870487B - 网页文件处理方法及移动终端 - Google Patents

网页文件处理方法及移动终端 Download PDF

Info

Publication number
CN103870487B
CN103870487B CN201210539489.0A CN201210539489A CN103870487B CN 103870487 B CN103870487 B CN 103870487B CN 201210539489 A CN201210539489 A CN 201210539489A CN 103870487 B CN103870487 B CN 103870487B
Authority
CN
China
Prior art keywords
webpage
web page
piecemeal
data
mobile terminal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210539489.0A
Other languages
English (en)
Other versions
CN103870487A (zh
Inventor
凌艺宾
李雪峰
肖曦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yayue Technology Co ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201210539489.0A priority Critical patent/CN103870487B/zh
Priority to PCT/CN2013/086731 priority patent/WO2014090060A1/en
Publication of CN103870487A publication Critical patent/CN103870487A/zh
Priority to US14/740,191 priority patent/US10037387B2/en
Application granted granted Critical
Publication of CN103870487B publication Critical patent/CN103870487B/zh
Priority to US16/000,406 priority patent/US10552508B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9574Browsing optimisation, e.g. caching or content distillation of access to content, e.g. by caching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions

Abstract

本发明公开一种网页文件处理方法及移动终端,其方法包括:从移动终端浏览器上识别单一网页文件格式的网页;从单一网页文件格式的网页中解析出文件头信息;根据文件头信息获取边界字符串及字符编码格式,对单一网页文件格式的网页进行内容分块及解码处理;将内容分块及解码处理所得的数据以页面展示出来,从而实现从移动终端浏览器上直接打开MHT格式等单一网页文件;此外,本发明还可以实现了在手机浏览器上对网页尤其是难于抽取正文的网页的保存为MHT格式等单一网页文件,从而实现手机浏览器对MHT文件等单一网页格式文件格式网页的处理支持,满足了用户在手机上保存和阅读MHT文件等单一网页文件格式网页的需求。

Description

网页文件处理方法及移动终端
技术领域
本发明涉及互联网及移动通信技术领域,尤其涉及一种网页文件处理方法及移动终端。
背景技术
MHT/MHTML是一种单一网页文件格式,它是MIME HTML的缩写(以下统一用MHT来指代这种单一网页文件格式),MHT文件又称为聚合HTML文档、Web档案。与HTML不同,它可以把网页里面相关的标签和图片/css等资源按一定的编码格式保存在一个文件里面,便于使用和保存。这种封装可将整个网站发布为单个内嵌 MIME或将整个网站作为一个电子邮件或附件发送。
随着移动通信技术与互联网技术的不断融合,产生了在手机浏览器中阅读MHT文件的需求,但是,目前在手机浏览器中(包括手机firefox、手机Opera、手机UC浏览器以及手机Chrome浏览器等)没有对MHT文件格式的相关支持,在打开MHT文件时只能看到MHT文件里面的文本。
PC浏览器中虽然提供有对MHT文件的支持,但大多只能是在本地打开,直接访问网站上的MHT文件也不会立即解码还原成网页显示出来。
另外,对于手机浏览器而言,很多网页很难直接抽取正文,而且无法根据手机情况进行优化,由此降低了系统运行性能。
发明内容
本发明的主要目的在于提供一种网页文件处理方法及移动终端,旨在手机等移动终端浏览器上实现对MHT文件等单一网页格式文件的处理支持。
为了达到上述目的,本发明提出一种网页文件处理方法,包括:
从移动终端浏览器上识别单一网页文件格式的网页;
从所述单一网页文件格式的网页中解析出文件头信息;
根据所述文件头信息获取边界字符串及字符编码格式,对所述单一网页文件格式的网页进行内容分块及解码处理;
将内容分块及解码处理所得的数据以页面展示出来。
本发明还提出一种处理网页文件的移动终端,包括:
识别模块,用于从移动终端浏览器上识别单一网页文件格式的网页;
解析模块,用于从所述单一网页文件格式的网页中解析出文件头信息;
分块解码模块,用于根据所述文件头信息获取边界字符串及字符编码格式,对所述单一网页文件格式的网页进行内容分块及解码处理;
展示模块,用于将内容分块及解码处理所得的数据以页面展示出来。
本发明提出的一种网页文件处理方法及移动终端,通过识别移动终端浏览器上的单一网页文件格式的网页;从单一网页文件格式的网页中解析出文件头信息;根据文件头信息获取边界字符串及字符编码格式,对单一网页文件格式的网页进行内容分块及解码处理;然后将内容分块及解码处理所得的数据以页面展示出来,从而实现从移动终端浏览器上直接打开MHT格式等单一网页文件;此外,本发明还可以实现在手机浏览器上对网页尤其是难于抽取正文的网页的保存为MHT格式等单一网页文件,从而实现了手机浏览器对MHT等单一网页格式文件格式网页的处理支持,满足了用户在手机上保存和阅读MHT等单一网页文件格式网页的需求。
附图说明
图1是本发明网页文件处理方法第一实施例的流程示意图;
图2是本发明网页文件处理方法第二实施例的流程示意图;
图3是本发明处理网页文件的移动终端第一实施例的结构示意图;
图4是本发明处理网页文件的移动终端第一实施例中分块解码模块的结构示意图;
图5是本发明处理网页文件的移动终端第二实施例的结构示意图;
图6是本发明处理网页文件的移动终端第二实施例中编码保存模块的结构示意图。
为了使本发明的技术方案更加清楚、明了,下面将结合附图作进一步详述。
具体实施方式
本发明实施例的解决方案主要是:通过识别移动终端浏览器上的单一网页文件格式的网页;从单一网页文件格式的网页中解析出文件头信息;根据文件头信息获取边界字符串及字符编码格式,对单一网页文件格式的网页进行内容分块及解码处理;然后将内容分块及解码处理所得的数据以页面展示出来,以实现从移动终端浏览器上直接打开MHT格式等单一网页文件;此外,还可以实现在手机浏览器上对网页尤其是难于抽取正文的网页的保存为MHT格式等单一网页文件,实现手机浏览器对MHT等单一网页格式文件格式网页的处理支持,满足用户在手机上保存和阅读MHT等单一网页文件格式网页的需求。
如图1所示,本发明第一实施例提出一种网页文件处理方法,包括:
步骤S101,从移动终端浏览器上识别单一网页文件格式的网页;
其中,本实施例所称单一网页文件格式的网页包括但不限于MHT格式网页,比如还可以为邮件格式等,本实施例以MHT格式网页举例说明。
本实施例可以实现在移动终端浏览器上直接打开任意网站上的单一网页文件格式的网页。
具体地,以手机浏览器及MHT格式网页为例,在实现从手机浏览器上打开MHT格式网页时,首先在手机浏览器上输入待打开的MHT格式网页的地址,根据该MHT格式网页的地址从网上或本地识别出该MHT格式网页。
步骤S102,从所述单一网页文件格式的网页中解析出文件头信息;
在识别出MHT格式网页后,对该网页进行解析,获取MHT文件头信息,该MHT文件头信息中包括分隔网页内容的边界字符串等信息。
步骤S103,根据所述文件头信息获取边界字符串及字符编码格式,对所述单一网页文件格式的网页进行内容分块及解码处理;
具体处理时,从所述文件头信息中获取边界字符串;根据所述边界字符串对MHT格式的网页进行内容分块,将MHT格式的网页分块为文件头信息、网页HTML源代码、资源文件数据等。
其中,资源文件数据包括图片、css(Cascading Style Sheet,级联样式表)和/或js(JavaScript,一种脚本语言)数据等。
通过内容分块后得到的每一分块均带有一头信息,然后可以根据每一分块的头信息获取该分块的字符编码格式(UTF-8/GBK等),进而可以根据每一分块的字符编码格式对网页HTML源代码、图片、css和/或js数据等进行相应的解码。
在具体解码时,对分块中的图片进行base64解码,将解码后的图片放入移动终端浏览器的缓存中;对分块中的网页HTML源代码、css和/或js数据进行quoted-printable解码,将其中的css和/或js数据放入移动终端浏览器的缓存中。
步骤S104,将内容分块及解码处理所得的数据以页面展示出来。
以页面打开所述网页HTML源代码,打开后的HTML页面会根据相应的引用地址去读取手机浏览器的缓存,从所述移动终端浏览器的缓存中读取相应的图片、css和/或js数据并展示在所述页面中,从而将MHT格式网页页面完整的展示出来。
本实施例通过上述方案可以实现从手机浏览器上直接打开MHT文件或类似MHT格式的文件,由此通过手机浏览器对MHT文件格式的打开功能的支持,满足了用户在手机上阅读MHT文件等单一网页文件的需求。
需要说明的是,对于普通网页来说,可能会有不同的字符编码格式,这种编码格式与上述base64、quoted-printable等编码是有区别的,前者是原网页文件中对ASCII码之外的字符进行文字编码,后者是对整个文字进行加密,只是这种加密不是真正意义上的加密,因为任何人都可以解密。
对于前者来说,本方案中采用的是在MHT头中加入charset字符编码标识,解码时需要先判断是哪种字符编码,再来对MHT文件其它部分进行相应的解码(不同的字符编码在解码算法中的流程不一样)。
对于后者来说,base64解码出来一般是图片,直接放入缓存就行;而quoted-printable编码在解码时,需要根据它的规则,写自己的算法对字节进行逐个处理,并做出特定的组合来完成解码,最后把得到的所有字节数据转为可读的字符串。
如图2所示,本发明第二实施例提出一种网页文件处理方法,在上述第一实施例的基础上,在上述步骤S101之前还包括:
步骤S105,在移动终端浏览器中读取网页HTML源代码,获取所述网页的页面信息;
步骤S106,解析所述网页的页面信息,获取文件头信息及资源文件数据;
步骤S107,对所述网页HTML源代码,以及资源文件数据中的css和/或js数据分别进行quoted-printable编码;对所述资源文件数据中的图片进行base64编码;
步骤S108,将所述文件头信息、编码后的网页HTML源代码以及资源文件数据依次组合;
步骤S109,将组合后的数据采用边界字符串隔开,并以边界字符串结尾,形成单一网页文件并保存。
本实施例与上述第一实施例的区别在于,本实施例还可以在移动终端浏览器上实现对网站上的网页尤其是难于抽取正文的网页,保存为单一网页文件格式,用户在需要时可以在本地或拷贝至PC端打开。
具体地,以手机浏览器及MHT格式网页为例,首先读取MHT格式网页的HTML源代码,同时获取该网页的页面信息。
解析该网页的页面信息,获取的该网页的页面标题/字符编码等信息生成MHT文件头信息,同时获取图片、css和/或js数据等资源文件数据。
之后,对所述网页HTML源代码,以及资源文件数据中的css和/或js数据分别进行quoted-printable编码;对所述资源文件数据中的图片进行base64编码。
其中,quoted-printable编码是一种采用可打印的ASCII字符来表示各种编码格式下的各种字符的编码方式;base64编码是一种采用大小写字母各26个,加10个数字,再加一个“+”和“=”一共64种字符来表示二进制数据的方法。
然后将所述文件头信息、编码后的网页HTML源代码以及资源文件数据依次组合;将组合后的数据采用边界字符串隔开,并以边界字符串结尾,形成单一网页文件并保存。
本实施例通过上述方案,不仅实现了从手机浏览器上直接打开MHT文件或类似MHT格式的文件,而且实现了在手机浏览器保存MHT文件,对于手机上的浏览器来说,有不少网页的正文是很难抽取并根据手机的情况进行优化的。这种情况下,就可以使用MHT这种格式,保存成一个MHT文件,需要的时候就可以直接在本地打开,或者根据用户选择将手机中保存的MHT文件拷贝至PC端或其他终端,采用本实施例打开解码方案打开,或者采用其他方式打开,在此不作限定。
此外,对于收藏+等手机浏览器上的应用,有很多网页是很难直接抽取正文的,在保存成MHT格式后,在收藏+中就可以覆盖几乎所有网页的收藏。
本实施例方案还可以对类似于MHT文件格式的其他文件进行保存,比如手机浏览器对邮件头信息解析的支持,因为MHT文件的格式和邮件头的格式差不多,邮件头格式里面的quoted-printable编码也是MHT文件里面相对较重要的编码格式,同样可以采用上述保存方案对邮件头信息解析的支持。
需要说明的是,本实施例中上述步骤S105-步骤S109还可以不依赖于上述第一实施例而单独实施,以满足用户在移动终端浏览器中对MHT格式或类似MHT格式的单一网页文件的保存支持的需求。在此不再赘述。
如图3所示,本发明第一实施例提出一种处理网页文件的移动终端,包括:识别模块301、解析模块302、分块解码模块303及展示模块304,其中:
识别模块301,用于从移动终端浏览器上识别单一网页文件格式的网页;
解析模块302,用于从所述单一网页文件格式的网页中解析出文件头信息;
分块解码模块303,用于根据所述文件头信息获取边界字符串及字符编码格式,对所述单一网页文件格式的网页进行内容分块及解码处理;
展示模块304,用于将内容分块及解码处理所得的数据以页面展示出来。
本实施例所称单一网页文件格式的网页包括但不限于MHT格式网页,比如还可以为邮件格式等,本实施例以MHT格式网页举例说明。
本实施例可以实现在移动终端浏览器上直接打开任意网站上的单一网页文件格式的网页。
具体地,以手机浏览器及MHT格式网页为例,在实现从手机浏览器上打开MHT格式网页时,首先在手机浏览器上输入待打开的MHT格式网页的地址,识别模块301根据该MHT格式网页的地址从网上或本地识别出该MHT格式网页。
在识别模块301识别出MHT格式网页后,解析模块302对该网页进行解析,获取MHT文件头信息,该MHT文件头信息中包括分隔网页内容的边界字符串等信息。
然后,分块解码模块303根据所述边界字符串对MHT格式的网页进行内容分块,将MHT格式的网页分块为文件头信息、网页HTML源代码、资源文件数据等。
其中,资源文件数据包括图片、css(Cascading Style Sheet,级联样式表)和/或js(JavaScript,一种脚本语言)数据等。
通过内容分块后得到的每一分块均带有一头信息,然后可以根据每一分块的头信息获取该分块的字符编码格式(UTF-8/GBK等),进而可以根据每一分块的字符编码格式对网页HTML源代码、图片、css和/或js数据等进行相应的解码。
在具体解码时,对分块中的图片进行base64解码,将解码后的图片放入移动终端浏览器的缓存中;对分块中的网页HTML源代码、css和/或js数据进行quoted-printable解码,将其中的css和/或js数据放入移动终端浏览器的缓存中。
最后,展示模块304以页面打开所述网页HTML源代码,打开后的HTML页面会根据相应的引用地址去读取手机浏览器的缓存,从所述移动终端浏览器的缓存中读取相应的图片、css和/或js数据并展示在所述页面中,从而将MHT格式网页页面完整的展示出来。
具体实施过程中,如图4所示,上述分块解码模块303可以包括:边界字符串获取单元3031、分块单元3032、字符编码格式获取单元3033及解码单元3034,其中:
边界字符串获取单元3031,用于从所述文件头信息中获取边界字符串;
分块单元3032,用于以所述边界字符串对所述单一网页文件格式的网页进行文件头信息、网页HTML源代码、资源文件数据的分块,每一分块带有一头信息;
字符编码格式获取单元3033,用于根据每一分块的头信息获取该分块的字符编码格式;
解码单元3034,用于根据每一分块的字符编码格式进行相应的解码。
本实施例通过上述方案可以实现从手机浏览器上直接打开MHT文件或类似MHT格式的文件,由此通过手机浏览器对MHT文件格式的打开功能的支持,满足了用户在手机上阅读MHT文件等单一网页文件的需求。
需要说明的是,对于普通网页来说,可能会有不同的字符编码格式,这种编码格式与上述base64、quoted-printable等编码是有区别的,前者是原网页文件中对ASCII码之外的字符进行文字编码,后者是对整个文字进行加密,只是这种加密不是真正意义上的加密,因为任何人都可以解密。
对于前者来说,本方案中采用的是在MHT头中加入charset字符编码标识,解码时需要先判断是哪种字符编码,再来对MHT文件其它部分进行相应的解码(不同的字符编码在解码算法中的流程不一样)。
对于后者来说,base64解码出来一般是图片,直接放入缓存就行;而quoted-printable编码在解码时,需要根据它的规则,写自己的算法对字节进行逐个处理,并做出特定的组合来完成解码,最后把得到的所有字节数据转为可读的字符串。
如图5所示,本发明第二实施例提出一种处理网页文件的移动终端,在上述第一实施例的基础上,还包括编码保存模块305。
如图6所示,该编码保存模块305包括:页面信息获取单元3051、解析获取单元3052、编码单元3053、组合单元3054及分隔保存单元3055,其中:
页面信息获取单元3051,用于在移动终端浏览器中读取网页HTML源代码,获取所述网页的页面信息;
解析获取单元3052,用于解析所述网页的页面信息,获取文件头信息及资源文件数据;
编码单元3053,用于对所述网页HTML源代码,以及资源文件数据中的css和/或js数据分别进行quoted-printable编码;对所述资源文件数据中的图片进行base64编码;
组合单元3054,用于将所述文件头信息、编码后的网页HTML源代码以及资源文件数据依次组合;
分隔保存单元3055,用于将组合后的数据采用边界字符串隔开,并以边界字符串结尾,形成单一网页文件并保存
本实施例与上述第一实施例的区别在于,本实施例还可以在移动终端浏览器上实现对网站上的网页尤其是难于抽取正文的网页,保存为单一网页文件格式,用户在需要时可以在本地或拷贝至PC端打开。
具体地,以手机浏览器及MHT格式网页为例,首先读取MHT格式网页的HTML源代码,同时获取该网页的页面信息。
解析该网页的页面信息,获取的该网页的页面标题/字符编码等信息生成MHT文件头信息,同时获取图片、css和/或js数据等资源文件数据。
之后,对所述网页HTML源代码,以及资源文件数据中的css和/或js数据分别进行quoted-printable编码;对所述资源文件数据中的图片进行base64编码。
其中,quoted-printable编码是一种采用可打印的ASCII字符来表示各种编码格式下的各种字符的编码方式;base64编码是一种采用大小写字母各26个,加10个数字,再加一个“+”和“=”一共64种字符来表示二进制数据的方法。
然后将所述文件头信息、编码后的网页HTML源代码以及资源文件数据依次组合;将组合后的数据采用边界字符串隔开,并以边界字符串结尾,形成单一网页文件并保存。
本实施例通过上述方案,不仅实现了从手机浏览器上直接打开MHT文件或类似MHT格式的文件,而且实现了在手机浏览器保存MHT文件,对于手机上的浏览器来说,有不少网页的正文是很难抽取并根据手机的情况进行优化的。这种情况下,就可以使用MHT这种格式,保存成一个MHT文件,需要的时候就可以直接在本地打开,或者根据用户选择将手机中保存的MHT文件拷贝至PC端或其他终端,采用本实施例打开解码方案打开,或者采用其他方式打开,在此不作限定。
此外,对于收藏+等手机浏览器上的应用,有很多网页是很难直接抽取正文的,在保存成MHT格式后,在收藏+中就可以覆盖几乎所有网页的收藏。
本实施例方案还可以对类似于MHT文件格式的其他文件进行保存,比如手机浏览器对邮件头信息解析的支持,因为MHT文件的格式和邮件头的格式差不多,邮件头格式里面的quoted-printable编码也是MHT文件里面相对较重要的编码格式,同样可以采用上述保存方案对邮件头信息解析的支持。
需要说明的是,本实施例中上述将网站上的网页保存为单一网页文件格式的方案还可以不依赖于上述第一实施例而单独实施,以满足用户在移动终端浏览器中对MHT格式或类似MHT格式的单一网页文件的保存支持的需求。在此不再赘述。
本发明实施例网页文件处理方法及移动终端,通过识别移动终端浏览器上的单一网页文件格式的网页;从单一网页文件格式的网页中解析出文件头信息;根据文件头信息获取边界字符串及字符编码格式,对单一网页文件格式的网页进行内容分块及解码处理;然后将内容分块及解码处理所得的数据以页面展示出来,从而实现从移动终端浏览器上直接打开MHT格式等单一网页文件;此外,通过在移动终端浏览器中读取网页HTML源代码,获取网页的页面信息;解析网页的页面信息,获取文件头信息及资源文件数据;对所述网页HTML源代码,以及资源文件数据中的css和/或js数据分别进行quoted-printable编码;对所述资源文件数据中的图片进行base64编码;将所述文件头信息、编码后的网页HTML源代码以及资源文件数据依次组合;将组合后的数据采用边界字符串隔开,并以边界字符串结尾,形成单一网页文件并保存,由此实现了在手机浏览器上对网页尤其是难于抽取正文的网页的保存;通过在手机浏览器对MHT文件等单一网页格式文件的处理支持,满足了用户在手机上保存和阅读MHT文件等单一网页文件的需求。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (9)

1.一种网页文件处理方法,其特征在于,包括:
从移动终端浏览器上识别单一网页文件格式的网页;
从所述单一网页文件格式的网页中解析出文件头信息;
根据所述文件头信息获取边界字符串及字符编码格式,对所述单一网页文件格式的网页进行内容分块及解码处理;
将内容分块及解码处理所得的数据以页面展示出来;
所述根据所述文件头信息获取边界字符串及字符编码格式,对所述单一网页文件格式的网页进行内容分块及解码处理的步骤包括:
从所述文件头信息中获取边界字符串;
以所述边界字符串对所述单一网页文件格式的网页进行文件头信息、网页HTML源代码、资源文件数据的分块,每一分块带有一头信息;
根据每一分块的头信息获取该分块的字符编码格式;
根据每一分块的字符编码格式进行相应的解码。
2.根据权利要求1所述的方法,其特征在于,所述资源文件数据包括图片、css和/或js数据,所述根据每一分块的字符编码格式进行相应的解码的步骤包括:
对分块中的图片进行base64解码,将解码后的图片放入移动终端浏览器的缓存中;对分块中的网页HTML源代码、css和/或js数据进行quoted-printable解码,将其中的css和/或js数据放入移动终端浏览器的缓存中。
3.根据权利要求2所述的方法,其特征在于,所述将内容分块及解码处理所得的数据以页面展示出来的步骤包括:
以页面打开所述网页HTML源代码;
根据所述网页HTML源代码中的引用地址,从所述移动终端浏览器的缓存中读取相应的图片、css和/或js数据并展示在所述页面中。
4.根据权利要求2或3所述的方法,其特征在于,所述从移动终端浏览器上识别单一网页文件格式的网页的步骤之前还包括:
在移动终端浏览器中读取网页HTML源代码,获取所述网页的页面信息;
解析所述网页的页面信息,获取文件头信息及资源文件数据;
对所述网页HTML源代码,以及资源文件数据中的css和/或js数据分别进行quoted-printable编码;对所述资源文件数据中的图片进行base64编码;
将所述文件头信息、编码后的网页HTML源代码以及资源文件数据依次组合;
将组合后的数据采用边界字符串隔开,并以边界字符串结尾,形成单一网页文件并保存。
5.根据权利要求4所述的方法,其特征在于,所述网页的页面信息至少包括网页中的标题或字符编码。
6.一种处理网页文件的移动终端,其特征在于,包括:
识别模块,用于从移动终端浏览器上识别单一网页文件格式的网页;
解析模块,用于从所述单一网页文件格式的网页中解析出文件头信息;
分块解码模块,用于根据所述文件头信息获取边界字符串及字符编码格式,对所述单一网页文件格式的网页进行内容分块及解码处理;
展示模块,用于将内容分块及解码处理所得的数据以页面展示出来;
所述分块解码模块包括:
边界字符串获取单元,用于从所述文件头信息中获取边界字符串;
分块单元,用于以所述边界字符串对所述单一网页文件格式的网页进行文件头信息、网页HTML源代码、资源文件数据的分块,每一分块带有一头信息;
字符编码格式获取单元,用于根据每一分块的头信息获取该分块的字符编码格式;
解码单元,用于根据每一分块的字符编码格式进行相应的解码。
7.根据权利要求6所述的移动终端,其特征在于,所述资源文件数据包括图片、css和/或js数据,所述解码单元还用于对分块中的图片进行base64解码,将解码后的图片放入移动终端浏览器的缓存中;对分块中的网页HTML源代码、css和/或js数据进行quoted-printable解码,将其中的css和/或js数据放入移动终端浏览器的缓存中。
8.根据权利要求7所述的移动终端,其特征在于,所述展示模块还用于以页面打开所述网页HTML源代码;根据所述网页HTML源代码中的引用地址,从所述移动终端浏览器的缓存中读取相应的图片、css和/或js数据并展示在所述页面中。
9.根据权利要求6或7所述的移动终端,其特征在于,还包括编码保存模块,所述编码保存模块包括:
页面信息获取单元,用于在移动终端浏览器中读取网页HTML源代码,获取所述网页的页面信息;
解析获取单元,用于解析所述网页的页面信息,获取文件头信息及资源文件数据;
编码单元,用于对所述网页HTML源代码,以及资源文件数据中的css和/或js数据分别进行quoted-printable编码;对所述资源文件数据中的图片进行base64编码;
组合单元,用于将所述文件头信息、编码后的网页HTML源代码以及资源文件数据依次组合;
分隔保存单元,用于将组合后的数据采用边界字符串隔开,并以边界字符串结尾,形成单一网页文件并保存。
CN201210539489.0A 2012-12-13 2012-12-13 网页文件处理方法及移动终端 Active CN103870487B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201210539489.0A CN103870487B (zh) 2012-12-13 2012-12-13 网页文件处理方法及移动终端
PCT/CN2013/086731 WO2014090060A1 (en) 2012-12-13 2013-11-08 Method and apparatus for processing a webpage
US14/740,191 US10037387B2 (en) 2012-12-13 2015-06-15 Method and apparatus for processing a webpage
US16/000,406 US10552508B2 (en) 2012-12-13 2018-06-05 Method and apparatus for processing a webpage

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210539489.0A CN103870487B (zh) 2012-12-13 2012-12-13 网页文件处理方法及移动终端

Publications (2)

Publication Number Publication Date
CN103870487A CN103870487A (zh) 2014-06-18
CN103870487B true CN103870487B (zh) 2017-07-25

Family

ID=50909030

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210539489.0A Active CN103870487B (zh) 2012-12-13 2012-12-13 网页文件处理方法及移动终端

Country Status (3)

Country Link
US (2) US10037387B2 (zh)
CN (1) CN103870487B (zh)
WO (1) WO2014090060A1 (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106209925B (zh) * 2015-04-29 2019-07-26 阿里巴巴集团控股有限公司 页面加载方法、客户端及系统
CN106570044B (zh) * 2015-10-13 2019-12-24 北京国双科技有限公司 一种解析网页编码的方法及装置
CN105302884B (zh) * 2015-10-19 2019-02-19 天津海量信息技术股份有限公司 基于深度学习的网页模式识别方法及视觉结构学习方法
CN105824909B (zh) * 2016-03-15 2020-05-29 腾讯科技(深圳)有限公司 页面生成方法和装置
CN106886545B (zh) * 2016-06-08 2020-10-02 阿里巴巴集团控股有限公司 页面展示方法、页面资源的缓存方法及装置
CN106682171B (zh) * 2016-12-28 2019-10-15 北京奇艺世纪科技有限公司 一种网页数据的缓存方法及装置
CN107071495A (zh) * 2017-02-28 2017-08-18 福建中金在线信息科技有限公司 一种图片压缩方法及装置
CN106980504B (zh) * 2017-03-28 2022-07-01 腾讯科技(深圳)有限公司 一种应用程序开发方法及其工具、设备
CN108494548A (zh) * 2018-04-09 2018-09-04 平安普惠企业管理有限公司 引用样式加密方法、装置、计算机设备及存储介质
CN108881461A (zh) * 2018-07-02 2018-11-23 深圳市茁壮网络股份有限公司 一种数据传输方法、装置及系统
CN111104619B (zh) * 2018-10-25 2023-09-26 青岛海信移动通信技术有限公司 一种收藏文章的方法及移动终端
CN109492201A (zh) * 2018-11-08 2019-03-19 大连瀚闻资讯有限公司 应用于量值对比的文件格式转化方法
CN111475748B (zh) * 2019-01-24 2024-04-12 阿里巴巴集团控股有限公司 图片的展示方法及装置
CN110363117B (zh) * 2019-06-28 2023-07-28 深圳数位大数据科技有限公司 一种对加密后的随机编码字符文件进行解析的方法及装置
CN111259628B (zh) * 2020-02-18 2021-09-28 北京金堤科技有限公司 网页信息提取方法和装置、电子设备和存储介质
CN111324317B (zh) * 2020-02-18 2024-03-26 上海东普信息科技有限公司 本地打印面单方法、装置、设备及存储介质
CN111507074B (zh) * 2020-05-19 2022-08-26 深圳市商汤科技有限公司 数据处理方法及装置、处理器、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1732461A (zh) * 2002-11-26 2006-02-08 Lg电子株式会社 基于要素的多个文件的分析系统和方法
CN1799051A (zh) * 2003-06-03 2006-07-05 株式会社爱可信 使用页面存储文件浏览内容的方法
US7464328B2 (en) * 2000-06-06 2008-12-09 Microsoft Corporation Method and system for packing and unpacking web pages
CN101484892A (zh) * 2006-06-30 2009-07-15 克斯科株式会社 使用集成文档管理网络服务的方法
CN102065571A (zh) * 2010-12-30 2011-05-18 深圳市五巨科技有限公司 一种移动终端浏览器及其工作方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6684088B1 (en) * 2000-03-01 2004-01-27 Axi Mobile Ltd. System and method for displaying electronic mail messages on a low bandwidth device
US20030009694A1 (en) * 2001-02-25 2003-01-09 Storymail, Inc. Hardware architecture, operating system and network transport neutral system, method and computer program product for secure communications and messaging
US7475240B2 (en) * 2002-11-06 2009-01-06 Symantec Corporation System and method for add-on services, secondary authentication, authorization and/or secure communication for dialog based protocols and systems
US8156423B1 (en) * 2004-11-01 2012-04-10 Sprint Spectrum L.P. Method and system for dynamically updating fixed resources on client station
US8243981B2 (en) * 2007-11-26 2012-08-14 Seiko Epson Corporation Identifying embedded data in an image
US8555359B2 (en) * 2009-02-26 2013-10-08 Yodlee, Inc. System and methods for automatically accessing a web site on behalf of a client
US20110185024A1 (en) * 2010-01-26 2011-07-28 Yahoo! Inc. Embeddable metadata in electronic mail messages
CN102033944B (zh) * 2010-12-21 2012-11-28 重庆新媒农信科技有限公司 基于移动终端的网页显示系统及方法
CN102325188B (zh) * 2011-09-16 2014-04-30 北京新媒传信科技有限公司 在移动终端上实现网页浏览的方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7464328B2 (en) * 2000-06-06 2008-12-09 Microsoft Corporation Method and system for packing and unpacking web pages
CN1732461A (zh) * 2002-11-26 2006-02-08 Lg电子株式会社 基于要素的多个文件的分析系统和方法
CN1799051A (zh) * 2003-06-03 2006-07-05 株式会社爱可信 使用页面存储文件浏览内容的方法
CN101484892A (zh) * 2006-06-30 2009-07-15 克斯科株式会社 使用集成文档管理网络服务的方法
CN102065571A (zh) * 2010-12-30 2011-05-18 深圳市五巨科技有限公司 一种移动终端浏览器及其工作方法

Also Published As

Publication number Publication date
WO2014090060A1 (en) 2014-06-19
US10037387B2 (en) 2018-07-31
US20150278390A1 (en) 2015-10-01
US20180293326A1 (en) 2018-10-11
US10552508B2 (en) 2020-02-04
CN103870487A (zh) 2014-06-18

Similar Documents

Publication Publication Date Title
CN103870487B (zh) 网页文件处理方法及移动终端
US10261983B2 (en) Method and device for webpage browsing, and mobile terminal
CN101216842B (zh) 获取页面关键词的方法及页面信息处理装置
JP4982455B2 (ja) モバイルウェブサービスシステムおよび方法
US20130268843A1 (en) Method, Apparatus And System For Rendering Web Page
US20130194453A1 (en) Method for coding images with shape and detail information
CN102012894B (zh) 一种终端文档显示方法及系统
CN107153716B (zh) 网页内容提取方法和装置
CN101383848A (zh) 用于移动网络服务的系统和方法
CN107958078A (zh) 信息生成方法和装置
CN102314499A (zh) 一种用于处理网页内容的方法与设备
CN105740355B (zh) 基于聚集文本密度的网页正文提取方法及装置
KR101147256B1 (ko) 표준화된 전자책 생성장치 및 방법
CN103246680B (zh) 一种在浏览器中将网页内容聚合展现的方法及装置
CN104216868B (zh) 一种文档显示格式的适配方法及装置
CN108664511B (zh) 获取网页信息方法和装置
Shahreza A new method for steganography in HTML files
CN108228609B (zh) 信息过滤方法和装置
CN102164178B (zh) 内容获取方法及客户端
CN102063501B (zh) 一种互联网网页转换的方法及装置
WO2010038997A3 (en) Method and apparatus for encoding and decoding xml documents using path code
CN108132919A (zh) 一种网页内容抽取的方法
KR101165201B1 (ko) 컨텐츠 제공 시스템의 변환서버
CN111783482A (zh) 一种文本翻译方法、装置、计算机设备及存储介质
CN106815249B (zh) 竖向文本广告过滤方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20221121

Address after: 1402, Floor 14, Block A, Haina Baichuan Headquarters Building, No. 6, Baoxing Road, Haibin Community, Xin'an Street, Bao'an District, Shenzhen, Guangdong 518100

Patentee after: Shenzhen Yayue Technology Co.,Ltd.

Address before: 2, 518044, East 403 room, SEG science and Technology Park, Zhenxing Road, Shenzhen, Guangdong, Futian District

Patentee before: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.

TR01 Transfer of patent right