CN103870543A - 一种用于文档文件重构的方法及装置 - Google Patents

一种用于文档文件重构的方法及装置 Download PDF

Info

Publication number
CN103870543A
CN103870543A CN201410064027.7A CN201410064027A CN103870543A CN 103870543 A CN103870543 A CN 103870543A CN 201410064027 A CN201410064027 A CN 201410064027A CN 103870543 A CN103870543 A CN 103870543A
Authority
CN
China
Prior art keywords
document files
document
information
polymerization
attribute information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410064027.7A
Other languages
English (en)
Other versions
CN103870543B (zh
Inventor
陈昌兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201410064027.7A priority Critical patent/CN103870543B/zh
Publication of CN103870543A publication Critical patent/CN103870543A/zh
Application granted granted Critical
Publication of CN103870543B publication Critical patent/CN103870543B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种用于文档文件重构的方法及装置,其中方法包括:对文档文件进行解析,以获得文档文件元素和文档文件元素的属性信息;对所获得的文档文件元素和属性信息进行聚合处理,以获得聚合处理后的文档文件元素和属性信息;基于所述聚合处理后的文档文件元素和属性信息来进行重构,以获得重构的文档文件。与现有技术相比,本发明通过对解析得到的文档文件元素和属性信息进行聚合处理,并基于聚合处理后的文档文件元素和属性信息来重构文档文件,得到的重构的文档文件的文件大小减小,也提高了提供重构后的文档文件给用户设备的文档显示客户端进行解析呈现的速度。

Description

一种用于文档文件重构的方法及装置
技术领域
本发明涉及文档文件处理技术,尤其涉及一种用于文档文件重构的方法及装置。
背景技术
用户使用用户设备上的文档显示客户端阅读文档文件时,现有技术中,网络设备使用特定的文档处理程序对原始文档文件进行格式转换,格式转换后的文档文件可以呈现在文档显示客户端上,网络设备将格式转换后的文档文件提供给用户设备在文档显示客户端上呈现。以文档显示客户端为浏览器为例,使用PDFtoHTML文档处理程序可以将PDF(Portable Document Format,便携文件格式)格式的文档文件转换为HTML(Hypertext Markup Language,超文本标记语言)格式的文档文件,该文档处理程序将文档文件中如图片、图表等不能使用文字呈现的文档文件元素转换为背景图,再将文字覆盖到背景图上,形成HTML格式的文档文件。但是文档文件中的图片、图表等和文字不是简单的背景和内容的关系,如果文档文件中存在图片、图表等不能使用文字呈现的文档文件元素覆盖文字的情形,则使用如PDFtoHTML的文档处理程序就不能准确呈现文档文件。
现有技术中还有一种解决方案,能够解决使用如PDFtoHTML的文档处理程序在文档文件中存在图片、图表等不能使用文字呈现的文档文件元素覆盖文字的情形时,不能准确呈现文档文件的问题。这种解决方案是将原始文档文件直接使用文档显示客户端支持的格式存储在网络设备中,当用户使用用户设备上的文档显示客户端阅读文档文件时,网络设备将文档显示客户端支持的格式的文档文件提供给文档显示客户端呈现。因为直接以文档显示客户端支持的格式将文档文件存储在网络设备中,需要针对不同的文档显示客户端类型在该文档文件中加入用于渲染文档文件以呈现在文档显示客户端上的CSS(Cascading Style Sheet,层叠样式表单)信息,以文档显示客户端支持的格式直接存储在网络设备中的文档文件的文件大小会因此增大,占用网络设备大量的存储空间,也会降低用户设备的文档显示客户端对该文档文件的解析速度。
发明内容
本发明所要解决的技术问题是提供一种用于文档文件重构的方法及装置,以解决现有技术将原始文档文件直接使用文档显示客户端支持的格式存储在网络设备中,以致占用网络设备大量的存储空间,以及降低用户设备的文档显示客户端对文档文件的解析速度的问题。
根据本发明的一个方面,提供一种用于文档文件重构的方法,其中,该方法包括:
对文档文件进行解析,以获得文档文件元素和文档文件元素的属性信息;
对所获得的文档文件元素和属性信息进行聚合处理,以获得聚合处理后的文档文件元素和属性信息;
基于所述聚合处理后的文档文件元素和属性信息来进行重构,以获得重构的文档文件。
根据本发明的另一个方面,还提供了一种用于在用户设备的文档显示客户端中呈现文档文件的方法,其中,该方法包括:
接收来自网络设备的文档文件;
根据所述文档显示客户端类型,将所接收的文档文件中的CSS样式表转换为适应于所述文档显示客户端类型的CSS样式表;
根据所述文档显示客户端类型,将所接收的文档文件的文档文件主体转换为适应于所述文档显示客户端类型的文档文件主体。
根据本发明的另一个方面,还提供了一种用于呈现文档文件的方法,其中,该方法包括:
网络设备对文档文件进行解析,以获得文档文件元素和文档文件元素的属性信息;
网络设备对所获得的文档文件元素和属性信息进行聚合处理,以获得聚合处理后的文档文件元素和属性信息;
网络设备基于所述聚合处理后的文档文件元素和属性信息来进行重构,以获得重构的文档文件;
用户设备接收来自网络设备的文档文件;
用户设备根据所述文档显示客户端类型,将所接收的文档文件中的CSS样式表转换为适应于所述文档显示客户端类型的CSS样式表;
用户设备根据所述文档显示客户端类型,将所接收的文档文件的文档文件主体转换为适应于所述文档显示客户端类型的文档文件主体。
根据本发明的另一个方面,还提供了一种网络设备中用于文档文件重构的装置,其中,该装置包括:
解析装置,用于对文档文件进行解析,以获得文档文件元素和文档文件元素的属性信息;
聚合处理装置,用于对所获得的文档文件元素和属性信息进行聚合处理,以获得聚合处理后的文档文件元素和属性信息;
重构装置,用于基于所述聚合处理后的文档文件元素和属性信息来进行重构,以获得重构的文档文件。
根据本发明的又一个方面,还提供了一种用于在用户设备的文档显示客户端中呈现文档文件的装置,其中,该装置包括:
第一接收装置,用于接收来自网络设备的文档文件;
第一转换装置,用于根据所述文档显示客户端类型,将所接收的文档文件中的CSS样式表转换为适应于所述文档显示客户端类型的CSS样式表;
第二转换装置,用于根据所述文档显示客户端类型,将所接收的文档文件的文档文件主体转换为适应于所述文档显示客户端类型的文档文件主体。
根据本发明的又一个方面,还提供了一种用于呈现文档文件的系统,其中,该系统包括网络设备和用户设备;
其中网络设备包括:
解析装置,用于对文档文件进行解析,以获得文档文件元素和文档文件元素的属性信息;
聚合处理装置,用于对所获得的文档文件元素和属性信息进行聚合处理,以获得聚合处理后的文档文件元素和属性信息;
重构装置,用于基于所述聚合处理后的文档文件元素和属性信息来进行重构,以获得重构的文档文件;
用户设备包括:
第一接收装置,用于接收来自网络设备的文档文件;
第一转换装置,用于根据所述文档显示客户端类型,将所接收的文档文件中的CSS样式表转换为适应于所述文档显示客户端类型的CSS样式表;
第二转换装置,用于根据所述文档显示客户端类型,将所接收的文档文件的文档文件主体转换为适应于所述文档显示客户端类型的文档文件主体。
与现有技术相比,本发明通过对解析得到的文档文件元素和属性信息进行聚合处理,并基于聚合处理后的文档文件元素和属性信息来重构文档文件,得到的重构的文档文件的文件大小减小,也提高了提供重构后的文档文件给用户设备的文档显示客户端进行解析呈现的速度。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为根据本发明一个实施例的一种用于文档文件重构的方法流程图;
图2为根据本发明另一实施例的一种用于文档文件重构的方法流程图;
图3为根据本发明一个实施例的一种用于在用户设备的文档显示客户端中呈现文档文件的方法流程图;
图4为根据本发明一个实施例的一种网络设备中用于文档文件重构的装置示意图;
图5为根据本发明另一实施例的一种网络设备中用于文档文件重构的装置示意图;
图6为根据本发明一个实施例的一种用于在用户设备的文档显示客户端中呈现文档文件的装置示意图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
在本发明中,网络设备包括一种能够按照事先设定或存储的指令,自动进行数值计算和信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。所述网络设备其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云;在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟超级计算机。所述用户设备其包括但不限于任何一种可与用户通过键盘、触摸板、或声控设备进行人机交互的移动电子产品,例如智能手机、PDA(掌上电脑,Personal Digital Assistant)。所述网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。本领域技术人员应能理解,其他的用户设备、网络设备、网络如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
图1示出了根据本发明一个实施例的一种用于文档文件重构的方法流程图。
如图1所示,在步骤S101中,网络设备对文档文件进行解析,以获得文档文件元素和文档文件元素的属性信息。
其中,文档文件指基于各种标识语言,诸如HTML,XML,的包含文本、图片等元素的文件,其包括但不限于word文档文件,HTML文档文件,XML文档文件,PDF文档文件等;文档文件元素指包含于文档文件中的各种元素,其包括但不限于:图片、文字等;文档文件元素的属性信息包括但不限于:文档文件元素在文档文件中的位置信息、字体信息、样式信息、图片格式、图片分辨率、图片尺寸等,其中图片格式包括但不限于png,bmp,gif,jpg,pcx,svd,psd。
具体地,文档文件的每一个文档文件元素之间都有关联,文档文件元素之间关联形成了诸如章节、段落等文档文件的逻辑结构,网络设备可以通过使用文档解析程序来解析文档文件的文档结构,来提取获得文档文件元素和文档文件元素的属性信息。
在步骤S102中,网络设备对所获得的文档文件元素和文档文件元素的属性信息进行聚合处理,以获得聚合处理后的文档文件元素和属性信息。
其中,对多个同类信息进行聚合处理是指保留多个同类信息的共同信息,并去除冗余信息,以使得经过聚合处理后的信息的容量减少,但仍然保留必要的共同信息,具体地,可包括合并、提取交集,以及基于多个相同的同类信息来生成一个新的同类信息等方式。
具体地,对不同的文档文件元素和属性信息,网络设备采取不同的聚合处理方式,下面以示例进行说明:
示例1:文档文件元素包括图片,图片的类型包括但不限于:矢量图、位图等,网络设备将处于相邻图层的矢量图合并,以获得合并后的矢量图,随后,将合并后得到的矢量图与位图合并,以获得合并后的位图,将合并后的位图作为聚合处理后的文档文件元素之一。
其中,所述相邻图层的矢量图可以根据以下方式来确定:
-根据文档文件元素的渲染顺序,确定文档文件元素之间的覆盖关系;
-基于文档文件元素之间的覆盖关系,确定处于相邻图层的矢量图;具体地,基于文档文件元素之间的覆盖关系,确定处于相邻图层的矢量图的具体方式可以包括:1)两个或多个矢量图的图层之间是否覆盖文字,当该两个或多个矢量图的图层之间没有覆盖文字,则该两个或多个矢量图为相邻图层的矢量图;2)如果两个或多个矢量图相互覆盖,则该两个或多个矢量图为相邻图层的矢量图。
-将所确定的处于相邻图层的矢量图进行合并,以获得合并后的矢量图。
另外,可以采用以下方式将合并后得到的矢量图与位图合并:
-基于合并后得到的矢量图的特征信息,如该矢量图在文档文件中的高度、宽度等,将该矢量图缓存为位图;
-将该缓存的位图与提取得到的位图合并。
本实施例通过将相邻图层的矢量图合并,加快了用户设备的文档显示客户端呈现图片的速度。
在得到合并后的位图后,还可以对合并后的位图进行图片压缩。本实施例优选地采用PNG8加alpha透明的位图压缩方式对合并后的位图进行图片压缩。其中,PNG8又称256色PNG,即采用8位标识,最多支持256(2的8次方)种颜色,是一种索引色标识的压缩格式;alpha是图像处理的一种图像通道,用来保存图像的半透明信息,一般也采用8位标识。
本实施例通过采用PNG8加alpha透明的位图压缩方式对合并后的位图进行图片压缩,减小了图片的大小,以减少在网络设备上的存储空间,也进一步提高用户设备的文档显示客户端呈现图片的速度。
示例2:文档文件元素包括文字,如果属性信息中的样式信息相同且位置信息在同一行或同一列的文字,所形成的矩阵交集不覆盖图片时,将属性信息中样式信息相同且位置信息在同一行或同一列的文字进行合并,以获得合并后的文字,作为聚合处理后的文档文件元素之一。
其中,属性信息中的样式信息相同且位置信息在同一行或同一列的文字形成的矩阵交集,由样式信息相同且位置信息在同一行或同一列的文字的最小横坐标、最小纵坐标、最大横坐标和最大纵坐标确定。
本实施例通过将文字合并,降低了DOM(Document Object Model,文件对象模型)节点,进一步提高用户设备的文档显示客户端呈现图片的速度。
其中,每个文档文件元素和属性信息都是一个DOM节点。
示例3:通过提取文字的属性信息中的字体信息和所述文档文件的字体文件的交集,以获得交集处理后的字体信息,作为聚合处理后的属性信息之一。
其中,所述文档文件的字体文件包括所有文字的字体信息,即也包括该文档文件中不存在的文字的字体信息,交集处理后的字体信息只包括该文档文件中的文字的字体信息,不包括该文档文件中不存在的文字的字体信息。
本实施例通过交集处理得到的交集处理后的字体信息,只包括该文档文件中的文字的字体信息,以进一步减少文档文件在网络设备上的存储空间。
示例4:当多个属性信息中的样式信息相同,基于所述多个属性信息的相同的样式信息来生成一个key-value结构的样式信息,作为聚合处理后的属性信息之一,其中,key为所生成的样式信息的标识,value为所生成的样式信息的内容。
本实施例基于相同的样式信息生成一个key-value结构的样式信息,降低了样式信息的重复,以减小文档文件的存储空间,以及加快用户设备的文档显示客户端呈现文档文件的速度。
本领域技术人员应理解上述文档文件元素类型及所举聚合处理方式仅为示例,其他文档文件元素类型及聚合方式如可适用于本发明,也应包含于本发明的保护范围内,并以引用方式包含于此。
在步骤S103中,网络设备基于所述聚合处理后的文档文件元素和聚合处理后的属性信息来进行重构,以获得重构的文档文件。
其中,聚合处理后的属性信息包括但不限于以下至少任一项:
-上述交集处理后的字体信息;
-基于相同的样式信息生成的key-value结构的样式信息;以及
-在步骤S101中解析文档得到的其他属性信息。
具体地,基于所述聚合处理后的文档文件元素和属性信息来进行重构可以通过以下方式来实现:
-基于所述key-value结构的样式信息,生成所述重构的文档文件的CSS样式表(Cascading Style Sheet,级联样式表);
-基于所述聚合处理后的文档文件元素和属性信息,生成所述重构的文档文件的主体。
与现有技术相比,本实施例通过对解析得到的文档文件元素和属性信息进行聚合处理,并基于聚合处理后的文档文件元素和聚合处理后的属性信息来重构文档文件,得到的重构的文档文件的文件大小减小,也提高了提供重构后的文档文件给用户设备的文档显示客户端进行解析呈现的速度。
图2示出了根据本发明另一实施例的一种用于文档文件重构的方法流程图,其中,步骤S201-S203与前面参照附图1所描述的实施例中的步骤S101-S103相同,在此不作赘述,以引用方式包含于此。另外,图2所示实施例还包括步骤S204和S205。
在步骤S204中,网络设备根据所述文档文件的标识和所述重构的文档文件中的文档文件元素的类别,生成所述重构的文档文件中的文档文件元素的标识。
具体地,文档文件的标识可以为文档文件ID,重构的文档文件中的文档文件元素的类型可以包括但不限于:图片、文字。优选地,所述重构的文档文件中的图片的标识可以包括但不限于:文档文件ID、图片ID、图片格式等,例如<文档文件ID>.<图片ID>.<PNG>;所述重构的文档文件中的文字的标识可以包括但不限于:文档文件ID、文字的字体名称等,例如<文档文件ID>.<宋体>,文字的标识还可以进一步包括该文字在文档文件中的页码,例如<文档文件ID>.<页码>.<宋体>。其中,每一个文档文件具有相同的文档文件ID。
例如,<文档文件A>.<图片2>.<PNG>对应文档文件A中的第二张图片,该图片的图片格式为PNG;<文档文件A>.<页码3>.<宋体>对应文档文件A张的第3页的文字,该文字的字体是宋体。
在步骤S205中,网络设备通过用所生成的文档文件元素的标识替换所述重构后的文档文件中对应的文档文件元素,以生成包含所述文档文件元素标识的重构的文档文件。
在本实施例中,将文档文件元素替换为文档文件元素的标识,进一步减小了文档文件在网络设备的存储空间。
图3示出了根据本发明一个实施例的一种用于在用户设备的文档显示客户端中呈现文档文件的方法流程图,该方法实施例包括步骤S301和S302。
其中,如图3所示,在步骤S301中,用户设备接收来自网络设备的文档文件。具体地,该文档文件可以是图1和图2所示实施例中的重构后的文档文件。
在步骤S302中,用户设备根据用户设备的文档显示客户端类型,将所接收的文档文件转换为所述文档显示客户端类型支持的文档文件格式,以用于呈现。
具体地,当所接收的文档文件如图1和图2所示实施例中的重构后的文档文件,包括CSS样式表与文档文件主体时,将所接收的文档文件转换为用户设备的文档显示客户端所支持的文档文件格式可以采用以下方式实现:
-根据文档显示客户端类型,将所接收的文档文件中的CSS样式表转换为适应于所述文档显示客户端类型的CSS样式表;
-根据所述文档显示客户端类型,将所接收的文档文件的文档文件主体转换为适应于所述文档显示客户端类型的文档文件主体。
具体地,可以通过响应式拼装方式来转换文档文件主体,例如,根据文档显示客户端的类型,调整文字的字体信息、图片大小等以适应文档显示客户端的屏幕。
另外,将所接收的文档文件转换为用户设备的文档显示客户端所支持的文档文件格式还可以包括:
-当所接收的文档文件的文档文件主体包括文档文件元素的标识时,将所述文档文件主体中文档文件元素的标识替换为该文档文件元素的标识对应的文档文件元素。
具体地,可以将所述文档文件主体中的图片的标识替换为该图片或该图片在网络设备中的存储地址;可以将所述文档文件主体中的文字的标识替换为相应文字或该文字在网络设备的链接地址等。
本实施例将文档文件主体中的文档文件元素的标识替换为该标识对应的文档文件元素,用于在用户设备的文档显示客户端上呈现该文档文件。
本实施例通过将重构后的文档文件转换为用户设备的文档显示客户端所支持的文档文件格式,适用于各种类型的文档显示客户端,提高了重构后文档的通用性。
本发明的一种用于呈现文档文件的方法实施例,包括如图1或图2所示实施例的方法,和图3所示实施例的方法。
图4示出了本发明一个实施例的一种网络设备中用于文档文件重构的装置示意图。如图4所示,该装置包括:解析装置401、聚合处理装置402和重构装置403。
其中,解析装置401,用于对文档文件进行解析,以获得文档文件元素和文档文件元素的属性信息。
其中,文档文件指基于各种标识语言,诸如HTML,XML,的包含文本、图片等元素的文件,其包括但不限于word文档文件,HTML文档文件,XML文档文件,PDF文档文件等;文档文件元素指包含于文档文件中的各种元素,其包括但不限于:图片、文字等;文档文件元素的属性信息包括但不限于:文档文件元素在文档文件中的位置信息、字体信息、样式信息、图片格式、图片分辨率、图片尺寸等,其中图片格式包括但不限于png,bmp,gif,jpg,pcx,svd,psd。
具体地,文档文件的每一个文档文件元素之间都有关联,文档文件元素之间关联形成了诸如章节、段落等文档文件的逻辑结构,网络设备可以通过使用文档解析程序来解析文档文件的文档结构,来提取获得文档文件元素和文档文件元素的属性信息。
聚合处理装置402,用于对所获得的文档文件元素和属性信息进行聚合处理,以获得聚合处理后的文档文件元素和属性信息。
其中,对多个同类信息进行聚合处理是指保留多个同类信息的共同信息,并去除冗余信息,以使得经过聚合处理后的信息的容量减少,但仍然保留必要的共同信息,具体地,可包括合并、提取交集,以及基于多个相同的同类信息来生成一个新的同类信息等方式。
具体地,对不同的文档文件元素和属性信息,网络设备采取不同的聚合处理方式,聚合处理装置402可以包括:
第一合并模块4021,用于当文档文件元素为包括矢量图与位图的图片时,将处于相邻图层的矢量图进行合并,以获得合并后的矢量图;
第二合并模块4022,用于将合并后得到的矢量图与位图合并,以得到合并后的位图,作为所述聚合处理后的文档文件元素之一。
其中,所述第一合并模块4021可以包括:
覆盖关系确定子模块(未示出),用于根据文档文件元素的渲染顺序,确定文档文件元素之间的覆盖关系。
相邻图层确定子模块(未示出),用于基于文档文件元素之间的覆盖关系,确定处于相邻图层的矢量图;具体地,基于文档文件元素之间的覆盖关系,确定处于相邻图层的矢量图的具体方式可以包括:1)两个或多个矢量图的图层之间是否覆盖文字,当该两个或多个矢量图的图层之间没有覆盖文字,则该两个或多个矢量图为相邻图层的矢量图;2)如果两个或多个矢量图相互覆盖,则该两个或多个矢量图为相邻图层的矢量图。
第一合并子模块(未示出),用于将所确定的处于相邻图层的矢量图进行合并,以获得合并后的矢量图。
另外,可以采用以下方式将合并后得到的矢量图与位图合并:
-基于合并后得到的矢量图的特征信息,如该矢量图在文档文件中的高度、宽度等,将该矢量图缓存为位图;
-将该缓存的位图与提取得到的位图合并。
本实施例通过将相邻图层的矢量图合并,加快了用户设备的文档显示客户端呈现图片的速度。
在得到合并后的位图后,还可以对合并后的位图进行图片压缩。本实施例优选地采用PNG8加alpha透明的位图压缩方式对合并后的位图进行图片压缩。其中,PNG8又称256色PNG,即采用8位标识,最多支持256(2的8次方)种颜色,是一种索引色标识的压缩格式;alpha是图像处理的一种图像通道,用来保存图像的半透明信息,一般也采用8位标识。
本实施例通过采用PNG8加alpha透明的位图压缩方式对合并后的位图进行图片压缩,减小了图片的大小,以减少在网络设备上的存储空间,也进一步提高用户设备的文档显示客户端呈现图片的速度。
聚合处理装置402还可以包括:
第三合并模块4023,用于当文档文件元素包括文字,且属性信息中的样式信息相同且位置信息在同一行或同一列的文字所形成的矩阵交集不覆盖图片时,将属性信息中的样式信息相同且位置信息在同一行或同一列的文字进行合并,以获得合并后的文字,作为所述聚合处理后的文档文件元素之一。
其中,属性信息中的样式信息相同且位置信息在同一行或同一列的文字形成的矩阵交集,由样式信息相同且位置信息在同一行或同一列的文字的最小横坐标、最小纵坐标、最大横坐标和最大纵坐标确定。
本实施例通过将文字合并,降低了DOM(Document Object Model,文件对象模型)节点,进一步提高用户设备的文档显示客户端呈现图片的速度。
其中,每个文档文件元素和属性信息都是一个DOM节点。
聚合处理装置402还可以包括:
交集处理模块4024,用于通过提取文字的属性信息中的字体信息和所述文档文件的字体文件的交集,以获得交集处理后的字体信息,作为所述聚合处理后的属性信息之一。
其中,所述文档文件的字体文件包括所有文字的字体信息,即也包括该文档文件中不存在的文字的字体信息,交集处理后的字体信息只包括该文档文件中的文字的字体信息,不包括该文档文件中不存在的文字的字体信息。
本实施例通过交集处理得到的交集处理后的字体信息,只包括该文档文件中的文字的字体信息,以进一步减少文档文件在网络设备上的存储空间。
聚合处理装置402还可以包括:
样式信息生成模块4025,用于当多个属性信息中的样式信息相同,基于所述多个属性信息的相同的样式信息来生成一个key-value结构的样式信息,作为所述聚合处理后的属性信息之一,其中,key为所生成的样式信息的标识,value为所生成的样式信息的内容。
本实施例基于相同的样式信息生成一个key-value结构的样式信息,降低了样式信息的重复,以减小文档文件的存储空间,以及加快用户设备的文档显示客户端呈现文档文件的速度。
本领域技术人员应理解上述文档文件元素类型及所举聚合处理方式仅为示例,其他文档文件元素类型及聚合方式如可适用于本发明,也应包含于本发明的保护范围内,并以引用方式包含于此。
重构装置403,用于基于所述聚合处理后的文档文件元素和属性信息来进行重构,以获得重构的文档文件。
其中,聚合处理后的属性信息包括但不限于以下至少任一项:上述交集处理后的字体信息;基于相同的样式信息生成的key-value结构的样式信息;以及解析文档得到的其他属性信息。
具体地,所述重构装置403包括:
样式表生成模块4031,用于基于所述key-value结构的样式信息,生成所述重构的文档文件的CSS样式表;
文档文件主体生成模块4032,用于基于所述聚合处理后的文档文件元素和属性信息,生成所述重构的文档文件的主体。
与现有技术相比,本实施例通过对解析得到的文档文件元素和属性信息进行聚合处理,并基于聚合处理后的文档文件元素和聚合处理后的属性信息来重构文档文件,得到的重构的文档文件的文件大小减小,也提高了提供重构后的文档文件给用户设备的文档显示客户端进行解析呈现的速度。
图5示出了根据本发明另一实施例的一种网络设备中用于文档文件重构的装置示意图,其中,解析装置501、聚合处理装置502和重构装置503与前面参照附图4所描述的实施例中的解析装置401、聚合处理装置402和重构装置403相同,在此不作赘述,以引用方式包含于此。另外,图5所示实施例还包括元素标识生成装置504和替换装置505。
其中,元素标识生成装置504,用于根据文档文件的标识和所述重构的文档文件中的文档文件元素的类别,生成所述重构的文档文件中的文档文件元素的标识。
具体地,文档文件的标识可以为文档文件ID,重构的文档文件中的文档文件元素的类型可以包括但不限于:图片、文字。优选地,所述重构的文档文件中的图片的标识可以包括但不限于:文档文件ID、图片ID、图片格式等,例如<文档文件ID>.<图片ID>.<PNG>;所述重构的文档文件中的文字的标识可以包括但不限于:文档文件ID、文字的字体名称等,例如<文档文件ID>.<宋体>,文字的标识还可以进一步包括该文字在文档文件中的页码,例如<文档文件ID>.<页码>.<宋体>。其中,每一个文档文件具有相同的文档文件ID。
例如,<文档文件A>.<图片2>.<PNG>对应文档文件A中的第二张图片,该图片的图片格式为PNG;<文档文件A>.<页码3>.<宋体>对应文档文件A张的第3页的文字,该文字的字体是宋体。
替换装置505,用于通过用所生成的文档文件元素的标识替换所述重构的文档文件中对应的文档文件元素,以生成包含所述标识的重构后的文档文件。
在本实施例中,将文档文件元素替换为文档文件元素的标识,进一步减小了文档文件在网络设备的存储空间。
图6示出了根据本发明一个实施例的一种用于在用户设备的文档显示客户端中呈现文档文件的装置示意图。如图6所示,该装置包括:第一接收装置601和转换装置602。
其中,所接收的文档文件如图4和图5所示实施例中的重构后的文档文件。
其中,第一接收装置601,用于接收来自网络设备的文档文件。具体地,该文档文件可以是图4和图5所示实施例中的重构后的文档文件。
第一转换装置602,用于根据所述文档显示客户端类型,将所接收的文档文件中的CSS表转换为适应于所述文档显示客户端类型的CSS样式表;
第二转换装置603,用于根据所述文档显示客户端类型,将所接收的文档文件的文档文件主体转换为适应于所述文档显示客户端类型的文档文件主体。
其中,所述第一转换装置602和第二转换装置603可以同步运行,没有时间上的先后。
具体地,可以通过响应式拼装方式来转换文档文件主体,例如,根据文档显示客户端的类型,调整文字的字体信息、图片大小等以适应文档显示客户端的屏幕。
本实施例通过将重构后的文档文件转换为用户设备的文档显示客户端所支持的文档文件格式,适用于各种类型的文档显示客户端,提高了重构后文档的通用性。
另外,根据本发明一个实施例的一种用于在用户设备的文档显示客户端中呈现文档文件的装置还可以包括替换装置(图中未示出)。
替换装置,用于将所述文档文件主体中的文档文件元素的标识替换为该文档文件元素的标识对应的文档文件元素。
具体地,可以将所述文档文件主体中的图片的标识替换为该图片或该图片在网络设备中的存储地址;可以将所述文档文件主体中的文字的标识替换为相应文字或该文字在网络设备的链接地址等。
本实施例将文档文件主体中的文档文件元素的标识替换为该标识对应的文档文件元素,用于在用户设备的文档显示客户端上呈现该文档文件。
本实施例通过将重构后的文档文件转换为用户设备的文档显示客户端所支持的文档文件格式,适用于各种类型的文档显示客户端,提高了重构后文档的通用性。
根据本发明的一个实施例的一种用户呈现文档文件的系统,包括如图4或图5所示实施例的装置和图6所示实施例的装置。
需要注意的是,本发明可在软件和/或软件与硬件的组合体中被实施,例如,本发明的各个装置可采用专用集成电路(ASIC)或任何其他类似硬件设备来实现。在一个实施例中,本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (18)

1.一种用于文档文件重构的方法,其中,该方法包括:
-对文档文件进行解析,以获得文档文件元素和文档文件元素的属性信息;
-对所获得的文档文件元素和属性信息进行聚合处理,以获得聚合处理后的文档文件元素和属性信息;
-基于所述聚合处理后的文档文件元素和属性信息来进行重构,以获得重构的文档文件。
2.根据权利要求1所述的方法,其中,还包括:
-根据所述文档文件的标识和所述重构的文档文件中的文档文件元素的类别,生成所述重构的文档文件中的文档文件元素的标识;
-通过用所生成的文档文件元素的标识替换所述重构后的文档文件中对应的文档文件元素,以生成包含所述标识的重构的文档文件。
3.根据权利要求1或2所述的方法,其中,所述对解析得到的文档文件元素和属性信息进行聚合处理的步骤包括:
-当文档文件元素为包括矢量图与位图的图片时,将处于相邻图层的矢量图进行合并,以获得合并后的矢量图;
-将合并后得到的矢量图与位图合并,以得到合并后的位图,作为所述聚合处理后的文档文件元素之一。
4.根据权利要求3所述的方法,其中,所述将处于相邻图层的矢量图合并的步骤包括:
-根据文档文件元素的渲染顺序,确定文档文件元素之间的覆盖关系;
-基于文档文件元素之间的覆盖关系,确定处于相邻图层的矢量图;
-将所确定的处于相邻图层的矢量图进行合并,以获得合并后的矢量图。
5.根据权利要求1至4中任一项所述的方法,其中,所述对所获得的文档文件元素和属性信息进行聚合处理的步骤包括至少以下一种方式:
-当文档文件元素包括文字,且属性信息中的样式信息相同且位置信息在同一行或同一列的文字所形成的矩阵交集不覆盖图片时,将属性信息中的样式信息相同且位置信息在同一行或同一列的文字进行合并,以获得合并后的文字,作为所述聚合处理后的文档文件元素之一;
-通过提取文字的属性信息中的字体信息和所述文档文件的字体文件的交集,以获得交集处理后的字体信息,作为所述聚合处理后的属性信息之一;
-当多个属性信息中的样式信息相同,基于所述多个属性信息的相同的样式信息来生成一个key-value结构的样式信息,作为所述聚合处理后的属性信息之一,其中,key为所生成的样式信息的标识,value为所生成的样式信息的内容。
6.根据权利要求5所述的方法,其中,所述基于所述聚合处理后的文档文件元素和属性信息来进行重构的步骤包括:
-基于所述key-value结构的样式信息,生成所述重构的文档文件的CSS样式表;
-基于所述聚合处理后的文档文件元素和属性信息,生成所述重构的文档文件的主体。
7.一种用于在用户设备的文档显示客户端中呈现文档文件的方法,其中,该文档文件包括CSS样式表与文档文件主体;
其中,该方法包括:
-接收来自网络设备的文档文件;
-根据所述文档显示客户端类型,将所接收的文档文件中的CSS样式表转换为适应于所述文档显示客户端类型的CSS样式表;
-根据所述文档显示客户端类型,将所接收的文档文件的文档文件主体转换为适应于所述文档显示客户端类型的文档文件主体。
8.根据权利要求7所述的方法,其中,所述方法还包括:
-将所述文档文件主体中的文档文件元素的标识替换为该文档文件元素的标识对应的文档文件元素。
9.一种用于呈现文档文件的方法,其中,该方法包括:如权利要求1至8中任一项所述的方法和如权利要求9至11中任一项所述的方法。
10.一种网络设备中用于文档文件重构的装置,其中,该装置包括:
解析装置,用于对文档文件进行解析,以获得文档文件元素和文档文件元素的属性信息;
聚合处理装置,用于对所获得的文档文件元素和属性信息进行聚合处理,以获得聚合处理后的文档文件元素和属性信息;
重构装置,用于基于所述聚合处理后的文档文件元素和属性信息来进行重构,以获得重构的文档文件。
11.根据权利要求10所述的装置,其中,该装置还包括:
元素标识生成装置,用于根据文档文件的标识和所述重构的文档文件中的文档文件元素的类别,生成所述重构的文档文件中的文档文件元素的标识;
替换装置,用于通过用所生成的文档文件元素的标识替换所述重构的文档文件中对应的文档文件元素,以生成包含所述标识的重构后的文档文件。
12.根据权利要求10或11所述的装置,其中,所述聚合处理装置包括:
第一合并模块,用于当文档文件元素为包括矢量图与位图的图片时,将处于相邻图层的矢量图进行合并,以获得合并后的矢量图;
第二合并模块,用于将合并后得到的矢量图与位图合并,以得到合并后的位图,作为所述聚合处理后的文档文件元素之一。
13.根据权利要求12所述的装置,其中,所述第一合并模块包括:
覆盖关系确定子模块,用于根据文档文件元素的渲染顺序,确定文档文件元素之间的覆盖关系;
相邻图层确定子模块,用于基于文档文件元素之间的覆盖关系,确定处于相邻图层的矢量图;
第一合并子模块,用于将所确定的处于相邻图层的矢量图进行合并,以获得合并后的矢量图。
14.根据权利要求10至13中任一项所述的装置,其中,所述聚合处理装置包括至少以下一个模块:
第三合并模块,用于当文档文件元素包括文字,且属性信息中的样式信息相同且位置信息在同一行或同一列的文字所形成的矩阵交集不覆盖图片时,将属性信息中的样式信息相同且位置信息在同一行或同一列的文字进行合并,以获得合并后的文字,作为所述聚合处理后的文档文件元素之一;
交集处理模块,用于通过提取文字的属性信息中的字体信息和所述文档文件的字体文件的交集,以获得交集处理后的字体信息,作为所述聚合处理后的属性信息之一;
样式信息生成模块,用于当多个属性信息中的样式信息相同,基于所述多个属性信息的相同的样式信息来生成一个key-value结构的样式信息,作为所述聚合处理后的属性信息之一,其中,key为所生成的样式信息的标识,value为所生成的样式信息的内容。
15.根据权利要求14所述的装置,其中,所述重构装置包括:
样式表生成模块,用于基于所述key-value结构的样式信息,生成所述重构的文档文件的CSS样式表;
文档文件主体生成模块,用于基于所述聚合处理后的文档文件元素和属性信息,生成所述重构的文档文件的主体。
16.一种用于在用户设备的文档显示客户端中呈现文档文件的装置,其中,所述文档文件包括CSS样式表与文档文件主体;
其中,该装置包括:
第一接收装置,用于接收来自网络设备的文档文件;
第一转换装置,用于根据所述文档显示客户端类型,将所接收的文档文件中的CSS样式表转换为适应于所述文档显示客户端类型的CSS样式表;
第二转换装置,用于根据所述文档显示客户端类型,将所接收的文档文件的文档文件主体转换为适应于所述文档显示客户端类型的文档文件主体。
17.根据权利要求16所述的装置,其中,所述装置还包括:
替换装置,用于将所述文档文件主体中的文档文件元素的标识替换为该文档文件元素的标识对应的文档文件元素。
18.一种用于呈现文档文件的系统,其中,该系统包括:如权利要求10至15中任一项所述的装置和如权利要求16至17中任一项所述的装置。
CN201410064027.7A 2014-02-25 2014-02-25 一种用于文档文件重构的方法及装置 Active CN103870543B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410064027.7A CN103870543B (zh) 2014-02-25 2014-02-25 一种用于文档文件重构的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410064027.7A CN103870543B (zh) 2014-02-25 2014-02-25 一种用于文档文件重构的方法及装置

Publications (2)

Publication Number Publication Date
CN103870543A true CN103870543A (zh) 2014-06-18
CN103870543B CN103870543B (zh) 2017-07-25

Family

ID=50909073

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410064027.7A Active CN103870543B (zh) 2014-02-25 2014-02-25 一种用于文档文件重构的方法及装置

Country Status (1)

Country Link
CN (1) CN103870543B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776489A (zh) * 2016-11-16 2017-05-31 广州视源电子科技股份有限公司 显示设备的电子文档显示方法和系统
CN107153669A (zh) * 2016-03-03 2017-09-12 富士施乐株式会社 文件重构装置
CN109815453A (zh) * 2018-12-25 2019-05-28 东软集团股份有限公司 文档分块方法、装置、存储介质及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6336124B1 (en) * 1998-10-01 2002-01-01 Bcl Computers, Inc. Conversion data representing a document to other formats for manipulation and display
CN1912874A (zh) * 2006-08-30 2007-02-14 北京大学 一种提取见报资料数据信息的方法
CN101206639A (zh) * 2007-12-20 2008-06-25 北大方正集团有限公司 一种基于pdf的复杂版面的标引方法
CN101833545A (zh) * 2009-03-11 2010-09-15 汉王科技股份有限公司 数字资源加工过程中的数据标引方法
CN103166981A (zh) * 2011-12-08 2013-06-19 腾讯科技(深圳)有限公司 一种无线网页转码方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6336124B1 (en) * 1998-10-01 2002-01-01 Bcl Computers, Inc. Conversion data representing a document to other formats for manipulation and display
CN1912874A (zh) * 2006-08-30 2007-02-14 北京大学 一种提取见报资料数据信息的方法
CN101206639A (zh) * 2007-12-20 2008-06-25 北大方正集团有限公司 一种基于pdf的复杂版面的标引方法
CN101833545A (zh) * 2009-03-11 2010-09-15 汉王科技股份有限公司 数字资源加工过程中的数据标引方法
CN103166981A (zh) * 2011-12-08 2013-06-19 腾讯科技(深圳)有限公司 一种无线网页转码方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107153669A (zh) * 2016-03-03 2017-09-12 富士施乐株式会社 文件重构装置
CN106776489A (zh) * 2016-11-16 2017-05-31 广州视源电子科技股份有限公司 显示设备的电子文档显示方法和系统
CN109815453A (zh) * 2018-12-25 2019-05-28 东软集团股份有限公司 文档分块方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN103870543B (zh) 2017-07-25

Similar Documents

Publication Publication Date Title
US8892990B2 (en) Automatic creation of a table and query tools
US9471550B2 (en) Method and apparatus for document conversion with font metrics adjustment for format compatibility
CN108108342B (zh) 结构化文本的生成方法、检索方法及装置
US20130174024A1 (en) Method and device for converting document format
CN104281626B (zh) 基于图片化处理的网页展示方法及网页展示装置
US8910036B1 (en) Web based copy protection
CN103345493B (zh) 用于移动终端上的文本内容显示的方法、装置及系统
US20150169511A1 (en) System and method for identifying floor of main body of webpage
CN103853806A (zh) 一种表格转换方法及装置
CN102609400B (zh) 文件格式转换方法及转换工具
CN109492177B (zh) 一种基于网页语义结构的网页分块方法
CN104020984A (zh) 一种生成静态页面的方法及装置
US10339204B2 (en) Converting electronic documents having visible objects
CN104111922A (zh) 一种流式文档的处理方法及装置
CN103207892A (zh) 一种用于经由网络分享文档的方法和装置
CN115757272A (zh) 一种将html文件转换为ofd文件的方法及系统
CN103870543A (zh) 一种用于文档文件重构的方法及装置
US20150169508A1 (en) Obfuscating page-description language output to thwart conversion to an editable format
US7730388B2 (en) Converting an enhanced metafile into a chronologically independent object property list for conversion into a PDF document
CN104536947A (zh) 版式文档的处理方法及装置
US20140337709A1 (en) Method and apparatus for displaying web page
US20110055258A1 (en) Method and apparatus for the page-by-page provision of an electronic document as a computer graphic
US8488183B2 (en) Moving labels in graphical output to avoid overprinting
CN116340259A (zh) 文档管理方法、文档管理系统和计算设备
CN110362790B (zh) 字体文件的处理方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant