CN104281562A - 一种电子文档的处理方法及装置 - Google Patents

一种电子文档的处理方法及装置 Download PDF

Info

Publication number
CN104281562A
CN104281562A CN201410510359.3A CN201410510359A CN104281562A CN 104281562 A CN104281562 A CN 104281562A CN 201410510359 A CN201410510359 A CN 201410510359A CN 104281562 A CN104281562 A CN 104281562A
Authority
CN
China
Prior art keywords
electronic document
information
described electronic
setting mode
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410510359.3A
Other languages
English (en)
Other versions
CN104281562B (zh
Inventor
徐�明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201410510359.3A priority Critical patent/CN104281562B/zh
Publication of CN104281562A publication Critical patent/CN104281562A/zh
Application granted granted Critical
Publication of CN104281562B publication Critical patent/CN104281562B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明实施例提供了一种电子文档的处理方法及装置。一方面,本发明实施例通过获得包含电子文档中表格的第一图片信息,进而依据所述第一图片信息,对以第一排版方式显示的所述电子文档进行重排版处理,以获得以第二排版方式显示的所述电子文档,所述以第二排版方式显示的所述电子文档包含所述第一图片信息。因此,本发明实施例提供的技术方案能够自动生成包含电子文档中表格的图片,从而实现提高电子文档的重排版处理的效率。

Description

一种电子文档的处理方法及装置
【技术领域】
本发明涉及计算机技术领域,尤其涉及一种电子文档的处理方法及装置。
【背景技术】
目前,客户端显示电子文档时,为了能够依据客户端的大小来排列电子文档中的文档内容,如文字、表格和图片等,需要对待显示的电子文档进行重排版处理,其方法是:先将电子文档由版式格式转化成流式格式,然后对流式格式的电子文档进行重排版处理。
然而,现有技术中在将电子文档由版式格式转化成流式格式时,电子文档中的表格经过转化后,会出现表格中文字的排版混乱或者表格中的文字丢失的问题,进而会影响电子文档中其他文档内容的重排版处理。为了解决该问题,现有技术中是由用户手动将表格录入到待显示的电子文档中,这种电子文档的处理方式使得表格的处理效率比较低,从而导致电子文档的重排版处理的效率比较低。
【发明内容】
有鉴于此,本发明实施例提供了一种电子文档的处理方法及装置,能够自动生成包含电子文档中表格的图片,从而实现提高电子文档的重排版处理的效率。
本发明实施例的一方面,提供一种电子文档的处理方法,包括:
获得包含电子文档中表格的第一图片信息;
依据所述第一图片信息,对以第一排版方式显示的所述电子文档进行重排版处理,以获得以第二排版方式显示的所述电子文档,所述以第二排版方式显示的所述电子文档包含所述第一图片信息。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述获得包含电子文档中表格的第一图片信息,包括:
获得所述电子文档中表格的范围信息;
获得包含所述电子文档的第二图片信息;
依据所述范围信息,从所述第二图片信息中截取所述第一图片信息。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述获得所述电子文档中表格的范围信息,包括:
依据所述电子文档中文档内容的属性信息,获得所述电子文档中的线条;
依据所述线条的端点坐标信息,获得所述电子文档中表格的范围信息。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述依据所述线条的端点坐标信息,获得所述电子文档中表格的范围信息,包括:
依据所述线条的端点坐标信息,对所述电子文档中的线条进行分组处理,以获得M个线条组,M为大于或者等于1的整数;
获得所述M个线条组中符合表格特征的N个线条组,N为大于或者等于1,且小于或者等于M的整数;
获得所述N个线条组中每个所述线条组对应的表格的四个端点坐标信息;
依据所述四个端点坐标信息,获得所述电子文档中表格的范围信息。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述依据所述第一图片信息,对以第一排版方式显示的所述电子文档进行重排版处理,以获得以第二排版方式显示的所述电子文档,包括:
对版式格式的所述电子文档进行转化处理,以获得以第一排版方式显示的流式格式的所述电子文档;
依据所述第一图片信息,对所述以第一排版方式显示的流式格式的所述电子文档进行重排版处理,以获得以第二排版方式显示的流式格式的所述电子文档。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述依据所述第一图片信息,对所述以第一排版方式显示的流式格式的所述电子文档进行重排版处理,以获得以第二排版方式显示的流式格式的所述电子文档,包括:
利用所述第一图片信息,替换所述以第一排版方式显示的流式格式的所述电子文档中所述第一图片信息所包含的表格;
对经过替换处理后获得的以第一排版方式显示的流式格式的所述电子文档进行重排版处理,以获得以第二排版方式显示的流式格式的所述电子文档。
本发明实施例的一方面,提供一种电子文档的处理装置,包括:
获取单元,用于获得包含电子文档中表格的第一图片信息;
处理单元,用于依据所述获取单元获得的所述第一图片信息,对以第一排版方式显示的所述电子文档进行重排版处理,以获得以第二排版方式显示的所述电子文档,所述以第二排版方式显示的所述电子文档包含所述第一图片信息。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述获取单元,具体用于:
获得所述电子文档中表格的范围信息;
获得包含所述电子文档的第二图片信息;
依据所述范围信息,从所述第二图片信息中截取所述第一图片信息。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述获得所述电子文档中表格的范围信息,具体为:
依据所述电子文档中文档内容的属性信息,获得所述电子文档中的线条;
依据所述线条的端点坐标信息,获得所述电子文档中表格的范围信息。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述依据所述线条的端点坐标信息,获得所述电子文档中表格的范围信息,具体为:
依据所述线条的端点坐标信息,对所述电子文档中的线条进行分组处理,以获得M个线条组,M为大于或者等于1的整数;
获得所述M个线条组中符合表格特征的N个线条组,N为大于或者等于1,且小于或者等于M的整数;
获得所述N个线条组中每个所述线条组对应的表格的四个端点坐标信息;
依据所述四个端点坐标信息,获得所述电子文档中表格的范围信息。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述处理单元,具体用于:
对版式格式的所述电子文档进行转化处理,以获得以第一排版方式显示的流式格式的所述电子文档;
依据所述第一图片信息,对所述以第一排版方式显示的流式格式的所述电子文档进行重排版处理,以获得以第二排版方式显示的流式格式的所述电子文档。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述依据所述第一图片信息,对所述以第一排版方式显示的流式格式的所述电子文档进行重排版处理,以获得以第二排版方式显示的流式格式的所述电子文档,具体为:
利用所述第一图片信息,替换所述以第一排版方式显示的流式格式的所述电子文档中所述第一图片信息所包含的表格;
对经过替换处理后获得的以第一排版方式显示的流式格式的所述电子文档进行重排版处理,以获得以第二排版方式显示的流式格式的所述电子文档。
由以上技术方案可以看出,本发明实施例具有以下有益效果:
本发明实施例通过获得包含电子文档中表格的第一图片信息,进而依据所述第一图片信息,对以第一排版方式显示的所述电子文档进行重排版处理,以获得以第二排版方式显示的所述电子文档,所述以第二排版方式显示的所述电子文档包含所述第一图片信息。
本发明实施例提供的技术方案能够自动生成包含电子文档中表格的图片,然后利用该图片实现电子文档的重排版处理,重排版处理后获得的电子文档中包含该图片。与现有技术中手动在录入表格的处理方式相比,可以提高表格的处理效率,从而提高电子文档的重排版处理的效率。
【附图说明】
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例所提供的电子文档的处理方法的流程示意图;
图2是本发明实施例所提供的电子文档的处理装置的功能方块图。
【具体实施方式】
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
应当理解,尽管在本发明实施例中可能采用术语第一、第二等来描述图片信息,但这些关键词不应限于这些术语。这些术语仅用来将图片信息彼此区分开。例如,在不脱离本发明实施例范围的情况下,第一图片信息也可以被称为第二图片信息,类似地,第二图片信息也可以被称为第一图片信息。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
本发明实施例给出一种电子文档的处理方法,请参考图1,其为本发明实施例所提供的电子文档的处理方法的流程示意图,如图所示,该方法包括以下步骤:
S101,获得包含电子文档中表格的第一图片信息。
具体的,本发明实施例中,在对电子文档进行重排版处理之前,需要先获得包含该电子文档中表格的第一图片信息。
举例说明,获得包含电子文档中表格的第一图片信息的方法可以包括但不限于:
首先,获得所述电子文档中表格的范围信息。然后,获得包含所述电子文档的第二图片信息。最后,依据所述范围信息,从所述第二图片信息中截取所述第一图片信息。
其中,获得所述电子文档中表格的范围信息的方法可以包括但不限于:首先,依据所述电子文档中文档内容的属性信息,获得所述电子文档中的线条。然后,依据所述线条的端点坐标信息,获得所述电子文档中表格的范围信息。
其中,依据所述范围信息,从所述第二图片信息中截取所述第一图片信息的方法可以包括但不限于:依据获得的范围信息,并利用截图工具,对该第二图片信息进行裁剪处理,以获得包含电子文档中表格的第一图片信息。
需要说明的是,所述电子文档指的是版式格式的电子文档。版式格式的电子文档指的是利用一种绝对描述方式,在自定义的坐标系中,明确记录了电子文档中每个文档内容的显示位置和尺寸等,使电子文档打印出来的结果与在终端上浏览的结果一致,而且在任何终端下具有显示一致性的特点,以保证真实地重现文档的原貌。例如,目前的可移植文档格式(Portable Document Format,PDF)就是一种比较典型的版式格式。
优选的,所述电子文档中文档内容可以包括但不限于文字、表格和图片等。
例如,若所述电子文档为PDF,可以但不限于利用重排版工具,如XPDF、MuPDF或者Kindle PDF阅读器(Kindle PDF Viewer,KPV)等,对电子文档中文档内容进行遍历,以读取每个文档内容的属性信息。该属性信息可以包括但不限于文档内容的类型信息。若文档内容的类型信息与线条的类型信息一致,则可以确定该文档内容是线条,这样,就可以从电子文档中识别出若干线条。
例如,线条的类型信息可以包括但不限于“path”,如果重排版工具发现当前遍历到的文档内容的类型信息是“path”,则可以确定当前文档内容是线条。
举例说明,依据所述线条的端点坐标信息,获得所述电子文档中表格的范围信息的方法可以包括但不限于:首先,依据所述线条的端点坐标信息,对所述电子文档中的线条进行分组处理,以获得M个线条组,M为大于或者等于1的整数。然后,获得所述M个线条组中符合表格特征的N个线条组,N为大于或者等于1,且小于或者等于M的整数。最后,获得所述N个线条组中每个所述线条组对应的表格的四个端点坐标信息;依据所述四个端点坐标信息,获得所述电子文档中表格的范围信息。
例如,若所述电子文档为PDF,可以但不限于利用重排版工具,如XPDF、MuPDF或者KPV等,获得电子文档中线条的属性信息,该属性信息可以包括但不限于线条的端点坐标信息。依据线条的端点坐标信息可以从电子文档中若干线条中,获得水平线条和垂直线条。其中,水平线条的端点坐标信息中,两端点的x轴坐标值不同,但y轴坐标值相同;垂直线条的端点坐标信息中,两端点的y轴坐标值相同,但x轴坐标值不同。
另外,可以依据获得的水平线条及其端点坐标信息、垂直线条及其端点坐标信息,可以将彼此相交的线条划分为一个线条组。
例如,若线条A与线条B相交,且线条B与线条C相交,可以将线条A、线条B和线条C划分到一个线条组。
可以理解的,通过将若干水平线条和垂直线条划分为不同线条组,可以将同一电子文档中属于不同表格的线条划分开,划分为一个线条组的线条因为彼此相交,因此可以确定属于同一线条组的线条是属于同一个表格的。
在将电子文档中获得的若干线条划分为M个线条组后,可以依据预设的表格特征,依此判断M个线条组中每个线条组是否符合该表格特征,这样,就可以获得M个线条组中符合表格特征的N个线条组。另外,若某线条组不符合该表格特征,则丢弃该线条组。
例如,所述表格特征可以包括但不限于:同一线条组的所有水平线条的左端点的x轴坐标值都大于或者等于某一坐标值,右端点的x轴坐标值都小于或者等于某一坐标值。以及,同一线条组的所有垂直线条的下端点的y轴坐标值都大于或者等于某一坐标值,上端点的y轴坐标值都小于或者等于某一坐标值等。
对于获得的N个线条组,可以依据每个线条组中每个线条的端点坐标信息,获得每个线条组对应的表格的四个端点坐标信息。线条组对应的表格指的是该线条组中所有线条组成的表格。
其中,所述四个端点坐标信息包括该线条组中x轴坐标值最小且y轴坐标值最小的一个端点(xmin,ymin)、x轴坐标值最大且y轴坐标值最小的一个端点(xmax,ymin)、x轴坐标值最小且y轴坐标值最大的一个端点(xmin,ymax)以及x轴坐标值最大且y轴坐标值最大的一个端点(xmax,ymax),依据该四个端点坐标信息,获得电子文档中该表格的范围信息。例如,该范围信息可以包括但不限于xmin~xmax、ymin~ymax
在确定电子文档中表格的范围信息后,可以将该电子文档转化成第二图片信息。然后依据获得的电子文档中表格的范围信息,对该第二图片信息进行裁剪处理,就可以获得第二图片信息中该范围信息所指示的范围内的第二图片信息,第二图片信息中该范围信息所指示的范围内的第二图片信息就是包含电子文档中该表格的第一图片信息。
例如,若所述电子文档为PDF,可以但不限于利用XPDF、MuPDF或者KPV等,将电子文档转化为第二图片信息。然后依据范围信息生成裁剪代码,运行该裁剪代码,以使得该裁剪代码可以依据范围信息,对第二图片信息进行裁剪处理。其中,裁剪代码可以利用但不限于超文本预处理器(Hypertext Preprocessor,PHP)或者C++汇编语言等实现。
S102,依据所述第一图片信息,对以第一排版方式显示的所述电子文档进行重排版处理,以获得以第二排版方式显示的所述电子文档,所述以第二排版方式显示的所述电子文档包含所述第一图片信息。
具体的,在获得包含电子图片中表格的第一图片信息后,可以依据该第一图片信息,对以第一排版方式显示的电子文档进行重排版处理,以获得以第二排版方式显示的电子文档。
举例说明,依据该第一图片信息,对以第一排版方式显示的电子文档进行重排版处理,以获得以第二排版方式显示的电子文档的方法可以包括但不限于:
首先,对版式格式的所述电子文档进行转化处理,以获得以第一排版方式显示的流式格式的所述电子文档。然后,依据所述第一图片信息,对所述以第一排版方式显示的流式格式的所述电子文档进行重排版处理,以获得以第二排版方式显示的流式格式的所述电子文档。
需要说明的是,由于版式格式的电子文档包含文档内容以及文档内容的属性信息,没有段落的划分标识,所以需要对版式格式的电子文档进行段落划分处理,以完成版式格式的电子文档到流式格式的电子文档的转化处理。
其中,可以但不限于利用重排版工具,如XPDF、MuPDF或者KPV等,对版式格式的电子文档中的文档内容进行遍历,以获得每个文字的坐标信息。然后,依据文字的坐标信息,可以判断出属于同一段落的文字,这样就可以实现对电子文档中的文档内容进行段落划分。然后利用分段标识,对电子文档进行重新分段,以实现将版式格式的电子文档转化为流式格式的电子文档。
例如,所述分段标识可以包括但不限于回车。
例如,若某一行文字的最末端有位置可以放置文字,但是却没有放置文字,则表示下一行文字是下一段落。
再例如,若某两行文字之间的距离大于一定阈值,也可以确定其中的第二行文字是另一段落。
其中,所述流式格式可以包括但不限于txt格式或者word格式等。
举例说明,所述依据所述图片信息,对所述以第一排版方式显示的流式格式的所述电子文档进行重排版处理,以获得以第二排版方式显示的所述流式格式的电子文档的方法可以包括但不限于:
首先,利用所述第一图片信息,替换所述以第一排版方式显示的流式格式的所述电子文档中所述第一图片信息所包含的表格。然后,对经过替换处理后获得的以第一排版方式显示的流式格式的所述电子文档进行重排版处理,以获得以第二排版方式显示的流式格式的所述电子文档。
例如,可以在以第一排版方式显示的流式格式的所述电子文档中表格的对应区域的文字删除,以删除版式格式的电子文档中的表格。然后在上述对应区域插入获得的包含该表格的第一图片信息,从而实现利用第一图片信息替换以第一排版方式显示的流式格式的所述电子文档中所述图片信息包含的表格。这样,就可以在转化处理后,将流式格式的电子文档中出现的排版混乱或者文字丢失的表格的内容去除掉,并以包含该表格的第一图片信息替代,即可以实现表格的保留,还不会影响电子文档中其他文档内容的重排版处理。
其中,可以依据显示该电子文档的客户端的宽度信息、该客户端中设置的文字大小等信息,对以第一排版方式显示的流式格式的所述电子文档进行重排版处理,以获得以第二排版方式显示的所述流式格式的电子文档。
可以理解的,在进行重排版处理前,将会干扰其他文档内容重排版的表格中的文字删除,并以相应的图片信息替换,就可以即在以第二排版方式显示的所述流式格式的电子文档中保留了该表格,同时又不会影响其他文档内容的重排版处理。
需要说明的是,本发明实施例中所涉及的终端可以包括但不限于个人计算机(Personal Computer,PC)、个人数字助理(Personal Digital Assistant,PDA)、无线手持设备、平板电脑(Tablet Computer)、手机、MP3播放器、MP4播放器等。
需要说明的是,S101~S102的执行主体可以为电子文档的处理装置,该装置可以位于本地终端的应用,或者还可以为位于本地终端的应用中的插件或软件开发工具包(Software Development Kit,SDK)等功能单元,本发明实施例对此不进行特别限定。
可以理解的是,所述应用可以是安装在终端上的应用程序(nativeApp),或者还可以是终端上的浏览器的一个网页程序(webApp),本发明实施例对此不进行限定。
本发明实施例进一步给出实现上述方法实施例中各步骤及方法的装置实施例。
请参考图2,其为本发明实施例所提供的电子文档的处理装置的功能方块图。如图所示,该装置包括:
获取单元20,用于获得包含电子文档中表格的第一图片信息;
处理单元21,用于依据所述获取单元获得的所述第一图片信息,对以第一排版方式显示的所述电子文档进行重排版处理,以获得以第二排版方式显示的所述电子文档,所述以第二排版方式显示的所述电子文档包含所述第一图片信息。
优选的,所述获取单元20,具体用于:
获得所述电子文档中表格的范围信息;
获得包含所述电子文档的第二图片信息;
依据所述范围信息,从所述第二图片信息中截取所述第一图片信息。
优选的,所述获得所述电子文档中表格的范围信息,具体为:
依据所述电子文档中文档内容的属性信息,获得所述电子文档中的线条;
依据所述线条的端点坐标信息,获得所述电子文档中表格的范围信息。
优选的,所述依据所述线条的端点坐标信息,获得所述电子文档中表格的范围信息,具体为:
依据所述线条的端点坐标信息,对所述电子文档中的线条进行分组处理,以获得M个线条组,M为大于或者等于1的整数;
获得所述M个线条组中符合表格特征的N个线条组,N为大于或者等于1,且小于或者等于M的整数;
获得所述N个线条组中每个所述线条组对应的表格的四个端点坐标信息;
依据所述四个端点坐标信息,获得所述电子文档中表格的范围信息。
优选的,所述处理单元21,具体用于:
对版式格式的所述电子文档进行转化处理,以获得以第一排版方式显示的流式格式的所述电子文档;
依据所述第一图片信息,对所述以第一排版方式显示的流式格式的所述电子文档进行重排版处理,以获得以第二排版方式显示的流式格式的所述电子文档。
优选的,所述依据所述第一图片信息,对所述以第一排版方式显示的流式格式的所述电子文档进行重排版处理,以获得以第二排版方式显示的流式格式的所述电子文档,具体为:
利用所述第一图片信息,替换所述以第一排版方式显示的流式格式的所述电子文档中所述第一图片信息所包含的表格;
对经过替换处理后获得的以第一排版方式显示的流式格式的所述电子文档进行重排版处理,以获得以第二排版方式显示的流式格式的所述电子文档。
由于本实施例中的各单元能够执行图1所示的方法,本实施例未详细描述的部分,可参考对图1的相关说明。
本发明实施例的技术方案具有以下有益效果:
本发明实施例通过获得包含电子文档中表格的第一图片信息,进而依据所述第一图片信息,对以第一排版方式显示的所述电子文档进行重排版处理,以获得以第二排版方式显示的所述电子文档,所述以第二排版方式显示的所述电子文档包含所述第一图片信息。本发明实施例提供的技术方案能够自动生成包含电子文档中表格的图片,然后利用该图片实现电子文档的重排版处理,重排版处理后获得的电子文档中包含该图片。与现有技术中手动在录入表格的处理方式相比,可以提高表格的处理效率,从而提高电子文档的重排版处理的效率。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (12)

1.一种电子文档的处理方法,其特征在于,所述方法包括:
获得包含电子文档中表格的第一图片信息;
依据所述第一图片信息,对以第一排版方式显示的所述电子文档进行重排版处理,以获得以第二排版方式显示的所述电子文档,所述以第二排版方式显示的所述电子文档包含所述第一图片信息。
2.根据权利要求1所述的方法,其特征在于,所述获得包含电子文档中表格的第一图片信息,包括:
获得所述电子文档中表格的范围信息;
获得包含所述电子文档的第二图片信息;
依据所述范围信息,从所述第二图片信息中截取所述第一图片信息。
3.根据权利要求2所述的方法,其特征在于,所述获得所述电子文档中表格的范围信息,包括:
依据所述电子文档中文档内容的属性信息,获得所述电子文档中的线条;
依据所述线条的端点坐标信息,获得所述电子文档中表格的范围信息。
4.根据权利要求3所述的方法,其特征在于,所述依据所述线条的端点坐标信息,获得所述电子文档中表格的范围信息,包括:
依据所述线条的端点坐标信息,对所述电子文档中的线条进行分组处理,以获得M个线条组,M为大于或者等于1的整数;
获得所述M个线条组中符合表格特征的N个线条组,N为大于或者等于1,且小于或者等于M的整数;
获得所述N个线条组中每个所述线条组对应的表格的四个端点坐标信息;
依据所述四个端点坐标信息,获得所述电子文档中表格的范围信息。
5.根据权利要求1或2所述的方法,其特征在于,所述依据所述第一图片信息,对以第一排版方式显示的所述电子文档进行重排版处理,以获得以第二排版方式显示的所述电子文档,包括:
对版式格式的所述电子文档进行转化处理,以获得以第一排版方式显示的流式格式的所述电子文档;
依据所述第一图片信息,对所述以第一排版方式显示的流式格式的所述电子文档进行重排版处理,以获得以第二排版方式显示的流式格式的所述电子文档。
6.根据权利要求5所述的方法,其特征在于,所述依据所述第一图片信息,对所述以第一排版方式显示的流式格式的所述电子文档进行重排版处理,以获得以第二排版方式显示的流式格式的所述电子文档,包括:
利用所述第一图片信息,替换所述以第一排版方式显示的流式格式的所述电子文档中所述第一图片信息所包含的表格;
对经过替换处理后获得的以第一排版方式显示的流式格式的所述电子文档进行重排版处理,以获得以第二排版方式显示的流式格式的所述电子文档。
7.一种电子文档的处理装置,其特征在于,所述装置包括:
获取单元,用于获得包含电子文档中表格的第一图片信息;
处理单元,用于依据所述获取单元获得的所述第一图片信息,对以第一排版方式显示的所述电子文档进行重排版处理,以获得以第二排版方式显示的所述电子文档,所述以第二排版方式显示的所述电子文档包含所述第一图片信息。
8.根据权利要求7所述的装置,其特征在于,所述获取单元,具体用于:
获得所述电子文档中表格的范围信息;
获得包含所述电子文档的第二图片信息;
依据所述范围信息,从所述第二图片信息中截取所述第一图片信息。
9.根据权利要求8所述的装置,其特征在于,所述获得所述电子文档中表格的范围信息,具体为:
依据所述电子文档中文档内容的属性信息,获得所述电子文档中的线条;
依据所述线条的端点坐标信息,获得所述电子文档中表格的范围信息。
10.根据权利要求9所述的装置,其特征在于,所述依据所述线条的端点坐标信息,获得所述电子文档中表格的范围信息,具体为:
依据所述线条的端点坐标信息,对所述电子文档中的线条进行分组处理,以获得M个线条组,M为大于或者等于1的整数;
获得所述M个线条组中符合表格特征的N个线条组,N为大于或者等于1,且小于或者等于M的整数;
获得所述N个线条组中每个所述线条组对应的表格的四个端点坐标信息;
依据所述四个端点坐标信息,获得所述电子文档中表格的范围信息。
11.根据权利要求7或8所述的装置,其特征在于,所述处理单元,具体用于:
对版式格式的所述电子文档进行转化处理,以获得以第一排版方式显示的流式格式的所述电子文档;
依据所述第一图片信息,对所述以第一排版方式显示的流式格式的所述电子文档进行重排版处理,以获得以第二排版方式显示的流式格式的所述电子文档。
12.根据权利要求11所述的装置,其特征在于,所述依据所述第一图片信息,对所述以第一排版方式显示的流式格式的所述电子文档进行重排版处理,以获得以第二排版方式显示的流式格式的所述电子文档,具体为:
利用所述第一图片信息,替换所述以第一排版方式显示的流式格式的所述电子文档中所述第一图片信息所包含的表格;
对经过替换处理后获得的以第一排版方式显示的流式格式的所述电子文档进行重排版处理,以获得以第二排版方式显示的流式格式的所述电子文档。
CN201410510359.3A 2014-09-28 2014-09-28 一种电子文档的处理方法及装置 Active CN104281562B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410510359.3A CN104281562B (zh) 2014-09-28 2014-09-28 一种电子文档的处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410510359.3A CN104281562B (zh) 2014-09-28 2014-09-28 一种电子文档的处理方法及装置

Publications (2)

Publication Number Publication Date
CN104281562A true CN104281562A (zh) 2015-01-14
CN104281562B CN104281562B (zh) 2017-12-12

Family

ID=52256448

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410510359.3A Active CN104281562B (zh) 2014-09-28 2014-09-28 一种电子文档的处理方法及装置

Country Status (1)

Country Link
CN (1) CN104281562B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110290A (zh) * 2019-03-29 2019-08-09 北京点众科技股份有限公司 一种设定电子书的排版样式的方法和装置
CN110363189A (zh) * 2018-04-09 2019-10-22 珠海金山办公软件有限公司 一种文档内容修复方法、装置、电子设备及可读存储介质
CN113283217A (zh) * 2021-05-28 2021-08-20 珠海金山办公软件有限公司 文档转换方法、装置、电子设备及存储介质
CN118193333A (zh) * 2024-05-16 2024-06-14 深圳新芯智能有限公司 安卓平台汽车诊断报告生成方法、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0830587A (ja) * 1994-07-14 1996-02-02 Toshiba Corp 文書作成装置及び書式変更方法
US7526719B1 (en) * 2005-03-21 2009-04-28 Autodesk, Inc. File format for table styles
CN101887413A (zh) * 2009-05-14 2010-11-17 北大方正集团有限公司 版式表格的结构处理方法和系统
CN102521219A (zh) * 2011-12-19 2012-06-27 方正国际软件有限公司 版式与流式混合排版系统及其排版方法
CN102591849A (zh) * 2011-01-07 2012-07-18 北大方正集团有限公司 文档格式转换的方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0830587A (ja) * 1994-07-14 1996-02-02 Toshiba Corp 文書作成装置及び書式変更方法
US7526719B1 (en) * 2005-03-21 2009-04-28 Autodesk, Inc. File format for table styles
CN101887413A (zh) * 2009-05-14 2010-11-17 北大方正集团有限公司 版式表格的结构处理方法和系统
CN102591849A (zh) * 2011-01-07 2012-07-18 北大方正集团有限公司 文档格式转换的方法及装置
CN102521219A (zh) * 2011-12-19 2012-06-27 方正国际软件有限公司 版式与流式混合排版系统及其排版方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
仇睿恒等: "一种在电子出版中融合固定版面与流式信息的方法", 《电子学报》 *
房婧等: "版式电子文档表格自动检测与性能评估", 《北京大学学报(自然科学版)》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110363189A (zh) * 2018-04-09 2019-10-22 珠海金山办公软件有限公司 一种文档内容修复方法、装置、电子设备及可读存储介质
CN110363189B (zh) * 2018-04-09 2021-09-24 珠海金山办公软件有限公司 一种文档内容修复方法、装置、电子设备及可读存储介质
CN110110290A (zh) * 2019-03-29 2019-08-09 北京点众科技股份有限公司 一种设定电子书的排版样式的方法和装置
CN110110290B (zh) * 2019-03-29 2020-10-16 北京点众科技股份有限公司 一种设定电子书的排版样式的方法和装置
CN113283217A (zh) * 2021-05-28 2021-08-20 珠海金山办公软件有限公司 文档转换方法、装置、电子设备及存储介质
CN118193333A (zh) * 2024-05-16 2024-06-14 深圳新芯智能有限公司 安卓平台汽车诊断报告生成方法、设备及介质

Also Published As

Publication number Publication date
CN104281562B (zh) 2017-12-12

Similar Documents

Publication Publication Date Title
CN101984419B (zh) 用于对网页图片内容进行段落重排的方法及装置
EP2805258A1 (en) Low resolution placeholder content for document navigation
CN110032701B (zh) 图像展示控制方法、装置、存储介质及电子设备
US9703766B1 (en) Systems and methods for generating tables from print-ready digital source documents
CN101763234B (zh) 一种模拟各种屏幕分辨率的方法及其装置
US20130061132A1 (en) System and method for web page segmentation using adaptive threshold computation
CN103076955B (zh) 一种调整应用的文字的方法、装置及终端
CN104281562A (zh) 一种电子文档的处理方法及装置
CN104572822A (zh) 文本展现方法及装置
CN104199917A (zh) 一种网页页面内容的翻译方法、装置以及客户端
US20160232151A1 (en) Responsive course design system and method
CN103279457A (zh) 一种基于Excel生成图表的方法及装置
CN110609981A (zh) 文本处理方法以及装置、电子设备以及计算机可读存储介质
CN105577518A (zh) 一种在即时通信中显示网址对应信息的方法及电子设备
CN104536947A (zh) 版式文档的处理方法及装置
CN113378511A (zh) 页面的显示方法、装置、电子设备和存储介质
EP3118731A1 (en) Method and electronic device for inputting character
CN103559195A (zh) 一种搜索方法和终端
CN105243138A (zh) 信息推送方法和装置
JP5715172B2 (ja) 文書表示装置、文書表示方法及び文書表示プログラム
CN111199136A (zh) 文档内容的展示方法、装置及设备
CN113268949B (zh) 基于动态字段的表格展示方法、装置、计算机设备及介质
EP2953036A1 (en) File trimming method, terminal and server
CN108762637A (zh) 控制方法、装置及系统
CN107241100B (zh) 字库部件压缩方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant