CN102332002A - 一种将pdf格式文件转换为epub格式的方法及系统 - Google Patents

一种将pdf格式文件转换为epub格式的方法及系统 Download PDF

Info

Publication number
CN102332002A
CN102332002A CN201110213555A CN201110213555A CN102332002A CN 102332002 A CN102332002 A CN 102332002A CN 201110213555 A CN201110213555 A CN 201110213555A CN 201110213555 A CN201110213555 A CN 201110213555A CN 102332002 A CN102332002 A CN 102332002A
Authority
CN
China
Prior art keywords
pictorial element
pictorial
text
file
text element
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201110213555A
Other languages
English (en)
Other versions
CN102332002B (zh
Inventor
王峰
晏检平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wanxing Polytron Technologies Inc
Original Assignee
Shenzhen Wondershare Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Wondershare Software Co Ltd filed Critical Shenzhen Wondershare Software Co Ltd
Priority to CN2011102135550A priority Critical patent/CN102332002B/zh
Priority to PCT/CN2011/084272 priority patent/WO2013013486A1/zh
Publication of CN102332002A publication Critical patent/CN102332002A/zh
Application granted granted Critical
Publication of CN102332002B publication Critical patent/CN102332002B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/178Techniques for file synchronisation in file systems
    • G06F16/1794Details of file format conversion

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开一种将PDF格式文件转换为EPUB格式的方法,包括:识别PDF格式文件中的文本元素、图像元素;获取所述文本元素的坐标和所述图像元素的坐标;根据所述文本元素的坐标和所述图像元素的坐标,确定所述文本元素和所述图像元素在新生成的HTML格式文件中的位置;按照所述位置,生成HTML格式文件;根据所述HTML格式文件,生成EPUB格式文件。本发明还公开了一种将PDF格式文件转换为EPUB格式的系统。采用本发明所公开的发明或系统,能够使转化成的EPUB格式的文件图文并茂,并保留原PDF格式文件中的文字元素与图像元素的位置关系。

Description

一种将PDF格式文件转换为EPUB格式的方法及系统
技术领域
本发明涉及文档处理技术领域,特别是涉及一种将PDF格式文件转换为EPUB格式的方法及系统。
背景技术
PDF是Portable Document Format(便携文件格式)的缩写,是一种电子文件格式。PDF文件格式以其卓越的特性成为在互联网上进行电子文档发行和格式化信息传播的理想文件格式。当前,在互联网上发布的科技论文大部分以PDF格式提交。但是,因为PDF文件是根据坐标来排版的,而小型设备上很难绝对定位,所以PDF文件在小型设备或者移动设备上不能自适应页面。现有技术中,为了在小型设备或者移动设备上更好地显示PDF文件的内容,通常将PDF格式文件转换为EPUB格式。
EPUB格式是一种电子图书标准,属于一种可以“自动重新编排”的内容;也就是文字内容可以根据阅读设备的特性,以最适于阅读的方式显示。EPUB档案内部使用了XHTML或DTBook(一种由DAISY Consortium提出的XML标准)来展现文字、并以zip压缩格式来包裹档案内容。
现有技术中,将PDF格式文件转换为EPUB格式的方法主要有两种:一种是只提取PDF格式文件中的文本,图片去除。显然该方式存在图片缺失的缺点。另一种方式是对PDF格式文件的每一页进行截图。由于截图时会导致分辨率下降,在小型设备上阅读时,文字更加难以识别。
发明内容
本发明的目的是提供一种将PDF格式文件转换为EPUB格式的方法及系统,使得转换后的EPUB格式文件能够图文并茂,并且转换后的EPUB格式文件中,图像元素与文本元素的相对位置关系与原PDF格式文件相同。
为实现上述目的,本发明提供了如下方案:
一种将PDF格式文件转换为EPUB格式的方法,包括:
识别PDF格式文件中的文本元素、图像元素;
获取所述文本元素的坐标和所述图像元素的坐标;
根据所述文本元素的坐标和所述图像元素的坐标,确定所述文本元素和所述图像元素在新生成的HTML格式文件中的位置,以使新生成的HTML格式文件中的文本元素和图像元素的相对位置关系与PDF格式文件中的文本元素和图像元素的相对位置关系相同;
按照确定的位置,生成HTML格式文件;
根据所述HTML格式文件,生成EPUB格式文件。
优选的,所述根据所述文本元素的坐标和所述图像元素的坐标,确定所述文本元素和所述图像元素在新生成的HTML格式文件中的位置,以使新生成的HTML格式文件中的文本元素和图像元素的相对位置关系与PDF格式文件中的文本元素和图像元素的相对位置关系相同,包括:
根据所述文本元素的坐标和所述图像元素的坐标,将原本位于所述图像元素左边或上方的所述文本元素,定位在所述图像元素上方;将原本位于所述图像元素右边或下方的所述文本元素,定位在所述图像元素下方。
优选的,所述根据所述文本元素的坐标和所述图像元素的坐标,将原本位于所述图像元素左边或上方的所述文本元素,定位在所述图像元素上方;将原本位于所述图像元素右边或下方的所述文本元素,定位在所述图像元素下方,包括:
判断所述文本元素的右下点的纵坐标是否小于所述图像元素的左上点的纵坐标;
如果是,则将所述文本元素定位在所述图像元素的上方;
否则,判断所述文本元素的右下点的横坐标是否小于所述图像元素的左上点的横坐标;
如果是,则将所述文本元素定位在所述图像元素的上方;
否则,将所述文本元素定位在所述图像元素的下方。
优选的,所述根据所述文本元素的坐标和所述图像元素的坐标,将原本位于所述图像元素左边或上方的所述文本元素,定位在所述图像元素上方;将原本位于所述图像元素右边或下方的所述文本元素,定位在所述图像元素下方,包括:
判断所述文本元素的左上点的纵坐标是否大于所述图像元素的右下点的纵坐标;
如果是,则将所述文本元素定位在所述图像元素的下方;
否则,判断所述文本元素的左上点的横坐标是否大于所述图像元素的右下点的横坐标;
如果是,则将所述文本元素定位在所述图像元素的下方;
否则,将所述文本元素定位在所述图像元素的上方。
优选的,所述根据所述HTML格式文件,生成EPUB格式文件,包括:
生成包括container.xml文件以及后缀名为opf、ncx在内的EPUB格式所必须的文件;
将所述HTML格式文件,以及所述EPUB格式所必须的文件,压缩成后缀名为EPUB的压缩包。
一种将PDF格式文件转换为EPUB格式的系统,包括:
元素识别模块,用于识别PDF格式文件中的文本元素、图像元素;
坐标获取模块,用于获取所述文本元素的坐标和所述图像元素的坐标;
位置确定模块,用于根据所述文本元素的坐标和所述图像元素的坐标,确定所述文本元素和所述图像元素在新生成的HTML格式文件中的位置,以使新生成的HTML格式文件中的文本元素和图像元素的相对位置关系与PDF格式文件中的文本元素和图像元素的相对位置关系相同;
HTML格式文件生成模块,用于按照所述位置,生成HTML格式文件;
EPUB格式生成模块,用于根据所述HTML格式文件,生成EPUB格式文件。
优选的,所述位置确定模块包括:
上下位置确定单元,用于根据所述文本元素的坐标和所述图像元素的坐标,将原本位于所述图像元素左边或上方的所述文本元素,定位在所述图像元素上方;将原本位于所述图像元素右边或下方的所述文本元素,定位在所述图像元素下方。
优选的,所述上下位置确定单元包括:
第一判断子单元,用于判断所述文本元素的右下点的纵坐标是否小于所述图像元素的左上点的纵坐标;
第一定位子单元,用于当所述第一判断子单元的判断结果为是时,将所述文本元素定位在所述图像元素的上方;
第二判断子单元,用于当所述第一判断子单元的判断结果为否时,判断所述文本元素的右下点的横坐标是否小于所述图像元素的左上点的横坐标;
第二定位子单元,用于当所述第二判断子单元的判断结果为是时,将所述文本元素定位在所述图像元素的上方;
第三定位子单元,用于当所述第二判断子单元的判断结果为否时,将所述文本元素定位在所述图像元素的下方。
优选的,所述上下位置确定单元包括:
第三判断子单元,用于判断所述文本元素的左上点的纵坐标是否大于所述图像元素的右下点的纵坐标;
第四定位子单元,用于当所述第三判断子单元的判断结果为是时,将所述文本元素定位在所述图像元素的下方;
第四判断子单元,用于当所述第三判断子单元的判断结果为否时,判断所述文本元素的左上点的横坐标是否大于所述图像元素的右下点的横坐标;
第五定位子单元,用于当所述第四判断子单元的判断结果为是时,将所述文本元素定位在所述图像元素的下方;
第六定位子单元,用于当所述第四判断子单元的判断结果为否时,将所述文本元素定位在所述图像元素的上方。
优选的,所述EPUB格式生成模块包括:
必要文件生成单元,用于生成包括container.xml文件以及后缀名为opf、ncx在内的EPUB格式所必须的文件;
EPUB格式生成单元,用于将所述HTML格式文件,以及所述EPUB格式所必须的文件,压缩成后缀名为EPUB的压缩包。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
通过对PDF格式文件中的文本元素与图像元素的坐标进行分析,确定所述文本元素和所述图像元素在新生成的HTML格式文件中的位置,以使新生成的HTML格式文件中的所述文本元素和所述图像元素的相对位置关系与PDF格式文件中的所述文本元素和所述图像元素的相对位置关系相同;能够使转换后的EPUB格式文件能够图文并茂,并且转换后的EPUB格式文件中,图像元素与文本元素的相对位置关系与原PDF格式文件相同。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一所述将PDF格式文件转换为EPUB格式的方法流程图;
图2为本发明实施例二所述将PDF格式文件转换为EPUB格式的方法流程图;
图3为本发明实施例三所述将HTML格式文件转化为EPUB格式的文件的步骤的流程图;
图4为本发明所公开的将PDF格式文件转换为EPUB格式的系统结构图;
图5为本发明实施例所公开的位置确定模块结构图;
图6为本发明实施例所公开的位置确定模块另一结构图;
图7为本发明实施例所公开的EPUB格式生成模块结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例一
参见图1,为本发明实施例一所述将PDF格式文件转换为EPUB格式的方法流程图。如图1所示,该方法包括步骤:
S101:识别PDF格式文件中的文本元素、图像元素;
由于文本元素和图像元素本身的属性不同,因此,在读取PDF格式文件时,文本元素的数据流与图像元素的数据流,分别具有不同的标识。所以可以根据数据流中的标识,识别PDF格式文件中的文本元素、图像元素。
S102:获取所述文本元素的坐标和所述图像元素的坐标;
S103:根据所述文本元素的坐标和所述图像元素的坐标,确定所述文本元素和所述图像元素在新生成的HTML格式文件中的位置,以使新生成的HTML格式文件中的所述文本元素和所述图像元素的相对位置关系与PDF格式文件中的所述文本元素和所述图像元素的相对位置关系相同;
因为EPUB格式的文件通常由HTML格式文件以及其他一些EPUB格式所必须的文件构成,所以本实施例中,需要根据PDF格式文件中的各种元素先生成HTML格式文件。
下面对本步骤的原理,进行说明。
大多数出版物的排版规律,都是:从某个页面的左上角处开始,每一行文字按照从左向右的顺序显示。该行文字排满一行后,会从该页面下移一行,继续显示。因此,通常一个页面中,坐标系是这样的:该页面的左上角为坐标系的原点(0,0),从左至右为X轴方向,且横坐标的值从左至右逐渐增大;从上向下为Y轴方向,且纵坐标的值从上向下逐渐增大。
因此,在某个页面中,相对位置靠左的元素,其横坐标的值越小;相对位置靠右的元素,其横坐标的值越大;相对位置靠上的元素,其纵坐标的值越小;相对位置靠下的元素,其纵坐标的值越大。所以,可以根据所述文本元素的坐标和所述图像元素的坐标,确定所述文本元素和所述图像元素在新生成的HTML格式文件中的位置,以使新生成的HTML格式文件中的所述文本元素和所述图像元素的相对位置关系与PDF格式文件中的所述文本元素和所述图像元素的相对位置关系相同。
具体的,可以根据所述文本元素的坐标和所述图像元素的坐标,将原本位于所述图像元素左边或上方的所述文本元素,定位在所述图像元素上方;将原本位于所述图像元素右边或下方的所述文本元素,定位在所述图像元素下方。
S104:按照所述位置,生成HTML格式文件;
S105:根据所述HTML格式文件,生成EPUB格式文件。
因为,EPUB格式文件中,有一些必须的文件,例如:container.xml文件以及后缀名为opf、ncx的文件等等,所以最后需要根据所述HTML格式文件,以及所述EPUB格式所必须的文件,生成EPUB格式文件。
本实施例中,通过对PDF格式文件中的文本元素与图像元素的坐标进行分析,确定所述文本元素和所述图像元素在新生成的HTML格式文件中的位置,以使新生成的HTML格式文件中的所述文本元素和所述图像元素的相对位置关系与PDF格式文件中的所述文本元素和所述图像元素的相对位置关系相同;能够使转换后的EPUB格式文件能够图文并茂,并且转换后的EPUB格式文件中,图像元素与文本元素的相对位置关系与原PDF格式文件相同。
实施例二
参见图2,为本发明实施例二所述将PDF格式文件转换为EPUB格式的方法流程图。该实施例更加详细地说明了本发明的实际应用过程。如图2所示,该方法包括步骤:
S201:识别PDF格式文件中的文本元素、图像元素;
S202:获取所述文本元素的坐标和所述图像元素的坐标;
S203:判断所述文本元素的右下点的纵坐标是否小于所述图像元素的左上点的纵坐标;
如果是,执行步骤S204;否则,执行步骤S205;
S204:将所述文本元素定位在所述图像元素的上方;
S205:判断所述文本元素的右下点的横坐标是否小于所述图像元素的左上点的横坐标;
如果是,则执行步骤S204;否则,执行步骤S206;
S206:将所述文本元素定位在所述图像元素的下方;
S207:按照所述位置,生成HTML格式文件;
S208:根据所述HTML格式文件,生成EPUB格式文件。
其中,步骤S203-S206的原理如下:
通常,一个文本元素中包含一段文字。这段文字可以近似构成一个矩形区域。该矩形区域的右下点的纵坐标,如果小于图像元素(也可以认为是一个矩形区域)的左上点的纵坐标,那么,可以肯定,该文本元素在原PDF格式文件中,是位于该图像元素的上方的。
同理,如果该文本元素的右下点的横坐标小于该图像元素的左上点的横坐标,那么,该文本元素在原PDF格式文件中,是位于该图像元素的左侧的。
按照正常的阅读习惯,在图像元素上方和左侧的文本元素,在转换后的EPUB格式文件中,也应该出现在图像元素之前。因此,本实施例中,将原PDF格式文件中的图像元素上方和左侧的文本元素,均定位在该图像元素的上方。
步骤S203-S206中,当进行两次判断以后的结果都是否时,表示该文本元素既不在图像元素的上方,也不在该图像元素的左侧,那么,该文本元素必然位于图像元素的下方或右侧。按照正常的阅读习惯,本实施例中,将原PDF格式文件中的图像元素下方和右侧的文本元素,均定位在该图像元素的下方。
综上,本实施例中,公开了根据文本元素和图像元素的坐标,确定所述文本元素和所述图像元素在新生成的HTML格式文件中的位置的一种具体方式。
本实施例所公开的将PDF格式文件转换为EPUB格式的方法,通过对文本元素右下点与图像元素左上点的横、纵坐标进行比较,能够确定文本元素与图像元素在原PDF格式文件中的位置关系,并且在转换后的EPUB格式文件中保留上述位置关系;使得转换后的EPUB格式文件能够图文并茂,并且转换后的EPUB格式文件中,图像元素与文本元素的相对位置关系与原PDF格式文件相同。
需要说明的是,由于坐标系的设置方向可以变化,用来进行判断的文本元素或者图像元素的坐标点的选取也可以改变(可以采用文本元素的左上点坐标与图像元素的右下点坐标进行比较),因此,本发明实施例所公开的将PDF格式文件转换为EPUB格式的方法,还可以有多种变形后的方式,此处不应理解为对本发明的限定。
实施例三
本实施例相对于实施例二,采用了另一种确定所述文本元素和所述图像元素在新生成的HTML格式文件中的位置的方式。
参见图3,为本发明实施例三所述将PDF格式文件转换为EPUB格式的方法流程图。
如图3所示,该方法包括步骤:
S301:识别PDF格式文件中的文本元素、图像元素;
S302:获取所述文本元素的坐标和所述图像元素的坐标;
S303:判断所述文本元素的左上点的纵坐标是否大于所述图像元素的右下点的纵坐标;
如果是,执行步骤S304;否则执行步骤S305;
S304:将所述文本元素定位在所述图像元素的下方;
S305:判断所述文本元素的左上点的横坐标是否大于所述图像元素的右下点的横坐标;
如果是,则执行步骤S304;否则,执行步骤S306;
S306:将所述文本元素定位在所述图像元素的上方;
S307:按照所述位置,生成HTML格式文件;
S308:根据所述HTML格式文件,生成EPUB格式文件。
其中,步骤S303-S306的原理如下:
文本元素构成的矩形区域的左上点的纵坐标,如果大于图像元素构成的矩形区域的右下点的纵坐标,那么,该文本元素在原PDF格式文件中,是位于该图像元素的下方的。
同理,如果该文本元素的左上点的横坐标大于该图像元素的右下点的横坐标,那么,该文本元素在原PDF格式文件中,是位于该图像元素的右侧的。
按照正常的阅读习惯,在图像元素下方和右侧的文本元素,在转换后的EPUB格式文件中,均定位在该图像元素的下方。
步骤S303-S306中,当进行两次判断以后的结果都是否时,表示该文本元素既不在图像元素的下方,也不在该图像元素的右侧,那么,该文本元素必然位于图像元素的上方或左侧。按照正常的阅读习惯,本实施例中,将原PDF格式文件中的图像元素上方或左侧的文本元素,均定位在该图像元素的上方。
综上,本实施例中,公开了根据文本元素和图像元素的坐标,确定所述文本元素和所述图像元素在新生成的HTML格式文件中的位置的一种具体方式。
本实施例所公开的将PDF格式文件转换为EPUB格式的方法,通过对文本元素左上点与图像元素右下点的横、纵坐标进行比较,能够确定文本元素与图像元素在原PDF格式文件中的位置关系,并且在转换后的EPUB格式文件中保留上述位置关系;使得转换后的EPUB格式文件能够图文并茂,并且转换后的EPUB格式文件中,图像元素与文本元素的相对位置关系与原PDF格式文件相同。
本发明同时公开了一种将PDF格式文件转换为EPUB格式的系统。参见图4,为本发明所公开的将PDF格式文件转换为EPUB格式的系统结构图。如图4所示,该系统包括:
元素识别模块401,用于识别PDF格式文件中的文本元素、图像元素;
坐标获取模块402,用于获取所述文本元素的坐标和所述图像元素的坐标;
位置确定模块403,用于根据所述文本元素的坐标和所述图像元素的坐标,确定所述文本元素和所述图像元素在新生成的HTML格式文件中的位置,以使新生成的HTML格式文件中的所述文本元素和所述图像元素的相对位置关系与PDF格式文件中的所述文本元素和所述图像元素的相对位置关系相同;
HTML格式文件生成模块404,用于按照所述位置,生成HTML格式文件;
EPUB格式生成模块405,用于根据所述HTML格式文件,生成EPUB格式文件。
图5为本发明实施例所公开的位置确定模块结构图。如图5所示,位置确定模块403可以包括:
上下位置确定单元4030,用于根据所述文本元素的坐标和所述图像元素的坐标,将原本位于所述图像元素左边或上方的所述文本元素,定位在所述图像元素上方;将原本位于所述图像元素右边或下方的所述文本元素,定位在所述图像元素下方。
上下位置确定单元4030,可以包括:
第一判断子单元4031,用于判断所述文本元素的右下点的纵坐标是否小于所述图像元素的左上点的纵坐标;
第一定位子单元4032,用于当所述第一判断子单元的判断结果为是时,将所述文本元素定位在所述图像元素的上方;
第二判断子单元4033,用于当所述第一判断子单元的判断结果为否时,判断所述文本元素的右下点的横坐标是否小于所述图像元素的左上点的横坐标;
第二定位子单元4034,用于当所述第二判断子单元的判断结果为是时,将所述文本元素定位在所述图像元素的上方;
第三定位子单元4035,用于当所述第二判断子单元的判断结果为否时,将所述文本元素定位在所述图像元素的下方。
图6为本发明实施例所公开的位置确定模块另一结构图。如图6所示,上下位置确定单元4030,可以包括:
第三判断子单元4036,用于判断所述文本元素的左上点的纵坐标是否大于所述图像元素的右下点的纵坐标;
第四定位子单元4037,用于当所述第三判断子单元的判断结果为是时,将所述文本元素定位在所述图像元素的下方;
第四判断子单元4038,用于当所述第三判断子单元的判断结果为否时,判断所述文本元素的左上点的横坐标是否大于所述图像元素的右下点的横坐标;
第五定位子单元4039,用于当所述第四判断子单元的判断结果为是时,将所述文本元素定位在所述图像元素的下方;
第六定位子单元40310,用于当所述第四判断子单元的判断结果为否时,将所述文本元素定位在所述图像元素的上方。
图7为本发明实施例所公开的EPUB格式生成模块结构图。如图7所示,EPUB格式生成模块405,可以包括:
必要文件生成单元4051,用于生成包括container.xml文件以及后缀名为opf、ncx在内的EPUB格式所必须的文件;
EPUB格式生成单元4052,用于将所述HTML格式文件,以及所述EPUB格式所必须的文件,压缩成后缀名为EPUB的压缩包。
本实施例所公开的将PDF格式文件转换为EPUB格式的系统,能够对PDF格式文件中的文本元素与图像元素的坐标进行分析,确定所述文本元素和所述图像元素在新生成的HTML格式文件中的位置,以使新生成的HTML格式文件中的所述文本元素和所述图像元素的相对位置关系与PDF格式文件中的所述文本元素和所述图像元素的相对位置关系相同;能够使转换后的EPUB格式文件能够图文并茂,并且转换后的EPUB格式文件中,图像元素与文本元素的相对位置关系与原PDF格式文件相同。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种将PDF格式文件转换为EPUB格式的方法,其特征在于,包括:
识别PDF格式文件中的文本元素、图像元素;
获取所述文本元素的坐标和所述图像元素的坐标;
根据所述文本元素的坐标和所述图像元素的坐标,确定所述文本元素和所述图像元素在新生成的HTML格式文件中的位置,以使新生成的HTML格式文件中的文本元素和图像元素的相对位置关系与PDF格式文件中的文本元素和图像元素的相对位置关系相同;
按照确定的位置,生成HTML格式文件;
根据所述HTML格式文件,生成EPUB格式文件。
2.根据权利要求1所述的方法,其特征在于,所述根据所述文本元素的坐标和所述图像元素的坐标,确定所述文本元素和所述图像元素在新生成的HTML格式文件中的位置,以使新生成的HTML格式文件中的文本元素和图像元素的相对位置关系与PDF格式文件中的文本元素和图像元素的相对位置关系相同,包括:
根据所述文本元素的坐标和所述图像元素的坐标,将原本位于所述图像元素左边或上方的所述文本元素,定位在所述图像元素上方;将原本位于所述图像元素右边或下方的所述文本元素,定位在所述图像元素下方。
3.根据权利要求2所述的方法,其特征在于,所述根据所述文本元素的坐标和所述图像元素的坐标,将原本位于所述图像元素左边或上方的所述文本元素,定位在所述图像元素上方;将原本位于所述图像元素右边或下方的所述文本元素,定位在所述图像元素下方,包括:
判断所述文本元素的右下点的纵坐标是否小于所述图像元素的左上点的纵坐标;
如果是,则将所述文本元素定位在所述图像元素的上方;
否则,判断所述文本元素的右下点的横坐标是否小于所述图像元素的左上点的横坐标;
如果是,则将所述文本元素定位在所述图像元素的上方;
否则,将所述文本元素定位在所述图像元素的下方。
4.根据权利要求2所述的方法,其特征在于,所述根据所述文本元素的坐标和所述图像元素的坐标,将原本位于所述图像元素左边或上方的所述文本元素,定位在所述图像元素上方;将原本位于所述图像元素右边或下方的所述文本元素,定位在所述图像元素下方,包括:
判断所述文本元素的左上点的纵坐标是否大于所述图像元素的右下点的纵坐标;
如果是,则将所述文本元素定位在所述图像元素的下方;
否则,判断所述文本元素的左上点的横坐标是否大于所述图像元素的右下点的横坐标;
如果是,则将所述文本元素定位在所述图像元素的下方;
否则,将所述文本元素定位在所述图像元素的上方。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述根据所述HTML格式文件,生成EPUB格式文件,包括:
生成包括container.xml文件以及后缀名为opf、ncx在内的EPUB格式所必须的文件;
将所述HTML格式文件,以及所述EPUB格式所必须的文件,压缩成后缀名为EPUB的压缩包。
6.一种将PDF格式文件转换为EPUB格式的系统,其特征在于,包括:
元素识别模块,用于识别PDF格式文件中的文本元素、图像元素;
坐标获取模块,用于获取所述文本元素的坐标和所述图像元素的坐标;
位置确定模块,用于根据所述文本元素的坐标和所述图像元素的坐标,确定所述文本元素和所述图像元素在新生成的HTML格式文件中的位置,以使新生成的HTML格式文件中的文本元素和图像元素的相对位置关系与PDF格式文件中的文本元素和图像元素的相对位置关系相同;
HTML格式文件生成模块,用于按照确定的位置,生成HTML格式文件;
EPUB格式生成模块,用于根据所述HTML格式文件,生成EPUB格式文件。
7.根据权利要求6所述的系统,其特征在于,所述位置确定模块包括:
上下位置确定单元,用于根据所述文本元素的坐标和所述图像元素的坐标,将原本位于所述图像元素左边或上方的所述文本元素,定位在所述图像元素上方;将原本位于所述图像元素右边或下方的所述文本元素,定位在所述图像元素下方。
8.根据权利要求7所述的系统,其特征在于,所述上下位置确定单元包括:
第一判断子单元,用于判断所述文本元素的右下点的纵坐标是否小于所述图像元素的左上点的纵坐标;
第一定位子单元,用于当所述第一判断子单元的判断结果为是时,将所述文本元素定位在所述图像元素的上方;
第二判断子单元,用于当所述第一判断子单元的判断结果为否时,判断所述文本元素的右下点的横坐标是否小于所述图像元素的左上点的横坐标;
第二定位子单元,用于当所述第二判断子单元的判断结果为是时,将所述文本元素定位在所述图像元素的上方;
第三定位子单元,用于当所述第二判断子单元的判断结果为否时,将所述文本元素定位在所述图像元素的下方。
9.根据权利要求7所述的系统,其特征在于,所述上下位置确定单元包括:
第三判断子单元,用于判断所述文本元素的左上点的纵坐标是否大于所述图像元素的右下点的纵坐标;
第四定位子单元,用于当所述第三判断子单元的判断结果为是时,将所述文本元素定位在所述图像元素的下方;
第四判断子单元,用于当所述第三判断子单元的判断结果为否时,判断所述文本元素的左上点的横坐标是否大于所述图像元素的右下点的横坐标;
第五定位子单元,用于当所述第四判断子单元的判断结果为是时,将所述文本元素定位在所述图像元素的下方;
第六定位子单元,用于当所述第四判断子单元的判断结果为否时,将所述文本元素定位在所述图像元素的上方。
10.根据权利要求6-9任一项所述的系统,其特征在于,所述EPUB格式生成模块包括:
必要文件生成单元,用于生成包括container.xml文件以及后缀名为opf、ncx在内的EPUB格式所必须的文件;
EPUB格式生成单元,用于将所述HTML格式文件,以及所述EPUB格式所必须的文件,压缩成后缀名为EPUB的压缩包。
CN2011102135550A 2011-07-28 2011-07-28 一种将pdf格式文件转换为epub格式的方法及系统 Active CN102332002B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN2011102135550A CN102332002B (zh) 2011-07-28 2011-07-28 一种将pdf格式文件转换为epub格式的方法及系统
PCT/CN2011/084272 WO2013013486A1 (zh) 2011-07-28 2011-12-20 一种将pdf格式文件转换为epub格式的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011102135550A CN102332002B (zh) 2011-07-28 2011-07-28 一种将pdf格式文件转换为epub格式的方法及系统

Publications (2)

Publication Number Publication Date
CN102332002A true CN102332002A (zh) 2012-01-25
CN102332002B CN102332002B (zh) 2013-11-13

Family

ID=45483778

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011102135550A Active CN102332002B (zh) 2011-07-28 2011-07-28 一种将pdf格式文件转换为epub格式的方法及系统

Country Status (2)

Country Link
CN (1) CN102332002B (zh)
WO (1) WO2013013486A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103116604A (zh) * 2013-01-15 2013-05-22 北京天智通达信息技术有限公司 一种数字阅读格式到数字多维度多媒体(dmm)格式的转换方法
CN103777989A (zh) * 2012-10-25 2014-05-07 阿里巴巴集团控股有限公司 用于将视觉稿源文件生成html标记的方法及系统
CN103970750A (zh) * 2013-01-25 2014-08-06 腾讯科技(深圳)有限公司 一种生成html网页的方法和装置
CN104111913A (zh) * 2013-04-16 2014-10-22 北大方正集团有限公司 一种流式文档的处理方法及装置
CN105302626A (zh) * 2015-11-09 2016-02-03 深圳市依伴数字科技有限公司 Xps结构化数据的解析方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1862536A (zh) * 2006-03-24 2006-11-15 珠海金山软件股份有限公司 一种生成pdf文件的装置和方法
CN1906609A (zh) * 2003-10-22 2007-01-31 英特尔公司 在数据中心中使用的用于进行数据格式转换的系统
CN101853246A (zh) * 2010-06-14 2010-10-06 深圳市万兴软件有限公司 一种文档格式的转换方法及装置
US20100287188A1 (en) * 2009-05-04 2010-11-11 Samir Kakar Method and system for publishing a document, method and system for verifying a citation, and method and system for managing a project

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7013309B2 (en) * 2000-12-18 2006-03-14 Siemens Corporate Research Method and apparatus for extracting anchorable information units from complex PDF documents
NO318991B1 (no) * 2002-09-05 2005-05-30 Opera Software Asa Presentasjon av HTML-innhold på en liten terminalskjerm
CN101699426B (zh) * 2009-11-06 2012-02-29 上海传知信息科技发展有限公司 文档格式转化系统及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1906609A (zh) * 2003-10-22 2007-01-31 英特尔公司 在数据中心中使用的用于进行数据格式转换的系统
CN1862536A (zh) * 2006-03-24 2006-11-15 珠海金山软件股份有限公司 一种生成pdf文件的装置和方法
US20100287188A1 (en) * 2009-05-04 2010-11-11 Samir Kakar Method and system for publishing a document, method and system for verifying a citation, and method and system for managing a project
CN101853246A (zh) * 2010-06-14 2010-10-06 深圳市万兴软件有限公司 一种文档格式的转换方法及装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103777989A (zh) * 2012-10-25 2014-05-07 阿里巴巴集团控股有限公司 用于将视觉稿源文件生成html标记的方法及系统
CN103116604A (zh) * 2013-01-15 2013-05-22 北京天智通达信息技术有限公司 一种数字阅读格式到数字多维度多媒体(dmm)格式的转换方法
CN103116604B (zh) * 2013-01-15 2016-06-29 北京天智通达信息技术有限公司 一种数字阅读格式到数字多维度多媒体(dmm)格式的转换方法
CN103970750A (zh) * 2013-01-25 2014-08-06 腾讯科技(深圳)有限公司 一种生成html网页的方法和装置
CN103970750B (zh) * 2013-01-25 2018-10-02 腾讯科技(深圳)有限公司 一种生成html网页的方法和装置
CN104111913A (zh) * 2013-04-16 2014-10-22 北大方正集团有限公司 一种流式文档的处理方法及装置
CN104111913B (zh) * 2013-04-16 2017-10-03 北大方正集团有限公司 一种流式文档的处理方法及装置
CN105302626A (zh) * 2015-11-09 2016-02-03 深圳市依伴数字科技有限公司 Xps结构化数据的解析方法
CN105302626B (zh) * 2015-11-09 2021-07-23 深圳市巨鼎医疗股份有限公司 Xps结构化数据的解析方法

Also Published As

Publication number Publication date
CN102332002B (zh) 2013-11-13
WO2013013486A1 (zh) 2013-01-31

Similar Documents

Publication Publication Date Title
CN101699426B (zh) 文档格式转化系统及方法
CN102542008B (zh) 提供文档的概要视图
CN102043626B (zh) extjs组件的封装方法及装置、用户界面的生成方法及系统
CN102332002B (zh) 一种将pdf格式文件转换为epub格式的方法及系统
WO2017040652A1 (en) Method and system for annotation and connection of electronic documents
US20150169511A1 (en) System and method for identifying floor of main body of webpage
CN103353878A (zh) 将多种格式的文档显示在网页中的方法
CN110096275B (zh) 一种页面处理方法及装置
CN105630459A (zh) 一种将ppt转换为html页面的方法
CN101128826A (zh) 在小型显示器上的大型对象的表示方法
CN103761317A (zh) 一种多线程异步渲染系统及方法
CN105975576A (zh) 终端内容适配显示方法、装置和终端
CN105224540A (zh) 页面排版方法及装置
CN104298725A (zh) 在线课件开发系统一次性编辑输入多版本输出的方法
CN104050185A (zh) 一种页面内容缩放显示处理方法及装置
CN104050238A (zh) 一种地图标注方法和装置
CN101763234A (zh) 一种模拟各种屏幕分辨率的方法及其装置
CN110990010A (zh) 一种软件界面代码的生成方法及装置
CN107092585A (zh) 基于可缩放矢量图形的蒙古文显示方法及系统
CN101540041A (zh) 一种扫描文档浏览适配方法
CN103049430A (zh) 一种基于idf格式文件的页面显示方法
CN104516868A (zh) 一种版面空格的流式还原方法与系统
JP2012099098A (ja) 表のセルの高さを決定する方法、コンピューター読取可能媒体及びシステム
CN102841890B (zh) 一种用于文档构建的数据加工方法和装置
CN103442116A (zh) 一种盲文的显示方法、装置及终端

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee
CP01 Change in the name or title of a patent holder

Address after: 518110 Guangdong city of Shenzhen province Nanshan District science and Technology Park, a high-tech South TCL building A Building 8 floor

Patentee after: Shenzhen Wondershare Information Technology Co., Ltd.

Address before: 518110 Guangdong city of Shenzhen province Nanshan District science and Technology Park, a high-tech South TCL building A Building 8 floor

Patentee before: Shenzhen Wondershare Software Co., Ltd.

C56 Change in the name or address of the patentee
CP02 Change in the address of a patent holder

Address after: Room 5, block D, building, No. two, Haitian road 14, Nanshan District high tech Zone, Guangdong, Shenzhen, China

Patentee after: Shenzhen Wondershare Information Technology Co., Ltd.

Address before: 518110 Guangdong city of Shenzhen province Nanshan District science and Technology Park, a high-tech South TCL building A Building 8 floor

Patentee before: Shenzhen Wondershare Information Technology Co., Ltd.

CP03 Change of name, title or address

Address after: 850000 Tibet autonomous region, Lhasa City, New District, west of the East Ring Road, 1-4 road to the north, south of 1-3 Road, Liu Dong building, east of the 8 unit 6, floor 2, No.

Patentee after: Wanxing Polytron Technologies Inc

Address before: Room 5, block D, building, No. two, Haitian road 14, Nanshan District high tech Zone, Guangdong, Shenzhen, China

Patentee before: Shenzhen Wondershare Information Technology Co., Ltd.

CP03 Change of name, title or address