CN112686000B - 电子书文档的格式转换方法、电子设备及存储介质 - Google Patents
电子书文档的格式转换方法、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112686000B CN112686000B CN202011552719.8A CN202011552719A CN112686000B CN 112686000 B CN112686000 B CN 112686000B CN 202011552719 A CN202011552719 A CN 202011552719A CN 112686000 B CN112686000 B CN 112686000B
- Authority
- CN
- China
- Prior art keywords
- document
- label
- original
- format
- page
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Abstract
本发明公开了一种电子书文档的格式转换方法、电子设备及存储介质,方法包括:针对与电子书相对应的第一文档格式的原始文档进行解析,提取原始文档中包含的与第一文档格式相对应的原始标签信息;判断原始标签信息中是否包含与第二文档格式无关的冗余标签;若是,针对冗余标签以及与冗余标签相对应的文档内容执行删除处理;提取原始标签信息中包含的文档拆分标签以及标题标签,根据文档拆分标签将原始文档拆分为多个目标文档,根据标题标签生成与拆分后的多个目标文档相对应的目录文件;将拆分后的多个目标文档以及与多个目标文档相对应的目录文件存储为与电子书相对应的第二文档格式的文档数据包。该方式能够自动实现文档格式的转换。
Description
技术领域
本发明涉及计算机领域,具体涉及一种电子书文档的格式转换方法、电子设备及存储介质。
背景技术
目前,电子书的文档格式包括多种,例如,包括:版式文档格式以及流式文档格式。其中,在版式文档格式的电子书文档中,各个字符的页面位置相对固定,在排版过程中不会发生位置变化;而在流式文档格式的电子书文档中,各个字符的页面位置随显示设备的屏幕尺寸不同而自适应调整。
由此可见,版式文档与流式文档各有千秋,在实际业务场景中可根据业务需求而灵活选择合适的文档格式。但是,发明人在实现本发明的过程中发现,在一些业务场景中,需要将版式排版的电子书文档转换为流式排版方式,以适配不同的显示设备。在现有技术中,大多通过人工转换方式实现,尚没有一种能够自动实现文档格式转换的方案。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的电子书文档的格式转换方法、电子设备及存储介质。
根据本发明的一个方面,提供了一种电子书文档的格式转换方法,用于将电子书文档从第一文档格式转换为第二文档格式,该方法包括:
针对与电子书相对应的第一文档格式的原始文档进行解析,根据解析结果提取所述原始文档中包含的与所述第一文档格式相对应的原始标签信息;
判断所述原始标签信息中是否包含与所述第二文档格式无关的冗余标签;若是,针对所述冗余标签以及与所述冗余标签相对应的文档内容执行删除处理;
提取所述原始标签信息中包含的文档拆分标签以及标题标签,根据所述文档拆分标签将所述原始文档拆分为多个目标文档,根据所述标题标签生成与拆分后的多个目标文档相对应的目录文件;
将拆分后的多个目标文档以及与多个目标文档相对应的目录文件存储为与电子书相对应的第二文档格式的文档数据包。
根据本发明的另一方面,提供了一种用于实现电子书文档的格式转换的电子设备,用于将电子书文档从第一文档格式转换为第二文档格式,该电子设备包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行以下操作:
针对与电子书相对应的第一文档格式的原始文档进行解析,根据解析结果提取所述原始文档中包含的与所述第一文档格式相对应的原始标签信息;
判断所述原始标签信息中是否包含与所述第二文档格式无关的冗余标签;若是,针对所述冗余标签以及与所述冗余标签相对应的文档内容执行删除处理;
提取所述原始标签信息中包含的文档拆分标签以及标题标签,根据所述文档拆分标签将所述原始文档拆分为多个目标文档,根据所述标题标签生成与拆分后的多个目标文档相对应的目录文件;
将拆分后的多个目标文档以及与多个目标文档相对应的目录文件存储为与电子书相对应的第二文档格式的文档数据包。
根据本发明的又一方面,提供了一种用于实现电子书文档的格式转换的计算机存储介质,用于将电子书文档从第一文档格式转换为第二文档格式;所述存储介质中存储有至少一可执行指令,所述可执行指令使所述处理器执行以下操作:
针对与电子书相对应的第一文档格式的原始文档进行解析,根据解析结果提取所述原始文档中包含的与所述第一文档格式相对应的原始标签信息;
判断所述原始标签信息中是否包含与所述第二文档格式无关的冗余标签;若是,针对所述冗余标签以及与所述冗余标签相对应的文档内容执行删除处理;
提取所述原始标签信息中包含的文档拆分标签以及标题标签,根据所述文档拆分标签将所述原始文档拆分为多个目标文档,根据所述标题标签生成与拆分后的多个目标文档相对应的目录文件;
将拆分后的多个目标文档以及与多个目标文档相对应的目录文件存储为与电子书相对应的第二文档格式的文档数据包。
在本发明提供的电子书文档的格式转换方法、电子设备及存储介质中,针对与电子书相对应的第一文档格式的原始文档进行解析,根据解析结果提取原始标签信息,针对原始标签信息中包含的与第二文档格式无关的冗余标签及其对应的文档内容执行删除处理,并且,根据原始标签信息中包含的文档拆分标签将原始文档拆分为多个目标文档,并根据原始标签信息中包含的标题标签生成与拆分后的多个目标文档相对应的目录文件,将拆分后的多个目标文档以及与多个目标文档相对应的目录文件存储为与电子书相对应的第二文档格式的文档数据包。由此可见,该方式能够解析第一文档格式的原始文档,并识别出转换为第二文档格式时应删除的冗余标签,并根据文档拆分标签以及标题标签对原始文档进行文档拆分以及目标编排处理。该方式能够自动实现文档格式的转换,从而将第一文档格式的原始文档从一个单文档自动转换为包含多个目标文档的文档数据包,以实现第一文档格式到第二文档格式的自动转换处理。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明一个实施例提供的电子书文档的格式转换方法的流程图;
图2示出了本发明另一个实施例提供的电子书文档的格式转换方法的流程图;
图3示出了根据本发明另一个实施例的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
实施例一
图1示出了本发明一个实施例提供的电子书文档的格式转换方法的流程图。其中,该方式用于将电子书文档从第一文档格式转换为第二文档格式,如图1所示,该方法包括以下步骤:
步骤S110:针对与电子书相对应的第一文档格式的原始文档进行解析,根据解析结果提取原始文档中包含的与第一文档格式相对应的原始标签信息。
其中,与电子书相对应的第一文档格式可以为版式文档格式,具体可以为PDF文档格式或图片格式等多种类型。具体的,针对与电子书相对应的第一文档格式的原始文档进行解析,并提取原始文档中包含的与第一文档格式相对应的原始标签信息。
在本实施例中,与电子书相对应的第一文档格式的原始文档具体可以为:通过排版工具生成的用于制作版式文档的文档内容,相应的,该原始文档中包含通过该排版工具生成的各类标签信息,即:与第一文档格式相对应的原始标签信息。由此可见,与第一文档格式相对应的原始标签信息通过排版工具生成,具体用于在制作版式文档的过程中设置文档样式等相关内容。
步骤S120:判断原始标签信息中是否包含与第二文档格式无关的冗余标签;若是,针对冗余标签以及与冗余标签相对应的文档内容执行删除处理。
具体的,由于原始标签信息是与第一文档格式相对应的,因此,其中的部分标签信息在第二文档格式中是不需要的,即为与第二文档格式无关的冗余标签。针对冗余标签,需要执行删除处理,具体删除时,不仅删除冗余标签本身,还需要将冗余标签所对应的文档内容一并删除。例如,页码标签属于流式文档中不需要的标签元素,应执行删除处理。
步骤S130:提取原始标签信息中包含的文档拆分标签以及标题标签,根据文档拆分标签将原始文档拆分为多个目标文档,根据标题标签生成与拆分后的多个目标文档相对应的目录文件。
其中,原始标签信息包括多种类型的标签,具体包括文档拆分标签以及标题标签。其中,文档拆分标签可以为用于标记一个电子书页面结束的页面结束标记符,相应的,根据页面结束标记符将原始文档拆分为多个以电子书页面作为最小单位的目标文档。
另外,电子书中通常包括多个标题标签,因此,根据标题标签能够生成与拆分后的多个目标文档相对应的目录文件。
步骤S140:将拆分后的多个目标文档以及与多个目标文档相对应的目录文件存储为与电子书相对应的第二文档格式的文档数据包。
在本实施例中,第二文档格式主要是指流式文档格式,具体可以为epub格式或word格式等多种格式。在本步骤中,将拆分后的多个目标文档以及与多个目标文档相对应的目录文件存储为与电子书相对应的第二文档格式的文档数据包,以便根据该文档数据包显示与电子书相对应的第二文档格式的电子书文件。
由此可见,该方式能够解析第一文档格式的原始文档,并识别出转换为第二文档格式时应删除的冗余标签,并根据文档拆分标签以及标题标签对原始文档进行文档拆分以及目录编排处理。该方式能够自动实现文档格式的转换,从而将第一文档格式的原始文档从一个单文档自动转换为包含多个目标文档的文档数据包,以实现第一文档格式到第二文档格式的自动转换处理。
实施例二
图2示出了本发明另一个实施例提供的电子书文档的格式转换方法的流程图。该方法用于将电子书文档从第一文档格式转换为第二文档格式。如图2所示,该方法包括以下步骤:
步骤S210:针对与电子书相对应的第一文档格式的原始文档进行解析。
在本实施例中,与电子书相对应的第一文档格式的原始文档包括:通过排版工具生成的用于输出版式文档的原始文档。具体的,该排版工具用于生成PDF格式的版式文档。
另外,第二文档格式包括:流式文档格式;其中,流式文档包括:epub格式的流式文档。由此可见,本实施例主要用于将排版工具生成的用于输出版式文档的原始文档转换为epub格式的流式文档,以便于制作电子书。
步骤S220:根据解析结果提取原始文档中包含的与第一文档格式相对应的原始标签信息。
其中,为了便于控制输出的版式文档中包含的各个文字的样式等信息,在原始文档中包含多种原始标签信息。相应的,通过解析操作,能够获取到原始文档中包含的与第一文档格式相对应的原始标签信息。其中,原始标签信息的种类由第一文档格式确定,例如,原始标签信息的种类根据用于输出版式文档的排版工具的类型确定。
步骤S230:判断原始标签信息中是否包含与第二文档格式无关的冗余标签;若是,针对冗余标签以及与冗余标签相对应的文档内容执行删除处理。
具体的,由于原始标签信息是与第一文档格式相对应的,因此,其中的部分标签信息在第二文档格式中是不需要的,即为与第二文档格式无关的冗余标签。针对冗余标签,需要执行删除处理,具体删除时,不仅删除冗余标签本身,还需要将冗余标签所对应的文档内容一并删除。其中,冗余标签的数量和种类主要取决于第一文档格式与第二文档格式之间的异同点。例如,与第二文档格式无关的冗余标签可以包括:版心类标签、页码类标签、和/或脚注类标签等。
具体的,考虑到原始文档的电子书页面中包含多种页面类型,例如,包括版权信息页类型、正文类型、扉页类型、书封类型等多种页面类型,因此,需要结合不同页面类型的类型特征进行差别化处理。相应的,在本实施例中,判断原始标签信息中是否包含与第二文档格式无关的冗余标签时,需要确定与原始标签信息相对应的电子书页面的页面类型,并根据页面类型判断原始标签信息中是否包含与第二文档格式无关的冗余标签。其中,电子书页面的页面类型至少包括:版权信息页类型、以及正文类型。
其中,发明人在实现本发明的过程中发现,原始文档中的版权信息页的处理方式较为特殊,因此,将版权信息页单独作为一种页面类型。
首先,介绍版权信息页的确定方式:根据电子书页面的页面扩展名和/或页面名称,判断电子书页面是否为版权信息页类型;和/或,根据电子书页面中是否包含版权特征数据判断电子书页面是否为版权信息页类型。具体的,在一种方式中,优先查询原始文档中包含的扩展名为预设扩展名的电子书页面,或者,查询没有扩展名且页面名称命名为预设名称的页面,根据查询结果提取原始文档中包含的版权信息页。在又一种方式中,查询包含“图书在版编目(CIP)数据”等版权特征数据的页面,将其确定为版权信息页。
接下来,介绍针对版权信息页进行处理的方式:当页面类型为版权信息页类型时,将非文本类标签确定为与第二文档格式无关的冗余标签;其中,非文本类标签包括:样式类标签。具体的,在版权信息页中,通常包含编者、出版社等与版权相关的多项信息。由于第一文档格式的原始文档对应于版式文件,因此,在版权信息页中需要包含多个用于设置文字样式的标签信息。然而,在转换后的流式文档中,只需要版权信息页中的文字内容即可。因此,针对版权信息页,将非文本类标签全部确定为与第二文档格式无关的冗余标签。其中,非文本类标签是指:除文本相关标签之外的其余标签,主要是指样式类标签,如用于设置版权信息页中的文字字体、字号等内容的标签。另外,由于版权信息页通常是每一行单独成段的,因此,在具体转换时,获取版权信息页中包含的各个文字行,并将各个文字行分别转换为对应的文字段。即:每当提取到版权信息页中包含的用于指示文字行结束的行结束标记符时,将该行结束标记符替换为段落结束标记符,以实现将每个文字行单独转换为一个文字段的效果。
另外,针对除版权信息页之外的其余正文类型的电子书页面,可以按照第二文档格式所支持的标签类型确定冗余标签。例如,针对除版权信息页之外的其余正文类型的电子书页面而言,与第二文档格式无关的冗余标签主要是指:在第一文档格式中存在,在第二文档格式中不存在的标签,例如,通常包括:版心类标签、页码类标签、和/或脚注类标签等。由于流式文档的页面范围是根据屏幕尺寸自适应调整的,因此,页码类标签是不需要的。另外,版心类标签等也属于流式文档中不需要的。通过对冗余标签进行删除,能够提升后续的转换效率,使转换后的文档符合格式要求。
另外,针对冗余标签以及与冗余标签相对应的文档内容执行删除处理时,还可以进一步根据标签类型进行处理,具体包括:确定冗余标签的标签类型属于有闭合标签或无闭合标签;当冗余标签的标签类型属于有闭合标签时,提取冗余标签的标签起始标记符以及标签结束标记符,根据标签起始标记符以及标签结束标记符确定与冗余标签相对应的文档内容并执行删除处理。相应的,当冗余标签的标签类型属于无闭合标签时,根据上下文内容确定无闭合标签的自动闭合位置,从而根据无闭合标签以及自动闭合位置确定与冗余标签相对应的文档内容并执行删除处理。
步骤S240:提取原始标签信息中包含的文档拆分标签,根据文档拆分标签将原始文档拆分为多个目标文档。
其中,原始标签信息包括多种类型的标签,具体包括文档拆分标签。其中,文档拆分标签可以为用于标记一个电子书页面结束的页面结束标记符,相应的,根据页面结束标记符将原始文档拆分为多个以电子书页面作为最小单位的目标文档。另外,文档拆分标签还可以为用于标记一个电子书章节结束的章节结束标记符,相应的,根据章节结束标记符将原始文档拆分为多个以电子书章节作为最小单位的目标文档。另外,还可以进一步根据各个页面的页码信息或各个章节的章节编号等内容对拆分后的各个目标文档进行单独命名。
本实施例不限定文档拆分标签的具体种类和数量,凡是能够用于指示电子书中的分块信息(该分块可以以页面、章节或段落为单位进行划分)的标签均可作为文档拆分标签,通过文档拆分标签,能够将整体式的原始文档拆分为多个目标文档并单独命名。
步骤S250:提取原始标签信息中包含的标题标签,根据标题标签生成与拆分后的多个目标文档相对应的目录文件。
另外,电子书中通常包括多个标题标签,具体可以包括多级标题标签,例如,包括:一级标题标签(如章节标题)、二级标题标签(小节标题)、三级标题标签(段落主题)等。例如,通过排版工具生成的原始文档中包含的不同级别的标题标签分别通过不同的第一标签符号进行表示,相应的,在转换后的流式文档中,不同级别的标题标签分别通过不同的第二标签符号进行表示。在本实施例中,预先建立标签映射表,该标签映射表用于存储通过排版工具生成的原始文档中包含的第一标签符号(即原始标签信息)与转换后的流式文档中包含的第二标签符号(即流式标签)之间的映射关系。其中,第一标签符号是指:通过排版工具生成的用于表示各种格式种类的符号;第二标签符号是指:流式文档中用于表示各种格式种类的标签符号。通过查询标签映射表,能够将原始文档中包含的各种标签转换为与流式文档相对应的标签,从而实现文档格式的转换处理。除标题标签外,其他种类的标签,也都可以通过标签映射表实现映射转换处理。
另外,由于电子书中的标题通常是与目录相对应的,因此,根据标题标签能够生成与拆分后的多个目标文档相对应的目录文件。具体的,提取各个标题标签所对应的文字内容,作为目录中包含的对应章节的题目。
步骤S260:将拆分后的多个目标文档以及与多个目标文档相对应的目录文件存储为与电子书相对应的第二文档格式的文档数据包。
在本实施例中,第二文档格式主要是指流式文档格式,具体可以为epub格式。在本步骤中,将拆分后的多个目标文档以及与多个目标文档相对应的目录文件存储为与电子书相对应的第二文档格式的文档数据包,以便根据该文档数据包显示与电子书相对应的第二文档格式的电子书文件。
另外,在原始文档中,通常包含用于设置显示样式的原始样式表文件,相应的,在epub格式文档中,也包含样式表文件,因此,在本实施例中,还可以实现样式表文件之间的映射处理:获取与原始文档相对应的原始样式表文件,生成与原始样式表文件相对应的目标样式表文件,将目标样式表文件存储至文档数据包中,以供目标文档进行引用。其中,原始样式表文件用于设置各种字体、对齐方式、颜色信息等样式信息的展示方式,目标样式表文件与原始样式表文件中的内容相对应,具体的展示方式可根据实际业务场景灵活设定。
另外,在本实施例中,还可以进一步针对图片进行处理,在提取原始标签信息中包含的文档拆分标签以及标题标签,根据文档拆分标签将原始文档拆分为多个目标文档时,进一步提取原始标签信息中包含的图片类标签,根据图片类标签中包含的参数信息确定图片对齐方式,按照图片对齐方式生成与图片类标签相对应的图片元素。相应的,在将拆分后的多个目标文档以及与多个目标文档相对应的目录文件存储为与电子书相对应的第二文档格式的文档数据包时,进一步将生成的图片元素存储至文档数据包所包含的图片文件夹中。其中,原始标签信息中进一步包含图片类标签,根据图片类标签中的参数信息能够确定图片的尺寸、页面位置、存储路径等相关信息,进而根据上述信息能够确定图片在页面中的对齐方式,如居中对齐、向右对齐等,并根据存储路径提取相应路径下的图片内容。相应的,按照图片对齐方式生成与图片类标签相对应的图片元素。由于原始文档中的图片在页面中的位置是固定的,而流式文档中的图片位置则是不固定的,仅通过对齐方式进行区分,因此,在本实施例中,将图片类标签中的参数信息转换为对齐方式,进而实现版式到流式的转换处理。
另外,在本实施例中,在根据文档拆分标签将原始文档拆分为多个目标文档时,还可以进一步识别原始文档中是否包含字体转换标签;若是,将原始文档中包含的文字转换为与字体转换标签相匹配的内容后拆分为多个目标文档。其中,字体转换标签用于实现字体的转换,例如,在排版工具生成的用于输出PDF文件的原始文档中,字体为第一字体,但是,若原始文档中包含用于将第一字体转换为第二字体的字体转换标签,则根据原始文档输出的PDF文件的字体直接显示为第二字体。相应的,在本实施例中,当检测到原始文档中包含上述的字体转换标签时,则直接将原始文档中的文字字体从第一字体转换为第二字体后得到目标文档,从而实现字体的灵活转换处理。其中,第一字体可以为简体,第二字体可以为繁体,相应的,字体转换标签包括:繁简体转换标签。通过识别繁简体转换标签能够实现简体字到繁体字的自动转换,从而使生成的流式文档的字体格式与原始文档所对应的书籍原文一致。
综上可知,本实施例中的方式能够解析第一文档格式的原始文档,并识别出转换为第二文档格式时应删除的冗余标签,并根据文档拆分标签以及标题标签对原始文档进行文档拆分以及目录编排处理。该方式能够自动实现文档格式的转换,从而将第一文档格式的原始文档从一个单文档自动转换为包含多个目标文档的文档数据包,以实现第一文档格式到第二文档格式的自动转换处理。并且,通过建立标签映射表,能够将原始文档中的标签映射为流式文档中的标签,从而实现文档格式的转换处理。
实施例三
本申请实施例提供了一种用于实现电子书文档的格式转换的非易失性计算机存储介质,用于将电子书文档从第一文档格式转换为第二文档格式,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的电子书文档的格式转换方法。
可执行指令具体可以用于使得处理器执行以下操作:
针对与电子书相对应的第一文档格式的原始文档进行解析,根据解析结果提取所述原始文档中包含的与所述第一文档格式相对应的原始标签信息;
判断所述原始标签信息中是否包含与所述第二文档格式无关的冗余标签;若是,针对所述冗余标签以及与所述冗余标签相对应的文档内容执行删除处理;
提取所述原始标签信息中包含的文档拆分标签以及标题标签,根据所述文档拆分标签将所述原始文档拆分为多个目标文档,根据所述标题标签生成与拆分后的多个目标文档相对应的目录文件;
将拆分后的多个目标文档以及与多个目标文档相对应的目录文件存储为与电子书相对应的第二文档格式的文档数据包。
在一种可选的实现方式中,所述可执行指令使所述处理器具体执行以下操作:
确定与所述原始标签信息相对应的电子书页面的页面类型,根据页面类型判断所述原始标签信息中是否包含与所述第二文档格式无关的冗余标签;
其中,所述电子书页面的页面类型包括:版权信息页类型、以及正文类型。
在一种可选的实现方式中,所述可执行指令使所述处理器具体执行以下操作:
当页面类型为版权信息页类型时,将非文本类标签确定为与所述第二文档格式无关的冗余标签;其中,所述非文本类标签包括:样式类标签。
在一种可选的实现方式中,所述可执行指令使所述处理器具体执行以下操作:
根据电子书页面的页面扩展名和/或页面名称,判断电子书页面是否为版权信息页类型;和/或,根据电子书页面中是否包含版权特征数据判断电子书页面是否为版权信息页类型。
在一种可选的实现方式中,所述可执行指令使所述处理器具体执行以下操作:
获取与所述原始文档相对应的原始样式表文件,生成与所述原始样式表文件相对应的目标样式表文件,将所述目标样式表文件存储至所述文档数据包中,以供所述目标文档进行引用。
在一种可选的实现方式中,所述可执行指令使所述处理器具体执行以下操作:
提取所述原始标签信息中包含的图片类标签,根据所述图片类标签中包含的参数信息确定图片对齐方式,按照所述图片对齐方式生成与所述图片类标签相对应的图片元素;
则所述将拆分后的多个目标文档以及与多个目标文档相对应的目录文件存储为与电子书相对应的第二文档格式的文档数据包进一步包括:将生成的图片元素存储至所述文档数据包所包含的图片文件夹中。
在一种可选的实现方式中,所述第一文档格式的原始文档包括:通过排版工具生成的用于输出版式文档的原始文档;则所述第二文档格式的目标文档包括:流式文档;其中,所述流式文档包括:epub格式的流式文档。
在一种可选的实现方式中,所述可执行指令使所述处理器具体执行以下操作:
查询预先建立的标签映射表,通过该标签映射表将原始文档中包含的原始标签信息转换为与流式文档相对应的流式标签;
其中,该标签映射表用于存储通过排版工具生成的原始文档中包含的原始标签信息与转换后的流式文档中包含的流式标签之间的映射关系。
在一种可选的实现方式中,所述与所述第二文档格式无关的冗余标签包括:版心类标签、页码类标签、和/或脚注类标签;
并且,所述可执行指令使所述处理器具体执行以下操作:
确定所述冗余标签的标签类型属于有闭合标签或无闭合标签;
当所述冗余标签的标签类型属于有闭合标签时,提取所述冗余标签的标签起始标记符以及标签结束标记符,根据所述标签起始标记符以及标签结束标记符确定与所述冗余标签相对应的文档内容并执行删除处理。
在一种可选的实现方式中,所述可执行指令使所述处理器具体执行以下操作:
识别所述原始文档中是否包含字体转换标签;若是,将所述原始文档中包含的文字转换为与所述字体转换标签相匹配的内容后拆分为多个目标文档;其中,所述字体转换标签包括:繁简体转换标签。
实施例四
图3示出了根据本发明另一个实施例的一种用于实现电子书文档的格式转换的电子设备的结构示意图,该电子设备用于将电子书文档从第一文档格式转换为第二文档格式,本发明具体实施例并不对电子设备的具体实现做限定。
如图3所示,该电子设备可以包括:处理器(processor)302、通信接口(Communications Interface)304、存储器(memory)306、以及通信总线308。
其中:处理器302、通信接口304、以及存储器306通过通信总线308完成相互间的通信。通信接口304,用于与其它设备比如客户端或其它服务器等的网元通信。处理器302,用于执行程序310,具体可以执行上述电子书文档的格式转换方法实施例中的相关步骤。
具体地,程序310可以包括程序代码,该程序代码包括计算机操作指令。
处理器302可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器306,用于存放程序310。存储器306可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序310具体可以用于使得处理器302执行以下操作:
针对与电子书相对应的第一文档格式的原始文档进行解析,根据解析结果提取所述原始文档中包含的与所述第一文档格式相对应的原始标签信息;
判断所述原始标签信息中是否包含与所述第二文档格式无关的冗余标签;若是,针对所述冗余标签以及与所述冗余标签相对应的文档内容执行删除处理;
提取所述原始标签信息中包含的文档拆分标签以及标题标签,根据所述文档拆分标签将所述原始文档拆分为多个目标文档,根据所述标题标签生成与拆分后的多个目标文档相对应的目录文件;
将拆分后的多个目标文档以及与多个目标文档相对应的目录文件存储为与电子书相对应的第二文档格式的文档数据包。
在一种可选的实现方式中,所述可执行指令使所述处理器具体执行以下操作:
确定与所述原始标签信息相对应的电子书页面的页面类型,根据页面类型判断所述原始标签信息中是否包含与所述第二文档格式无关的冗余标签;
其中,所述电子书页面的页面类型包括:版权信息页类型、以及正文类型。
在一种可选的实现方式中,所述可执行指令使所述处理器具体执行以下操作:
当页面类型为版权信息页类型时,将非文本类标签确定为与所述第二文档格式无关的冗余标签;其中,所述非文本类标签包括:样式类标签。
在一种可选的实现方式中,所述可执行指令使所述处理器具体执行以下操作:
根据电子书页面的页面扩展名和/或页面名称,判断电子书页面是否为版权信息页类型;和/或,根据电子书页面中是否包含版权特征数据判断电子书页面是否为版权信息页类型。
在一种可选的实现方式中,所述可执行指令使所述处理器具体执行以下操作:
获取与所述原始文档相对应的原始样式表文件,生成与所述原始样式表文件相对应的目标样式表文件,将所述目标样式表文件存储至所述文档数据包中,以供所述目标文档进行引用。
在一种可选的实现方式中,所述可执行指令使所述处理器具体执行以下操作:
提取所述原始标签信息中包含的图片类标签,根据所述图片类标签中包含的参数信息确定图片对齐方式,按照所述图片对齐方式生成与所述图片类标签相对应的图片元素;
则所述将拆分后的多个目标文档以及与多个目标文档相对应的目录文件存储为与电子书相对应的第二文档格式的文档数据包进一步包括:将生成的图片元素存储至所述文档数据包所包含的图片文件夹中。
在一种可选的实现方式中,所述第一文档格式的原始文档包括:通过排版工具生成的用于输出版式文档的原始文档;则所述第二文档格式的目标文档包括:流式文档;其中,所述流式文档包括:epub格式的流式文档。
在一种可选的实现方式中,所述可执行指令使所述处理器具体执行以下操作:
查询预先建立的标签映射表,通过该标签映射表将原始文档中包含的原始标签信息转换为与流式文档相对应的流式标签;
其中,该标签映射表用于存储通过排版工具生成的原始文档中包含的原始标签信息与转换后的流式文档中包含的流式标签之间的映射关系。
在一种可选的实现方式中,所述与所述第二文档格式无关的冗余标签包括:版心类标签、页码类标签、和/或脚注类标签;
并且,所述可执行指令使所述处理器具体执行以下操作:
确定所述冗余标签的标签类型属于有闭合标签或无闭合标签;
当所述冗余标签的标签类型属于有闭合标签时,提取所述冗余标签的标签起始标记符以及标签结束标记符,根据所述标签起始标记符以及标签结束标记符确定与所述冗余标签相对应的文档内容并执行删除处理。
在一种可选的实现方式中,所述可执行指令使所述处理器具体执行以下操作:
识别所述原始文档中是否包含字体转换标签;若是,将所述原始文档中包含的文字转换为与所述字体转换标签相匹配的内容后拆分为多个目标文档;其中,所述字体转换标签包括:繁简体转换标签。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
Claims (21)
1.一种电子书文档的格式转换方法,用于将电子书文档从第一文档格式转换为第二文档格式,所述方法包括:
针对与电子书相对应的第一文档格式的原始文档进行解析,根据解析结果提取所述原始文档中包含的与所述第一文档格式相对应的原始标签信息;
判断所述原始标签信息中是否包含与所述第二文档格式无关的冗余标签;若是,针对所述冗余标签以及与所述冗余标签相对应的文档内容执行删除处理;
提取所述原始标签信息中包含的文档拆分标签以及标题标签,根据所述文档拆分标签将所述原始文档拆分为多个目标文档,根据所述标题标签生成与拆分后的多个目标文档相对应的目录文件;
将拆分后的多个目标文档以及与多个目标文档相对应的目录文件存储为与电子书相对应的第二文档格式的文档数据包,其中,所述第一文档格式为版式文档格式,所述第二文档格式为流式文档格式。
2.根据权利要求1所述的方法,其中,所述判断所述原始标签信息中是否包含与所述第二文档格式无关的冗余标签包括:
确定与所述原始标签信息相对应的电子书页面的页面类型,根据页面类型判断所述原始标签信息中是否包含与所述第二文档格式无关的冗余标签;
其中,所述电子书页面的页面类型包括:版权信息页类型、以及正文类型。
3.根据权利要求2所述的方法,其中,所述根据页面类型判断所述原始标签信息中是否包含与所述第二文档格式无关的冗余标签包括:
当页面类型为版权信息页类型时,将非文本类标签确定为与所述第二文档格式无关的冗余标签;其中,所述非文本类标签包括:样式类标签。
4.根据权利要求2或3所述的方法,其中,所述确定与所述原始标签信息相对应的电子书页面的页面类型包括:
根据电子书页面的页面扩展名和/或页面名称,判断电子书页面是否为版权信息页类型;和/或,根据电子书页面中是否包含版权特征数据判断电子书页面是否为版权信息页类型。
5.根据权利要求1-3任一所述的方法,其中,所述将拆分后的多个目标文档以及与多个目标文档相对应的目录文件存储为与电子书相对应的第二文档格式的文档数据包进一步包括:
获取与所述原始文档相对应的原始样式表文件,生成与所述原始样式表文件相对应的目标样式表文件,将所述目标样式表文件存储至所述文档数据包中,以供所述目标文档进行引用。
6.根据权利要求1-3任一所述的方法,其中,所述提取所述原始标签信息中包含的文档拆分标签以及标题标签,根据所述文档拆分标签将所述原始文档拆分为多个目标文档进一步包括:
提取所述原始标签信息中包含的图片类标签,根据所述图片类标签中包含的参数信息确定图片对齐方式,按照所述图片对齐方式生成与所述图片类标签相对应的图片元素;
则所述将拆分后的多个目标文档以及与多个目标文档相对应的目录文件存储为与电子书相对应的第二文档格式的文档数据包进一步包括:将生成的图片元素存储至所述文档数据包所包含的图片文件夹中。
7.根据权利要求1-3任一所述的方法,其中,所述第一文档格式的原始文档包括:通过排版工具生成的用于输出版式文档的原始文档;则所述第二文档格式的目标文档包括:流式文档;其中,所述流式文档包括:epub格式的流式文档。
8.根据权利要求7所述的方法,其中,所述根据所述标题标签生成与拆分后的多个目标文档相对应的目录文件进一步包括:
查询预先建立的标签映射表,通过该标签映射表将原始文档中包含的原始标签信息转换为与流式文档相对应的流式标签;
其中,该标签映射表用于存储通过排版工具生成的原始文档中包含的原始标签信息与转换后的流式文档中包含的流式标签之间的映射关系。
9.根据权利要求1-3任一所述的方法,其中,所述与所述第二文档格式无关的冗余标签包括:版心类标签、页码类标签、和/或脚注类标签;
并且,所述针对所述冗余标签以及与所述冗余标签相对应的文档内容执行删除处理包括:
确定所述冗余标签的标签类型属于有闭合标签或无闭合标签;
当所述冗余标签的标签类型属于有闭合标签时,提取所述冗余标签的标签起始标记符以及标签结束标记符,根据所述标签起始标记符以及标签结束标记符确定与所述冗余标签相对应的文档内容并执行删除处理。
10.根据权利要求1-3任一所述的方法,其中,所述根据所述文档拆分标签将所述原始文档拆分为多个目标文档具体包括:
识别所述原始文档中是否包含字体转换标签;若是,将所述原始文档中包含的文字转换为与所述字体转换标签相匹配的内容后拆分为多个目标文档;其中,所述字体转换标签包括:繁简体转换标签。
11.一种用于实现电子书文档的格式转换的电子设备,用于将电子书文档从第一文档格式转换为第二文档格式,所述电子设备包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行以下操作:
针对与电子书相对应的第一文档格式的原始文档进行解析,根据解析结果提取所述原始文档中包含的与所述第一文档格式相对应的原始标签信息;
判断所述原始标签信息中是否包含与所述第二文档格式无关的冗余标签;若是,针对所述冗余标签以及与所述冗余标签相对应的文档内容执行删除处理;
提取所述原始标签信息中包含的文档拆分标签以及标题标签,根据所述文档拆分标签将所述原始文档拆分为多个目标文档,根据所述标题标签生成与拆分后的多个目标文档相对应的目录文件;
将拆分后的多个目标文档以及与多个目标文档相对应的目录文件存储为与电子书相对应的第二文档格式的文档数据包,其中,所述第一文档格式为版式文档格式,所述第二文档格式为流式文档格式。
12.根据权利要求11所述的电子设备,其中,所述可执行指令使所述处理器具体执行以下操作:
确定与所述原始标签信息相对应的电子书页面的页面类型,根据页面类型判断所述原始标签信息中是否包含与所述第二文档格式无关的冗余标签;
其中,所述电子书页面的页面类型包括:版权信息页类型、以及正文类型。
13.根据权利要求12所述的电子设备,其中,所述可执行指令使所述处理器具体执行以下操作:
当页面类型为版权信息页类型时,将非文本类标签确定为与所述第二文档格式无关的冗余标签;其中,所述非文本类标签包括:样式类标签。
14.根据权利要求12或13所述的电子设备,其中,所述可执行指令使所述处理器具体执行以下操作:
根据电子书页面的页面扩展名和/或页面名称,判断电子书页面是否为版权信息页类型;和/或,根据电子书页面中是否包含版权特征数据判断电子书页面是否为版权信息页类型。
15.根据权利要求11-13任一所述的电子设备,其中,所述可执行指令使所述处理器具体执行以下操作:
获取与所述原始文档相对应的原始样式表文件,生成与所述原始样式表文件相对应的目标样式表文件,将所述目标样式表文件存储至所述文档数据包中,以供所述目标文档进行引用。
16.根据权利要求11-13任一所述的电子设备,其中,所述可执行指令使所述处理器具体执行以下操作:
提取所述原始标签信息中包含的图片类标签,根据所述图片类标签中包含的参数信息确定图片对齐方式,按照所述图片对齐方式生成与所述图片类标签相对应的图片元素;
则所述将拆分后的多个目标文档以及与多个目标文档相对应的目录文件存储为与电子书相对应的第二文档格式的文档数据包进一步包括:将生成的图片元素存储至所述文档数据包所包含的图片文件夹中。
17.根据权利要求11-13任一所述的电子设备,其中,所述第一文档格式的原始文档包括:通过排版工具生成的用于输出版式文档的原始文档;则所述第二文档格式的目标文档包括:流式文档;其中,所述流式文档包括:epub格式的流式文档。
18.根据权利要求17所述的电子设备,其中,所述可执行指令使所述处理器具体执行以下操作:
查询预先建立的标签映射表,通过该标签映射表将原始文档中包含的原始标签信息转换为与流式文档相对应的流式标签;
其中,该标签映射表用于存储通过排版工具生成的原始文档中包含的原始标签信息与转换后的流式文档中包含的流式标签之间的映射关系。
19.根据权利要求11-13任一所述的电子设备,其中,所述与所述第二文档格式无关的冗余标签包括:版心类标签、页码类标签、和/或脚注类标签;
并且,所述可执行指令使所述处理器具体执行以下操作:
确定所述冗余标签的标签类型属于有闭合标签或无闭合标签;
当所述冗余标签的标签类型属于有闭合标签时,提取所述冗余标签的标签起始标记符以及标签结束标记符,根据所述标签起始标记符以及标签结束标记符确定与所述冗余标签相对应的文档内容并执行删除处理。
20.根据权利要求11-13任一所述的电子设备,其中,所述可执行指令使所述处理器具体执行以下操作:
识别所述原始文档中是否包含字体转换标签;若是,将所述原始文档中包含的文字转换为与所述字体转换标签相匹配的内容后拆分为多个目标文档;其中,所述字体转换标签包括:繁简体转换标签。
21.一种用于显示对象展示页面的计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-10任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011552719.8A CN112686000B (zh) | 2020-12-24 | 2020-12-24 | 电子书文档的格式转换方法、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011552719.8A CN112686000B (zh) | 2020-12-24 | 2020-12-24 | 电子书文档的格式转换方法、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112686000A CN112686000A (zh) | 2021-04-20 |
CN112686000B true CN112686000B (zh) | 2021-09-28 |
Family
ID=75452798
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011552719.8A Active CN112686000B (zh) | 2020-12-24 | 2020-12-24 | 电子书文档的格式转换方法、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112686000B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113515928B (zh) * | 2021-07-13 | 2023-03-28 | 抖音视界有限公司 | 电子文本生成方法、装置、设备及介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9286272B2 (en) * | 2005-12-22 | 2016-03-15 | Xerox Corporation | Method for transformation of an extensible markup language vocabulary to a generic document structure format |
CN104111922B (zh) * | 2013-04-16 | 2017-04-19 | 北大方正集团有限公司 | 一种流式文档的处理方法及装置 |
CN110083805B (zh) * | 2018-01-25 | 2020-11-27 | 北京大学 | 一种将Word文件转换为EPUB文件的方法及系统 |
CN109829139B (zh) * | 2019-01-30 | 2023-04-18 | 中国软件与技术服务股份有限公司 | 一种doc/docx格式的流式文件转换成ofd格式的版式文件的方法和装置 |
-
2020
- 2020-12-24 CN CN202011552719.8A patent/CN112686000B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112686000A (zh) | 2021-04-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110083805B (zh) | 一种将Word文件转换为EPUB文件的方法及系统 | |
US6533822B2 (en) | Creating summaries along with indicators, and automatically positioned tabs | |
US6336124B1 (en) | Conversion data representing a document to other formats for manipulation and display | |
CN108595389B (zh) | 一种将Word文档转换为txt纯文本文档的方法 | |
CN113609820B (zh) | 基于可扩展标记语言文件生成word文件的方法、装置及设备 | |
CN110705503B (zh) | 生成目录结构化信息的方法和装置 | |
CN112100979A (zh) | 基于电子书的排版处理方法、电子设备及存储介质 | |
US20120296630A1 (en) | Systems and Methods for Facilitating Software Interface Localization Between Multiple Languages | |
US6330073B1 (en) | System and method for merging multi-platform documents | |
CN112686000B (zh) | 电子书文档的格式转换方法、电子设备及存储介质 | |
US10261987B1 (en) | Pre-processing E-book in scanned format | |
CN109582934B (zh) | 版式文档的转换方法及装置 | |
CN111695414B (zh) | 文档处理方法及装置、电子设备、计算机可读存储介质 | |
CN110688842B (zh) | 一种文档标题层级的分析方法、装置及服务器 | |
US20220301285A1 (en) | Processing picture-text data | |
CN113297425B (zh) | 文档转换方法、装置、服务器及存储介质 | |
CN112100978B (zh) | 基于电子书的排版处理方法、电子设备及存储介质 | |
CN113177392B (zh) | 校对界面中行段信息同步方法、计算设备及存储介质 | |
CN110489528B (zh) | 基于电子书内容的电子词典重构方法及计算设备 | |
CN112965772A (zh) | web页面显示方法、装置和电子设备 | |
CN113704650A (zh) | 信息展示方法、装置、系统、设备及存储介质 | |
CN111046629B (zh) | 大纲显示方法、装置及设备 | |
CN110457659B (zh) | 条款文档生成方法及终端设备 | |
US11842141B2 (en) | Device dependent rendering of PDF content | |
EP2711847A2 (en) | Page data generation apparatus, recording medium and page data generation method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220825 Address after: 518054-13098, 13th floor, main tower of marine center, No. 59, Linhai Avenue, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong Patentee after: Shenzhen ZhangYue Animation Technology Co.,Ltd. Address before: 100124 2029e, Sihui building, Chaoyang District, Beijing Patentee before: ZHANGYUE TECHNOLOGY Co.,Ltd. |