CN113505567A - 电子出版文件的生成方法和装置 - Google Patents

电子出版文件的生成方法和装置 Download PDF

Info

Publication number
CN113505567A
CN113505567A CN202110573666.6A CN202110573666A CN113505567A CN 113505567 A CN113505567 A CN 113505567A CN 202110573666 A CN202110573666 A CN 202110573666A CN 113505567 A CN113505567 A CN 113505567A
Authority
CN
China
Prior art keywords
file
generating
source data
typesetting
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110573666.6A
Other languages
English (en)
Inventor
孔峰
王婷
侯鹏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Founder Electronics Co Ltd
Original Assignee
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Founder Electronics Co Ltd filed Critical Beijing Founder Electronics Co Ltd
Priority to CN202110573666.6A priority Critical patent/CN113505567A/zh
Publication of CN113505567A publication Critical patent/CN113505567A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/109Font handling; Temporal or kinetic typography
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本申请提供一种电子出版文件的生成方法和装置,该方法包括:响应于EPUB文件的生成指令,获取目标模板和源数据,基于预设内容上版规则,根据源数据和目标模板,生成预置样式的排版文件,根据排版文件,生成EPUB文件。通过本申请生成的EPUB文件,能够大大提升EPUB文件的生成质量。

Description

电子出版文件的生成方法和装置
技术领域
本申请涉及数字出版技术领域,尤其涉及一种电子出版文件的生成方法和装置。
背景技术
在电子阅读的时代,电子出版(Electronic Publication,EPUB)作为一种最广泛使用的开放式电子书格式,被越来越多的移动设备和电子书阅读器支持。EPUB以可扩展超文本标记语言(eXtensible HyperText Markup Language,XHTML)来展现文字、并以zip压缩格式存储内容,可以“自动重新编排”内容,适应阅读设备的特性,展现最适宜的阅读方式。
但是,依据现有技术得到的EPUB文件的效果较差,因此,亟需提升EPUB文件的生成质量。
发明内容
本申请提供一种电子出版文件的生成方法和装置,以提升EPUB文件的生成质量。
第一方面,本申请提供一种EPUB文件的生成方法,包括:
响应于EPUB文件的生成指令,获取目标模板和源数据,生成指令携带有目标模板的标识信息和源数据信息,源数据为待生成的EPUB文件所包含的内容;
基于预设内容上版规则,根据源数据和目标模板,生成预置样式的排版文件;
根据排版文件,生成EPUB文件。
可选的,基于预设内容上版规则,根据源数据和目标模板,生成预置样式的排版文件,包括:
复制目标模板,获得基础排版文件;基于预设内容上版规则,复制基础排版文件中的模板对象,构建初始实体对象;将源数据填充至初始实体对象;根据预置样式渲染填充源数据后的结果,获得预置样式的排版文件。
可选的,根据排版文件,生成EPUB文件,包括:
根据排版文件,获得对应的页面数据描述语言(Page Data Markup Language,PDML)文件;根据预设拆分规则,拆分PDML文件,获得PDML文件的子片段,子片段包括内容片段、目录级别片段以及资源片段中的至少一种;根据子片段对应的目标部件,生成EPUB文件。
可选的,根据子片段对应的目标部件,生成EPUB文件之前,还包括:
根据以下至少一种方式,生成目标部件:
若子片段为内容片段,则根据内容片段,获得超文本标记语言(Hyper TextMarkup Language,HTML)内容部件;若子片段为目录级别片段,则根据目录级别片段,获得目录部件;若子片段为资源片段,则根据资源片段,获得转换资源部件。
可选的,若源数据的格式为非可扩展标记语言(eXtensible Markup Language,XML)格式,基于预设内容上版规则,根据源数据和目标模板,生成预置样式的排版文件,包括:
将源数据进行XML结构化,获得对应的XML内容数据包;基于预设内容上版规则,根据XML内容数据包和目标模板,生成预置样式的排版文件。
可选的,将源数据进行XML结构化,获得对应的XML内容数据包,包括:
对源数据进行文档预处理及文档结构标引,获得对应的XML内容数据包;其中,文档预处理包括接受修订、删除注释和内容控件、软回车处理、自动编号转文本、超链接转文本、图形及图形组合处理和浮动转内嵌中的至少一种;文档结构标引包括删除封面目录、文档内容读取及整理、对内容分类并初步标引、按类别根据内容特征及上下文二次标引中的至少一种。
第二方面,本申请提供一种EPUB文件的生成装置,包括:
获取模块,用于响应于EPUB文件的生成指令,获取目标模板和源数据,生成指令携带有目标模板的标识信息和源数据信息,源数据为待生成的EPUB文件所包含的内容;
生成模块,用于基于预设内容上版规则,根据源数据和目标模板,生成预置样式的排版文件;
处理模块,用于根据排版文件,生成EPUB文件。
可选的,生成模块,具体用于:
复制目标模板,获得基础排版文件;
基于预设内容上版规则,复制基础排版文件中的模板对象,构建初始实体对象;将源数据填充至初始实体对象;根据预置样式渲染填充源数据后的结果,获得预置样式的排版文件。
可选的,处理模块,具体用于:
根据排版文件,获得对应的PDML文件;根据预设拆分规则,拆分PDML文件,获得PDML文件的子片段,子片段包括内容片段、目录级别片段以及资源片段中的至少一种;根据子片段对应的目标部件,生成EPUB文件。
可选的,处理模块,还用于:
根据子片段对应的目标部件,生成EPUB文件之前,根据以下至少一种方式,生成目标部件:
若子片段为内容片段,则根据内容片段,获得HTML内容部件;若子片段为目录级别片段,则根据目录级别片段,获得目录部件;若子片段为资源片段,则根据资源片段,获得转换资源部件。
可选的,若源数据的格式为XML格式,生成模块,具体用于:
将源数据进行XML结构化,获得对应的XML内容数据包;基于预设内容上版规则,根据XML内容数据包和目标模板,生成预置样式的排版文件。
可选的,生成模块,具体用于:
对源数据进行文档预处理及文档结构标引,获得对应的XML内容数据包;其中,文档预处理包括接受修订、删除注释和内容控件、软回车处理、自动编号转文本、超链接转文本、图形及图形组合处理和浮动转内嵌中的至少一种;文档结构标引包括删除封面目录、文档内容读取及整理、对内容分类并初步标引、按类别根据内容特征及上下文二次标引中的至少一种。
第三方面,本申请提供一种EPUB文件的生成装置,包括:存储器和处理器;
存储器用于存储程序指令;
处理器用于调用存储器中的程序指令执行如本申请第一方面所述的EPUB文件的生成方法。
第四方面,本申请提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序指令,计算机程序指令被执行时,实现如本申请第一方面所述的EPUB文件的生成方法。
第五方面,本申请提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如本申请第一方面所述的EPUB文件的生成方法。
本申请提供的电子出版文件的生成方法和装置,通过响应于EPUB文件的生成指令,获取目标模板和源数据,基于预设内容上版规则,根据源数据和目标模板,生成预置样式的排版文件,根据排版文件,生成EPUB文件。与现有技术得到的EPUB文件的效果相比,通过本申请生成的EPUB文件,由于将源数据和EPUB版式模板相结合,进行自动化排版,获得排版文件,进而生成EPUB文件,因此,能够大大提升EPUB文件的生成质量。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一实施例提供的应用场景示意图;
图2为本申请一实施例提供的EPUB文件的生成方法的流程图;
图3为本申请一实施例提供的EPUB版式模板的示意图;
图4为本申请另一实施例提供的EPUB文件的生成方法的流程图;
图5为本申请一实施例提供的生成EPUB文件的交互图;
图6为本申请一实施例提供的EPUB文件的生成装置的结构示意图;
图7为本申请另一实施例提供的EPUB文件的生成装置的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在电子阅读的时代,EPUB作为一种最广泛使用的开放式电子书格式,被越来越多的移动设备和电子书阅读器支持。EPUB以XHTML来展现文字、并以zip压缩格式存储内容,可以“自动重新编排”内容,适应阅读设备的特性,展现最适宜的阅读方式。
目前市面上,存在多种WORD源文件转换为EPUB文件的方案,其原理是通过WORD源文件的目录进行识别和处理,提取WORD源文件的目录结构,自动生成EPUB电子书。但是,依据这种做法得到的EPUB文件的质量较差,无法满足纸电同步出版的现实要求,需要在EPUB文件上进行大量加工。因此,亟需提升EPUB文件的生成质量。
基于上述,本申请提供一种电子出版文件的生成方法和装置,根据待生成EPUB文件的源文件及对应的模板,自动化排版生成预置样式的排版文件,根据排版文件生成EPUB文件。因此,能够快速生成数据完整内容规范的EPUB文件,提升EPUB文件的生成质量。
图1为本申请一实施例提供的应用场景示意图,如图1所示,本应用场景中,客户端110中有待生成EPUB文件的源文件。示例性地,源文件为用户通过客户端110编辑的WORD文件,当用户有将该源文件转换为EPUB文件的需求时,将该EPUB文件通过网络传输给服务器120,通过服务器120生成对应的EPUB文件。可选地,服务器120在生成的EPUB文件之后,发送该EPUB文件给客户端110,由客户端110进行显示。其中,服务器120根据源文件生成EPUB文件的具体实现过程可以参见下述各实施例的方案。
需要说明的是,图1仅是本申请实施例提供的一种应用场景的示意图,本申请实施例不对图1中包括的设备进行限定,也不对图1中设备之间的位置关系进行限定。例如,在图1所示的应用场景中,还可以包括数据存储设备,该数据存储设备相对客户端110或者服务器120可以是外部存储器,也可以是集成在客户端110或者服务器120中的内部存储器。可选地,生成EPUB文件所使用的源数据可以是从数据存储设备获取的。
图2为本申请一实施例提供的EPUB文件的生成方法的流程图。本申请实施例的方法可以应用于电子设备中,该电子设备可以是终端设备、服务器或服务器集群等。可选地,终端设备又例如可以是手机、平板电脑、笔记本电脑、台式电脑等。如图2所示,本申请实施例的方法包括:
S201、响应于EPUB文件的生成指令,获取目标模板和源数据。
其中,生成指令携带有目标模板的标识信息和源数据信息,源数据为待生成的EPUB文件所包含的内容。可选地,源数据信息可以为源数据本身,或者,源数据信息为与源数据相关的信息,例如,源数据的获取地址等信息。
本实施例中,EPUB文件的生成指令可以是用户向执行本方法实施例的电子设备输入的,或者,是其它设备向执行本方法实施例的电子设备发送的。生成指令携带有目标模板的标识信息和源数据信息,基于目标模板的标识信息,电子设备可以获取目标模板;基于源数据信息,电子设备可以获取源数据。
目标模板,也称为EPUB版式模板,是指由多个主页组成的模板文件。每个主页由主文字流块、文本框、图片等对象构成版式布局,与成品保持一致。设置图片组件、表格组件、公式组件、文字样式和段落样式来完成排版单元的格式。EPUB版式模板是一个带有XML结构标引的文件,每个占位容器(如章标题)打上标签并设置属性,完成内容填充,将关联的版式主页,拼装成正文、目录等章节,及设定全局自动排版规则,为后续自动化排版打下基础。EPUB版式模板是EPUB内容确定上版顺序、效果呈现、导览目录提取和HTML拆分粒度的重要依据。模板中段落样式预置规范的EPUB类名和目录级别,如章标题内容的段落样式,EPUB类名为“章节-标题”(“chapter-title”),目录级别为“二级目录”(篇标题为“一级目录”)。输出EPUB时,依据设定好的目录级别,将对应段落提取为EPUB导览目录,方便形成规范的EPUB成品文件,便于在EPUB加工工具中进行二次加工。另外,可以依据EPUB类名可定制多套丰富的层叠样式表(Cascading Style Sheets,CSS)样式,通过更换CSS文件可以实现更丰富的视觉效果,方便用户实现快速换肤。
示例性地,图3为本申请一实施例提供的EPUB版式模板的示意图。如图3所示,展示了EPUB版式模块的制作效果,该EPUB版式模板描述的是一个章节包含的主体内容,包括:章标题(章副标题),正文,及正文中的一级标题,二级标题、三级标题等的样式效果。可以通过图3中“段落样式编辑”菜单操作窗口中的菜单项,对该EPUB版式模板进行模板微调,以生成不同效果的模板,其中,样式信息包括键盘制表定位键(Tabulator key,TAB)标记设置。目录级别主要用于提取EPUB的导览目录,EPUB类名,方便快速定位和更换CSS效果。可以参照章标题、节标题、图题图注、表题表注等预期字号大小,及段落对齐方式设置样式效果,生成多套EPUB版式模板。
源数据为待生成EPUB文件所包含的内容,例如为XML格式的XML内容数据包。示例性地,如下为一XML内容片段:
Figure BDA0003083469610000071
Figure BDA0003083469610000081
上述XML内容片段中包含了用于生成EPUB文件的数据内容。示例性地,生成指令携带的源数据信息中包含符合期刊文档标签集(Journal Article Tag Suite,JATS)标准的XML内容数据包,该XML内容数据包可以是用户向执行本方法实施例的电子设备输入的,或者,是执行本方法实施例的电子设备从其它设备获取的,该XML内容数据包即为源数据。示例性地,生成指令携带的源数据信息中包含源数据的链接地址,电子设备在接收生成指令后,可通过访问该链接地址,获取源数据。
因此,响应于接收到EPUB文件的生成指令,电子设备根据生成指令携带的目标模板的标识信息,从预置的EPUB版式模板中获取目标模板,并根据生成指令携带的源数据信息,获取源数据。
S202、基于预设内容上版规则,根据源数据和目标模板,生成预置样式的排版文件。
示例性地,预设内容上版规则,适用于文本框和文章内的标签,包括:按布局上版和内容全上版。其中:
按布局上版,即:自动排版时,以版面标签布局为依据,在源数据比如XML内容数据包中获取内容填充到标签中,内容顺序及上版与否由标签决定,未在模板中体现的内容则丢弃。
内容全上版,即:自动排版时,以内容顺序为依据,内容套用标签样式,所有的内容都会按照源数据比如XML内容数据包的顺序上版。
在获取到了目标模板和源数据后,将源数据自动套用目标模板,依据预设内容上版规则,自动排版生成预置样式的排版文件。
S203、根据排版文件,生成EPUB文件。
在获得了排版文件后,根据排版文件中的版面对象,自动抽取用于生成EPUB文件的信息,生成EPUB文件。
可选地,在生成EPUB文件后,将该EPUB文件显示给用户。示例性地,若上述电子设备为台式电脑等终端设备,则电子设备在生成EPUB文件后,通过该电子设备的屏幕即可显示该EPUB文件。
另外考虑到终端设备的算力是一定的,因此,电子设备为服务器或服务器集群。由服务器或服务器集群响应EPUB文件的生成指令,自动生成EPUB文件显示给用户,即为用户提供了一键式生成EPUB文件的云服务,可以快速满足用户上传源文件生成EPUB文件的述求。该情况下,电子设备在生成EPUB文件后,需要通过网络将该EPUB文件发送给例如台式电脑等终端设备,通过该终端设备的屏幕显示该EPUB文件。
本申请实施例提供的EPUB文件的生成方法,通过响应于EPUB文件的生成指令,获取目标模板和源数据,基于预设内容上版规则,根据源数据和目标模板,生成预置样式的排版文件,根据排版文件,生成EPUB文件。与现有技术得到的EPUB文件的质量相比,通过本申请实施例生成的EPUB文件,由于将源数据和EPUB版式模板相结合,进行自动化排版,获得排版文件,进而生成EPUB文件,能够大大提升EPUB文件的生成质量。
另外,目前对EPUB文件的加工属于电子书的定向加工,仅适用于EPUB文件的发布,如果希望出PDF格式的印刷级成品,则需要推倒重来,存在大量的重复劳动。而本申请先通过自动排版形成高品质的初排文件(即排版文件),将共性的精调工作,如修图,改字,在前面排版环节做,这样可以一次制作,多元发布,例如发布PDF格式的印刷级成品,等等。
图4为本申请另一实施例提供的EPUB文件的生成方法的流程图。在上述实施例的基础上,本申请实施例对S202和S203两个步骤进行进一步说明。
如图4所示,本申请实施例的方法可以包括:
S401、响应于EPUB文件的生成指令,获取目标模板和源数据。
本实施例中,S401的具体实现过程可以参见图2所示实施例的相关描述,此处不再赘述。
S402、复制目标模板,获得基础排版文件。
具体地,复制出副本的目标模板,作为基础排版文件。
S403、基于预设内容上版规则,复制基础排版文件中的模板对象,构建初始实体对象。
其中,模板对象例如为主页、块等。电子设备根据模板对象构建初始实体对象。
S404、将源数据填充至初始实体对象。
基于预设内容上版规则,对源数据进行节点移动或克隆,将源数据中的数据片段填充至初始实体对象。
S405、根据预置样式渲染填充源数据后的结果,获得预置样式的排版文件。
示例性地,预置样式为标注了目录级别和EPUB类名的段落样式。
可以理解,S403至S405为数据合成过程。
可选地,在数据合成完毕,清除基础排版文件中的模板数据,只保留目标实体对象数据部分,获得预置样式的排版文件。
其中,S402至S405为对图2中S202步骤的进一步解释。可选地,S402至S405可以由XML自动排版引擎实现,但本申请不以此为限制。
S406、根据排版文件,获得对应的PDML文件。
其中,PDML文件是XML文件,遵循严格的PDML架构(Schema)定义,可实现和排版文件的内容等价转换。
具体地,电子设备根据排版文件的文档层级,依次遍历主页和普通页中的所有版面对象,获得对应的PDML文件。
S407、根据预设拆分规则,拆分PDML文件,获得PDML文件的子片段。
其中,子片段包括内容片段、目录级别片段以及资源片段中的至少一种。
示例性地,预设拆分规则为按照“章起始页+目录级别”对PDML进行拆分,但本申请实施例不以此处示例为限制。可以理解,该示例中,预设拆分规则即为按照章(按照排版文件的章节管理器识别)+节(节以段落的目录样式级别来识别,比如是三级目录级别)的方式进行拆分。
S408、根据子片段对应的目标部件,生成EPUB文件。
具体地,将子片段对应的目标部件打包生成EPUB文件。
其中,S406至S408为对图2中S203步骤的进一步解释。可选地,S406至S408可以由XML自动排版引擎实现,但本申请不以此为限制。
可选地,S408、根据子片段对应的目标部件,生成EPUB文件之前,该方法还可以包括:根据以下至少一种方式,生成目标部件:若子片段为内容片段,则根据内容片段,获得HTML内容部件;若子片段为目录级别片段,则根据目录级别片段,获得目录部件;若子片段为资源片段,则根据资源片段,获得转换资源部件。其中,资源片段例如包括图像、字体等。
可选地,HTML内容部件的载体为XHTML文件。其中,EPUB文件中使用的CSS文件,与XHTML文件中比如h2/h3/h4标签中的类(class)属性相对应。
在上述实施例的基础上,若源数据的格式为非XML格式,则将源数据进行XML结构化,获得对应的XML内容数据包,并基于预设内容上版规则,根据XML内容数据包和目标模板,生成预置样式的排版文件。
可选的,将源数据进行XML结构化,获得对应的XML内容数据包,可以包括:对源数据进行文档预处理及文档结构标引,获得对应的XML内容数据包。其中,文档预处理可以包括接受修订、删除注释和内容控件、软回车处理、自动编号转文本、超链接转文本、图形及图形组合处理和浮动转内嵌中的至少一种。文档结构标引可以包括删除封面目录、文档内容读取及整理、对内容分类并初步标引、按类别根据内容特征及上下文二次标引中的至少一种。
示例性地,源数据为WORD文件(即非XML格式),此时需要对该WORD文件进行XML结构化,获得对应的XML内容数据包。具体地,对WORD文件进行文档预处理及文档结构标引,获得对应的XML内容数据包。该XML内容数据包为符合某种标准的XML内容文件,该标准比如为DOCBOOK标准、JATS标准,也可以是自定义标准,本申请实施例不予限制。需要注意的是,XML内容数据包需要和EPUB版式模板使用同一标准。
作为一种示例,将源数据进行XML结构化,获得对应的XML内容数据包,可以包括:将源数据进行图像格式转换、标引内容整理,获得对应的XML内容数据包。
可选地,对源数据进行XML结构化的步骤可以由WORD结构化引擎实现,但本申请不以此为限制。
在获得了WORD文件对应的XML内容数据包后,将WORD文件对应的XML内容数据包自动套用目标模板,依据预设内容上版规则,自动排版生成预置样式的排版文件。在生成排版文件后,根据排版文件,生成EPUB文件。
示例性地,图5为本申请一实施例提供的生成EPUB文件的交互图。该实施例通过用户、客户端和服务器之间的交互,说明EPUB文件的生成过程。
如图5所示,用户、客户端和服务器之间的交互如下:
S501、用户在登录客户端之后,选定目标模板,并上传源文件,在填写基本信息和个性化设置后,点击一键用于转换生成EPUB。
其中,源文件为WORD源文件。
S502、响应于用户点击一键转换生成EPUB的操作,客户端发送EPUB文件的生成指令给服务器。
S503、服务器响应于EPUB文件的生成指令,通过结构化引擎、XML自动排版引擎相结合的自动化排版流程,基于云服务模式快速生成数据完整、内容规范的流式EPUB文件。
其中,结构化引擎为WORD结构化引擎。
S504、服务器将EPUB文件发送给客户端。
S505、客户端显示EPUB文件。
该方法大大提高了EPUB文件的制作效率,可以规避很多手工容易出现的问题,便于二次加工。且,本申请提供的排版文件有很好的页面版式基础,所以对于输出版式EPUB有很好的功底;对于输出流式EPUB,经过阅读顺序的线性化,取其内容和样式,去其固定位置信息,可以形成样式效果符合预期的流式EPUB文件。
在上述实施例的基础上,可以通过微调EPUB版式模板,快速生成不同效果的EPUB文件。若希望进行更为精细的加工,可对排版文件进行必要的精修,如调整图片,以便达到更好的印刷级成品效果。
综上,本申请提供的技术方案,至少具有如下优势:
(1)是基于现有排版技术的应用模式创新;
(2)将排版软件封装为后台排版引擎,并提供模板制作的能力;利用模板及XML数据,形成自动化排版的能力;
(3)WORD结构化智能识别,实现对书籍大纲及特殊内容的识别(图片、表格、公式),从而为完整的自动化处理能力和云服务模式奠定了基础;
(4)将上述能力进行合理的集成,形成完整的云服务能力。
基于本申请所提供的方法,可带来如下好处:
(1)可以形成彻底的WORD转换为EPUB的云服务模式;
(2)专业的排版效果可以被PDF和EPUB所共用(特别是大纲、图片、表格、公式);
(3)模板可以灵活修改,形成多种展示效果;
(4)WORD结构化的成果得到了充分的利用,确保了排版结果的准确性和专业性;
(5)配合精调工具,可将上述流程拆分为两个环节,第一个环节是形成初排文件(即上述排版文件),第二环节是对初排文件进行印刷级的精修,方便实现纸电同步。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
图6为本申请一实施例提供的EPUB文件的生成装置的结构示意图,如图6所示,本申请实施例的EPUB文件的生成装置600包括:获取模块601、生成模块602和处理模块603。其中:
获取模块601,用于响应于EPUB文件的生成指令,获取目标模板和源数据,生成指令携带有目标模板的标识信息和源数据信息,源数据为待生成的EPUB文件所包含的内容。
生成模块602,用于基于预设内容上版规则,根据源数据和目标模板,生成预置样式的排版文件。
处理模块603,用于根据排版文件,生成EPUB文件。
在上述实施例的基础上,生成模块602可以具体用于:复制目标模板,获得基础排版文件;基于预设内容上版规则,复制基础排版文件中的模板对象,构建初始实体对象;将源数据填充至初始实体对象;根据预置样式渲染填充源数据后的结果,获得预置样式的排版文件。
可选地,处理模块603可以具体用于:根据排版文件,获得对应的PDML文件;根据预设拆分规则,拆分PDML文件,获得PDML文件的子片段,子片段包括内容片段、目录级别片段以及资源片段中的至少一种;根据子片段对应的目标部件,生成EPUB文件。
在一些实施例中,处理模块603还可以用于:根据子片段对应的目标部件,生成EPUB文件之前,根据以下至少一种方式,生成目标部件:
若子片段为内容片段,则根据内容片段,获得HTML内容部件;若子片段为目录级别片段,则根据目录级别片段,获得目录部件;若子片段为资源片段,则根据资源片段,获得转换资源部件。
在上述任一所示实施例的基础上,若源数据的格式为非XML格式,生成模块602可以具体用于:将源数据进行XML结构化,获得对应的XML内容数据包;基于预设内容上版规则,根据XML内容数据包和目标模板,生成预置样式的排版文件。
进一步地,生成模块602可以具体用于:对源数据进行文档预处理及文档结构标引,获得对应的XML内容数据包;其中,文档预处理包括接受修订、删除注释和内容控件、软回车处理、自动编号转文本、超链接转文本、图形及图形组合处理和浮动转内嵌中的至少一种;文档结构标引包括删除封面目录、文档内容读取及整理、对内容分类并初步标引、按类别根据内容特征及上下文二次标引中的至少一种。
本实施例的装置,可以用于执行上述任一所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图7为本申请另一实施例提供的EPUB文件的生成装置的结构示意图。示例性地,EPUB文件的生成装置可以被提供为一服务器或计算机。参照图7,EPUB文件的生成装置700包括处理组件701,其进一步包括一个或多个处理器,以及由存储器702所代表的存储器资源,用于存储可由处理组件701的执行的指令,例如应用程序。存储器702中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件701被配置为执行指令,以执行上述任一方法实施例。
EPUB文件的生成装置700还可以包括一个电源组件703被配置为执行EPUB文件的生成装置700的电源管理,一个有线或无线网络接口704被配置为将EPUB文件的生成装置700连接到网络,和一个输入输出(I/O)接口705。EPUB文件的生成装置700可以操作基于存储在存储器702的操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本申请还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如上的EPUB文件的生成方法的方案。
本申请还提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,当处理器执行计算机执行指令时,实现如上EPUB文件的生成方法的方案。
上述的计算机可读存储介质,上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的可读存储介质耦合至处理器,从而使处理器能够从该可读存储介质读取信息,且可向该可读存储介质写入信息。当然,可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits,简称:ASIC)中。当然,处理器和可读存储介质也可以作为分立组件存在于EPUB文件的生成装置中。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (10)

1.一种电子出版文件的生成方法,其特征在于,包括:
响应于电子出版文件的生成指令,获取目标模板和源数据,所述生成指令携带有所述目标模板的标识信息和源数据信息,所述源数据为待生成的电子出版文件所包含的内容;
基于预设内容上版规则,根据所述源数据和所述目标模板,生成预置样式的排版文件;
根据所述排版文件,生成电子出版文件。
2.根据权利要求1所述的电子出版文件的生成方法,其特征在于,所述基于预设内容上版规则,根据所述源数据和所述目标模板,生成预置样式的排版文件,包括:
复制所述目标模板,获得基础排版文件;
基于预设内容上版规则,复制所述基础排版文件中的模板对象,构建初始实体对象;
将所述源数据填充至所述初始实体对象;
根据所述预置样式渲染填充源数据后的结果,获得所述预置样式的排版文件。
3.根据权利要求1所述的电子出版文件的生成方法,其特征在于,所述根据所述排版文件,生成电子出版文件,包括:
根据所述排版文件,获得对应的页面数据描述语言PDML文件;
根据预设拆分规则,拆分所述PDML文件,获得所述PDML文件的子片段,所述子片段包括内容片段、目录级别片段以及资源片段中的至少一种;
根据所述子片段对应的目标部件,生成所述电子出版文件。
4.根据权利要求3所述的电子出版文件的生成方法,其特征在于,所述根据所述子片段对应的目标部件,生成所述电子出版文件之前,还包括:
根据以下至少一种方式,生成所述目标部件:
若所述子片段为内容片段,则根据所述内容片段,获得超文本标记语言HTML内容部件;
若所述子片段为目录级别片段,则根据所述目录级别片段,获得目录部件;
若所述子片段为资源片段,则根据所述资源片段,获得转换资源部件。
5.根据权利要求1至4中任一项所述的电子出版文件的生成方法,其特征在于,若所述源数据的格式为非可扩展标记语言XML格式,所述基于预设内容上版规则,根据所述源数据和所述目标模板,生成预置样式的排版文件,包括:
将所述源数据进行XML结构化,获得对应的XML内容数据包;
基于预设内容上版规则,根据所述XML内容数据包和所述目标模板,生成预置样式的排版文件。
6.根据权利要求5所述的电子出版文件的生成方法,其特征在于,所述将所述源数据进行XML结构化,获得对应的XML内容数据包,包括:
对所述源数据进行文档预处理及文档结构标引,获得对应的XML内容数据包;
其中,所述文档预处理包括接受修订、删除注释和内容控件、软回车处理、自动编号转文本、超链接转文本、图形及图形组合处理和浮动转内嵌中的至少一种;所述文档结构标引包括删除封面目录、文档内容读取及整理、对内容分类并初步标引、按类别根据内容特征及上下文二次标引中的至少一种。
7.一种电子出版文件的生成装置,其特征在于,包括:
获取模块,用于响应于电子出版文件的生成指令,获取目标模板和源数据,所述生成指令携带有所述目标模板的标识信息和源数据信息,所述源数据为待生成的电子出版文件所包含的内容;
生成模块,用于基于预设内容上版规则,根据所述源数据和所述目标模板,生成预置样式的排版文件;
处理模块,用于根据所述排版文件,生成电子出版文件。
8.一种电子出版文件的生成装置,其特征在于,包括:存储器和处理器;
所述存储器用于存储程序指令;
所述处理器用于调用所述存储器中的程序指令执行如权利要求1-6任一项所述的电子出版文件的生成方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序指令,所述计算机程序指令被执行时,实现如权利要求1至6任一项所述的电子出版文件的生成方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-6任一项所述的电子出版文件的生成方法。
CN202110573666.6A 2021-05-25 2021-05-25 电子出版文件的生成方法和装置 Pending CN113505567A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110573666.6A CN113505567A (zh) 2021-05-25 2021-05-25 电子出版文件的生成方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110573666.6A CN113505567A (zh) 2021-05-25 2021-05-25 电子出版文件的生成方法和装置

Publications (1)

Publication Number Publication Date
CN113505567A true CN113505567A (zh) 2021-10-15

Family

ID=78008579

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110573666.6A Pending CN113505567A (zh) 2021-05-25 2021-05-25 电子出版文件的生成方法和装置

Country Status (1)

Country Link
CN (1) CN113505567A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1471679A (zh) * 2001-04-09 2004-01-28 XML���й�˾ 采用元标志信息的可扩展格式底稿设计
CN104699714A (zh) * 2013-12-09 2015-06-10 北大方正集团有限公司 将书版格式文件转换为epub格式文件的方法及装置
JP2019501593A (ja) * 2015-12-28 2019-01-17 ファスー ドット コム カンパニー リミテッドFasoo. Com Co., Ltd Epubファイル暗号化のための単位ファイルに対する圧縮及び復元方法並びに装置
CN111401027A (zh) * 2018-12-28 2020-07-10 北大方正集团有限公司 版式模板文件升级方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1471679A (zh) * 2001-04-09 2004-01-28 XML���й�˾ 采用元标志信息的可扩展格式底稿设计
CN104699714A (zh) * 2013-12-09 2015-06-10 北大方正集团有限公司 将书版格式文件转换为epub格式文件的方法及装置
JP2019501593A (ja) * 2015-12-28 2019-01-17 ファスー ドット コム カンパニー リミテッドFasoo. Com Co., Ltd Epubファイル暗号化のための単位ファイルに対する圧縮及び復元方法並びに装置
CN111401027A (zh) * 2018-12-28 2020-07-10 北大方正集团有限公司 版式模板文件升级方法和装置

Similar Documents

Publication Publication Date Title
US11514234B2 (en) Method and system for annotation and connection of electronic documents
US7509576B2 (en) Information processing system and method, program, and recording medium
US7343549B2 (en) Layout system, layout program, and layout method
US7734995B1 (en) Systems and methods for assembling form fragments and templates into a form package
RU2419856C2 (ru) Различные виды оформления с гармоничной версткой для динамически агрегированных документов
CN111475163B (zh) 视图模板的代码文件生成方法、装置、设备及存储介质
CN104239284A (zh) 一种图文自动排版的方法和装置
ZA200506944B (en) Method, system, and computer-readable medium for creating and laying out a graphic within an application program
US20110087959A1 (en) Method and device for processing the structure of a layout file
US7240281B2 (en) System, method and program for printing an electronic document
US20110131482A1 (en) System and method for multi-channel publishing
JP2009524883A (ja) デジタルコンテンツのネットワークへの提示
JP2001243222A (ja) 構造化文書の表示規則の生成方法、システムおよびプログラムが記録された媒体ならびに構造化文書およびその文書型定義の変更方法、システムおよびプログラムが記録された媒体
CN111797595A (zh) 一种基于xml模板生成ofd版式页面的方法和装置
CN113609820A (zh) 基于可扩展标记语言文件生成word文件的方法、装置及设备
CN112433995B (zh) 文件格式转换方法、系统、计算机设备及存储介质
US20070136665A1 (en) Dynamic positioning and aligning tabs relative to margins indent and column width
CN113505567A (zh) 电子出版文件的生成方法和装置
KR20140062547A (ko) 데이터베이스를 이용한 전자문서 수정, 제작 및 관리 장치 및 방법
TW201337605A (zh) 多用途網路編輯頁面自動轉檔技術
JP2014157441A (ja) ホームページ作成方法およびホームページ作成システム
US20120170077A1 (en) Rendering electronic documents having linked textboxes
US10755034B2 (en) Information processing apparatus
CN113343137A (zh) 优化seo页面生成方法、装置、电子设备及存储介质
CN111222310A (zh) 一种不规则表单的录入和展示的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination