CN109815450A - XML文件转换Word文件的方法及装置 - Google Patents

XML文件转换Word文件的方法及装置 Download PDF

Info

Publication number
CN109815450A
CN109815450A CN201711159624.8A CN201711159624A CN109815450A CN 109815450 A CN109815450 A CN 109815450A CN 201711159624 A CN201711159624 A CN 201711159624A CN 109815450 A CN109815450 A CN 109815450A
Authority
CN
China
Prior art keywords
file
xml file
ooxml
template
xml
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711159624.8A
Other languages
English (en)
Inventor
谭伟
杨燕菲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University Founder Group Co Ltd
Priority to CN201711159624.8A priority Critical patent/CN109815450A/zh
Publication of CN109815450A publication Critical patent/CN109815450A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明提供一种XML文件转换Word文件的方法及装置。本发明的方法,通过获取原始XML文件及其对应的内容模板和样式模板;根据所述原始XML文件和所述内容模板,生成中间XML文件;根据所述中间XML文件和所述样式模板,生成OOXML文件;根据所述OOXML文件生成Word文件,实现了将结构化的XML文件转换为Word文件,使得排版系统能够输出Word文件,使得用户可以在Word文件中对稿件内容进行再加工。

Description

XML文件转换Word文件的方法及装置
技术领域
本发明涉及排版领域,尤其涉及一种XML文件转换Word文件的方法及装置。
背景技术
目前的排版系统实现了将传统的人工使用交互式桌面排版软件转进行排版转移至在云端自动化排版系统,提高了排版效率,节约了人力资源,得到了广泛地应用。
目前的排版系统是基于XML结构的文件进行排版,可以实现Word文件的结构化,即Word文件转换成XML文件的功能;也可以实现XML文件排版功能,即XML文件转换成排版文件的功能,也即输出成PDF文件或者FIT文件等。但是,目前的排版系统无法将XML文件输出成Word文件,导致无法在Word文件中对排版内容进行再加工,用户体验差。
发明内容
本发明提供一种XML文件转换Word文件的方法及装置,用以解决目前的排版系统无法将XML文件输出成Word文件,导致无法在Word文件中对排版内容进行再加工的问题。
本发明的一个方面是提供一种XML文件转换Word文件的方法,包括:
获取原始XML文件及其对应的内容模板和Word文件对应的样式模板;
根据所述原始XML文件和所述内容模板,生成中间XML文件;
根据所述中间XML文件和所述样式模板,生成OOXML文件;
根据所述OOXML文件生成Word文件。
本发明的另一个方面是提供一种XML文件转换Word文件的装置,包括:
获取模块,用于获取原始XML文件及其对应的内容模板和Word文件对应的样式模板;
第一生成模块,用于根据所述原始XML文件和所述内容模板,生成中间XML文件;
第二生成模块,用于根据所述中间XML文件和所述样式模板,生成OOXML文件;
第三生成模块,用于根据所述OOXML文件生成Word文件。
本发明提供的XML文件转换Word文件的方法及装置,通过获取原始XML文件及其对应的内容模板和样式模板;根据所述原始XML文件和所述内容模板,生成中间XML文件;根据所述中间XML文件和所述样式模板,生成OOXML文件;根据所述OOXML文件生成Word文件,实现了将结构化的XML文件转换为Word文件,使得排版系统能够输出Word文件,使得用户可以在Word文件中对稿件内容进行再加工。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1为本发明实施例一提供的XML文件转换Word文件的方法流程图;
图2为本发明实施例二提供的XML文件转换Word文件的方法流程图;
图3为本发明实施例三提供的XML文件转换Word文件的装置的结构示意图。
通过上述附图,已示出本发明明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围,而是通过参考特定实施例为本领域技术人员说明本发明的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
首先对本发明所涉及的名词进行解释:
可扩展标记语言(Extensible Markup Language,简称XML):是标准通用标记语言的子集,是一种用于标记电子文件使其具有结构性的标记语言。
Office Open XML:简称OOXML,是由微软公司为Office 2007产品开发的技术规范,现已成为国际文档格式标准,兼容前国际标准开放文档格式和中国文档标准“标文通”(外语简称:UOF)。于2006年12月成为ECMA标准。
下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本发明的实施例进行描述。
实施例一
图1为本发明实施例一提供的XML文件转换Word文件的方法流程图。本发明实施例针对目前的排版系统无法将XML文件输出成Word文件,导致无法在Word文件中对排版内容进行再加工的问题,提供了XML文件转换Word文件的方法。该方法的执行主体可以是排版系统。如图1,该方法具体步骤如下:
步骤S101、获取原始XML文件及其对应的内容模板和Word文件对应的样式模板。
其中,内容模板用来描述原始XML文件版面布局信息和排版单元信息等。样式模板用于描述Word文件的框架、样式等信息。
在实际应用中,排版系统将XML文件输出为Word文件时,用户往往是对以下稿件内容进行再编辑:章首,文章内容,章尾,图容器,表容器和公式容器;而通常不需要对书眉、页码以及静态背景等装饰性信息,通常会出现在版心外的页眉、页脚等信息,以及辅助板上的内容等进行再编辑。
本实施例中,预先对XML文件对应的每个标准都创建一个内容模板,并存储各标准XML文件对应的内容模板。内容模板包括:章首,文章内容,章尾,图容器,表容器和公式容器等需要进行再编辑的内容对应的排版单元信息和版面布局信息。
预先创建并存储Word文件对应的样式模板,样式模板包含必须的文字样式、段落样式和表格样式,通过样式引用与内容模板建立关系。
可选地,为了保证表格样式的正确性,在模板制作工具栏中新增表格样式添加功能,为表格增加表格样式扩展属性,以便于在样式模板中增加表格样式。
可选地,为了防止文字样式、段落样式和表格样式的缺失,在样式模板中设置默认缺省的文字样式、段落样式和表格样式。
可选地,可以将排版系统中的XML排版模板作为内容模板;可以新增一个Word模板作为样式模板。
步骤S102、根据原始XML文件和内容模板,生成中间XML文件。
该步骤中,将原始XML文件和内容模板进行数据合成和渲染处理,并转换成预设格式的中间XML文件,使得中间XML文件的结构接近OOXML文件的结构。
其中,预设格式的中间XML文件可以是XML Schema文件,也即是用XML Schema语言描述中间XML文件的结构。
步骤S103、根据中间XML文件和样式模板,生成OOXML文件。
该步骤中,根据样式模板对中间XML文件的以下信息进行预处理:字体信息,表格样式,图片信息,公式信息,交叉引用关系,页面设置信息,文字样式和段落样式,缺省样式等,使得使中间XML文件的结构与OOXML文件结构更接近、实现图片资源的提取和关联、将样式模板的内容映射到中间XML文件;然后将预处理后的中间XML文件转换成OOXML文件。
步骤S104、根据OOXML文件生成Word文件。
该步骤中,根据开放式打包约定(Open Packaging Conventions,简称OPC)规范,将OOXML文件进行分割打包,得到对应的Word文件。
另外,在排版系统中,将原始XML文件转换为Word文件输出,是在现有的排版系统上增加的一个子系统,为了接收外部发送来的命令,增加一个新的Web Service服务接口。
本发明实施例通过获取原始XML文件及其对应的内容模板和样式模板;根据原始XML文件和内容模板,生成中间XML文件;根据中间XML文件和样式模板,生成OOXML文件;根据OOXML文件生成Word文件,实现了将结构化的XML文件转换为Word文件,使得排版系统能够输出Word文件,使得用户可以在Word文件中对稿件内容进行再加工。
实施例二
图2为本发明实施例二提供的XML文件转换Word文件的方法流程图。在上述实施例一的基础上,本实施例中,根据原始XML文件和内容模板,生成中间XML文件,包括:将原始XML文件内容对应置入内容模板;对内容模板进行渲染处理,得到中间排版文件;将中间排版文件转换为预设格式的中间XML文件。如图2所示,该方法具体步骤如下:
步骤S201、获取原始XML文件及其对应的内容模板和Word文件对应的样式模板。
其中,内容模板用来描述原始XML文件版面布局信息和排版单元信息等。样式模板用于描述Word文件的框架、样式等信息。
在实际应用中,排版系统将XML文件输出为Word文件时,用户往往是对以下稿件内容进行再编辑:章首,文章内容,章尾,图容器,表容器和公式容器;而通常不需要对书眉、页码以及静态背景等装饰性信息,通常会出现在版心外的页眉、页脚等信息,以及辅助板上的内容等进行再编辑。
本实施例中,预先对XML文件对应的每个标准都创建一个内容模板,并存储各标准XML文件对应的内容模板。内容模板包括:章首,文章内容,章尾,图容器,表容器和公式容器等需要进行再编辑的内容对应的排版单元信息和版面布局信息。
预先创建并存储Word文件对应的样式模板,样式模板包含必须的文字样式、段落样式和表格样式,通过样式引用与内容模板建立关系。
可选地,为了保证表格样式的正确性,在模板制作工具栏中新增表格样式添加功能,为表格增加表格样式扩展属性,以便于在样式模板中增加表格样式。
可选地,为了防止文字样式、段落样式和表格样式的缺失,在样式模板中设置默认缺省的文字样式、段落样式和表格样式。
可选地,可以将排版系统中的XML排版模板作为内容模板;可以新增一个Word模板作为样式模板。
另外,本实施例中的内容模板可以是原始XML文件对应的内容模板的副本。样式模板可以是Word文件对应的样式模板的副本。
步骤S202、将原始XML文件内容对应置入内容模板。
该步骤中,通过将原始XML文件与内容模板进行数据合成,将原始XML文件内容对应置入内容模板。
由于本实施例中,内容模板仅包括章首,文章内容,章尾,图容器,表容器和公式容器等可进行再编辑的内容对应的排版单元信息和版面布局信息,该步骤中,仅仅将与内容模板对应的原始XML文件中的这些可进行再编辑的内容置入内容模板中,减少了数据合成的数据量,提高了将原始XML文件内容对应置入内容模板的效率。
可选地,在将原始XML文件内容对应置入内容模板之前,还可以根据预设的配置文件对原始XML文件进行等效转换,对原始XML文件中XML结构的顺序进行调整,以方便将原始XML文件内容对应置入内容模板。
其中,预设的配置文件中规定了对XML文件进行等效转换的规则,可以由技术人员根据实际需要进行预先设定。
步骤S203、对内容模板进行渲染处理,得到中间排版文件。
本实施例中,对内容模板进行渲染处理,具体可以采用如下方式实现:
根据内容模板的版面信息,调整置入内容模板中的内容对象的尺寸,以使置入内容模板中的内容对象完整显示。
本实施例中,对内容模板进行渲染处理保留了排版系统进行渲染处理中的对内容对象的尺寸调整功能。其中,内容对象包括文字对象、图片对象和表格对象。
步骤S204、将中间排版文件转换为预设格式的中间XML文件。
其中,预设格式的中间XML文件可以是XML Schema文件,也即是用XML Schema语言定义中间XML文件的结构。另外,中间XML文件可以是页面描述置标语言(Page DescriptionMarkup Language,简称PDML)文件。
该步骤中,利用排版系统的多格式输出功能,排版系统渲染处理之后得到的中间排版文件进行格式转换,输出预设格式的中间XML文件。
上述步骤S202-S204为根据原始XML文件和内容模板,生成中间XML文件的一种实施方式,充分利用了现有的排版技术,去掉了部分数据合成和渲染处理,只保证排版内容及其顺序的正确性,提高了转换为Word文件的效率。
步骤S205、根据样式模板,对中间XML文件进行预处理。
本实施例中,根据样式模板,对中间XML文件进行预处理,具体包括:
(1)根据样式模板,将中间XML文件中用于保存文字样式和段落样式的XML结构转换成用于保存文字样式和段落样式的OOXML结构。
具体地,处理映射文字样式和段落样式:通过中间XML文件中文字样式和段落样式名称查找到样式模板中对应的文字样式和段落样式,提取出其中的字体、字号、编号样式等文字样式信息和段落样式信息,创建对应的OOXML节点结构,用OOXML节点结构保存文字样式信息和段落样式信息,以使最终转换成的OOXML文件保持原有的文字样式和段落样式。
(2)根据样式模板,将中间XML文件中用于保存字体信息的XML结构转换成用于保存字体信息的OOXML结构。
具体地,将中间XML文件中的字体名称转换为样式模板中对应的字体名称;中间XML文件的粗斜体属性节点结构转换为OOXML结构的粗斜体属性节点结构,以使最终转换成的OOXML文件保持原有的字体信息。
(3)将中间XML文件中用于保存图片信息的XML结构转换成用于保存图片信息的OOXML结构。
中间XML文件中的图片对象可能是存在中间XML文件中的、或者是存储在外部的某个文件夹内的图片文件。将中间XML文件中图片对象对应的图片文件全部存储到预设要打包的OOXML文件夹中,并将中间XML文件中用于保存图片信息的XML结构转换成用于保存图片信息的OOXML结构,实现转换成的OOXML文件中图片资源的提取和关联,以使最终转换成的OOXML文件包括原有的图片。
(4)将中间XML文件中的公式信息转换为OOXML结构表示的公式信息。
中间XML文件中的公式通常是采用排版系统自定义的数学公式的格式,例如可以是XML数学标记语言编辑的公式,将中间XML文件中的公式信息转换为OOXML中的通用格式表示的公式信息,以使最终转换成的OOXML文件包括原有的公式。
(5)根据样式模板,将中间XML文件中用于保存表格样式的XML结构转换成用于保存表格样式的OOXML结构。
通常中间XML文件中的表格合并单元格是由列合并属性(colnum)和行合并属性(cellnum)这两个节点属性表示的,例如colnum=2,说明这一列实际上为两列合并而成。而OOXML文件中的合并单元格是由占位节点表示的。例如,如果这个单元格和之前的单元格合并为一个单元格则此单元格记为占位单元格。
该步骤中,将中间XML文件中用于保存表格样式的XML结构转换成用于保存表格样式的OOXML结构,以使最终转换成的OOXML文件包括原有的表格样式。
(6)将中间XML文件中用于保存交叉引用关系的XML结构转换成用于保存交叉引用关系的OOXML结构。
交叉引用是对Microsoft Word文档中其他位置的内容的引用,例如,可为标题、脚注、书签、题注、编号段落等创建交叉引用。
该步骤中,将中间XML文件中用于保存交叉引用关系的XML结构转换成用于保存交叉引用关系的OOXML结构,以使最终转换成的OOXML文件包括原有的交叉引用关系。
(7)根据样式模板,将中间XML文件中用于保存页面设置信息的XML结构转换成用于保存页面设置信息的OOXML结构。
具体地,根据中间XML文件中的页面设置信息,计算OOXML文件中对应的Word页面设置信息,例如,根据中间XML文件中的页面大小,计算OOXML文件中对应的Word页面大小;将中间XML文件中的页面设置信息转换为OOXML中页面设置信息,以使最终转换成的OOXML文件保持原有的页面设置格式。
步骤S206、利用扩展样式表转换语言,将预处理后的中间XML文件转换为OOXML文件。
上述步骤S205-S206为根据中间XML文件和样式模板生成OOXML文件的一种实施方式,通过对中间XML文件的文字样式和段落样式,字体信息,图片信息,公式信息,表格样式,交叉引用关系,页面设置信息等进行预处理,将样式模板的内容映射到中间XML中,并且使得预处理后的中间XML文件的结构与OOXML结构更加接近,利用扩展样式表转换语言,将预处理后的中间XML文件转换为OOXML文件。
步骤S207、根据OOXML文件生成Word文件。
该步骤中,根据开放式打包约定(Open Packaging Conventions,简称OPC)规范,将OOXML文件进行分割打包,得到对应的Word文件。
本发明实施例通过获取原始XML文件及其对应的内容模板和样式模板;将原始XML文件内容对应置入内容模板;对内容模板进行渲染处理,得到中间排版文件;将中间排版文件转换为预设格式的中间XML文件,充分利用了现有的排版技术,去掉了部分数据合成和渲染处理,只保证排版内容及其顺序的正确性,提高了原始XML文件转换为中间XML的效率,在实现将结构化的XML文件转换为Word文件,使得排版系统能够输出Word文件,使得用户可以在Word文件中对稿件内容进行再加工的基础上,进一步提交了XML文件转换Word文件的效率。
实施例三
图3为本发明实施例三提供的XML文件转换Word文件的装置的结构示意图。本发明实施例提供的XML文件转换Word文件的装置可以执行XML文件转换Word文件的方法实施例提供的处理流程。如图3所示,该装置30包括:获取模块301、第一生成模块302、第二生成模块303和第三生成模块304。
具体地,获取模块301用于获取原始XML文件及其对应的内容模板和Word文件对应的样式模板。
第一生成模块302用于根据原始XML文件和内容模板,生成中间XML文件。
第二生成模块303用于根据中间XML文件和样式模板,生成OOXML文件。
第三生成模块304用于根据OOXML文件生成Word文件。
另外,在排版系统中,将原始XML文件转换为Word文件输出,是在现有的排版系统上增加的一个子系统,为了接收外部发送来的命令,增加一个新的Web Service服务接口。
本发明实施例提供的装置可以具体用于执行上述实施例一所提供的方法实施例,具体功能此处不再赘述。
本发明实施例通过获取原始XML文件及其对应的内容模板和样式模板;根据原始XML文件和内容模板,生成中间XML文件;根据中间XML文件和样式模板,生成OOXML文件;根据OOXML文件生成Word文件,实现了将结构化的XML文件转换为Word文件,使得排版系统能够输出Word文件,使得用户可以在Word文件中对稿件内容进行再加工。
实施例四
在上述实施例三的基础上,本实施例中,第一生成模块包括:合成子模块、渲染子模块和第一转换子模块。
其中,合成子模块,用于将原始XML文件内容对应置入内容模板。
渲染子模块,用于对内容模板进行渲染处理,得到中间排版文件。
第一转换子模块,用于将中间排版文件转换为预设格式的中间XML文件。
可选地,渲染子模块具体用于:根据内容模板的版面信息,调整置入内容模板中的内容对象的尺寸,以使置入内容模板中的内容对象完整显示。
可选地,第二生成模块包括:预处理子模块和第二转换子模块。
其中,预处理子模块用于根据样式模板,对中间XML文件进行预处理。
第二转换子模块用于利用扩展样式表转换语言,将预处理后的中间XML文件转换为OOXML文件。
可选地,预处理子模块具体用于:根据样式模板,将中间XML文件中用于保存文字样式和段落样式的XML结构转换成用于保存文字样式和段落样式的OOXML结构;根据样式模板,将中间XML文件中用于保存字体信息的XML结构转换成用于保存字体信息的OOXML结构;将中间XML文件中用于保存图片信息的XML结构转换成用于保存图片信息的OOXML结构;将中间XML文件中的公式信息转换为OOXML结构表示的公式信息;根据样式模板,将中间XML文件中用于保存表格样式的XML结构转换成用于保存表格样式的OOXML结构;将中间XML文件中用于保存交叉引用关系的XML结构转换成用于保存交叉引用关系的OOXML结构;根据样式模板,将中间XML文件中用于保存页面设置信息的XML结构转换成用于保存页面设置信息的OOXML结构。
本发明实施例提供的装置可以具体用于执行上述实施例二所提供的方法实施例,具体功能此处不再赘述。
本发明实施例通过获取原始XML文件及其对应的内容模板和样式模板;将原始XML文件内容对应置入内容模板;对内容模板进行渲染处理,得到中间排版文件;将中间排版文件转换为预设格式的中间XML文件,充分利用了现有的排版技术,去掉了部分数据合成和渲染处理,只保证排版内容及其顺序的正确性,提高了原始XML文件转换为中间XML的效率,在实现将结构化的XML文件转换为Word文件,使得排版系统能够输出Word文件,使得用户可以在Word文件中对稿件内容进行再加工的基础上,进一步提交了XML文件转换Word文件的效率。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求书指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求书来限制。

Claims (10)

1.一种XML文件转换Word文件的方法,其特征在于,包括:
获取原始XML文件及其对应的内容模板和Word文件对应的样式模板;
根据所述原始XML文件和所述内容模板,生成中间XML文件;
根据所述中间XML文件和所述样式模板,生成OOXML文件;
根据所述OOXML文件生成Word文件。
2.根据权利要求1所述的方法,其特征在于,所述根据所述原始XML文件和所述内容模板,生成中间XML文件,包括:
将所述原始XML文件内容对应置入所述内容模板;
对所述内容模板进行渲染处理,得到中间排版文件;
将所述中间排版文件转换为预设格式的所述中间XML文件。
3.根据权利要求2所述的方法,其特征在于,所述对所述内容模板进行渲染处理,包括:
根据所述内容模板的版面信息,调整置入所述内容模板中的内容对象的尺寸,以使置入所述内容模板中的内容对象完整显示。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述根据所述中间XML文件和所述样式模板,生成OOXML文件,包括:
根据所述样式模板,对所述中间XML文件进行预处理;
利用扩展样式表转换语言,将预处理后的中间XML文件转换为OOXML文件。
5.根据权利要求4所述的方法,其特征在于,所述根据所述样式模板,对所述中间XML文件进行预处理,包括:
根据所述样式模板,将所述中间XML文件中用于保存文字样式和段落样式的XML结构转换成用于保存所述文字样式和段落样式的OOXML结构;
根据所述样式模板,将所述中间XML文件中用于保存字体信息的XML结构转换成用于保存所述字体信息的OOXML结构;
将所述中间XML文件中用于保存图片信息的XML结构转换成用于保存所述图片信息的OOXML结构;
将所述中间XML文件中的公式信息转换为OOXML结构表示的公式信息;
根据所述样式模板,将所述中间XML文件中用于保存表格样式的XML结构转换成用于保存所述表格样式的OOXML结构;
将所述中间XML文件中用于保存交叉引用关系的XML结构转换成用于保存所述交叉引用关系的OOXML结构;
根据所述样式模板,将所述中间XML文件中用于保存页面设置信息的XML结构转换成用于保存所述页面设置信息的OOXML结构。
6.一种XML文件转换Word文件的装置,其特征在于,包括:
获取模块,用于获取原始XML文件及其对应的内容模板和Word文件对应的样式模板;
第一生成模块,用于根据所述原始XML文件和所述内容模板,生成中间XML文件;
第二生成模块,用于根据所述中间XML文件和所述样式模板,生成OOXML文件;
第三生成模块,用于根据所述OOXML文件生成Word文件。
7.根据权利要求6所述的装置,其特征在于,所述第一生成模块包括:
合成子模块,用于将所述原始XML文件内容对应置入所述内容模板;
渲染子模块,用于对所述内容模板进行渲染处理,得到中间排版文件;
第一转换子模块,用于将所述中间排版文件转换为预设格式的所述中间XML文件。
8.根据权利要求7所述的装置,其特征在于,所述渲染子模块具体用于:
根据所述内容模板的版面信息,调整置入所述内容模板中的内容对象的尺寸,以使置入所述内容模板中的内容对象完整显示。
9.根据权利要求6-8任一项所述的装置,其特征在于,所述第二生成模块包括:
预处理子模块,用于根据所述样式模板,对所述中间XML文件进行预处理;
第二转换子模块,用于利用扩展样式表转换语言,将预处理后的中间XML文件转换为OOXML文件。
10.根据权利要求9所述的装置,其特征在于,所述预处理子模块具体用于:
根据所述样式模板,将所述中间XML文件中用于保存文字样式和段落样式的XML结构转换成用于保存所述文字样式和段落样式的OOXML结构;
根据所述样式模板,将所述中间XML文件中用于保存字体信息的XML结构转换成用于保存所述字体信息的OOXML结构;
将所述中间XML文件中用于保存图片信息的XML结构转换成用于保存所述图片信息的OOXML结构;
将所述中间XML文件中的公式信息转换为OOXML结构表示的公式信息;
根据所述样式模板,将所述中间XML文件中用于保存表格样式的XML结构转换成用于保存所述表格样式的OOXML结构;
将所述中间XML文件中用于保存交叉引用关系的XML结构转换成用于保存所述交叉引用关系的OOXML结构;
根据所述样式模板,将所述中间XML文件中用于保存页面设置信息的XML结构转换成用于保存所述页面设置信息的OOXML结构。
CN201711159624.8A 2017-11-20 2017-11-20 XML文件转换Word文件的方法及装置 Pending CN109815450A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711159624.8A CN109815450A (zh) 2017-11-20 2017-11-20 XML文件转换Word文件的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711159624.8A CN109815450A (zh) 2017-11-20 2017-11-20 XML文件转换Word文件的方法及装置

Publications (1)

Publication Number Publication Date
CN109815450A true CN109815450A (zh) 2019-05-28

Family

ID=66599433

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711159624.8A Pending CN109815450A (zh) 2017-11-20 2017-11-20 XML文件转换Word文件的方法及装置

Country Status (1)

Country Link
CN (1) CN109815450A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112232032A (zh) * 2020-09-04 2021-01-15 科航(苏州)信息科技有限公司 docx文档的内容样式自动转换方法
CN113221506A (zh) * 2021-05-14 2021-08-06 北京有竹居网络技术有限公司 一种讲义排版的方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101963955A (zh) * 2010-09-17 2011-02-02 深圳市万兴软件有限公司 XML格式文档转换为Word格式文档的系统和方法
CN102103573A (zh) * 2009-12-17 2011-06-22 北大方正集团有限公司 一种快速生成开放格式文档的方法及系统
CN105426480A (zh) * 2015-11-19 2016-03-23 中国地质大学(武汉) 一种用于HTML转换为Word文档的方法及装置
US20160188612A1 (en) * 2014-12-31 2016-06-30 Konica Minolta Laboratory U.S.A., Inc. Objectification with deep searchability
CN107203627A (zh) * 2017-05-27 2017-09-26 山东浪潮通软信息科技有限公司 一种结构化数据与Word文档之间互相转换的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102103573A (zh) * 2009-12-17 2011-06-22 北大方正集团有限公司 一种快速生成开放格式文档的方法及系统
CN101963955A (zh) * 2010-09-17 2011-02-02 深圳市万兴软件有限公司 XML格式文档转换为Word格式文档的系统和方法
US20160188612A1 (en) * 2014-12-31 2016-06-30 Konica Minolta Laboratory U.S.A., Inc. Objectification with deep searchability
CN105426480A (zh) * 2015-11-19 2016-03-23 中国地质大学(武汉) 一种用于HTML转换为Word文档的方法及装置
CN107203627A (zh) * 2017-05-27 2017-09-26 山东浪潮通软信息科技有限公司 一种结构化数据与Word文档之间互相转换的方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112232032A (zh) * 2020-09-04 2021-01-15 科航(苏州)信息科技有限公司 docx文档的内容样式自动转换方法
CN112232032B (zh) * 2020-09-04 2023-08-18 科航(苏州)信息科技有限公司 docx文档的内容样式自动转换方法
CN113221506A (zh) * 2021-05-14 2021-08-06 北京有竹居网络技术有限公司 一种讲义排版的方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
US20190377797A1 (en) Mathematical processing method, apparatus and device for text problem, and storage medium
WO2018207723A1 (ja) 要約生成装置、要約生成方法及びコンピュータプログラム
US20150046797A1 (en) Document format processing apparatus and document format processing method
CN102982010B (zh) 提取文档结构的方法和装置
CN101714133A (zh) 一种基于web的数学公式编辑系统及方法
CN106326194B (zh) 一种应用于文件格式转换场景下的目录生成方法和装置
CN106708491A (zh) Html格式邮件的生成方法及装置
CN104572594A (zh) 动态pdf实时生成方法
CN109815450A (zh) XML文件转换Word文件的方法及装置
CN109615671A (zh) 一种字库样本自动生成方法、计算机装置及可读存储介质
CN108073562A (zh) 基于云平台的出版物处理方法及装置
KR20110026286A (ko) 표준화된 전자책 생성장치 및 방법
CN104820962B (zh) 一种代替人工签名栏的打印水印生成方法
CN111881651A (zh) 一种uot流式文档转换成ofd版式文档的方法
Clausner et al. Efficient ocr training data generation with aletheia
JP2015115065A (ja) 編集可能な形式への変換防止のためのページ記述言語出力の難読化
CN104657342A (zh) 一种清样生成方法和装置
KR20220059288A (ko) 지식 증류 기반의 멀티모달 매핑 정보를 활용한 이미지 생성 기법
CN104317600B (zh) 一种可配置的曲线图生成方法及系统
CN103870543B (zh) 一种用于文档文件重构的方法及装置
CN107423271A (zh) 文档生成方法和装置
JP2023010805A (ja) ドキュメント情報抽出モデルのトレーニングおよびドキュメント情報の抽出のための方法、装置、電子機器、記憶媒体並びにコンピュータプログラム
Lindsay et al. FigureFirst: A Layout-first Approach for Scientific Figures.
CN114115851A (zh) Modelica模型的图形图标翻译系统、方法、电子设备及介质
JP2019528485A (ja) フォントの生成方法及びその方法を記録した記録媒体並びにフォントの生成装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190528