CN110147534B

CN110147534B - 一种LaTeX文档向Word文档转换的方法及系统

Info

Publication number: CN110147534B
Application number: CN201910143863.7A
Authority: CN
Inventors: 宋军; 徐衡; 朱超群; 彭艳; 曹威; 张坤; 吴雅笛
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2019-02-27
Filing date: 2019-02-27
Publication date: 2020-11-27
Anticipated expiration: 2039-02-27
Also published as: CN110147534A

Abstract

本发明提供了一种LaTeX文档向Word文档转换的方法及系统，利用JACOB技术对文件中的文本、图片、公式、表格等数据进行初始分析；利用Apache POI、JACOB技术提取源文件中的数据元素，并记录各元素的相对位置信息；根据朴素贝叶斯算法对提取的各文本元素进行分类，基于层叠自动编码器对源文件公式实现转换；将所述相对位置信息与各数据元素相结合，形成Word目标文档的信息流；将上述信息流写入到目标文件中，从而转换成最终的Word文档。本发明能够降低由Latex文档向Microsoft Office Word文档转换的困难性和复杂性，方便用户将复杂的科技文档版式转换为简单的Word版式，提高了科研工作效率，该发明填补了当前国内由LaTeX文档向Microsoft Office Word文档智能转换的领域空白。

Description

一种LaTeX文档向Word文档转换的方法及系统

技术领域

本发明涉及文档转换和数据处理领域，具体涉及一种Latex文档向Word文档转换的方法及系统。

背景技术

TeX提供了一套功能强大并且十分灵活的排版语言，它多达900条指令，并且TeX有宏功能，用户可以不断地定义自己适用的新命令来扩展TeX系统的功能。Leslie Lamport开发的LaTeX是当今世界上最流行和使用最为广泛的TeX宏集。Microsoft Office Word作为Office 套件的核心程序，提供了许多易于使用的文档创建工具，也是目前市场上占有量最大的文字处理器。Word专用的文件格式Word文件(.docx)成为事实上最通用的文档标准。文档转换是将Word、Pdf、Txt、Ooxml、Odf、Html等文档格式进行转化。例如日本黒木纯提出的将 Ooxml、Odf的文档转换为HTML格式文档的方法、Adobe Acrobat Professional软件实现Word 格式和Pdf格式的转换等。

在实现本发明过程中，发明人发现已有文档转换在技术实现和使用方面主要存在以下两类问题：首先，现有的文档转换技术一般是针对少数源格式文档和特定目标的格式文档，转化功能单一，用户实际使用价值不高。其次，对于编码方式不同的文档实现转换具有一定的困难性，例如LaTeX与Microsoft Office Word文档之间的转换难题。

发明内容

本发明要解决的技术问题在于，针对上述目前现有的文档转换技术转化功能单一、实际使用价值不高的技术问题，提供了一种LaTeX 文档向Word文档转换的方法及系统，能够实现不同类型文档之间的转换，降低多文档呈现的难度，提高文档使用的高效性。

一种LaTeX 文档向Word文档转换的方法，包括：

S1、用户向系统提交LaTeX源文件；

S2、系统打开所述LaTeX源文件；

S3、通过JACOB组件对源文件中的文本、图片、表格、公式数据元素进行初始分析，获取每个数据元素的类别以及在源文档中的相对位置信息，并记录分析后的类别及位置参数；

S4、利用Apache POI和JACOB技术提取源文件中的各类数据元素；

S5、利用朴素贝叶斯算法对提取的文本元素进行分类判定以形成相对应的Word文本元素信息流，基于层叠自动编码器对源文件公式元素进行转换以形成最佳的Word公式元素信息流，其余数据元素直接按照相对位置信息直接转换为目标文档格式信息流；

S6、利用上述元素信息流，结合源LaTeX文件中图片、表格、段落、公式元素的相对位置信息，生成最终的目标文档信息流；

S7、将形成的目标文档信息流写入到Word文档中。

进一步的，所述步骤S2中：系统通过调用Apache JACOB组件中openDocument方法打开该LaTeX源文档。

进一步的，所述步骤S3包括：

S31、对源文件中的所有数据元素的存储状态进行判断，包括文本、图片、公式、表格；

S32、通过JACOB组件中的Paragraphs、Item、Text接口记录各元素的类别参数以及相对位置信息。

进一步的，所述步骤S4包括：

S41、结合上述类别参数并通过JACOB组件中的get(“Text”)、get(“Font”)、get(“Size”)提取源文档文件中的文本数据内容、文本类型及文本格式；

S42、利用Apache POI中XWPFDocument的接口提取源文档中图片数据，使用FileOutputStream方法将所有图片保存为本地文件；

S43、结合JACOB组件中getTable、以及ReadTable函数获得源文档中的表格数据；对于表格的规格是通过getTableRowsCount方法以及getTableColumnsCount方法获得；

S44、结合S32中的类别参数，通过JACOB组件中copy方法，以及Toolkit中粘贴板子类函数getContents函数获得源文档公式数据；对于粘贴板的使用是通过Java类库Toolkit工具类中getDefaultToolkit().getSystemClipboard()的Transferable变量获得，并且通过 getTransferData方法将数据进行转换；

S45、记录文本数据、图片、表格、公式等数据的相对位置。

进一步的，所述步骤S5包括：

S51、将上述提取的文本数据元素通过JIEBA分词算法转换成向量；

S52、将提取到的文本数据分类问题转化为一个二值分类问题，即任意未知文本数据样本 d必定属于类别集合C＝{C₀,C₁}，C0代表正文文本，C1代表标题文本；

S53、朴素贝叶斯算法识别每项文本数据类型，其中包括正文文本，标题文本两类；

S54、对于一个拥有特征向量X的未知文本样本d属于类别C的概率可以表示为：

取概率最大者表示为该文本样本的类别，以此判别文本类别形成对应的Word文本元素；

S55、利用层叠自动编码算法将所提取的公式数据进行编码；

S56、将所得编码结果与系统内部公式模板库中已有数据进行近似匹配；

S57、将匹配度最高的公式模板数据输入到系统公式转换函数模块WordMathToLaTeX中，转换为Word文档识别的编码方式。

进一步的，所述步骤S56中，匹配程度最高的判断依据为层叠自动编码算法结果和已知样本的欧几里得距离，其计算方式为：

其中x,y分别代表层叠自动编码算法输出结果和已知样本，x1、x2、…y1、y2..yn代表公式编码后每个向量空间的值。

进一步的，所述步骤S6还包括：根据转换系统中参数存储的源LaTeX文档中各元素的相对位置信息，在保证源文档中各元素位置不变的情况下，生成目标文档信息流。

进一步的，所述步骤S7文件写入还包括：通过调用BufferedWriter函数写入到目标Word 文件。

一种LaTeX 文档向Word文档转换的系统，包括：

提交模块：用于用户向系统提交LaTeX源文件；

读取模块：用于系统打开所述LaTeX源文件；

分析模块：用于通过JACOB组件对源文件中的文本、图片、表格、公式数据元素进行初始分析，获取每个数据元素的类别以及在源文档中的相对位置信息，并记录分析后的类别及位置参数；

提取模块：用于利用Apache POI和JACOB技术提取源文件中的各类数据元素；

转换模块：用于利用朴素贝叶斯算法对提取的文本元素进行分类判定以形成相对应的Word文本元素信息流，基于层叠自动编码器对源文件公式元素进行转换以形成最佳的Word 公式元素信息流，其余数据元素直接按照相对位置信息直接转换为目标文档格式信息流；

结合模块：用于利用上述元素信息流，结合源LaTeX文件中图片、表格、段落、公式元素的相对位置信息，生成最终的目标文档信息流；

写入模块：将形成的目标文档信息流写入到Word文档中。

与现有技术相比，本发明的有益效果是：本发明能够降低由LaTeX文档向Microsoft Office Word文档转换的困难性和复杂性，为广大高校师生及科研人员提供了专业的文档转换系统，提高了科研工作效率，该发明填补了当前国内外由LaTeX文档向Microsoft Office Word文档智能转换的领域空白。

附图说明

图1为本发明的一种LaTeX 文档向Word文档转换的方法流程图；

图2为本发明的LaTeX向Microsoft Office Word转换的源文件信息提取原理图；

图3为本发明的LaTeX向Microsoft Office Word转换的源文件数据分析图；

图4为本发明的LaTeX向Microsoft Office Word转换的目标文件生成原理图；

图5为本发明的LaTeX向Microsoft Office Word转换的表格转换效果图；

图6为本发明的LaTeX向Microsoft Office Word转换的图片转换效果图；

图7为本发明的LaTeX向Microsoft Office Word转换的公式转换效果；

图8为本发明的LaTeX向Microsoft Office Word转换的整体转换效果图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图详细说明本发明的具体实施方式。

一种LaTeX 文档向Word文档转换的方法，如图1所示，包括：

S1、用户向系统提交LaTeX源文件；

S2、系统打开所述LaTeX源文件；

S4、利用Apache POI和JACOB技术提取源文件中的各类数据元素；

S7、将形成的目标文档信息流写入到Word文档中。

所述步骤S2中：系统通过调用Apache JACOB组件中openDocument方法打开该LaTeX 源文档。

所述步骤S3包括：

所述步骤S4包括：

S45、记录文本数据、图片、表格、公式等数据的相对位置。

所述步骤S5包括：

S55、利用层叠自动编码算法将所提取的公式数据进行编码；

所述步骤S56中，匹配程度最高的判断依据为层叠自动编码算法结果和已知样本的欧几里得距离，其计算方式为：

所述步骤S6还包括：根据转换系统中参数存储的源LaTeX文档中各元素的相对位置信息，在保证源文档中各元素位置不变的情况下，生成目标文档信息流。

所述步骤S7文件写入还包括：通过调用BufferedWriter函数写入到目标Word文件。

一种LaTeX 文档向Word文档转换的系统，包括：

提交模块：用于用户向系统提交LaTeX源文件；

读取模块：用于系统打开所述LaTeX源文件；

转换模块：用于利用朴素贝叶斯算法对提取的文本元素进行分类判定以形成相对应的 Word文本元素信息流，基于层叠自动编码器对源文件公式元素进行转换以形成最佳的Word 公式元素信息流，其余数据元素直接按照相对位置信息直接转换为目标文档格式信息流；

写入模块：将形成的目标文档信息流写入到Word文档中。

下面结合实施例一做进一步的说明：

如图2所示，根据用户提供的原始LaTeX文档，首先定义JACOB组件中的LaTeX调用程序模块打开LaTeX文档，通过JACOB中提供的“Item”、“Range”、“Text”、“Font”、“Size”等多种参数读取文档中的段落内容、段落格式、段落间相对位置等信息。通过POI中XWPFDocument的getAllPictures方法以及getTables方法索引该LaTeX文档中所有图片以及表格。结合FileOutputStream将所有图片保存为本地文件和XWPFTable中getText方法获得表格每行的数据。记录所有参数后关闭LaTeX文档。

如图3所示，通过利用机器学习算法，对LaTeX文档的公式、文本、标题进行智能识别与分析，自动选取最为近似或者匹配度最高的转换策略，区分源文档中标题、正文文本、图片说明、表格说明等信息，分辨变量中存储的数据在源LaTeX文档中的属性和位置。属性和位置信息主要记包括字体大小、颜色、段落格式以及各元素之间的相对位置信息。

最后，目标文件的生成示意图如图4所示，使用JACOB组件定义一个新的MicrosoftWord 文档，当用户执行转换操作时，根据上述变量存储的源Tex文档中数据内容和属性信息，依次向Word文档中写入信息，从而形成转换后的Word文件。图5为LaTeX向Word转换的表格转换效果图；图6为LaTeX向Word转换的图片转换效果图；图7为LaTeX向Word转换的公式转换效果；图8为LaTeX向Word转换的整体转换效果图；上述图5-图8中的左图为 LaTeX文档，右图均为转换后的Word文档。

需要说明的是，上述实施例一的技术特征可进行任意组合，且组合而成的技术方案均属于本发明的保护范围。

与现有技术相比，本发明的有益效果是：本发明针对目前国内市场尚未出现LaTeX文档向Word文档的智能转换功能，提供了一种LaTeX 文档向Word文档转换的方法及系统。本发明通过对源文件中正文文本、图片、公式、表格等数据进行初始分析，结合分析参数提取源文件中数据内容、类型及格式等信息。利用机器学习算法，对源文件数据进行智能分析，自动选取最为近似或者匹配度最高的转换策略，整合源文件数据整体布局及目标文档特殊编码，形成目标文件数据流及目标文件目录、图片说明、表格说明等辅助信息流，写入到目标文件中，从而实现不同类型文档之间的转换。通过上述方式，本发明能够降低不同类型文档转换的困难性和复杂性，为广大高校师生、科研人员等提供方便快捷的专业文档转换方式，提高了工作效率，弥补了当今国内外由LaTeX文档向Microsoft Word文档智能转换的领域空白。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种LaTeX文档向Word文档转换的方法，其特征在于，包括如下步骤：

S1、用户向系统提交LaTeX源文件；

S2、系统打开所述LaTeX源文件；

S3、通过JACOB组件对源文件中的文本、图片、表格、公式数据元素进行初始分析，获取每个数据元素的类别以及在源文档中的相对位置信息，并记录分析后的类别参数及位置参数；

S4、利用Apache POI和JACOB技术提取源文件中的各类数据元素；

S6、利用上述元素信息流，结合LaTeX源文件中图片、表格、段落、公式元素的相对位置信息，生成最终的目标文档信息流；

S7、将形成的目标文档信息流写入到Word文档中；

所述步骤S4包括：

S44、结合S3中的类别参数，通过JACOB组件中copy方法，以及Toolkit中粘贴板子类函数getContents函数获得源文档公式数据；对于粘贴板的使用是通过Java类库Toolkit工具类中getDefaultToolkit().getSystemClipboard()的Transferable变量获得，并且通过getTransferData方法将数据进行转换；

S45、记录文本数据、图片、表格、公式数据的相对位置；

所述步骤S5包括：

S52、将提取到的文本数据分类问题转化为一个二值分类问题，即任意未知文本数据样本d必定属于类别集合C＝{C₀,C₁}，C₀代表正文文本，C₁代表标题文本；

S54、对于一个拥有特征向量H的未知文本样本d属于类别C的概率表示为：

S55、利用层叠自动编码算法将所提取的公式数据进行编码；

S57、将匹配度最高的公式模板数据输入到系统公式转换函数模块WordMathToLaTeX中，转换为Word文档识别的编码方式；

所述步骤S57中，匹配度最高的判断依据为层叠自动编码算法结果和已知样本的欧几里得距离，其计算方式为：

其中x,y分别代表层叠自动编码算法输出结果和已知样本，x₁、x₂、…x_n，y₁、y₂...y_n代表公式编码后每个向量空间的值。

2.根据权利要求1所述的一种LaTeX文档向Word文档转换的方法，其特征在于，所述步骤S2中：系统通过调用Apache JACOB组件中openDocument方法打开该LaTeX源文件。

3.根据权利要求1所述的一种LaTeX文档向Word文档转换的方法，其特征在于，所述步骤S3包括：

4.根据权利要求1所述的一种LaTeX文档向Word文档转换的方法，其特征在于，所述步骤S6还包括：根据转换系统中参数存储的LaTeX源文件中各元素的相对位置信息，在保证源文档中各元素位置不变的情况下，生成目标文档信息流。

5.根据权利要求1所述的一种LaTeX文档向Word文档转换的方法,其特征在于，所述步骤S7文件写入还包括：通过调用BufferedWriter函数写入到目标Word文档。

6.一种LaTeX文档向Word文档转换的系统，其特征在于，包括：

提交模块：用于用户向系统提交LaTeX源文件；

读取模块：用于系统打开所述LaTeX源文件；

分析模块：用于通过JACOB组件对源文件中的文本、图片、表格、公式数据元素进行初始分析，获取每个数据元素的类别以及在源文档中的相对位置信息，并记录分析后的类别参数及位置参数；

转换模块：用于利用朴素贝叶斯算法对提取的文本元素进行分类判定以形成相对应的Word文本元素信息流，基于层叠自动编码器对源文件公式元素进行转换以形成最佳的Word公式元素信息流，其余数据元素直接按照相对位置信息直接转换为目标文档格式信息流；

结合模块：用于利用上述元素信息流，结合LaTeX源文件中图片、表格、段落、公式元素的相对位置信息，生成最终的目标文档信息流；

写入模块：将形成的目标文档信息流写入到Word文档中。