CN110147530B

CN110147530B - 一种Word文档向LaTeX文档转换的方法及系统

Info

Publication number: CN110147530B
Application number: CN201910143864.1A
Authority: CN
Inventors: 宋军; 徐衡; 朱超群; 彭艳; 张坤; 曹威; 吴雅笛
Original assignee: China University of Geosciences
Current assignee: Beijing dongqingshu Technology Co.,Ltd.
Priority date: 2019-02-27
Filing date: 2019-02-27
Publication date: 2020-11-24
Anticipated expiration: 2039-02-27
Also published as: CN110147530A

Abstract

本发明提供了一种Word文档向LaTeX文档转换的方法及系统，用户提交Microsoft Office Word文档文件，系统利用JACOB技术对文件中的文本、图片、公式、表格等数据进行初始分析；利用Apache POI、JACOB技术提取源文件中的数据元素，并记录各元素的相对位置信息；根据朴素贝叶斯算法对提取的各文本元素进行分类，基于层叠自动编码器对源文件公式实现转换；将所述相对位置信息与各数据元素相结合，形成LaTeX目标文档的信息流；将上述信息流写入到目标文件中，从而转换成最终的LaTeX文档。本发明能够降低由Microsoft Office Word文档向LaTeX文档转换的困难性和复杂性，为高校师生及科研人员等提供了专业的文档转换方法，提高了对文档处理的工作效率。

Description

一种Word文档向LaTeX文档转换的方法及系统

技术领域

本发明涉及文档转换和数据处理领域，具体涉及一种Word文档向LaTeX文档转换的方法及系统。

背景技术

TeX提供了一套功能强大并且十分灵活的排版语言，它多达900条指令，并且TeX有宏功能，用户可以不断地定义自己适用的新命令来扩展TeX系统的功能。Leslie Lamport开发的LaTeX是当今世界上最流行和使用最为广泛的TeX宏集。Microsoft Office Word作为Office套件的核心程序，提供了许多易于使用的文档创建工具，也是目前市场上占有量最大的文字处理器。Word专用的文件格式Word文件(.docx)成为事实上最通用的文档标准。文档转换是将Word、Pdf、Txt、Ooxml、Odf、Html等文档格式进行转化。例如发明人黒木纯提出的将Ooxml、Odf的文档转换为HTML格式文档的方法、Adobe Acrobat Professional软件实现Word格式和Pdf格式的转换等。Apache POI是一个开放源代码的Java数据库，其主要目标是访问Word的底层文件。JACOB是一个Java-COM中间件，通过这个组件可以在Java应用程序中调用COM组件和Win程序库。利用Apache POI和JACOB可以实现对Microsoft Office Word格式文档的读写功能。

在实现本发明过程中，发明人发现现有文档转换在技术与用户使用方面主要存在以下三类问题：首先，现有的文档转换技术一般是针对少数源格式文档和特定目标的格式文档，转化功能单一，对于用户来说，实际使用价值不高。其次，对于编码方式不同的文档实现转换具有一定的困难性，例如Microsoft Office Word与LaTeX文档之间的转换难题。最后，LaTeX文档由Tex语言的标记语言构成，制成一份完整的LaTeX文档，需要掌握TeX语言的几乎所有记述规则以及代码编写能力，对于非专业人士而言，文档撰写和排版存在较高的困难性和复杂性。

发明内容

本发明要解决的技术问题在于，针对上述目前现有的文档转换技术转化功能单一、实际使用价值不高的技术问题，提供一种Word文档向LaTeX文档转换的方法及系统，能够实现不同类型文档之间的转换，降低多文档呈现的难度，提高文档使用的高效性。

一种Word文档向LaTeX文档转换的方法，应用于计算机设备内的应用程序中，所述应用程序是响应人为触发指令后才进行启动的，包括：

S1、用户向系统提交Microsoft Office Word源文件；

S2、系统打开所述Microsoft Office Word源文件；

S3、通过JACOB组件对源文件中的文本、图片、表格、公式数据元素进行初始分析，获取每个数据元素的类别以及在源文档中的相对位置信息，并记录分析后的类别及位置参数；

S4、利用Apache POI和JACOB技术提取源文件中的各类数据元素；

S5、利用朴素贝叶斯算法对提取的数据元素进行分类判定以形成相对应的LaTeX文本元素信息流，基于层叠自动编码器对源文件公式元素进行转换以形成最佳的LaTeX公式元素信息流，其余数据元素直接按照相对位置信息直接转换为目标文档格式信息流；

S6、将上述相对位置信息与各目标数据元素信息流相结合，形成LaTeX目标文档的信息流；

S7、将所述信息流写入到目标文件中，从而转换成LaTeX文档。

进一步的，所述步骤S1中：所提交的Microsoft Office Word源文档文件为.docx或.doc格式。

进一步的，所述步骤S2中，系统通过调用Apache JACOB组件中openDocument方法打开该Microsoft Office Word源文档。

进一步的，所述步骤S3包括：

S31、对源文件中的所有数据元素的存储状态进行判断，包括文本、公式和表格；

S32、通过JACOB组件中的Paragraphs、Item、Text接口记录各元素的类别参数以及相对位置信息。

进一步的，所述步骤S4包括：

S41、结合上述类别参数并通过JACOB组件中的get(“Text”)、get(“Font”)、get(“Size”)提取源文档文件中的文本数据内容、文本类型及文本格式；

S42、利用Apache POI中XWPFDocument的接口提取源文档中图片数据，使用FileOutputStream方法将所有图片保存为本地文件；

S43、结合JACOB组件中getTable、以及ReadTable函数获得源文档中的表格数据；对于表格的规格是通过getTableRowsCount方法以及getTableColumnsCount方法获得；

S44、结合S32中的类别参数，通过JACOB组件中copy方法，以及Toolkit中粘贴板子类函数getContents函数获得源文档公式数据；对于粘贴板的使用是通过Java类库Toolkit工具类中getDefaultToolkit().getSystemClipboard()的Transferable变量获得，并且通过getTransferData方法将数据进行转换；

S45、记录文本数据、图片、表格、公式数据的相对位置。

进一步的，所述步骤S5对于文本内容分类还包括：

S51、将上述提取的文本数据元素通过JIEBA分词算法转换成向量；

S52、将提取到的文本数据分类问题转化为一个二值分类问题，即任意未知文本数据样本d必定属于类别集合C＝{C₀,C₁}，C0代表正文文本，C1代表标题文本；

S53、朴素贝叶斯算法识别每项文本数据类型，其中包括正文文本，标题文本两类；

S54、对于一个拥有特征向量X的未知文本样本d属于类别C的概率表示为：

取概率最大者表示为该文本样本的类别，以此判别文本类别形成对应的LaTeX文本元素；

S55、利用层叠自动编码算法将所提取的公式数据进行编码；

S56、将所得编码结果与系统内部公式模板库中已有数据进行近似匹配；

S57、将匹配度最高的公式模板数据输入到系统公式转换函数模块WordMathToLaTeX中，转换为LaTeX文档识别的编码方式。

进一步的，所述步骤S56中，匹配程度最高的判断依据为层叠自动编码算法结果和已知样本的欧几里得距离，其计算方式为：

其中x,y分别代表层叠自动编码算法输出结果和已知样本，x1、x2、…、y1、y2..yn代表公式编码后每个向量空间的值。

进一步的，所述步骤S6中，根据转换系统中参数存储的源Word文档中各元素的相对位置信息，在保证源文档中各元素位置不变的情况下，生成目标文档信息流。

进一步的，所述步骤S7中，通过调用BufferedWriter函数写入到目标LaTeX文件。

一种Word文档向LaTeX文档转换的系统，包括：

提交模块：用于用户向系统提交Microsoft Office Word源文件；

读取模块：用于系统打开所述Microsoft Office Word源文件；

分析模块：用于通过JACOB组件对源文件中的文本、图片、表格、公式数据元素进行初始分析，获取每个数据元素的类别以及在源文档中的相对位置信息，并记录分析后的类别及位置参数；

提取模块：用于利用Apache POI和JACOB技术提取源文件中的各类数据元素；

转换模块：用于利用朴素贝叶斯算法对提取的数据元素进行分类判定以形成相对应的LaTeX文本元素信息流，基于层叠自动编码器对源文件公式元素进行转换以形成最佳的LaTeX公式元素信息流，其余数据元素按照相对位置信息转换为目标文档格式信息流；

结合模块：用于将上述相对位置信息与各目标数据元素信息流相结合，形成LaTeX目标文档的信息流；

写入模块：用于将所述信息流写入到目标文件中，从而转换成LaTeX文档。

与现有技术相比，本发明的有益效果是：本发明能够降低不同类型文档转换的困难性和复杂性，为广大高校师生、科研人员等提供方便快捷的专业文档转换方式。方便用户将简单的Word版式转换为专业性科技论文的投稿版式，解决了广大科研人员以及高校师生需要学习复杂LaTeX代码以及花费大量时间对论文进行重新编码排版的难题，提高了工作效率，弥补了当今国内由Microsoft Word文档向LaTeX文档转换的领域空白。

附图说明

图1为本发明一种Word文档向LaTeX文档转换的方法流程图；

图2为本发明Word向LaTeX转换的源文件信息提取原理图；

图3为本发明Word向LaTeX转换的源文件数据分析图；

图4为本发明Word向LaTeX转换的目标文件生成原理图；

图5为本发明Word向LaTeX转换的四种模板效果图；

图6为本发明Word向LaTeX转换的表格转换效果图；

图7为本发明Word向LaTeX转换的图片转换效果图；

图8为本发明Word向LaTeX转换的公式转换效果；

图9为本发明Word向LaTeX转换的整体转换效果图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图详细说明本发明的具体实施方式。

一种Word文档向LaTeX文档转换的方法，应用于计算机设备内的应用程序中，所述应用程序是响应人为触发指令后才进行启动的，如图1所示，包括：

S1、用户向系统提交Microsoft Office Word源文件；

S2、系统打开所述Microsoft Office Word源文件；

S3、通过JACOB组件对源文件中的文本、图片、表格、公式等数据元素进行初始分析，获取每个数据元素的类别以及在源文档中的相对位置信息，并记录分析后的类别及位置参数；

S4、利用Apache POI和JACOB技术提取源文件中的各类数据元素；

S5、利用朴素贝叶斯算法对提取的文本元素进行分类判定以形成相对应的LaTeX文本元素信息流，基于层叠自动编码器对源文件公式元素进行转换以形成最佳的LaTeX公式元素信息流，其余数据元素直接按照相对位置信息直接转换为目标文档格式信息流；

S7、将所述信息流写入到目标文件中，从而转换成LaTeX文档。

所述步骤S1中：所提交的Microsoft Office Word源文档文件可以为.docx以及.doc格式。

所述步骤S2中：系统通过调用Apache JACOB组件中openDocument方法打开该Microsoft Office Word源文档。

所述步骤S3包括：

S31、对源文件中的所有数据元素的存储状态进行判断，主要包括文本、公式、表格等；

S32、通过JACOB组件中的Paragraphs、Item、Text等接口记录各元素的类别参数及相对位置参数。

所述步骤S4包括：

S45、记录文本数据、图片、表格、公式等数据的相对位置。

所述步骤S5包括：

S51、将提取的文本数据元素通过JIEBA分词算法转换成特征向量；

S52、将提取到的文本数据元素分类问题转化为一个二值分类问题，即任意未知文本数据样本d必定属于类别集合C＝{C₀,C₁}，C0代表正文文本，C1代表标题文本；

S54、对于一个拥有特征向量X的未知文本元素d属于类别C的概率可以表示为：

S55、利用层叠自动编码算法将所提取的公式数据进行编码；

所述步骤S56中，匹配程度最高的判断依据为层叠自动编码算法结果和已知样本的欧几里得距离，其计算方式为：

其中x，y分别代表层叠自动编码算法输出结果和已知样本，x1、x2、…y1、y2..yn代表公式编码后每个向量空间的值。

所述步骤S6中：根据转换系统中参数存储的源Word文档中各元素的相对位置信息，在保证源文档中各元素位置不变的情况下，生成目标文档信息流。

所述步骤S7中：通过调用BufferedWriter函数写入到目标LaTeX文件。

所述步骤S7中，转换生成的LaTeX文档模板，包括ACM journal-Large FileDouble Column、ACM journal-Large Format Single Column、IEEE Conference、Usenix等多种主流文档模板。

还有一种Word文档向LaTeX文档转换的系统，包括：

提交模块：用于用户向系统提交Microsoft Office Word源文件；

读取模块：用于系统打开所述Microsoft Office Word源文件；

下面结合实施例一做进一步的说明：

如图2所示，根据用户提供的原始Microsoft Office Word文档，首先定义JACOB组件中的Microsoft Office Word调用程序模块打开Word文档，通过JACOB中提供的“Item”、“Range”、“Text”、“Font”、“Size”等多种参数读取文档中的段落内容、段落格式、段落间相对位置等信息。通过POI中XWPFDocument的getAllPictures方法以及getTables方法索引该Word文档中所有图片以及表格。结合FileOutputStream将所有图片保存为本地文件和XWPFTable中getText方法获得表格每行的数据。记录所有参数后关闭Microsoft Word文档。

其次，将上述提到的文本数据利用JIEBA分词算法进行分词，得到对于每个文本数据的特征向量，便于进行下一步的识别文本、标题操作。

如图3所示，对于提取到的文本数据分类问题可转化为一个二值分类问题，即任意未知文本数据样本d必定属于类别集合C＝{C₀,C₁}，不妨假设C0代表正文文本，C1代表标题文本。未知样本d所具备的n维特征向量为X＝{x1、x2…xn},xi为特征向量X的某一具体实例，具体而言为分词后的某一具体词汇特征，则根据贝叶斯定理可知，该样本属于类别c的概率为

但是对于上式中所有的情况进行求解，从而得出P(C＝c|X＝x)的结果，在实际操作中是行不通的，因为特征向量X的维度n有可能会很高，则特征向量X不同取值的可能性将会非常多，且在有的可能性下样本数量极少，存在数据量稀疏的问题。因此必须借助朴素贝叶斯的思想，对特征向量X进行一个简单的假设。假设X中每一维的特征都是相互独立的，即特征与特征之间不存在任何联系。由此可得：

则对于一个拥有特征向量X的未知文本样本d属于类别C的概率可以表示为：

取概率最大者表示为该文本样本的类别。

如图3所示，层叠自动编码算法将所提取到的公式数据进行编码，将所得编码结果与系统内部公式模板库中已有数据通过下面公式计算欧几里得距离进行近似匹配，其中x,y分别代表层叠自动编码算法输出结果和已知样本，x1、x2、…y1、y2..yn代表公式编码后每个向量空间的值。

获得最近似公式模板构造后，将所提去的数据输入到系统公式转换函数模块WordMathToLaTeX中，转换为LaTeX文档识别的编码方式。

如图4所示，将上述文本、图片、表格、公式、标题等目标文件数据流和源文件相对位置记录信息通过调用BufferedWriter函数写入到目标LaTeX文件。并且对与Word文档向LaTeX文档转换的过程，本系统提供ACM journal-Large File Double Column、ACMjournal-Large Format Single Column、IEEE Conference、Usenix等四种目标模板的支持。

如图5所示，每种模板的转换是通过上述第二步分析之后的数据信息以及本地存储的图片信息，结合特殊的TeX标记语言一起生成String字符串数据流。最后调用BufferedWriter函数写入目标TeX文件中。从而形成转换后的LaTeX文件。图6为Word向LaTeX转换的表格转换效果图；图7为Word向LaTeX转换的图片转换效果图；图8为Word向LaTeX转换的公式转换效果；图9为Word向LaTeX转换的整体转换效果图；上述图5-图8中的左图为Word文档，右图均为转换后的LaTeX文档。

上述实施例一的技术特征可进行任意组合，且组合而成的技术方案均属于本发明的保护范围。

本发明针对目前国内市场尚未出现Word文档向LaTeX文档的智能转换功能，提供了一种Word文档向LaTeX文档转换的方法。本发明通过对源文件中正文文本、图片、公式、表格等数据进行初始分析，结合分析参数提取源文件中数据内容、类型及格式等信息。利用机器学习算法，对源文件数据进行智能分析，自动选取最为近似或者匹配度最高的文本元素和公式元素，整合源文件数据整体布局及目标文档特殊编码，形成目标文件数据流及目标文件目录、图片说明、表格说明等辅助信息流，写入到目标文件中，从而实现不同类型文档之间的转换。并提供多种主流文档模板，方便用户选择不同文档样式。通过上述方式，本发明能够降低不同类型文档转换的困难性和复杂性，为广大高校师生、科研人员等提供方便快捷的专业文档转换方式。方便用户将简单的Word版式转换为专业性科技论文的投稿版式，解决了广大科研人员以及高校师生需要学习复杂LaTeX代码以及花费大量时间对论文进行重新编码排版的难题，提高了工作效率，弥补了当今国内由Microsoft Word文档向LaTeX文档转换的领域空白。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种Word文档向LaTeX文档转换的方法，应用于计算机设备内的应用程序中，所述应用程序是响应人为触发指令后才进行启动的，其特征在于，包括：

S1、用户向系统提交Microsoft Office Word源文件；

S2、系统打开所述Microsoft Office Word源文件；

S3、通过JACOB组件对源文件中的文本、图片、表格、公式数据元素进行初始分析，获取每个数据元素的类别以及在源文档中的相对位置信息，并记录分析后的类别及位置参数；具体步骤如下：

S32、通过JACOB组件中的Paragraphs、Item、Text接口记录各元素的类别参数以及相对位置信息；

S4、利用Apache POI和JACOB技术提取源文件中的各类数据元素；具体步骤如下：

S45、记录文本数据、图片、表格、公式数据的相对位置；

S5、利用朴素贝叶斯算法对提取的数据元素进行分类判定以形成相对应的LaTeX文本元素信息流，基于层叠自动编码器对源文件公式元素进行转换以形成最佳的LaTeX公式元素信息流，其余数据元素按照相对位置信息转换为目标文档格式信息流；其中，利用朴素贝叶斯算法文本内容分类的具体步骤如下：

S55、利用层叠自动编码算法将所提取的公式数据进行编码；

S56、将所得编码结果与系统内部公式模板库中已有数据进行近似匹配；其中，匹配程度最高的判断依据为层叠自动编码算法结果和已知样本的欧几里得距离，其计算方式为：

其中，x,y分别代表层叠自动编码算法输出结果和已知样本，x1、x2、…、y1、y2..yn代表公式编码后每个向量空间的值

S57、将匹配度最高的公式模板数据输入到系统公式转换函数模块WordMathToLaTeX中，转换为LaTeX文档识别的编码方式；

S7、将所述信息流写入到目标文件中，从而转换成LaTeX文档。

2.根据权利要求1所述的一种Word文档向LaTeX文档转换的方法，其特征在于，所述步骤S1中：所提交的Microsoft Office Word源文档文件为.docx或.doc格式。

3.根据权利要求1所述的一种Word文档向LaTeX文档转换的方法，其特征在于，所述步骤S2中，系统通过调用Apache JACOB组件中openDocument方法打开该Microsoft OfficeWord源文档。

4.根据权利要求1所述的一种Word文档向LaTeX文档转换的方法，其特征在于，所述步骤S6中，根据转换系统中参数存储的源Word文档中各元素的相对位置信息，在保证源文档中各元素位置不变的情况下，生成目标文档信息流。

5.根据权利要求1所述的一种Word文档向LaTeX文档转换的方法，其特征在于，所述步骤S7中，通过调用BufferedWriter函数写入到目标LaTeX文件。

6.一种Word文档向LaTeX文档转换的系统，其特征在于，包括：

提交模块：用于用户向系统提交Microsoft Office Word源文件；

读取模块：用于系统打开所述Microsoft Office Word源文件；