CN110147534B - 一种LaTeX文档向Word文档转换的方法及系统 - Google Patents

一种LaTeX文档向Word文档转换的方法及系统 Download PDF

Info

Publication number
CN110147534B
CN110147534B CN201910143863.7A CN201910143863A CN110147534B CN 110147534 B CN110147534 B CN 110147534B CN 201910143863 A CN201910143863 A CN 201910143863A CN 110147534 B CN110147534 B CN 110147534B
Authority
CN
China
Prior art keywords
document
text
data
word
latex
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910143863.7A
Other languages
English (en)
Other versions
CN110147534A (zh
Inventor
宋军
徐衡
朱超群
彭艳
曹威
张坤
吴雅笛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Geosciences
Original Assignee
China University of Geosciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Geosciences filed Critical China University of Geosciences
Priority to CN201910143863.7A priority Critical patent/CN110147534B/zh
Publication of CN110147534A publication Critical patent/CN110147534A/zh
Application granted granted Critical
Publication of CN110147534B publication Critical patent/CN110147534B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation

Abstract

本发明提供了一种LaTeX文档向Word文档转换的方法及系统,利用JACOB技术对文件中的文本、图片、公式、表格等数据进行初始分析;利用Apache POI、JACOB技术提取源文件中的数据元素,并记录各元素的相对位置信息;根据朴素贝叶斯算法对提取的各文本元素进行分类,基于层叠自动编码器对源文件公式实现转换;将所述相对位置信息与各数据元素相结合,形成Word目标文档的信息流;将上述信息流写入到目标文件中,从而转换成最终的Word文档。本发明能够降低由Latex文档向Microsoft Office Word文档转换的困难性和复杂性,方便用户将复杂的科技文档版式转换为简单的Word版式,提高了科研工作效率,该发明填补了当前国内由LaTeX文档向Microsoft Office Word文档智能转换的领域空白。

Description

一种LaTeX文档向Word文档转换的方法及系统
技术领域
本发明涉及文档转换和数据处理领域,具体涉及一种Latex文档向Word文档转换的方法及系统。
背景技术
TeX提供了一套功能强大并且十分灵活的排版语言,它多达900条指令,并且TeX有宏功能,用户可以不断地定义自己适用的新命令来扩展TeX系统的功能。Leslie Lamport开发的LaTeX是当今世界上最流行和使用最为广泛的TeX宏集。Microsoft Office Word作为Office 套件的核心程序,提供了许多易于使用的文档创建工具,也是目前市场上占有量最大的文字处理器。Word专用的文件格式Word文件(.docx)成为事实上最通用的文档标准。文档转换是将Word、Pdf、Txt、Ooxml、Odf、Html等文档格式进行转化。例如日本黒木纯提出的将 Ooxml、Odf的文档转换为HTML格式文档的方法、Adobe Acrobat Professional软件实现Word 格式和Pdf格式的转换等。
在实现本发明过程中,发明人发现已有文档转换在技术实现和使用方面主要存在以下两类问题:首先,现有的文档转换技术一般是针对少数源格式文档和特定目标的格式文档,转化功能单一,用户实际使用价值不高。其次,对于编码方式不同的文档实现转换具有一定的困难性,例如LaTeX与Microsoft Office Word文档之间的转换难题。
发明内容
本发明要解决的技术问题在于,针对上述目前现有的文档转换技术转化功能单一、实际使用价值不高的技术问题,提供了一种LaTeX 文档向Word文档转换的方法及系统,能够实现不同类型文档之间的转换,降低多文档呈现的难度,提高文档使用的高效性。
一种LaTeX 文档向Word文档转换的方法,包括:
S1、用户向系统提交LaTeX源文件;
S2、系统打开所述LaTeX源文件;
S3、通过JACOB组件对源文件中的文本、图片、表格、公式数据元素进行初始分析,获取每个数据元素的类别以及在源文档中的相对位置信息,并记录分析后的类别及位置参数;
S4、利用Apache POI和JACOB技术提取源文件中的各类数据元素;
S5、利用朴素贝叶斯算法对提取的文本元素进行分类判定以形成相对应的Word文本元素信息流,基于层叠自动编码器对源文件公式元素进行转换以形成最佳的Word公式元素信息流,其余数据元素直接按照相对位置信息直接转换为目标文档格式信息流;
S6、利用上述元素信息流,结合源LaTeX文件中图片、表格、段落、公式元素的相对位置信息,生成最终的目标文档信息流;
S7、将形成的目标文档信息流写入到Word文档中。
进一步的,所述步骤S2中:系统通过调用Apache JACOB组件中openDocument方法打开该LaTeX源文档。
进一步的,所述步骤S3包括:
S31、对源文件中的所有数据元素的存储状态进行判断,包括文本、图片、公式、表格;
S32、通过JACOB组件中的Paragraphs、Item、Text接口记录各元素的类别参数以及相对位置信息。
进一步的,所述步骤S4包括:
S41、结合上述类别参数并通过JACOB组件中的get(“Text”)、get(“Font”)、get(“Size”)提取源文档文件中的文本数据内容、文本类型及文本格式;
S42、利用Apache POI中XWPFDocument的接口提取源文档中图片数据,使用FileOutputStream方法将所有图片保存为本地文件;
S43、结合JACOB组件中getTable、以及ReadTable函数获得源文档中的表格数据;对于表格的规格是通过getTableRowsCount方法以及getTableColumnsCount方法获得;
S44、结合S32中的类别参数,通过JACOB组件中copy方法,以及Toolkit中粘贴板子类函数getContents函数获得源文档公式数据;对于粘贴板的使用是通过Java类库Toolkit工具类中getDefaultToolkit().getSystemClipboard()的Transferable变量获得,并且通过 getTransferData方法将数据进行转换;
S45、记录文本数据、图片、表格、公式等数据的相对位置。
进一步的,所述步骤S5包括:
S51、将上述提取的文本数据元素通过JIEBA分词算法转换成向量;
S52、将提取到的文本数据分类问题转化为一个二值分类问题,即任意未知文本数据样本 d必定属于类别集合C={C0,C1},C0代表正文文本,C1代表标题文本;
S53、朴素贝叶斯算法识别每项文本数据类型,其中包括正文文本,标题文本两类;
S54、对于一个拥有特征向量X的未知文本样本d属于类别C的概率可以表示为:
Figure BDA0001979365750000031
取概率最大者表示为该文本样本的类别,以此判别文本类别形成对应的Word文本元素;
S55、利用层叠自动编码算法将所提取的公式数据进行编码;
S56、将所得编码结果与系统内部公式模板库中已有数据进行近似匹配;
S57、将匹配度最高的公式模板数据输入到系统公式转换函数模块WordMathToLaTeX中,转换为Word文档识别的编码方式。
进一步的,所述步骤S56中,匹配程度最高的判断依据为层叠自动编码算法结果和已知样本的欧几里得距离,其计算方式为:
Figure BDA0001979365750000032
其中x,y分别代表层叠自动编码算法输出结果和已知样本,x1、x2、…y1、y2..yn代表公式编码后每个向量空间的值。
进一步的,所述步骤S6还包括:根据转换系统中参数存储的源LaTeX文档中各元素的相对位置信息,在保证源文档中各元素位置不变的情况下,生成目标文档信息流。
进一步的,所述步骤S7文件写入还包括:通过调用BufferedWriter函数写入到目标Word 文件。
一种LaTeX 文档向Word文档转换的系统,包括:
提交模块:用于用户向系统提交LaTeX源文件;
读取模块:用于系统打开所述LaTeX源文件;
分析模块:用于通过JACOB组件对源文件中的文本、图片、表格、公式数据元素进行初始分析,获取每个数据元素的类别以及在源文档中的相对位置信息,并记录分析后的类别及位置参数;
提取模块:用于利用Apache POI和JACOB技术提取源文件中的各类数据元素;
转换模块:用于利用朴素贝叶斯算法对提取的文本元素进行分类判定以形成相对应的Word文本元素信息流,基于层叠自动编码器对源文件公式元素进行转换以形成最佳的Word 公式元素信息流,其余数据元素直接按照相对位置信息直接转换为目标文档格式信息流;
结合模块:用于利用上述元素信息流,结合源LaTeX文件中图片、表格、段落、公式元素的相对位置信息,生成最终的目标文档信息流;
写入模块:将形成的目标文档信息流写入到Word文档中。
与现有技术相比,本发明的有益效果是:本发明能够降低由LaTeX文档向Microsoft Office Word文档转换的困难性和复杂性,为广大高校师生及科研人员提供了专业的文档转换系统,提高了科研工作效率,该发明填补了当前国内外由LaTeX文档向Microsoft Office Word文档智能转换的领域空白。
附图说明
图1为本发明的一种LaTeX 文档向Word文档转换的方法流程图;
图2为本发明的LaTeX向Microsoft Office Word转换的源文件信息提取原理图;
图3为本发明的LaTeX向Microsoft Office Word转换的源文件数据分析图;
图4为本发明的LaTeX向Microsoft Office Word转换的目标文件生成原理图;
图5为本发明的LaTeX向Microsoft Office Word转换的表格转换效果图;
图6为本发明的LaTeX向Microsoft Office Word转换的图片转换效果图;
图7为本发明的LaTeX向Microsoft Office Word转换的公式转换效果;
图8为本发明的LaTeX向Microsoft Office Word转换的整体转换效果图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。
一种LaTeX 文档向Word文档转换的方法,如图1所示,包括:
S1、用户向系统提交LaTeX源文件;
S2、系统打开所述LaTeX源文件;
S3、通过JACOB组件对源文件中的文本、图片、表格、公式数据元素进行初始分析,获取每个数据元素的类别以及在源文档中的相对位置信息,并记录分析后的类别及位置参数;
S4、利用Apache POI和JACOB技术提取源文件中的各类数据元素;
S5、利用朴素贝叶斯算法对提取的文本元素进行分类判定以形成相对应的Word文本元素信息流,基于层叠自动编码器对源文件公式元素进行转换以形成最佳的Word公式元素信息流,其余数据元素直接按照相对位置信息直接转换为目标文档格式信息流;
S6、利用上述元素信息流,结合源LaTeX文件中图片、表格、段落、公式元素的相对位置信息,生成最终的目标文档信息流;
S7、将形成的目标文档信息流写入到Word文档中。
所述步骤S2中:系统通过调用Apache JACOB组件中openDocument方法打开该LaTeX 源文档。
所述步骤S3包括:
S31、对源文件中的所有数据元素的存储状态进行判断,包括文本、图片、公式、表格;
S32、通过JACOB组件中的Paragraphs、Item、Text接口记录各元素的类别参数以及相对位置信息。
所述步骤S4包括:
S41、结合上述类别参数并通过JACOB组件中的get(“Text”)、get(“Font”)、get(“Size”)提取源文档文件中的文本数据内容、文本类型及文本格式;
S42、利用Apache POI中XWPFDocument的接口提取源文档中图片数据,使用FileOutputStream方法将所有图片保存为本地文件;
S43、结合JACOB组件中getTable、以及ReadTable函数获得源文档中的表格数据;对于表格的规格是通过getTableRowsCount方法以及getTableColumnsCount方法获得;
S44、结合S32中的类别参数,通过JACOB组件中copy方法,以及Toolkit中粘贴板子类函数getContents函数获得源文档公式数据;对于粘贴板的使用是通过Java类库Toolkit工具类中getDefaultToolkit().getSystemClipboard()的Transferable变量获得,并且通过 getTransferData方法将数据进行转换;
S45、记录文本数据、图片、表格、公式等数据的相对位置。
所述步骤S5包括:
S51、将上述提取的文本数据元素通过JIEBA分词算法转换成向量;
S52、将提取到的文本数据分类问题转化为一个二值分类问题,即任意未知文本数据样本 d必定属于类别集合C={C0,C1},C0代表正文文本,C1代表标题文本;
S53、朴素贝叶斯算法识别每项文本数据类型,其中包括正文文本,标题文本两类;
S54、对于一个拥有特征向量X的未知文本样本d属于类别C的概率可以表示为:
Figure BDA0001979365750000051
取概率最大者表示为该文本样本的类别,以此判别文本类别形成对应的Word文本元素;
S55、利用层叠自动编码算法将所提取的公式数据进行编码;
S56、将所得编码结果与系统内部公式模板库中已有数据进行近似匹配;
S57、将匹配度最高的公式模板数据输入到系统公式转换函数模块WordMathToLaTeX中,转换为Word文档识别的编码方式。
所述步骤S56中,匹配程度最高的判断依据为层叠自动编码算法结果和已知样本的欧几里得距离,其计算方式为:
Figure BDA0001979365750000061
其中x,y分别代表层叠自动编码算法输出结果和已知样本,x1、x2、…y1、y2..yn代表公式编码后每个向量空间的值。
所述步骤S6还包括:根据转换系统中参数存储的源LaTeX文档中各元素的相对位置信息,在保证源文档中各元素位置不变的情况下,生成目标文档信息流。
所述步骤S7文件写入还包括:通过调用BufferedWriter函数写入到目标Word文件。
一种LaTeX 文档向Word文档转换的系统,包括:
提交模块:用于用户向系统提交LaTeX源文件;
读取模块:用于系统打开所述LaTeX源文件;
分析模块:用于通过JACOB组件对源文件中的文本、图片、表格、公式数据元素进行初始分析,获取每个数据元素的类别以及在源文档中的相对位置信息,并记录分析后的类别及位置参数;
提取模块:用于利用Apache POI和JACOB技术提取源文件中的各类数据元素;
转换模块:用于利用朴素贝叶斯算法对提取的文本元素进行分类判定以形成相对应的 Word文本元素信息流,基于层叠自动编码器对源文件公式元素进行转换以形成最佳的Word 公式元素信息流,其余数据元素直接按照相对位置信息直接转换为目标文档格式信息流;
结合模块:用于利用上述元素信息流,结合源LaTeX文件中图片、表格、段落、公式元素的相对位置信息,生成最终的目标文档信息流;
写入模块:将形成的目标文档信息流写入到Word文档中。
下面结合实施例一做进一步的说明:
如图2所示,根据用户提供的原始LaTeX文档,首先定义JACOB组件中的LaTeX调用程序模块打开LaTeX文档,通过JACOB中提供的“Item”、“Range”、“Text”、“Font”、“Size”等多种参数读取文档中的段落内容、段落格式、段落间相对位置等信息。通过POI中XWPFDocument的getAllPictures方法以及getTables方法索引该LaTeX文档中所有图片以及表格。结合FileOutputStream将所有图片保存为本地文件和XWPFTable中getText方法获得表格每行的数据。记录所有参数后关闭LaTeX文档。
如图3所示,通过利用机器学习算法,对LaTeX文档的公式、文本、标题进行智能识别与分析,自动选取最为近似或者匹配度最高的转换策略,区分源文档中标题、正文文本、图片说明、表格说明等信息,分辨变量中存储的数据在源LaTeX文档中的属性和位置。属性和位置信息主要记包括字体大小、颜色、段落格式以及各元素之间的相对位置信息。
最后,目标文件的生成示意图如图4所示,使用JACOB组件定义一个新的MicrosoftWord 文档,当用户执行转换操作时,根据上述变量存储的源Tex文档中数据内容和属性信息,依次向Word文档中写入信息,从而形成转换后的Word文件。图5为LaTeX向Word转换的表格转换效果图;图6为LaTeX向Word转换的图片转换效果图;图7为LaTeX向Word转换的公式转换效果;图8为LaTeX向Word转换的整体转换效果图;上述图5-图8中的左图为 LaTeX文档,右图均为转换后的Word文档。
需要说明的是,上述实施例一的技术特征可进行任意组合,且组合而成的技术方案均属于本发明的保护范围。
与现有技术相比,本发明的有益效果是:本发明针对目前国内市场尚未出现LaTeX文档向Word文档的智能转换功能,提供了一种LaTeX 文档向Word文档转换的方法及系统。本发明通过对源文件中正文文本、图片、公式、表格等数据进行初始分析,结合分析参数提取源文件中数据内容、类型及格式等信息。利用机器学习算法,对源文件数据进行智能分析,自动选取最为近似或者匹配度最高的转换策略,整合源文件数据整体布局及目标文档特殊编码,形成目标文件数据流及目标文件目录、图片说明、表格说明等辅助信息流,写入到目标文件中,从而实现不同类型文档之间的转换。通过上述方式,本发明能够降低不同类型文档转换的困难性和复杂性,为广大高校师生、科研人员等提供方便快捷的专业文档转换方式,提高了工作效率,弥补了当今国内外由LaTeX文档向Microsoft Word文档智能转换的领域空白。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (6)

1.一种LaTeX文档向Word文档转换的方法,其特征在于,包括如下步骤:
S1、用户向系统提交LaTeX源文件;
S2、系统打开所述LaTeX源文件;
S3、通过JACOB组件对源文件中的文本、图片、表格、公式数据元素进行初始分析,获取每个数据元素的类别以及在源文档中的相对位置信息,并记录分析后的类别参数及位置参数;
S4、利用Apache POI和JACOB技术提取源文件中的各类数据元素;
S5、利用朴素贝叶斯算法对提取的文本元素进行分类判定以形成相对应的Word文本元素信息流,基于层叠自动编码器对源文件公式元素进行转换以形成最佳的Word公式元素信息流,其余数据元素直接按照相对位置信息直接转换为目标文档格式信息流;
S6、利用上述元素信息流,结合LaTeX源文件中图片、表格、段落、公式元素的相对位置信息,生成最终的目标文档信息流;
S7、将形成的目标文档信息流写入到Word文档中;
所述步骤S4包括:
S41、结合上述类别参数并通过JACOB组件中的get(“Text”)、get(“Font”)、get(“Size”)提取源文档文件中的文本数据内容、文本类型及文本格式;
S42、利用Apache POI中XWPFDocument的接口提取源文档中图片数据,使用FileOutputStream方法将所有图片保存为本地文件;
S43、结合JACOB组件中getTable、以及ReadTable函数获得源文档中的表格数据;对于表格的规格是通过getTableRowsCount方法以及getTableColumnsCount方法获得;
S44、结合S3中的类别参数,通过JACOB组件中copy方法,以及Toolkit中粘贴板子类函数getContents函数获得源文档公式数据;对于粘贴板的使用是通过Java类库Toolkit工具类中getDefaultToolkit().getSystemClipboard()的Transferable变量获得,并且通过getTransferData方法将数据进行转换;
S45、记录文本数据、图片、表格、公式数据的相对位置;
所述步骤S5包括:
S51、将上述提取的文本数据元素通过JIEBA分词算法转换成向量;
S52、将提取到的文本数据分类问题转化为一个二值分类问题,即任意未知文本数据样本d必定属于类别集合C={C0,C1},C0代表正文文本,C1代表标题文本;
S53、朴素贝叶斯算法识别每项文本数据类型,其中包括正文文本,标题文本两类;
S54、对于一个拥有特征向量H的未知文本样本d属于类别C的概率表示为:
Figure FDA0002716002370000021
取概率最大者表示为该文本样本的类别,以此判别文本类别形成对应的Word文本元素;
S55、利用层叠自动编码算法将所提取的公式数据进行编码;
S56、将所得编码结果与系统内部公式模板库中已有数据进行近似匹配;
S57、将匹配度最高的公式模板数据输入到系统公式转换函数模块WordMathToLaTeX中,转换为Word文档识别的编码方式;
所述步骤S57中,匹配度最高的判断依据为层叠自动编码算法结果和已知样本的欧几里得距离,其计算方式为:
Figure FDA0002716002370000022
其中x,y分别代表层叠自动编码算法输出结果和已知样本,x1、x2、…xn,y1、y2...yn代表公式编码后每个向量空间的值。
2.根据权利要求1所述的一种LaTeX文档向Word文档转换的方法,其特征在于,所述步骤S2中:系统通过调用Apache JACOB组件中openDocument方法打开该LaTeX源文件。
3.根据权利要求1所述的一种LaTeX文档向Word文档转换的方法,其特征在于,所述步骤S3包括:
S31、对源文件中的所有数据元素的存储状态进行判断,包括文本、图片、公式、表格;
S32、通过JACOB组件中的Paragraphs、Item、Text接口记录各元素的类别参数以及相对位置信息。
4.根据权利要求1所述的一种LaTeX文档向Word文档转换的方法,其特征在于,所述步骤S6还包括:根据转换系统中参数存储的LaTeX源文件中各元素的相对位置信息,在保证源文档中各元素位置不变的情况下,生成目标文档信息流。
5.根据权利要求1所述的一种LaTeX文档向Word文档转换的方法,其特征在于,所述步骤S7文件写入还包括:通过调用BufferedWriter函数写入到目标Word文档。
6.一种LaTeX文档向Word文档转换的系统,其特征在于,包括:
提交模块:用于用户向系统提交LaTeX源文件;
读取模块:用于系统打开所述LaTeX源文件;
分析模块:用于通过JACOB组件对源文件中的文本、图片、表格、公式数据元素进行初始分析,获取每个数据元素的类别以及在源文档中的相对位置信息,并记录分析后的类别参数及位置参数;
提取模块:用于利用Apache POI和JACOB技术提取源文件中的各类数据元素;
转换模块:用于利用朴素贝叶斯算法对提取的文本元素进行分类判定以形成相对应的Word文本元素信息流,基于层叠自动编码器对源文件公式元素进行转换以形成最佳的Word公式元素信息流,其余数据元素直接按照相对位置信息直接转换为目标文档格式信息流;
结合模块:用于利用上述元素信息流,结合LaTeX源文件中图片、表格、段落、公式元素的相对位置信息,生成最终的目标文档信息流;
写入模块:将形成的目标文档信息流写入到Word文档中。
CN201910143863.7A 2019-02-27 2019-02-27 一种LaTeX文档向Word文档转换的方法及系统 Active CN110147534B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910143863.7A CN110147534B (zh) 2019-02-27 2019-02-27 一种LaTeX文档向Word文档转换的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910143863.7A CN110147534B (zh) 2019-02-27 2019-02-27 一种LaTeX文档向Word文档转换的方法及系统

Publications (2)

Publication Number Publication Date
CN110147534A CN110147534A (zh) 2019-08-20
CN110147534B true CN110147534B (zh) 2020-11-27

Family

ID=67588599

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910143863.7A Active CN110147534B (zh) 2019-02-27 2019-02-27 一种LaTeX文档向Word文档转换的方法及系统

Country Status (1)

Country Link
CN (1) CN110147534B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111159979A (zh) * 2019-12-23 2020-05-15 昆明安泰得软件股份有限公司 一种将动态数据整合生成pdf文档的方法及程序
CN111126006A (zh) * 2019-12-25 2020-05-08 小船出海教育科技(北京)有限公司 导出带MathType公式的Word文档方法、装置、电子设备及存储介质
CN113221506A (zh) * 2021-05-14 2021-08-06 北京有竹居网络技术有限公司 一种讲义排版的方法、装置、电子设备及存储介质
CN113326675B (zh) * 2021-08-04 2022-09-13 江西风向标教育科技有限公司 一种用于教育资源库的公式处理方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101706772A (zh) * 2009-12-14 2010-05-12 中国移动通信集团山西有限公司 Word文档的操作方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8543619B2 (en) * 2009-09-15 2013-09-24 Oracle International Corporation Merging XML documents automatically using attributes based comparison
CN105426480A (zh) * 2015-11-19 2016-03-23 中国地质大学(武汉) 一种用于HTML转换为Word文档的方法及装置
CN108595389B (zh) * 2018-04-25 2021-02-26 华中科技大学 一种将Word文档转换为txt纯文本文档的方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101706772A (zh) * 2009-12-14 2010-05-12 中国移动通信集团山西有限公司 Word文档的操作方法及装置

Also Published As

Publication number Publication date
CN110147534A (zh) 2019-08-20

Similar Documents

Publication Publication Date Title
CN110147534B (zh) 一种LaTeX文档向Word文档转换的方法及系统
Embley et al. Table-processing paradigms: a research survey
US8249344B2 (en) Grammatical parsing of document visual structures
Smithies et al. A handwriting-based equation editor
US7184591B2 (en) Systems and methods for adaptive handwriting recognition
JP3298676B2 (ja) 知覚可能情報セグメントのアクセス方法
US20060277159A1 (en) Accuracy in searching digital ink
CN110083580B (zh) 一种Word文档向PowerPoint文档转换的方法及系统
WO2010036457A2 (en) Editing 2d structures using natural input
Liu et al. Document image classification: Progress over two decades
CN110222317B (zh) 一种PowerPoint演示文稿向Word文档转换的方法及系统
Li et al. Recognition of offline handwritten Chinese characters using the Tesseract open source OCR engine
CN109918622B (zh) 基于JAVA实现由Word文档向LaTeX文档转换的方法
Cheng et al. SCUT-CAB: a new benchmark dataset of ancient Chinese books with complex layouts for document layout analysis
CN110147530B (zh) 一种Word文档向LaTeX文档转换的方法及系统
Worring et al. Content based internet access to paper documents
O’Brien et al. Optical character recognition
Gribomont OCR with Google Vision API and Tesseract
CN116738934B (zh) 一种文书自动排版方法及系统
Guruprasad et al. An end-to-end, interactive deep learning based annotation system for cursive and print English handwritten text
Dharsini et al. Devanagri character image recognition and conversion into text using long short term memory
Smirnova et al. A pen-based mathematical environment Mathink
Tang The Field of Intelligent Recognition that be Advance by Machine Learning
Singh et al. A Document Reconstruction System for Transferring Bengali Paper Documents into Rich Text Format
CN117152768A (zh) 用于扫读笔的离线识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20190820

Assignee: WUHAN TIMES GEOSMART TECHNOLOGY Co.,Ltd.

Assignor: CHINA University OF GEOSCIENCES (WUHAN CITY)

Contract record no.: X2022420000021

Denomination of invention: A method and system for converting latex document to word document

Granted publication date: 20201127

License type: Common License

Record date: 20220302

EE01 Entry into force of recordation of patent licensing contract